TPAMI 2024 | 計(jì)算機(jī)視覺中基于圖神經(jīng)網(wǎng)絡(luò)和圖Transformers的方法和最新進(jìn)展
本篇綜述工作已被《IEEE 模式分析與機(jī)器智能匯刊》(IEEE TPAMI)接收,作者來自三個(gè)團(tuán)隊(duì):香港大學(xué)俞益洲教授與博士生陳超奇、周洪宇,香港中文大學(xué)(深圳)韓曉光教授與博士生吳毓雙、許牧天,上??萍即髮W(xué)楊思蓓教授與碩士生戴啟元。
近年來,由于在圖表示學(xué)習(xí)(graph representation learning)和非網(wǎng)格數(shù)據(jù)(non-grid data)上的性能優(yōu)勢(shì),基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)的方法被廣泛應(yīng)用于不同問題并且顯著推動(dòng)了相關(guān)領(lǐng)域的進(jìn)步,包括但不限于數(shù)據(jù)挖掘(例如,社交網(wǎng)絡(luò)分析、推薦系統(tǒng)開發(fā))、計(jì)算機(jī)視覺(例如,目標(biāo)檢測(cè)、點(diǎn)云處理)和自然語言處理(例如,關(guān)系提取、序列學(xué)習(xí))??紤]到圖神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了豐碩的成果,一篇全面且詳細(xì)的綜述可以幫助相關(guān)研究人員掌握近年來計(jì)算機(jī)視覺中基于圖神經(jīng)網(wǎng)絡(luò)的方法的進(jìn)展,以及從現(xiàn)有論文中總結(jié)經(jīng)驗(yàn)和產(chǎn)生新的想法??上У氖?,我們發(fā)現(xiàn)由于圖神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中應(yīng)用非常廣泛,現(xiàn)有的綜述文章往往在全面性或者時(shí)效性上存在不足,因此無法很好的幫助科研人員入門和熟悉相關(guān)領(lǐng)域的經(jīng)典方法和最新進(jìn)展。同時(shí),如何合理地組織和呈現(xiàn)相關(guān)的方法和應(yīng)用是一個(gè)不小的挑戰(zhàn)。

- 論文標(biāo)題:A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
 - 論文地址:
https://arxiv.org/abs/2209.13232(預(yù)印版)
https://ieeexplore.ieee.org/document/10638815(IEEE 版) 
盡管基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法在處理圖像等規(guī)則網(wǎng)格上定義的輸入數(shù)據(jù)方面表現(xiàn)出色,研究人員逐漸意識(shí)到,具有不規(guī)則拓?fù)涞囊曈X信息對(duì)于表示學(xué)習(xí)至關(guān)重要,但尚未得到徹底研究。與具有內(nèi)在連接和節(jié)點(diǎn)概念的自然圖數(shù)據(jù)(如社交網(wǎng)絡(luò))相比,從規(guī)則網(wǎng)格數(shù)據(jù)構(gòu)建圖缺乏統(tǒng)一的原則且嚴(yán)重依賴于特定的領(lǐng)域知識(shí)。另一方面,某些視覺數(shù)據(jù)格式(例如點(diǎn)云和網(wǎng)格)并非在笛卡爾網(wǎng)格上定義的,并且涉及復(fù)雜的關(guān)系信息。因此,規(guī)則和不規(guī)則的視覺數(shù)據(jù)格式都將受益于拓?fù)浣Y(jié)構(gòu)和關(guān)系的探索,特別是對(duì)于具有挑戰(zhàn)性的任務(wù),例如理解復(fù)雜場(chǎng)景、從有限的經(jīng)驗(yàn)中學(xué)習(xí)以及跨領(lǐng)域進(jìn)行知識(shí)傳遞。
在計(jì)算機(jī)視覺領(lǐng)域,目前許多與 GNN 相關(guān)的研究都有以下兩個(gè)目標(biāo)之一:(1) GNN 和 CNN 主干的混合,以及 (2) 用于表示學(xué)習(xí)的純 GNN 架構(gòu)。前者通常旨在提高基于 CNN 的特征的遠(yuǎn)程建模能力,并適用于以前使用純 CNN 架構(gòu)解決的視覺任務(wù),例如圖像分類和語義分割。后者用作某些視覺數(shù)據(jù)格式(例如點(diǎn)云)的特征提取器。盡管取得了豐碩的進(jìn)展,但仍然沒有一篇綜述能夠系統(tǒng)、及時(shí)地回顧基于 GNN 的計(jì)算機(jī)視覺的發(fā)展情況。
在本文中,我們首先介紹了圖神經(jīng)網(wǎng)絡(luò)的發(fā)展史和最新進(jìn)展,包括最常用、最經(jīng)典的圖神經(jīng)網(wǎng)絡(luò)和圖 Transformers。然后,我們以任務(wù)為導(dǎo)向?qū)τ?jì)算機(jī)視覺中基于圖神經(jīng)網(wǎng)絡(luò)(包括圖 Transformers)的方法和最新進(jìn)展進(jìn)行了全面且詳細(xì)的調(diào)研。具體來說,我們根據(jù)輸入數(shù)據(jù)的模態(tài)將圖神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的應(yīng)用大致劃分為五類:自然圖像(二維)、視頻、視覺 + 語言、三維數(shù)據(jù)(例如,點(diǎn)云)以及醫(yī)學(xué)影像。在每個(gè)類別中,我們?cè)俑鶕?jù)視覺任務(wù)的不同對(duì)方法和應(yīng)用進(jìn)一步分類。這種以任務(wù)為導(dǎo)向的分類法使我們能夠研究不同的基于圖神經(jīng)網(wǎng)絡(luò)的方法是如何處理每個(gè)任務(wù)的,以及較為公平地比較這些方法在不同數(shù)據(jù)集上的性能,在內(nèi)容上我們同時(shí)還涵蓋了基于 Transformers 的圖神經(jīng)網(wǎng)絡(luò)方法。對(duì)于不同的任務(wù),我們系統(tǒng)性地總結(jié)了其統(tǒng)一的數(shù)學(xué)表達(dá),闡明了我們組織這些文章的邏輯關(guān)系,突出了該領(lǐng)域的關(guān)鍵挑戰(zhàn),展示了圖神經(jīng)網(wǎng)絡(luò)在應(yīng)對(duì)這些挑戰(zhàn)的獨(dú)特優(yōu)勢(shì),并討論了它的局限和未來發(fā)展路線。

圖神經(jīng)網(wǎng)絡(luò)發(fā)展史
GNN 最初以循環(huán) GNN 的形式發(fā)展,用于從有向無環(huán)圖中提取節(jié)點(diǎn)表示。隨著研究的發(fā)展,GNN 逐漸擴(kuò)展到更多類型的圖結(jié)構(gòu),如循環(huán)圖和無向圖。受到深度學(xué)習(xí)中 CNN 的啟發(fā),研究人員開發(fā)了將卷積概念推廣到圖域的方法,主要包括基于頻域的方法和基于空域的方法。頻域方法依賴于圖的拉普拉斯譜來定義圖卷積,而空域方法則通過聚合節(jié)點(diǎn)鄰居的信息來實(shí)現(xiàn)圖卷積。這些方法為處理復(fù)雜的圖結(jié)構(gòu)和不規(guī)則拓?fù)涮峁┝擞行У墓ぞ?,極大地推動(dòng)了 GNN 在多個(gè)領(lǐng)域,尤其是計(jì)算機(jī)視覺中的應(yīng)用和發(fā)展。

具體來說,我們?cè)敱M地調(diào)查了如下這些任務(wù):
- 建立在自然圖像(二維)上的視覺任務(wù)包括 Image Classification (multi-label、few-shot、zero-shot、transfer learning),Object Detection,Semantic Segmentation,和 Scene Graph Generation。
 - 建立在視頻上的視覺任務(wù)包括 Video Action Recognition,Temporal Action Localization,Multi-Object Tracking,Human Motion Prediction,和 Trajectory Prediction。
 - 視覺 + 語言方向的任務(wù)包括 Visual Question Answering,Visual Grounding,Image Captioning,Image-Text Matching,和 Vision-Language Navigation。
 - 建立在三維數(shù)據(jù)上的視覺任務(wù)包括 3D Representation Learning (Point Clouds、Meshes),3D Understanding (Point Cloud Segmentation、3D Object Detection、3D Visual Grounding),和 3D Generation (Point Cloud Completion、3D Data Denoising、3D Reconstruction)。
 - 建立在醫(yī)學(xué)影像上的任務(wù)包括 Brain Activity Investigation,Disease Diagnosis (Brain Diseases、Chest Diseases),Anatomy Segmentation (Brain Surfaces、Vessels、etc)。
 
總結(jié)來說,盡管在感知領(lǐng)域取得了突破性的進(jìn)展,如何賦予深度學(xué)習(xí)模型推理能力仍然是現(xiàn)代計(jì)算機(jī)視覺系統(tǒng)面臨的巨大挑戰(zhàn)。在這方面,圖神經(jīng)網(wǎng)絡(luò)和圖 Transformers 在處理 “關(guān)系” 任務(wù)方面表現(xiàn)出了顯著的靈活性和優(yōu)越性。為此,我們從面向任務(wù)的角度首次對(duì)計(jì)算機(jī)視覺中的圖神經(jīng)網(wǎng)絡(luò)和圖 Transformers 進(jìn)行了全面的綜述。各種經(jīng)典和最新的算法根據(jù)輸入數(shù)據(jù)的模態(tài)(如圖像、視頻和點(diǎn)云)分為五類。通過系統(tǒng)地整理每個(gè)任務(wù)的方法,我們希望本綜述能夠?yàn)槲磥淼母噙M(jìn)展提供啟示。通過討論關(guān)鍵的創(chuàng)新、局限性和潛在的研究方向,我們希望讀者能夠獲得新的見解,并朝著類似人類的視覺理解邁進(jìn)一步。















 
 
 








 
 
 
 