深度學(xué)習(xí)中的拓?fù)涿缹W(xué):GNN基礎(chǔ)與應(yīng)用
導(dǎo)讀:在真實(shí)世界中,很多數(shù)據(jù)往往以圖的形式出現(xiàn),例如社交網(wǎng)絡(luò)、電商購(gòu)物、蛋白質(zhì)相互作用關(guān)系等,過去幾年基于神經(jīng)網(wǎng)絡(luò)的圖數(shù)據(jù)分析與挖掘方式因其出色的性能受到了廣泛的關(guān)注,不僅一躍成為學(xué)術(shù)界的研究熱點(diǎn)同時(shí)也在多種應(yīng)用中大放異彩。這篇文章主要結(jié)合相關(guān)文獻(xiàn)、領(lǐng)域?qū)<业姆窒硪约肮P者淺薄經(jīng)驗(yàn),所做的粗淺總結(jié)和歸納。雖然是知識(shí)的搬運(yùn)但也參雜了個(gè)人的主觀判斷,偏頗以及疏漏難免,還請(qǐng)各位謹(jǐn)慎參考。修修補(bǔ)補(bǔ)停筆恰逢平安夜,也借此契機(jī)祝大家新的一年所愿皆所得,平安多喜樂。?
1、圖神經(jīng)網(wǎng)絡(luò)發(fā)展綜述
近些年來使用建模分析圖結(jié)構(gòu)的研究越來越受到關(guān)注,其中基于深度學(xué)習(xí)的圖建模方法的圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN),因其出色的性能成為學(xué)術(shù)界的研究熱點(diǎn)之一。例如下圖所示,圖神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)相關(guān)頂會(huì)上的論文數(shù)量持續(xù)攀升,以圖作為標(biāo)題或者關(guān)鍵詞在近兩年表征學(xué)習(xí)頂會(huì)ICLR的出現(xiàn)頻率是最熱門的詞語之一。另外今年多個(gè)會(huì)議的最佳論文獎(jiǎng)均有圖神經(jīng)網(wǎng)絡(luò)的身影,例如數(shù)據(jù)挖掘頂會(huì)KDD今年的最佳博士論文的冠亞軍均是頒發(fā)給了圖機(jī)器學(xué)習(xí)相關(guān)的兩位青年學(xué)者,最佳研究論文以及應(yīng)用論文也分別是關(guān)于超圖上的因果學(xué)習(xí)以及聯(lián)邦圖學(xué)習(xí)。另一方面,圖神經(jīng)網(wǎng)絡(luò)在電商搜索、推薦、在線廣告、金融風(fēng)控、交通預(yù)估等領(lǐng)域也有諸多的落地應(yīng)用,各大公司也紛紛著力構(gòu)建圖學(xué)習(xí)相關(guān)平臺(tái)或者能力。
雖然圖神經(jīng)網(wǎng)絡(luò)在近五年才開始成為研究熱點(diǎn),但是相關(guān)定義在2005就由意大利學(xué)者M(jìn)arco Gori和Franco Scarselli等人提出。在Scarselli論文中典型的圖如下圖所示。早期階段的GNN主要是以RNN為主體框架,輸入節(jié)點(diǎn)鄰居信息更新節(jié)點(diǎn)狀態(tài),將局部轉(zhuǎn)移函數(shù)定義為循環(huán)遞歸函數(shù)的形式,每個(gè)節(jié)點(diǎn)以周圍鄰居節(jié)點(diǎn)和相連的邊作為來源信息來更新自身的表達(dá)。
?
LeCun的學(xué)生Bruna等人2014年提出將CNN應(yīng)用到圖上,通過對(duì)卷積算子巧妙的轉(zhuǎn)換,提出了基于頻域和基于空域的圖卷積網(wǎng)絡(luò)兩種信息聚合方式。基于譜的方法從圖信號(hào)處理的角度引入濾波器來定義圖卷積,其中圖卷積操作被解釋為從圖信號(hào)中去除噪聲?;诳臻g的方法則更加契合CNN的范式將圖卷積表示為從鄰域聚合特征信息。此后幾年,雖然也有零星的一些新的模型的提出,但是依舊是較為小眾的研究方向。直到2017年圖模型三劍客GCN,GAT,GraphSage為代表的一系列研究工作的提出,打通了圖數(shù)據(jù)與卷積神經(jīng)網(wǎng)絡(luò)之間的計(jì)算壁壘,使得圖神經(jīng)網(wǎng)絡(luò)逐步成為研究的熱點(diǎn),也奠定了當(dāng)前基于消息傳遞機(jī)制(message-passing)的圖神經(jīng)網(wǎng)絡(luò)模型的基本范式(MPNN)。
?
典型的MPNN架構(gòu)由幾個(gè)傳播層組成,基于鄰居特征的聚合函數(shù)對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行更新。根據(jù)聚合函數(shù)的不同,可以將MPNN分為:信息聚合(鄰居特征的線性組合,權(quán)值僅依賴于圖的結(jié)構(gòu),例如GCN)、注意力(線性組合,權(quán)值依賴于圖結(jié)構(gòu)和特征,例如GAT)和消息傳遞(廣義的非線性函數(shù),例如GraphSAGE),下圖從左到右所示。
?
從推理方式來看,還可以分為直推式(transductive,例如GCN)和歸納式(inductive,例如GraphSage)。直推式的方法會(huì)對(duì)每個(gè)節(jié)點(diǎn)學(xué)習(xí)到唯一確定的表征, 但是這種模式的局限性非常明顯,工業(yè)界的大多數(shù)業(yè)務(wù)場(chǎng)景中,圖中的結(jié)構(gòu)和節(jié)點(diǎn)都不可能是固定的,是會(huì)變化的,比如,用戶集合會(huì)不斷出現(xiàn)新用戶,用戶的關(guān)注關(guān)系集合也是不斷增長(zhǎng)的,內(nèi)容平臺(tái)上的文章更是每天都會(huì)大量新增。在這樣的場(chǎng)景中,直推式學(xué)習(xí)需要不停地重新訓(xùn)練,為新的節(jié)點(diǎn)學(xué)習(xí)表征。歸納式的方法則是去學(xué)習(xí)節(jié)點(diǎn)鄰居特征“聚合函數(shù)”,從而可以適用到更加靈活的場(chǎng)景,例如新節(jié)點(diǎn)的表示或者圖上的結(jié)構(gòu)發(fā)生變化等場(chǎng)景,因此會(huì)適用于實(shí)際場(chǎng)景中各種圖動(dòng)態(tài)變換的場(chǎng)景。
在圖神經(jīng)網(wǎng)絡(luò)發(fā)展的過程中,為了解決圖網(wǎng)絡(luò)計(jì)算精度與可拓展問題,一代又一代的新模型被不斷提出。雖然圖神經(jīng)網(wǎng)絡(luò)在圖數(shù)據(jù)表征能力毋庸置疑,但是新的模型設(shè)計(jì)主要基于經(jīng)驗(yàn)直覺、啟發(fā)式方法和實(shí)驗(yàn)試錯(cuò)法。Jure Leskovec組2019年的相關(guān)工作GIN(Graph Isomorphism Networks)中將GNN與圖同構(gòu)檢測(cè)的經(jīng)典啟發(fā)式算法Weisfeiler Lehman(WL)建立了聯(lián)系,并且從理論角度證明了GNN的表達(dá)能力上限值為1-WL(Jure目前是斯坦福大學(xué)計(jì)算機(jī)學(xué)院的副教授,他領(lǐng)導(dǎo)的SNAP實(shí)驗(yàn)室目前是圖網(wǎng)絡(luò)領(lǐng)域最為知名的實(shí)驗(yàn)室之一,主講的CS224W《圖機(jī)器學(xué)習(xí)》是強(qiáng)烈推薦的學(xué)習(xí)資料)。然而WL算法對(duì)于很多的數(shù)據(jù)場(chǎng)景表達(dá)能力十分有限,例如對(duì)于下圖中的兩個(gè)例子。對(duì)于(a)中的Circular Skip Link (CSL) Graphs, 1-WL會(huì)給兩個(gè)圖中的每個(gè)節(jié)點(diǎn)標(biāo)記相同的顏色,換句話說這明顯兩個(gè)結(jié)構(gòu)完全不同的圖,利用1-WL測(cè)試我們會(huì)得到一樣的標(biāo)簽。第二例子是如(b)中所示的Decalin molecule,1-WL會(huì)給a和b染相同的顏色,給c和d染相同的顏色,使得在鏈路預(yù)測(cè)的任務(wù)中,(a,d)和(b,d)是無法進(jìn)行區(qū)分的。
WL-test在存在三角或者環(huán)狀結(jié)構(gòu)的很多數(shù)據(jù)中都表現(xiàn)得差強(qiáng)人意,但是在生物化學(xué)等領(lǐng)域,環(huán)狀結(jié)構(gòu)十分普遍也是非常重要,同時(shí)也決定了分子的相應(yīng)性質(zhì),使得圖神經(jīng)網(wǎng)絡(luò)在相關(guān)場(chǎng)景的適用性被極大的限制。Micheal Bostein等人提出當(dāng)前圖深度學(xué)習(xí)方法「以節(jié)點(diǎn)和邊為中心」的思維方式具有極大的局限性,基于此,他們提出了從幾何深度學(xué)習(xí)的角度重新思考圖學(xué)習(xí)的發(fā)展以及可能的新范式(Micheal目前是是牛津大學(xué)的DeepMind人工智能教授同時(shí)也是Twitter圖學(xué)習(xí)研究組的首席科學(xué)家也是幾何深度學(xué)習(xí)的推動(dòng)者之一)。許多學(xué)者也紛紛從微分幾何、代數(shù)拓?fù)浜臀⒎址匠痰阮I(lǐng)域出發(fā)開啟了一系列新工具的研究,提出了等變圖神經(jīng)網(wǎng)絡(luò)、拓?fù)鋱D神經(jīng)網(wǎng)絡(luò)、子圖神經(jīng)網(wǎng)絡(luò)等一系列工作并且在諸多問題上取得矚目的效果。結(jié)合圖神經(jīng)網(wǎng)絡(luò)的發(fā)展脈絡(luò)我們可以做如下圖的簡(jiǎn)單小結(jié)。
2、復(fù)雜圖模型
上一節(jié)我們概述了圖神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,提及的相應(yīng)的圖神經(jīng)網(wǎng)絡(luò)基本都是設(shè)定在無向以及同質(zhì)圖的場(chǎng)景,然而真實(shí)世界中的圖往往是復(fù)雜的,研究人員提出了針對(duì)有向圖、異構(gòu)圖、動(dòng)態(tài)圖、超圖、有符號(hào)圖等場(chǎng)景的圖神經(jīng)網(wǎng)絡(luò)模型,我們接下來分別對(duì)這幾種圖數(shù)據(jù)形態(tài)以及相關(guān)模型進(jìn)行簡(jiǎn)單的介紹:
1. 異構(gòu)圖:異構(gòu)圖(Heterogeneous graph)是指節(jié)點(diǎn)和邊具有多種類別,存在多種模態(tài)時(shí)的場(chǎng)景。例如,在電商場(chǎng)景,結(jié)點(diǎn)可以是商品,店鋪,用戶等,邊類型可以是點(diǎn)擊,收藏,成交等。具體而言,在異構(gòu)圖中,每個(gè)節(jié)點(diǎn)都帶有類型信息,每條邊也帶有類型信息,common GNN模型無法建模相應(yīng)的異構(gòu)信息。一方面,不同類型的結(jié)點(diǎn)的Embedding維度就沒法對(duì)齊;另一方面,不同類型的結(jié)點(diǎn)的Embedding位于不同的語義空間。最廣為使用的異構(gòu)圖學(xué)習(xí)方法是基于元路徑的方法。元路徑指定了路徑中每個(gè)位置的節(jié)點(diǎn)類型。在訓(xùn)練過程中,元路徑被實(shí)例化為節(jié)點(diǎn)序列,我們通過鏈接一個(gè)元路徑實(shí)例兩端的節(jié)點(diǎn)來捕獲兩個(gè)可能并不直接相連的節(jié)點(diǎn)的相似度。這樣一來,一個(gè)異構(gòu)圖可以被化簡(jiǎn)為若干個(gè)同構(gòu)圖,我們可以在這些同構(gòu)圖上應(yīng)用圖學(xué)習(xí)算法。此外,還有一些工作提出了基于邊的方法處理異構(gòu)圖,它們?yōu)椴煌泥従庸?jié)點(diǎn)和邊使用不同的采樣函數(shù)、聚合函數(shù)。代表性的工作有HetGNN、HGT等。我們有時(shí)還需要處理關(guān)系圖,這些圖中的邊可能包含類別以外的信息,或者邊的類別數(shù)十分巨大,難以使用基于元路徑或元關(guān)系的方法。對(duì)于異構(gòu)圖感興趣的小伙伴可以去關(guān)注北郵石川老師以及王嘯老師的系列工作。
?
2. 動(dòng)態(tài)圖:動(dòng)態(tài)圖(Dynamic Graph)是指節(jié)點(diǎn)以及拓?fù)浣Y(jié)構(gòu)隨時(shí)間演化的圖數(shù)據(jù),在實(shí)際場(chǎng)景中也是廣泛存在的。比如,學(xué)術(shù)引用網(wǎng)絡(luò)會(huì)隨時(shí)間不斷擴(kuò)張,用戶與商品的交互圖會(huì)隨用戶興趣而變化,交通網(wǎng)絡(luò),交通流量隨時(shí)間不斷變化。動(dòng)態(tài)圖上的GNN模型旨在生成給定時(shí)間下的節(jié)點(diǎn)表示。根據(jù)時(shí)間粒度的粗細(xì),動(dòng)態(tài)圖可分為離散時(shí)間動(dòng)態(tài)圖(也被稱為snapshot based)和連續(xù)時(shí)間動(dòng)態(tài)圖(event-based); 在離散時(shí)間動(dòng)態(tài)圖中,時(shí)間被劃分為多個(gè)時(shí)間片(例如以天/小時(shí)劃分),每個(gè)時(shí)間片對(duì)應(yīng)一個(gè)靜態(tài)的圖。離散時(shí)間動(dòng)態(tài)圖的GNN模型通常在每個(gè)時(shí)間片上單獨(dú)應(yīng)用GNN模型,然后利用RNN來聚合節(jié)點(diǎn)在不同時(shí)間的表征,代表性的工作有DCRNN、STGCN、DGNN、EvolveGCN等。在連續(xù)時(shí)間動(dòng)態(tài)圖中,每條邊附有時(shí)間戳,表示交互事件發(fā)生的時(shí)刻。相比于靜態(tài)圖,連續(xù)時(shí)間動(dòng)態(tài)圖中的消息函數(shù)還依賴于給定樣本的時(shí)間戳以及邊的時(shí)間戳。此外,鄰居節(jié)點(diǎn)必須與時(shí)間有關(guān),例如鄰居節(jié)點(diǎn)中不能出現(xiàn)時(shí)刻之后才出現(xiàn)的節(jié)點(diǎn)。從模型角度出發(fā),點(diǎn)過程也常常應(yīng)用于建模連續(xù)的動(dòng)態(tài)圖,通過優(yōu)化鄰域生成序列的條件強(qiáng)度函數(shù)來生成序列的達(dá)到率,這種方式也可以進(jìn)一步預(yù)測(cè)事件發(fā)生的具體時(shí)刻(例如網(wǎng)絡(luò)中某條鏈路的消亡時(shí)間)。連續(xù)動(dòng)態(tài)圖上的建模的代表性工作有JODIE、HTNE、MMDNE、Dyrep。
?
來源:Dyrep
3. 超圖:超圖(Hypergraph)是一種廣義上的圖,它的一條邊可以連接任意數(shù)量的頂點(diǎn)。關(guān)于超圖的研究初期重要是在計(jì)算機(jī)視覺場(chǎng)景有相關(guān)的應(yīng)用,近期也受到了圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的關(guān)注,主要的應(yīng)用領(lǐng)域和場(chǎng)景是推薦系統(tǒng),例如圖中的一對(duì)節(jié)點(diǎn)可以通過不同類型的多條邊相關(guān)聯(lián)。通過利用不同類型的邊,我們可以組織起若干層圖,每層代表一種類型的關(guān)系。代表性的工作有HGNN、AllSet等。
來源:AllSet
4. 有向圖:有向圖(Directed graph)指的是節(jié)點(diǎn)的連接關(guān)系是有方向的,有向邊往往比無向邊包含更多的信息。例如,在知識(shí)圖譜中,若頭實(shí)體是尾實(shí)體的父類,則邊的方向會(huì)提供這種偏序關(guān)系的信息。對(duì)于有向圖的場(chǎng)景,除了簡(jiǎn)單地在卷積操作中使用不對(duì)稱的鄰接矩陣,還可以分別對(duì)邊的兩個(gè)方向建模,獲得更好的表征,代表性的工作有 DGP等。
來源:DGP
5. 符號(hào)圖:符號(hào)圖(Signed graph)指的圖中節(jié)點(diǎn)的關(guān)系包含正向以及反向等關(guān)系,例如社交網(wǎng)絡(luò)中,互動(dòng)關(guān)系包含積極的關(guān)系,例如友誼、協(xié)議和支持,以及負(fù)面關(guān)系,如敵人、分歧和抵制等等,相較于普通圖,符號(hào)圖蘊(yùn)含更加豐富的節(jié)點(diǎn)互動(dòng)關(guān)系。對(duì)于符號(hào)圖的建模首要解決的問題是如何對(duì)負(fù)向邊進(jìn)行建模,同時(shí)如何對(duì)兩類邊的信息進(jìn)行聚合,SGCN根據(jù)平衡理論的假設(shè)(朋友的朋友是朋友,敵人的朋友是敵人)定義了相應(yīng)的平衡路徑從而進(jìn)行相應(yīng)的建模。除此以外,代表性的工作還有帶符號(hào)網(wǎng)絡(luò)的極化嵌入模型POLE、二分符號(hào)圖神經(jīng)網(wǎng)絡(luò)模型SBGNN、基于k組理論的符號(hào)圖神經(jīng)網(wǎng)絡(luò)GS-GNN。
來源:SGCN
6. 異配圖:和以上的其他幾種類型圖的定義稍有不同,異配性是描述圖數(shù)據(jù)特性的一種指標(biāo),所謂的異配圖(Heterophily graph)指的是圖上節(jié)點(diǎn)鄰居相似度比較低的數(shù)據(jù)類型。與異配性對(duì)應(yīng)的是同配性也就是說鏈接的節(jié)點(diǎn)通常屬于同一類或具有相似的特征(“物以類聚”)。例如,一個(gè)人的朋友和自己可能有相似的政治信仰或年齡,一篇論文傾向于引用同一研究領(lǐng)域的論文。然而現(xiàn)實(shí)世界的網(wǎng)絡(luò)并不是完全都符合同配性高的假設(shè),例如蛋白質(zhì)分子中,不同類型的氨基酸鏈接一起。圖神經(jīng)網(wǎng)絡(luò)通過鏈接關(guān)系進(jìn)行特征的聚合以及傳播的機(jī)制即是基于數(shù)據(jù)的同配性的假設(shè)使得GNN在異配性比較高的數(shù)據(jù)上常出現(xiàn)效果不佳的現(xiàn)象。目前,已有很多工作嘗試將圖神經(jīng)網(wǎng)絡(luò)泛化到異配圖場(chǎng)景,例如利用結(jié)構(gòu)信息為節(jié)點(diǎn)選擇鄰居的模型Geom-GCN、通過改進(jìn)圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機(jī)制來提升其表達(dá)能力的H2GNN、通過構(gòu)造基于中心節(jié)點(diǎn)相關(guān)度重排序進(jìn)行信息聚合的指針網(wǎng)絡(luò)GPNN(如下圖所示其中不同顏色代表不同的節(jié)點(diǎn)類型)、通過同時(shí)結(jié)合高頻信號(hào)以及低頻信號(hào)處理的FAGCN等。
來源:GPNN
3、圖神經(jīng)網(wǎng)絡(luò)應(yīng)用
由于圖神經(jīng)網(wǎng)絡(luò)能夠較好地學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)的特征,因此在許多圖相關(guān)的領(lǐng)域有著廣泛的應(yīng)用和探索。這節(jié)我們分別從下游任務(wù)以及應(yīng)用的角度進(jìn)行相應(yīng)的分類和歸納。
1. 下游任務(wù)
?
?
節(jié)點(diǎn)分類:根據(jù)節(jié)點(diǎn)的屬性(可以是類別型、也可以是數(shù)值型)、邊的信息、邊的屬性(如果有的話)、已知的節(jié)點(diǎn)預(yù)測(cè)標(biāo)簽,對(duì)未知標(biāo)簽的節(jié)點(diǎn)做類別預(yù)測(cè)。例如OGB的的ogbn-products數(shù)據(jù)集就是一個(gè)無向的商品購(gòu)買網(wǎng)絡(luò),節(jié)點(diǎn)代表的是在電商銷售的產(chǎn)品,兩個(gè)產(chǎn)品之間的邊表示這些產(chǎn)品被一起購(gòu)買過,節(jié)點(diǎn)的屬性通過從產(chǎn)品描述中提取詞袋特征,然后進(jìn)行主成分分析降維生成。相應(yīng)的任務(wù)是預(yù)測(cè)產(chǎn)品缺失的類別信息。
鏈接預(yù)測(cè):網(wǎng)絡(luò)中的鏈路預(yù)測(cè)(Link Prediction)是指如何通過已知的網(wǎng)絡(luò)節(jié)點(diǎn)以及網(wǎng)絡(luò)結(jié)構(gòu)等信息預(yù)測(cè)網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個(gè)節(jié)點(diǎn)之間產(chǎn)生鏈接的可能性。這種預(yù)測(cè)既包含了對(duì)未知鏈接的預(yù)測(cè)也包含了對(duì)未來鏈接(future links)的預(yù)測(cè)。鏈路預(yù)測(cè)在推薦系統(tǒng)、生化試驗(yàn)等場(chǎng)景都有廣泛的應(yīng)用,例如在商品推薦中在用戶和商品的二部圖中,如果用戶購(gòu)買商品,則用戶和商品間存在鏈接,相似的用戶可能同樣會(huì)對(duì)該商品有需求,因此,預(yù)測(cè)用戶和商品之間是否可能發(fā)生“購(gòu)買”、“點(diǎn)擊”等的鏈接,從而針對(duì)性地為用戶推薦商品,可以提高商品的購(gòu)買率。除此之外,自然語言處理中的知識(shí)圖譜補(bǔ)全以及智慧交通中的路況預(yù)測(cè)都可以建模成鏈接預(yù)測(cè)的問題。
圖分類:圖分類其實(shí)和節(jié)點(diǎn)分類相似,本質(zhì)就是預(yù)測(cè)圖的標(biāo)簽。根據(jù)圖的特征(比如圖密度、圖拓?fù)湫畔⒌龋?、已知圖的標(biāo)簽,對(duì)未知標(biāo)簽的圖做類別預(yù)測(cè),可見于生物信息學(xué)、化學(xué)信息學(xué),比如訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的性質(zhì)。
圖生成:?圖生成目標(biāo)是在給定一組觀察到的圖的情況下生成新的圖,例如在生物信息中基于生成新的分子結(jié)構(gòu)或者是自然語言處理中基于給定的句子來生成語義圖或者是知識(shí)圖譜。
2. 應(yīng)用領(lǐng)域?
我們?cè)賹?duì)不同的應(yīng)用場(chǎng)景進(jìn)行相應(yīng)的介紹。
推薦系統(tǒng):移動(dòng)互聯(lián)網(wǎng)的發(fā)展極大的推動(dòng)了信息檢索的快速發(fā)展。推薦系統(tǒng)作為其中最為重要方向,獲得了廣泛的關(guān)注。推薦系統(tǒng)的主要的目的是從歷史交互(historical interactions)和邊信息(side information)中學(xué)習(xí)有效的用戶(user)和物品(item)表示,從而給用戶推薦其更可能傾向的物品(商品、音樂、視頻、電影等)。因此很自然的考慮以物品和用戶為節(jié)點(diǎn)構(gòu)造二部圖,從而可以將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到推薦系統(tǒng)來提升推薦的效果。Pinterest基于GraphSAGE提出了第一個(gè)基于GCN的工業(yè)級(jí)別推薦系統(tǒng)PinSage,支撐了30億節(jié)點(diǎn),180 億條邊的大規(guī)模圖片推薦的場(chǎng)景,實(shí)際上線后Pinterest的Shop and Look產(chǎn)品瀏覽量提高了25%, 此外Alibaba,Amazon以及其他很多電子商務(wù)平臺(tái)使用GNN來去構(gòu)建相應(yīng)的推薦算法。
除了user-item交互組成的二部圖(bipartite graph),推薦系統(tǒng)中社交關(guān)系、知識(shí)圖譜序列中的item轉(zhuǎn)移圖都是圖數(shù)據(jù)形式存在,另外一方面,異構(gòu)數(shù)據(jù)在推薦系統(tǒng)之中也是廣泛存在于電商場(chǎng)景,結(jié)點(diǎn)可以是Query,Item,Shop,User等,邊類型可以是點(diǎn)擊,收藏,成交等。通過利用項(xiàng)目與項(xiàng)目、用戶與用戶、用戶與項(xiàng)目之間的關(guān)系以及內(nèi)容信息,基于多源異構(gòu)以及多模態(tài)圖模型,實(shí)現(xiàn)更高質(zhì)量的推薦效果也在被不斷的探索。除此之外,基于實(shí)際業(yè)務(wù)中用戶行為隨時(shí)間變化的序列化推薦以及新用戶以及商品加入導(dǎo)致節(jié)點(diǎn)引發(fā)的增量學(xué)習(xí)的訴求也給GNN模型發(fā)展帶來了新的挑戰(zhàn)和機(jī)遇。
自然語言處理:在自然語言處理中的諸多問題和場(chǎng)景都是描述了關(guān)聯(lián)關(guān)系,因此可以很自然的建模成為圖數(shù)據(jù)結(jié)構(gòu)。第一個(gè)直接的應(yīng)用場(chǎng)景是知識(shí)圖譜(knowledge graph,KG)的補(bǔ)全以及推理,例如在Mila的研究人員提出的基于NBFNet將單跳推理問題建模成路徑表征學(xué)習(xí)問題,從而實(shí)現(xiàn)知識(shí)圖譜的歸納推理。圖神經(jīng)網(wǎng)絡(luò)利用深度神經(jīng)網(wǎng)絡(luò)對(duì)圖數(shù)據(jù)中的拓?fù)浣Y(jié)構(gòu)信息和屬性特征信息進(jìn)行整合,進(jìn)而提供更精細(xì)的節(jié)點(diǎn)或子結(jié)構(gòu)的特征表示,并能很方便地以解耦或端到端的方式與下游任務(wù)結(jié)合,滿足不同應(yīng)用場(chǎng)景下的知識(shí)圖譜對(duì)學(xué)習(xí)實(shí)體、關(guān)系的屬性特征和結(jié)構(gòu)特征的要求。
除此之外,圖神經(jīng)網(wǎng)絡(luò)在自然語言處理中諸多問題例如文本分類、語義分析、機(jī)器翻譯、知識(shí)圖譜補(bǔ)全,命名實(shí)體識(shí)別以及機(jī)器分類等場(chǎng)景上都有相應(yīng)的應(yīng)用,更多的內(nèi)容推薦大家參考吳凌飛博士Graph4NLP的相關(guān)教程以及綜述。
來源:(https://github.com/graph4ai/graph4nlp)
計(jì)算機(jī)視覺:計(jì)算機(jī)視覺是機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)領(lǐng)域最大的應(yīng)用場(chǎng)景之一,相較于推薦系統(tǒng)以及自然語言處理領(lǐng)域而言,圖神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺不算主流。原因在于GNN的優(yōu)勢(shì)是關(guān)系建模和學(xué)習(xí),計(jì)算機(jī)視覺中的數(shù)據(jù)格式大多數(shù)是規(guī)則的圖像數(shù)據(jù)。在CV場(chǎng)景中使用GNN,關(guān)鍵在于graph如何構(gòu)建:頂點(diǎn)及頂點(diǎn)特征是什么?頂點(diǎn)的連接關(guān)系怎么定義?初期的工作主要用于一些直觀易于進(jìn)行圖結(jié)構(gòu)抽象的場(chǎng)景。例如用于動(dòng)態(tài)骨骼的動(dòng)作識(shí)別方法ST-GCN中,人體自然骨架自然的可以視為圖結(jié)構(gòu)構(gòu)建空間圖。在場(chǎng)景圖生成中,對(duì)象之間的語義關(guān)系有助于理解視覺場(chǎng)景背后的語義含義。給定一幅圖像,場(chǎng)景圖生成模型檢測(cè)和識(shí)別對(duì)象,并預(yù)測(cè)對(duì)象對(duì)之間的語義關(guān)系。在點(diǎn)云分類和分割中,將點(diǎn)云轉(zhuǎn)換為k-最近鄰圖或疊加圖從而利用圖網(wǎng)絡(luò)進(jìn)行相關(guān)任務(wù)的學(xué)習(xí)。近期,圖形神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中應(yīng)用的方向也在不斷增加。一些研究人員在通用計(jì)算機(jī)視覺任務(wù)例如物體檢測(cè)進(jìn)行相關(guān)探索以及嘗試。例如華為提出一種基于圖表示的新型通用視覺架構(gòu)ViG中研究人員將輸入圖像分成許多小塊,構(gòu)建相應(yīng)的節(jié)點(diǎn)圖,實(shí)驗(yàn)結(jié)果表明相比于矩陣或網(wǎng)格,圖結(jié)構(gòu)能更靈活表示物體部件之間的關(guān)系,進(jìn)而達(dá)到更理想的效果。
?
來源:Vision GNN@NeurIPS 2022
智能交通:交通的智能管理是現(xiàn)代城市的一個(gè)熱點(diǎn)問題。準(zhǔn)確預(yù)測(cè)交通網(wǎng)絡(luò)中的交通速度、交通量或道路密度,在路線規(guī)劃和流量控制中至關(guān)重要。由于交通流具有高度的非線性和復(fù)雜性特點(diǎn),傳統(tǒng)機(jī)器學(xué)習(xí)方法難以同時(shí)學(xué)習(xí)空間和時(shí)間的依賴關(guān)系。網(wǎng)絡(luò)出行平臺(tái)以及物流服務(wù)的蓬勃發(fā)展為智能交通提供了豐富的數(shù)據(jù)場(chǎng)景,如何利用神經(jīng)網(wǎng)絡(luò)來自動(dòng)學(xué)習(xí)交通數(shù)據(jù)中的時(shí)空關(guān)聯(lián)性從而實(shí)現(xiàn)更好的交通流量分析以及管理成為研究的熱點(diǎn)。由于城市交通(如下圖所示)天然就是以不規(guī)則的網(wǎng)格形式存在,將圖神經(jīng)網(wǎng)絡(luò)用于智能交通管理是非常自然的探索。
?
來源:Traffic4Cast@NeurIPS 2022
例如經(jīng)典的時(shí)空網(wǎng)絡(luò)STGCN則是在每個(gè)時(shí)刻對(duì)每張交通流量圖使用GCN捕捉空間特征,對(duì)于每個(gè)節(jié)點(diǎn)在時(shí)間維度通過卷積捕捉時(shí)序特征,這兩種操作交叉混合并行,實(shí)現(xiàn)時(shí)空兩個(gè)維度的特征的端到端學(xué)習(xí)。也有相應(yīng)的工作通過利用多源信息構(gòu)造不同視角的節(jié)點(diǎn)關(guān)聯(lián)圖進(jìn)行信息的聚合實(shí)現(xiàn)更加準(zhǔn)確的預(yù)測(cè)效果。除了流量預(yù)測(cè)以外,圖神經(jīng)網(wǎng)絡(luò)也被用在信號(hào)燈管理,交通事件檢測(cè),車輛軌跡預(yù)測(cè),道路擁塞預(yù)測(cè)等多個(gè)方面。近幾年在KDD以及NeurIPS等頂會(huì)的相關(guān)比賽也均設(shè)有相應(yīng)的交通預(yù)測(cè)的賽題,winner solution基本都有圖神經(jīng)的身影。由于同時(shí)存在時(shí)空動(dòng)態(tài)性,不夸張的說智能交通領(lǐng)域的相關(guān)應(yīng)用訴求是時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)發(fā)展最為重要的推手。
金融風(fēng)控:隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展以及行業(yè)數(shù)字化的進(jìn)程,大量傳統(tǒng)業(yè)務(wù)遷移到線上的同時(shí),各類線上新產(chǎn)品和服務(wù)也與日俱增,海量的數(shù)據(jù)以及復(fù)雜的關(guān)聯(lián)關(guān)系,給金融交易以及相關(guān)審計(jì)帶來極大的挑戰(zhàn)。銀行信貸管理以及上市公司的風(fēng)險(xiǎn)管理等對(duì)于金融市場(chǎng)的秩序維護(hù)有著重要的作用。新興的支付寶、paypal等全球支付管理系統(tǒng)的推廣,為其保駕護(hù)航的支付風(fēng)控體系在保護(hù)用戶資金安全,防止盜卡盜號(hào),減少平臺(tái)損失方面起著至關(guān)重要的作用。而傳統(tǒng)的算法不足以解決具有關(guān)聯(lián)信息的圖網(wǎng)絡(luò)數(shù)據(jù)的分析,得益于圖神經(jīng)網(wǎng)絡(luò)對(duì)圖數(shù)據(jù)的處理能力,一系列金融風(fēng)控各個(gè)場(chǎng)景的實(shí)踐應(yīng)運(yùn)而生。例如交易流程中貸前貸中貸后的的風(fēng)險(xiǎn)評(píng)估,虛擬賬號(hào)/水軍/欺詐檢測(cè)等。雖然圖深度學(xué)習(xí)技術(shù)應(yīng)用在風(fēng)控領(lǐng)域已經(jīng)證明是有效且必要的,但發(fā)展時(shí)間較短,整體進(jìn)程還處在發(fā)展初期階段,由于行業(yè)數(shù)據(jù)的私密性,主要的技術(shù)創(chuàng)新還是以相應(yīng)的公司為主導(dǎo)其中螞蟻金服以及亞馬遜較為突出。例如螞蟻金服提出的GeniePath算法騙保識(shí)別問題,定義為一個(gè)賬戶的二分類問題,其提出的首個(gè)利用圖卷積進(jìn)行惡意賬戶識(shí)別的GEM算法主要使用于賬戶登錄/注冊(cè)場(chǎng)景。數(shù)據(jù)的私密性以及場(chǎng)景的多樣性,這也造成業(yè)內(nèi)沒有統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行模型的對(duì)比驗(yàn)證。最近信也科技聯(lián)合浙江大學(xué)發(fā)布的聯(lián)合發(fā)布大規(guī)模動(dòng)態(tài)圖數(shù)據(jù)集DGraph提供了一個(gè)真實(shí)場(chǎng)景的大規(guī)模數(shù)據(jù)用于欺詐等異常檢測(cè)等場(chǎng)景的驗(yàn)證,其中節(jié)點(diǎn)表示信也科技服務(wù)的金融借貸用戶,有向邊表示緊急聯(lián)系人關(guān)系,每個(gè)節(jié)點(diǎn)包含脫敏后的屬性特征,以及表示是否為金融詐騙用戶的標(biāo)簽。雖然存在數(shù)據(jù)壁壘等問題,金融風(fēng)控場(chǎng)景中普遍存在的數(shù)據(jù)不均,標(biāo)簽難獲取,以及對(duì)模型可解釋性的訴求也給圖神經(jīng)網(wǎng)絡(luò)的發(fā)展帶來了新的思考和機(jī)遇。
藥物發(fā)現(xiàn):藥物開發(fā)是一個(gè)周期長(zhǎng)、費(fèi)用高且風(fēng)險(xiǎn)高的大工程,從最初的藥物設(shè)計(jì)、分子篩選,到后期的安全測(cè)試、臨床試驗(yàn),新藥研發(fā)周期大約需要花費(fèi)10-15年,平均每一款藥的研發(fā)成本將近30億美金,在此過程中,1/3的時(shí)間和費(fèi)用都花費(fèi)在藥物發(fā)現(xiàn)的階段。特別是面對(duì)COVID-19等流行病的爆發(fā),如何有效地利用深度學(xué)習(xí)模型,快速發(fā)現(xiàn)可能的、多樣化的候選分子,加快新藥的開發(fā)進(jìn)程,引發(fā)眾多研究人員的思考和參與。
藥物研發(fā)中涉及的分子化合物、蛋白質(zhì)等等物質(zhì)天然是以圖結(jié)構(gòu)存在。以分子為例,圖的邊可以是分子中原子之間的鍵或蛋白質(zhì)中氨基酸殘基之間的相互作用。而在更大的范圍內(nèi),圖可以代表更復(fù)雜的結(jié)構(gòu)(例如蛋白質(zhì),mRNA或代謝物)之間的相互作用。在細(xì)胞網(wǎng)絡(luò)中,結(jié)點(diǎn)可以表示細(xì)胞、腫瘤以及淋巴,邊表示他們之間的空間鄰近關(guān)系。因此將圖神經(jīng)網(wǎng)絡(luò)于分子特性預(yù)測(cè),高通量篩選,新型藥物設(shè)計(jì),蛋白質(zhì)工程和藥物再利用等方面,具有廣闊的應(yīng)用前景。例如麻省理工學(xué)院CSIAL的研究人員及其合作者發(fā)表在Cell(2020)的工作利用圖神經(jīng)網(wǎng)絡(luò)以預(yù)測(cè)分子是否具有抗生素特性上。 同組人員今年提出基于圖生成方法搭建基于抗原的條件生成模型來設(shè)計(jì)和特定抗原高度匹配的抗體等一系列工作。Mila實(shí)驗(yàn)室也是將圖學(xué)習(xí)應(yīng)用于藥物發(fā)現(xiàn)的先行者,并且最近也基于相應(yīng)的探索開源了基于PyTorch的藥物發(fā)現(xiàn)機(jī)器學(xué)習(xí)平臺(tái)TorchDrug。除此之外,各大科技公司近年也在AI制藥方面進(jìn)行布局和探索,并有相應(yīng)的突出成果,騰訊 AI Lab「云深」平臺(tái)發(fā)布業(yè)內(nèi)首個(gè)藥物AI大型分布外研究框架 DrugOOD,以推動(dòng)藥化場(chǎng)景中的分布偏移(distribution shift) 問題研究,助力藥物研發(fā)行業(yè)發(fā)展。百度創(chuàng)始人李彥宏發(fā)起創(chuàng)立的百圖生科,致力于將先進(jìn)AI技術(shù)與前沿生物技術(shù)相結(jié)合,構(gòu)建獨(dú)特的靶點(diǎn)挖掘及藥物設(shè)計(jì)。
?
芯片設(shè)計(jì):芯片是數(shù)字時(shí)代的靈魂所在,也是信息產(chǎn)業(yè)的三要素之一。圖結(jié)構(gòu)數(shù)據(jù)貫穿在芯片設(shè)計(jì)的多個(gè)階段,例如在邏輯綜合(Logic Synthesis)階段,數(shù)字電路通過與非圖進(jìn)行表示,在物理設(shè)計(jì)(Physical Design)階段,根據(jù)邏輯綜合生成的電路網(wǎng)表生成相關(guān)約束,工程師按照一定的密度和擁塞限制的要求,完成芯片的布局布線。
?
隨著電路規(guī)模和復(fù)雜性的不斷增長(zhǎng),電子設(shè)計(jì)自動(dòng)化(EDA)工具的設(shè)計(jì)效率和精度已成為一個(gè)至關(guān)重要的問題,這吸引了研究人員采用深度學(xué)習(xí)技術(shù)來輔助電路設(shè)計(jì)過程。如果能夠在芯片設(shè)計(jì)的早期階段預(yù)測(cè)電路質(zhì)量和實(shí)用性,那么芯片迭代的效率可以得到提升,同時(shí)設(shè)計(jì)成本也將降低。例如,在物理設(shè)計(jì)階段預(yù)測(cè)電路的擁塞可以幫助檢測(cè)其缺陷并避免產(chǎn)生缺陷芯片,如果可以在邏輯合成階段進(jìn)行此類預(yù)測(cè),則可以進(jìn)一步節(jié)省芯片的設(shè)計(jì)生產(chǎn)周期。谷歌與斯坦福大學(xué)團(tuán)隊(duì)將GNN成功用于硬件設(shè)計(jì),結(jié)合強(qiáng)化學(xué)習(xí),如對(duì)Google TPU芯片塊的功耗、面積和性能的優(yōu)化。針對(duì)芯片網(wǎng)表表征中的多種異構(gòu)信息,華為與北京大學(xué)提出的Circuit GNN,通過集成拓?fù)浜蛶缀涡畔⒌靡詷?gòu)圖,實(shí)現(xiàn)針對(duì)cell和net屬性預(yù)測(cè)的多種EDA任務(wù)性能的提升。
除了以幾個(gè)領(lǐng)域外,圖神經(jīng)網(wǎng)絡(luò)也被探索應(yīng)用于其他諸多問題,如程序驗(yàn)證、社會(huì)影響預(yù)測(cè)、腦網(wǎng)絡(luò)、事件檢測(cè)、模型仿真、組合優(yōu)化問題求解??梢钥闯鰜?,在科學(xué)和生活的多個(gè)領(lǐng)域,數(shù)據(jù)都是可以表示成圖結(jié)構(gòu)。通過對(duì)結(jié)構(gòu)信息以及圖屬性信息的有效捕捉,圖神經(jīng)網(wǎng)絡(luò)在各種圖任務(wù)上達(dá)到了較高的精度,成為解決圖相關(guān)問題的有效手段,我們相信在未來很多的領(lǐng)域以及場(chǎng)景都可以看到圖神經(jīng)網(wǎng)絡(luò)的身影。
4、圖神經(jīng)網(wǎng)絡(luò)的可拓展性
在前面的內(nèi)容我們介紹了圖模型的一些基本范式以及相應(yīng)的應(yīng)用場(chǎng)景,我們可以看到圖神經(jīng)網(wǎng)絡(luò)作為一種新的深度學(xué)習(xí)架構(gòu),在社交網(wǎng)絡(luò)、推薦系統(tǒng)、生物醫(yī)學(xué)發(fā)現(xiàn)等不同領(lǐng)域都大放異彩。然而實(shí)際的應(yīng)用中,圖模型的擴(kuò)展性以及可用性還是有諸多的理論和工程挑戰(zhàn)。首先是內(nèi)存限制。GCN在設(shè)計(jì)之初其卷積操作是在全圖上進(jìn)行,即每層的卷積操作都會(huì)遍歷全圖,在實(shí)際應(yīng)用中,需要的內(nèi)存和時(shí)間的開銷都是不可接受的。另外,在傳統(tǒng)的機(jī)器學(xué)習(xí)框架中,模型的損失函數(shù)可以分解為單個(gè)樣本的損失之和,因此可以使用mini -batch和隨機(jī)優(yōu)化來處理比GPU內(nèi)存大得多的訓(xùn)練集。然而,GNN的訓(xùn)練中,與樣本獨(dú)立的機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)集不同,網(wǎng)絡(luò)數(shù)據(jù)的關(guān)系結(jié)構(gòu)會(huì)在樣本之間產(chǎn)生統(tǒng)計(jì)依賴性。直接通過隨機(jī)采樣進(jìn)行Mini-Batch訓(xùn)練往往會(huì)導(dǎo)致模型效果大打折扣。然而,要確保子圖保留完整圖的語義以及為訓(xùn)練GNN提供可靠的梯度并不是一件簡(jiǎn)單的事情。其次是硬件限制。相對(duì)于圖像數(shù)據(jù)以及文本數(shù)據(jù)圖本質(zhì)上是一種稀疏結(jié)構(gòu),因此需要利用其稀疏性來進(jìn)行高效和可擴(kuò)展的計(jì)算,但是目前的相應(yīng)深度學(xué)習(xí)處理器以及相關(guān)硬件的設(shè)計(jì)都旨在處理矩陣上的密集運(yùn)算。這節(jié)我們主要對(duì)圖模型的可拓展性進(jìn)行一些總結(jié)。參照劍橋大學(xué)在讀博士生 Chaitanya K. Joshi的總結(jié)相關(guān)工作可以歸納為數(shù)據(jù)預(yù)處理、高效的模型架構(gòu)、新的學(xué)習(xí)范式以及硬件加速四個(gè)方面(如下圖所示)。
其中數(shù)據(jù)預(yù)處理一般是通過對(duì)原始數(shù)據(jù)進(jìn)行采樣或者簡(jiǎn)化的方式實(shí)現(xiàn)大規(guī)模圖數(shù)據(jù)的計(jì)算(下面我們會(huì)再進(jìn)一步展開)。新的架構(gòu)的則是從一些特定任務(wù)或者數(shù)據(jù)的角度出發(fā),提出了一些新的更為高效簡(jiǎn)潔的架構(gòu)。例如LightGCN省去了相鄰節(jié)點(diǎn)間的內(nèi)積部分從而實(shí)現(xiàn)運(yùn)行速度的加速。一些工作也發(fā)現(xiàn)在節(jié)點(diǎn)特征上運(yùn)行 MLP 后利用標(biāo)簽傳播方法也可以取得不錯(cuò)的效果。除此之外,我們也可以通過一些輕量化的學(xué)習(xí)范式例如知識(shí)蒸餾或者量化感知訓(xùn)練,來提高 GNN 的性能和降低延遲。指的提的一點(diǎn)是,上述提及的幾種圖神經(jīng)網(wǎng)絡(luò)加速訓(xùn)練的方式都是相互解耦的,這意味在實(shí)際場(chǎng)景中都是可以同時(shí)采取多種方法配合使用。
來源:G-CRD@TNNLS
相較于模型的優(yōu)化以及新的學(xué)習(xí)范式等方式,數(shù)據(jù)預(yù)處理是更為通用以及適用性更強(qiáng)的方法,也是目前相對(duì)而言,我們這邊稍微展開進(jìn)行分析和介紹。整體而言,數(shù)據(jù)預(yù)處理的方式都是通過一些采樣或者圖簡(jiǎn)化的方式減小原圖的規(guī)模從而可以滿足內(nèi)存的限制。
1、基于采樣的數(shù)據(jù)處理?
基于采樣的方法可以分為三小類,Node-Wise Sampling,Layer-Wise Sampling和Graph-Wise Sampling。
?
Node-Wise Sampling:由GraphSage首次提出,是一種比較通用有效以及應(yīng)用得最多的方式。一層 GraphSAGE 從 1-hop 鄰居聚合信息,疊加 k 層 GraphSAGE 就可以使得感受野增大為 k- hop 鄰居誘導(dǎo)的子圖,同時(shí)對(duì)鄰居做均勻采樣,可以控制聚合操作的速度,更少的鄰居意味著更少的計(jì)算。不過需要注意的是隨著層數(shù)的在增加,采樣到的鄰居數(shù)量也會(huì)指數(shù)增加最后仍然會(huì)等價(jià)于k-hop跳鄰居誘導(dǎo)的子圖上做消息聚合,時(shí)間復(fù)雜度并沒有實(shí)質(zhì)性的改進(jìn)。
?
Lay-Wise sampling:由Fast GCN首次提出,與 GraphSAGE 不同,它直接限制了節(jié)點(diǎn)的鄰居采樣范圍,通過重要性采樣(importance sampling)的方式,從所有節(jié)點(diǎn)中采樣在一個(gè)小批次內(nèi) GraphSAGE 的每個(gè)樣本節(jié)點(diǎn)的鄰居集合是獨(dú)立的,而 Fast GCN 的所有樣本節(jié)點(diǎn)共享同一個(gè)鄰居集合,所以能夠把計(jì)算復(fù)雜度直接控制到線性級(jí)別,但是需要注意的是當(dāng)我們待處理的圖是大而稀疏的時(shí)候,該方法采樣得到的相鄰層的樣本可能根本沒有關(guān)聯(lián),導(dǎo)致無法學(xué)習(xí)。
Graph-wise Sampling:與鄰居采樣的方法不同,圖采樣技巧是從原圖上采樣子圖,例如Cluster GCN 使用聚類的思想,把圖劃分為小塊進(jìn)行訓(xùn)練以實(shí)現(xiàn)圖采樣。圖聚類算法(例如METIS)讓相似的節(jié)點(diǎn)分在一起,使得類內(nèi)的節(jié)點(diǎn)分布和原圖的節(jié)點(diǎn)分布有偏差。為了解決圖采樣帶來的問題,Cluster GCN 在訓(xùn)練時(shí)同時(shí)抽取多個(gè)類別作為一個(gè)批次參與訓(xùn)練,對(duì)節(jié)點(diǎn)分布進(jìn)行平衡。不過基于基于結(jié)構(gòu)的采樣方法信息損失較大, 大多數(shù)據(jù)上效果比full-batch的GNN差距大,每個(gè)epoch都需要進(jìn)行采樣,時(shí)間開銷并不小。
2、基于圖簡(jiǎn)化?
除了采樣,通過一些圖簡(jiǎn)化的方式(Graph reduction)縮小原圖的規(guī)模的同時(shí)保留關(guān)鍵的屬性以便后續(xù)的處理和分析也是可行的方向。圖簡(jiǎn)化主要包含圖稀疏化(Graph Sparsification):減少圖中邊的數(shù)量和圖粗化(Graph coarsening):減少圖中頂點(diǎn)的數(shù)量。
其中圖粗化(graph coarsening)通過”捏點(diǎn)”的方式把一些subgraph聚合成一個(gè)super-node從而實(shí)現(xiàn)原圖規(guī)模的化簡(jiǎn)對(duì)于是一個(gè)合適的框架。將圖粗化用于GNN加速訓(xùn)練的算法首次在KDD 2021年的工作提出,流程如下圖所示:
首先使用圖粗化算法(例如譜聚類粗化)把原圖進(jìn)行粗化,并在粗化后的圖G′ 上進(jìn)行模型訓(xùn)練,從而實(shí)現(xiàn)圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的參數(shù)的降低,以及減少訓(xùn)練消耗時(shí)間和運(yùn)行內(nèi)存開銷。該方法通用簡(jiǎn)單并且具有線性的訓(xùn)練時(shí)間和空間。作者的理論分析也表明,在譜聚類(spectral clustering)粗化后的圖上做的 APPNP 訓(xùn)練,等價(jià)于在原圖上做受限的 APPNP 訓(xùn)練。但是,和圖采樣方法一樣,基于圖粗化的方式也是需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,時(shí)間開銷和實(shí)驗(yàn)效果和粗化算法的選擇有關(guān)。
同樣的上述介紹的幾種基于采樣或者簡(jiǎn)化的圖模型擴(kuò)展方法同樣也是方法都是相互解耦的,這意味著可以同時(shí)采取多種方法配合使用,如Cluster GCN + GraphSAGE。從本質(zhì)上來說,在k-hop鄰居誘導(dǎo)的子圖上進(jìn)行消息的聚合是指數(shù)級(jí)的運(yùn)算,在不損失信息的情況下難以將基于節(jié)點(diǎn)采樣的算法時(shí)間復(fù)雜度控制在線性級(jí);而進(jìn)行預(yù)處理將原圖降采樣是一個(gè)不錯(cuò)的解決思路,因?yàn)槿绻軐⒄麄€(gè)圖都放入內(nèi)存進(jìn)行運(yùn)算,GCN的時(shí)間復(fù)雜度就是線性的,但是預(yù)處理的成本是不能忽略的。天下沒有免費(fèi)的午餐,對(duì)于圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練加速其實(shí)還是在信息損失和預(yù)處理開銷上做權(quán)衡,需要根據(jù)實(shí)際情況采用不同的方法進(jìn)行分析。
另外圖本質(zhì)上是一種稀疏對(duì)象,因此在設(shè)計(jì)高效以及可拓展性的問題上應(yīng)該更多從數(shù)據(jù)稀疏性的角度來進(jìn)行思考。但是這說起來容易做起來難,因?yàn)楝F(xiàn)代 GPU 旨在處理矩陣上的密集運(yùn)算。雖然針對(duì)稀疏矩陣的定制硬件加速器可以顯著提高 GNN 的及時(shí)性和可擴(kuò)展性,但是相關(guān)的工作還是處于發(fā)展的初期。另外面向圖計(jì)算通信策略的設(shè)計(jì)也是最近備受關(guān)注的方向。例如VLDB2022以及Webconf 2022的Best research paper以及Best student paper award均頒給了圖模型加速處理的系統(tǒng)或者算法。其中SANCUS@VLDB2022提出了一套的分布式訓(xùn)練框架(SANCUS),以減少通訊量為目標(biāo),采用去中心化的機(jī)制對(duì)圖神經(jīng)網(wǎng)絡(luò)的分布式訓(xùn)練進(jìn)行加速。文章不僅在理論上證明SANCUS的收斂速度接近于全圖訓(xùn)練,而且通過在大量真實(shí)場(chǎng)景圖上的實(shí)驗(yàn)驗(yàn)證了SANCUS的訓(xùn)練效率和精度。PASCA@Webconf2022的工作嘗試將消息傳遞的框架中的消息聚合操作和更新操作分離,定義前處理-訓(xùn)練-后處理的新范式從而實(shí)現(xiàn)分布式場(chǎng)景下的通信開銷。
?
來源:PASCA@Webconf2022
5、圖神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)及學(xué)習(xí)空間
得益于計(jì)算資源的快速增長(zhǎng),以及深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力,深度學(xué)習(xí)成為知識(shí)挖掘的重要工具。圖是一種通用的、功能強(qiáng)大的數(shù)據(jù)結(jié)構(gòu),它以簡(jiǎn)潔的形式表示實(shí)體及其關(guān)系,在自然科學(xué)和社會(huì)科學(xué)的應(yīng)用中無處不在。但是,現(xiàn)實(shí)世界中圖數(shù)據(jù)不管是結(jié)構(gòu)、內(nèi)容和任務(wù)上都千差萬,在某個(gè)任務(wù)上性能最佳的 GNN 網(wǎng)絡(luò)以及架構(gòu)設(shè)計(jì)可能對(duì)于另一個(gè)任務(wù)并不適用。對(duì)于一個(gè)給定的數(shù)據(jù)集和預(yù)測(cè)任務(wù),如何能快速獲得到一個(gè)效果還不錯(cuò)的模型不管對(duì)于研究人員或者是應(yīng)用算法工程師都是非常有意義的一件事情。對(duì)于一個(gè)給定的數(shù)據(jù)集和預(yù)測(cè)任務(wù),怎樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)是有效的?我們是否可以構(gòu)建一種系統(tǒng),從而自動(dòng)地預(yù)測(cè)出好的 GNN 設(shè)計(jì)?帶著這些思考, Jure Leskovec組2020年在他們的發(fā)表的圖神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)空間的工作中根據(jù)從三個(gè)層次上定義了GNN的設(shè)計(jì)空間,這個(gè)工作也是為后續(xù)的圖自動(dòng)機(jī)器以及圖模型的遷移學(xué)習(xí)奠定了基礎(chǔ)。
在給定某項(xiàng)任務(wù)、某個(gè)數(shù)據(jù)集的情況下我們首先可以通過:
(1)層內(nèi)設(shè)計(jì):?jiǎn)为?dú)某個(gè)GNN層的設(shè)計(jì)。
(2)層間設(shè)計(jì):如何將GNN層連接起來。
(3)學(xué)習(xí)配置:如何進(jìn)行機(jī)器學(xué)習(xí)的設(shè)置參數(shù)。
三個(gè)方向構(gòu)建相應(yīng)的GNN設(shè)計(jì)空間,接著,通過對(duì)模型進(jìn)行排序來量化它們?cè)谔囟ㄈ蝿?wù)上的性能差異,從而可以了解給定數(shù)據(jù)下的最優(yōu)模型設(shè)計(jì)。另外,對(duì)于新的任務(wù)以及數(shù)據(jù),我們也可以通過簡(jiǎn)單地計(jì)算新數(shù)據(jù)集與任務(wù)空間中已有收集的相似度,快速地識(shí)別出最相近的任務(wù),并將其最佳模型遷移到新的數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過這種方式,對(duì)于之前從未使用過的數(shù)據(jù)集上也可以較為快速的得到較優(yōu)的模型。當(dāng)然不管是圖上的自動(dòng)機(jī)器學(xué)習(xí)以及圖模型的可遷移性,不管是學(xué)術(shù)研究或者是工業(yè)應(yīng)用中都是非常重要的問題,最近2年也是有非常多相關(guān)的一些探索和思考,這邊我們就不再展開,更多關(guān)于圖自動(dòng)機(jī)器學(xué)習(xí)的工作建議大家可以關(guān)注學(xué)界清華朱文武老師組相關(guān)的綜述以及他們開源的自動(dòng)學(xué)習(xí)工具包AutoGL以及業(yè)界第四范式的相關(guān)工作。
來源:AutoGL
前面提到的模型設(shè)計(jì)空間主要集中模型結(jié)構(gòu)層面,但是還有另一個(gè)非常重要的維度是模型的表征或者學(xué)習(xí)空間也是非常有必要進(jìn)行補(bǔ)充。圖機(jī)器學(xué)習(xí)作為圖數(shù)據(jù)上進(jìn)行表征學(xué)習(xí)的一種手段目標(biāo)不是通過學(xué)習(xí)原始數(shù)據(jù)預(yù)測(cè)某個(gè)觀察結(jié)果,而是學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu)(underlying structure),從而可以更好對(duì)原始數(shù)據(jù)進(jìn)行相應(yīng)的特征學(xué)習(xí)與表達(dá),在下游任務(wù)上取得更好的效果。
當(dāng)前的大多數(shù)表征學(xué)習(xí)都是在歐幾里德空間中進(jìn)行的,因?yàn)闅W幾里德空間是自然的概括我們的直覺友好的視覺空間同時(shí)具有很好的計(jì)算以及運(yùn)算優(yōu)勢(shì)。但是眾所周知,圖是非歐幾里得結(jié)構(gòu)的,例如復(fù)雜網(wǎng)絡(luò)領(lǐng)域的研究表明,現(xiàn)實(shí)的網(wǎng)絡(luò)數(shù)據(jù)(社交網(wǎng)絡(luò),商品網(wǎng)絡(luò),電信網(wǎng)絡(luò),疾病網(wǎng)絡(luò),語義網(wǎng)絡(luò)等)中大量存在著無標(biāo)度性質(zhì)(scale-free),意味著現(xiàn)實(shí)中普遍存在著樹狀(tree-like)/層次結(jié)構(gòu)。利用歐式空間作為表征學(xué)習(xí)的先驗(yàn)空間進(jìn)行相應(yīng)的建模必然會(huì)引起相應(yīng)的誤差(distortion)。因此基于不同的曲率空間的表征學(xué)習(xí)最近也引起了大家的關(guān)注。曲率是一個(gè)衡量空間彎曲程度的量,曲率越接近零,空間越平坦。在科幻小說《三體》中,人類正是利用空間曲率的變化建造出曲率飛船。如下圖所示, 歐氏空間各處均勻且平坦,具備各向同性及平移不變性,因此適合建模網(wǎng)格數(shù)據(jù)。具有正曲率的球面空間距離度量等價(jià)于角度度量,具備旋轉(zhuǎn)不變性,因此適合建模環(huán)狀數(shù)據(jù)或者稠密均勻的圖數(shù)據(jù)結(jié)構(gòu)。而負(fù)曲率的雙曲空間距離度量等價(jià)于冪律分布,適合建模無尺度網(wǎng)絡(luò)或者樹狀結(jié)構(gòu)。
?
由于現(xiàn)實(shí)的網(wǎng)絡(luò)數(shù)據(jù)中大量存在著無標(biāo)度性質(zhì)(scale-free),意味著現(xiàn)實(shí)中普遍存在著樹狀(tree-like)/層次結(jié)構(gòu)。其中,雙曲空間在傳統(tǒng)網(wǎng)絡(luò)科學(xué)領(lǐng)域被視作樹狀/層次結(jié)構(gòu)的連續(xù)表達(dá)形式,因此也更加適合用于實(shí)際數(shù)據(jù)的建模,最近也是涌現(xiàn)出很多優(yōu)秀的工作。另外相較于歐式空間,雙曲空間的容積隨著半徑指數(shù)級(jí)增長(zhǎng),因此具有更大的嵌入空間。與歐式空間不同的是,雙曲空間有多個(gè)模型可以刻畫,我們下面以Poincare Ball(龐加萊球)為例子簡(jiǎn)單介紹一下。
?
龐加萊盤是通過將嵌入空間限制在單位球內(nèi)的一種雙曲模型。在龐加萊球的雙曲模型中,上面所有明暗相間的三角形都是相同大小的,而在我們歐式的角度去看,靠近邊緣區(qū)域的三角形相對(duì)較小。換一種理解的方式,如果以歐式的角度看,把上面圓的中心當(dāng)作原點(diǎn),隨著半徑的增加,三角形的個(gè)數(shù)是越來越多的
我們可以想象一下,使用雙曲空間建模就像“吹起一個(gè)氣球”。假設(shè)一個(gè)干癟的氣球表面上有十億個(gè)節(jié)點(diǎn),這會(huì)是非常致密的狀態(tài)。隨著氣球逐漸充氣變大,氣球表面越來越“彎曲”,節(jié)點(diǎn)之間就分的越開。阿里媽媽技術(shù)團(tuán)隊(duì)將曲率空間(Curvlearn)用于基于淘寶搜索廣告場(chǎng)景,系統(tǒng)全量上線后,存儲(chǔ)消耗量降低 80%,用戶側(cè)請(qǐng)求匹配精準(zhǔn)度相對(duì)提升15%。除了推薦系統(tǒng)外,雙曲圖模型在多種不同的場(chǎng)景上都展現(xiàn)了優(yōu)異的效果,對(duì)相關(guān)內(nèi)容感興趣的同學(xué)也可以參考我們今年在ECML-PKDD上雙曲圖表征學(xué)習(xí)的相關(guān)教程(主頁(yè)傳送門:?https://hyperbolicgraphlearning.github.io/? )或者弗吉亞理工和亞馬遜等學(xué)者在WebConf的雙曲神經(jīng)網(wǎng)絡(luò)相關(guān)教程。
6、圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)、框架、基準(zhǔn)平臺(tái)
圖神經(jīng)網(wǎng)絡(luò)算法將深度神經(jīng)網(wǎng)絡(luò)的運(yùn)算(如卷積、梯度計(jì)算)與迭代圖傳播結(jié)合在一起: 每個(gè)頂點(diǎn)的特征都是由其鄰居頂點(diǎn)的特征結(jié)合一組深度神經(jīng)網(wǎng)絡(luò)來計(jì)算。但是,現(xiàn)有的深度學(xué)習(xí)框架不能擴(kuò)展和執(zhí)行圖傳播模型,因此缺乏高效訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)的能力。另外現(xiàn)實(shí)世界中的圖數(shù)據(jù)規(guī)模龐大,并且頂點(diǎn)之間具有復(fù)雜的依賴性,例如Facebook的社交網(wǎng)絡(luò)圖包含超過20億個(gè)頂點(diǎn)和1萬億條邊,這種規(guī)模的圖在訓(xùn)練時(shí)可能會(huì)產(chǎn)生100 TB的數(shù)據(jù),不同于傳統(tǒng)的圖算法,平衡的圖分區(qū)不僅依賴于分區(qū)內(nèi)的頂點(diǎn)數(shù)量,還依賴于分區(qū)內(nèi)頂點(diǎn)鄰居的數(shù)量,多層圖神經(jīng)網(wǎng)絡(luò)模型中不同頂點(diǎn)多階鄰居的數(shù)量可能相差極大,并且這些分區(qū)之間需要頻繁的數(shù)據(jù)交換,如何對(duì)圖數(shù)據(jù)進(jìn)行合理的分區(qū)來保證分布式訓(xùn)練的性能是對(duì)于分布式系統(tǒng)的重大挑戰(zhàn)。另外圖數(shù)據(jù)是非常稀疏的,從而這會(huì)導(dǎo)致分布式處理中的頻繁的跨節(jié)點(diǎn)訪問,產(chǎn)生大量的消息傳遞開銷。 所以如何針對(duì)圖的特殊性質(zhì)減少系統(tǒng)開銷是提高系統(tǒng)性能的一大挑戰(zhàn)。工欲善其事,必先利其器。 為了支持圖神經(jīng)網(wǎng)絡(luò)在大規(guī)模圖上的應(yīng)用,以及對(duì)更復(fù)雜圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的探索,開發(fā)針對(duì)圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練系統(tǒng)是十分有必要的。首先要提的是最為知名的兩個(gè)開源框架PyG (PyTorch Geometric)和DGL (Deep Graph Library),前者是主要由斯坦福大學(xué)以及多特蒙德工業(yè)大學(xué)聯(lián)合開發(fā)的基于PyTorch的圖神經(jīng)網(wǎng)絡(luò)庫(kù),含了很多 GNN 相關(guān)論文中的方法實(shí)現(xiàn)和常用數(shù)據(jù)集,并且提供了簡(jiǎn)單易用的接口,后者則是由紐約大學(xué)以及亞馬遜研究院聯(lián)合主導(dǎo)開發(fā)的圖學(xué)習(xí)框架,作為最早的學(xué)術(shù)以及工業(yè)界開源框架,兩者都擁有活躍的社區(qū)支持。
除此之外很多公司根據(jù)自身業(yè)務(wù)特點(diǎn),也紛紛建設(shè)自有的圖神經(jīng)網(wǎng)絡(luò)框架以及數(shù)據(jù)庫(kù)例如:NeuGraph、EnGN、PSGraph、AliGraph、Roc、AGL、PGL、Galileo、TuGraph、Angle Graph等。其中AliGraph由阿里巴巴計(jì)算平臺(tái)和達(dá)摩院智能計(jì)算實(shí)驗(yàn)室開發(fā)的采樣建模訓(xùn)練一體化的圖神經(jīng)網(wǎng)絡(luò)平臺(tái)。PGL (paddle graph learning)是由百度開發(fā)的基于PaddlePaddle的相應(yīng)圖學(xué)習(xí)框架。Angle Graph是騰訊TEG數(shù)據(jù)平臺(tái)推出的大規(guī)模高性能圖計(jì)算平臺(tái)。
我們?cè)倭牧幕鶞?zhǔn)平臺(tái)的問題。在深度機(jī)器學(xué)習(xí)的核心研究或應(yīng)用領(lǐng)域中,基準(zhǔn)數(shù)據(jù)集以及平臺(tái)都有助于識(shí)別和量化哪些類型的架構(gòu),原理或機(jī)制是通用的,并且可以推廣到實(shí)際任務(wù)和大型數(shù)據(jù)集。例如神經(jīng)網(wǎng)絡(luò)模型的最新革命都是由大規(guī)模基準(zhǔn)圖像數(shù)據(jù)集的ImageNet觸發(fā)的。相對(duì)于網(wǎng)格或者序列數(shù)據(jù),圖數(shù)據(jù)模型發(fā)展相對(duì)而言還處于自由生長(zhǎng)的階段。首先,數(shù)據(jù)集往往規(guī)模太小,與現(xiàn)實(shí)場(chǎng)景不符,這意味著我們很難可靠和嚴(yán)格地評(píng)估算法。其次,評(píng)估算法的方案不統(tǒng)一?;旧?,每個(gè)研究工作論文都使用了自己的「訓(xùn)練集/測(cè)試集」數(shù)據(jù)劃分方式和性能評(píng)測(cè)指標(biāo)。這意味著我們很難進(jìn)行跨論文跨架構(gòu)的性能比較。此外,不同的研究員往往在劃分?jǐn)?shù)據(jù)集時(shí)采用傳統(tǒng)的隨機(jī)劃分方法。為了解決圖學(xué)習(xí)社區(qū),數(shù)據(jù)、任務(wù)數(shù)據(jù)劃分方式以及評(píng)估方案不一致的問題,斯坦福大學(xué)的Jure Leskovec團(tuán)隊(duì)2020年推出了圖神經(jīng)網(wǎng)絡(luò)基準(zhǔn)平臺(tái)奠基性的工作Open Graph Benchmark(OGB)。
OGB包含一些可以現(xiàn)成使用的用于圖上的關(guān)鍵任務(wù)(節(jié)點(diǎn)分類、鏈接預(yù)測(cè)、圖分類等)的數(shù)據(jù)集,同時(shí)也包含了通用的代碼庫(kù),以及性能評(píng)測(cè)指標(biāo)的實(shí)現(xiàn)代碼,可以進(jìn)行快速的模型評(píng)估和比較。此外,OGB還設(shè)有模型性能排行榜(leaderboard),可以方便大家快速的跟進(jìn)相應(yīng)的研究進(jìn)展。另外,2021年,OGB聯(lián)合KDD CUP 與舉辦了第一屆 OGB-LSC(OGB Large-Scale Challenge)比賽,提供來自真實(shí)世界的超大規(guī)模圖數(shù)據(jù),來完成圖學(xué)習(xí)領(lǐng)域的節(jié)點(diǎn)分類、邊預(yù)測(cè)和圖回歸三大任務(wù),吸引了包括微軟、Deepmind、Facebook、阿里巴巴、百度、字節(jié)跳動(dòng)、斯坦福、MIT、北京大學(xué)等眾多頂尖高校和科技公司參與。今年在NeurIPS2022的競(jìng)賽track中,根據(jù)KDD杯的經(jīng)驗(yàn),更新了相應(yīng)的數(shù)據(jù)集并組織了第二屆OGB-LSC競(jìng)賽,獲獎(jiǎng)方案目前已經(jīng)公開
(快速熟悉一個(gè)領(lǐng)域的好方法是閱讀級(jí)實(shí)驗(yàn)室剛畢業(yè)同學(xué)的博士論文,SNAP實(shí)驗(yàn)室的Rex YING以及尤佳軒必須是要擁有姓名, 分別于2016年以及2017年開始在Jure Leskovec的指導(dǎo)下開始進(jìn)行圖學(xué)習(xí)相關(guān)的研究,諸多成果也是成為了圖學(xué)習(xí)發(fā)展歷程路標(biāo)性工作也分別在各自博士論文《Towards Expressive and Scalable Deep Representation Learning for Graphs》和《Empowering Deep Learning with Graphs》也是進(jìn)性了相應(yīng)的梳理。)
7、總結(jié)和展望
經(jīng)過十幾年的發(fā)展以及最近各行業(yè)內(nèi)產(chǎn)業(yè)落地的應(yīng)用以及實(shí)驗(yàn)室中理論的不斷迭代,圖神經(jīng)網(wǎng)絡(luò)在理論上和實(shí)踐上都被證實(shí)是對(duì)圖結(jié)構(gòu)數(shù)據(jù)處理的一種有效方法和框架。圖作為一種通用簡(jiǎn)潔以及強(qiáng)大的數(shù)據(jù)結(jié)構(gòu),不僅可以作為圖模型的輸入輸出來進(jìn)行非歐結(jié)構(gòu)數(shù)據(jù)的挖掘和學(xué)習(xí),也可以作為一種先驗(yàn)結(jié)構(gòu)應(yīng)用于歐式數(shù)據(jù)(文本以及圖片)的模型應(yīng)用中。 從長(zhǎng)遠(yuǎn)來看,我們相信圖數(shù)據(jù)+神經(jīng)網(wǎng)絡(luò)將會(huì)從一個(gè)新興研究領(lǐng)域轉(zhuǎn)變?yōu)橛糜跈C(jī)器學(xué)習(xí)研究和應(yīng)用的標(biāo)準(zhǔn)數(shù)據(jù) + 模型范式賦能更多的行業(yè)與場(chǎng)景。
?
(不能免俗做個(gè)展望)盡管 GNN 近年來在諸多領(lǐng)域取得了巨大的成功,但是隨著應(yīng)用場(chǎng)景的擴(kuò)展以及實(shí)際動(dòng)態(tài)變化以及未知的開放環(huán)境,除了前文中提及過的諸多問題以及挑戰(zhàn)之外仍然有許多的方向值得進(jìn)一步的探索:
圖神經(jīng)網(wǎng)絡(luò)新場(chǎng)景以及新范式:在現(xiàn)實(shí)世界中,大到星球引力小到分子交互,幾乎萬物可以看做以某種關(guān)系連接起來,繼而都可以視作一個(gè)圖。從社交網(wǎng)絡(luò)分析到推薦系統(tǒng)以及自然科學(xué),我們看到了圖神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域的相關(guān)應(yīng)用探索以及從應(yīng)用問題中引發(fā)的模型發(fā)展,例如智能交通中的時(shí)空交互,金融風(fēng)控場(chǎng)景中的類別不平衡,生物化學(xué)領(lǐng)域中的分析結(jié)構(gòu)區(qū)分問題等,因此如何在不同場(chǎng)景中自適應(yīng)地學(xué)習(xí)與場(chǎng)景有關(guān)的特征依舊是重要的方向。除此之外,一方面目前GNN的主要是基于消息傳遞范式,利用信息傳遞,信息聚合,信息更新三個(gè)步驟,如何讓信息傳遞,聚合,更新變得更加合理和高效對(duì)于GNN是目前較為重要的工作;另一方面基于消息傳遞框架以及同配性假設(shè)引起的信息過平滑問題以及信息瓶頸也會(huì)制約其在更加復(fù)雜的數(shù)據(jù)以及場(chǎng)景下的效果。整體而言,大多數(shù)GNN總是在借鑒計(jì)算機(jī)視覺以及自然語言處理中的一些思路,但是如何打破借鑒的規(guī)則,基于圖數(shù)據(jù)的歸納性偏好設(shè)計(jì)更加強(qiáng)大的模型,給圖神經(jīng)網(wǎng)絡(luò)注入專屬于它的靈魂,也會(huì)是領(lǐng)域研究人員持續(xù)思考和努力的方向。
圖結(jié)構(gòu)學(xué)習(xí):圖神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的主要區(qū)別就是以圖的結(jié)構(gòu)為指導(dǎo),通過聚合鄰居信息來學(xué)習(xí)節(jié)點(diǎn)表示。其中的應(yīng)用實(shí)際有個(gè)潛在的假設(shè):圖結(jié)構(gòu)是正確的,即圖上連接都是真實(shí)可信的。例如,社交圖中的邊暗示了真實(shí)的朋友關(guān)系。但是,實(shí)際上圖的結(jié)構(gòu)并不是那么的可靠,噪音連接和偶發(fā)連接都是普遍存在的。錯(cuò)誤的圖結(jié)構(gòu)加上GNN的擴(kuò)散過程,會(huì)極大的降低節(jié)點(diǎn)表示及下游任務(wù)的表現(xiàn)(garbage in,garbage out)。因此如何更好的進(jìn)行圖結(jié)構(gòu)的學(xué)習(xí)以及不同數(shù)據(jù)場(chǎng)景如何構(gòu)建更加可信的圖結(jié)構(gòu)是一個(gè)重要的方向。
可信圖神經(jīng)網(wǎng)絡(luò):由于信息傳遞機(jī)制和圖數(shù)據(jù)non-IID的特點(diǎn),GNNs對(duì)于對(duì)抗攻擊性十分的脆弱,很容易被節(jié)點(diǎn)特征和圖結(jié)構(gòu)上的對(duì)抗性擾動(dòng)影響。例如,詐騙犯可以通過創(chuàng)造和一些特定高信用用戶的交易來逃過基于GNNs的詐騙檢測(cè)。所以研發(fā)魯棒的圖神經(jīng)網(wǎng)絡(luò)對(duì)于一些安全風(fēng)險(xiǎn)較高的領(lǐng)域是十分有必要的。另一方面,隨著全社會(huì)對(duì)隱私保護(hù)日益重視的背景下,圖神經(jīng)網(wǎng)絡(luò)的公平性以及對(duì)于數(shù)據(jù)隱私保護(hù)也是最近研究的熱點(diǎn)。例如,阿里達(dá)摩院2022年針對(duì)圖數(shù)據(jù)的聯(lián)邦學(xué)習(xí)開源平臺(tái)FederatedScope-GNN,今年也是獲得了KDD 2022的最佳應(yīng)用論文。另外,如何讓訓(xùn)練好的圖模型遺忘掉特定數(shù)據(jù)訓(xùn)練效果/特定參數(shù), 以達(dá)到保護(hù)模型中隱含數(shù)據(jù)的目的的遺忘學(xué)習(xí)(Graph unlearning)也是一個(gè)值得討論的方向。
可解釋性:深度學(xué)習(xí)模型雖然實(shí)現(xiàn)了諸多任務(wù)上傳統(tǒng)方法望塵莫及的性能,但是模型的復(fù)雜性導(dǎo)致其可解釋性往往較為局限。然而,在生物信息學(xué)健康以及金融風(fēng)控等眾多高敏感度領(lǐng)域中,在評(píng)估計(jì)算模型和以及更好地理解潛在機(jī)制時(shí),可解釋性非常重要。因此,設(shè)計(jì)具有可解釋性或者可以更好地可視化復(fù)雜關(guān)系的模型/架構(gòu)最近也是引起了較多的關(guān)注。目前已有的工作主要還是較多參考借鑒于文本和圖像中對(duì)于可以解釋性的處理方式。例如基于梯度變化或者輸入擾動(dòng)的方法(e.g GNNExplainer)。近期,一些研究人員嘗試?yán)靡蚬Y選的方對(duì)可解釋性衡量框架進(jìn)行探索,從而更好地引出基于不變學(xué)習(xí)的內(nèi)在可解釋性的圖神經(jīng)網(wǎng)路,也為圖模型的可解釋性提供了一些新的思路。
分布外泛化:一般的學(xué)習(xí)問題都是在一個(gè)訓(xùn)練集上完成模型訓(xùn)練,而后模型需要在一個(gè)新的測(cè)試集上給出結(jié)果,當(dāng)測(cè)試數(shù)據(jù)分布與訓(xùn)練分布呈現(xiàn)明顯不同時(shí),模型的泛化誤差則很難被控制。目前大多數(shù)的圖神經(jīng)網(wǎng)絡(luò)(GNN)方法沒有考慮訓(xùn)練圖和測(cè)試圖之間的不可知偏差,從而導(dǎo)致GNN在分布外(OOD)圖上的泛化性能變差。然而現(xiàn)實(shí)中的許多場(chǎng)景要求模型與開放動(dòng)態(tài)的環(huán)境進(jìn)行交互,模型在訓(xùn)練階段需要考慮未來新出現(xiàn)的實(shí)體或來自未知分布的樣本,例如推薦系統(tǒng)中新出現(xiàn)的用戶/商品,在線廣告系統(tǒng)中新平臺(tái)的用戶畫像/行為特征,動(dòng)態(tài)網(wǎng)絡(luò)中新出現(xiàn)的節(jié)點(diǎn)或連邊關(guān)系等。因此如何利用有限的觀測(cè)數(shù)據(jù),學(xué)習(xí)一個(gè)穩(wěn)定的GNN模型,能夠泛化到未知或者數(shù)據(jù)有限的新環(huán)境也是一個(gè)重要的研究方向。
圖數(shù)據(jù)預(yù)訓(xùn)練以及通用模型:預(yù)訓(xùn)練范式在計(jì)算機(jī)視覺以及自然語言處理的領(lǐng)域取得革命性成功,在諸多任務(wù)中證明了其強(qiáng)大的能力。雖然GNN已經(jīng)具備了一些相對(duì)成熟的模型以及成功的應(yīng)用,但是當(dāng)前仍囿于面向特定任務(wù)使用大量標(biāo)注數(shù)據(jù)訓(xùn)練模型的深度學(xué)習(xí),當(dāng)任務(wù)改變或標(biāo)簽不足時(shí)往往效果就會(huì)差強(qiáng)人意。因此也自然引發(fā)大家對(duì)于在圖數(shù)據(jù)場(chǎng)景進(jìn)行通用模型的探索和思考。預(yù)訓(xùn)練的關(guān)鍵在于豐富的大量訓(xùn)練數(shù)據(jù), 可遷移的知識(shí),強(qiáng)大的骨干模型以及有效的訓(xùn)練方法。相較于計(jì)算機(jī)視覺以及自然語言處理中較為明確的語義信息,因?yàn)椴煌膱D數(shù)據(jù)結(jié)構(gòu)千差萬別,圖中什么知識(shí)是可遷移的仍然是一個(gè)較為開放的問題。另外,目前深層以及通用的GNN模型雖有研究但仍未帶來革命性的提升。幸運(yùn)的是,圖機(jī)器學(xué)習(xí)社區(qū)已經(jīng)積累了大規(guī)模的圖數(shù)據(jù),并且已經(jīng)發(fā)展出諸如圖重構(gòu)的自監(jiān)督訓(xùn)練方法。隨著后續(xù)深層GNN、表達(dá)能力更強(qiáng)的GNN以及圖自監(jiān)督新范式等研究的進(jìn)一步探索,相信最終實(shí)現(xiàn)泛用性強(qiáng)的通用模型。
軟硬件協(xié)同:隨著圖學(xué)習(xí)的應(yīng)用和研究發(fā)展的推進(jìn), GNN肯定會(huì)更深入地集成到 PyTorch,TensorFlow,Mindpsore等標(biāo)準(zhǔn)框架和平臺(tái)中。進(jìn)一步提高圖模型的可拓展性,更加硬件親和的算法框架以及軟件協(xié)同的硬件加速方案是大勢(shì)所趨。雖然面向圖神經(jīng)網(wǎng)絡(luò)應(yīng)用的專用加速結(jié)構(gòu)慢慢涌現(xiàn),為圖神經(jīng)網(wǎng)絡(luò)定制計(jì)算硬件單元和片上存儲(chǔ)層次,優(yōu)化計(jì)算和訪存行為的專屬芯片已有一些成功,但是這些技術(shù)仍然處理早期的階段,面臨巨大的挑戰(zhàn)以及相應(yīng)也是提供了諸多的機(jī)遇。