港大新型圖基礎(chǔ)模型AnyGraph:挑戰(zhàn)Scaling Law,精準建模多樣化結(jié)構(gòu)模式和特征空間
新型圖基礎(chǔ)模型來了——
AnyGraph,基于圖混合專家(MoE)架構(gòu),專門為實現(xiàn)圖模型跨場景泛化而生。
通過MoE架構(gòu)、路由算法、SVD方法和MLP網(wǎng)絡(luò)等,AnyGraph解決了跨域和域內(nèi)圖異構(gòu)性問題,并進行了高效跨域模型訓(xùn)練。
能夠精準建模多樣化的結(jié)構(gòu)模式和特征空間。

在38個不同領(lǐng)域數(shù)據(jù)集上進行實驗,AnyGraph在零樣本預(yù)測、擴展定律、消融實驗和效率實驗等方面均表現(xiàn)出色。
AnyGraph由來自香港大學(xué)的研究人員完成。

關(guān)于AnyGraph的更多細節(jié)我們接著往下看。
AnyGraph長啥樣?
隨著圖結(jié)構(gòu)數(shù)據(jù)在各個領(lǐng)域的日益普及,對具有出色泛化能力的圖學(xué)習(xí)模型的需求愈發(fā)迫切。
現(xiàn)實應(yīng)用中,圖學(xué)習(xí)模型需有效應(yīng)對分布偏移并適應(yīng)新的圖領(lǐng)域,但當前的先進模型在真正的泛化性能方面往往表現(xiàn)不足,嚴重依賴繁重的微調(diào)過程,難以適應(yīng)實際應(yīng)用中多樣的圖結(jié)構(gòu)和分布。
受成功的基礎(chǔ)模型在理解視覺和語言數(shù)據(jù)方面的啟發(fā),通用的圖基礎(chǔ)模型具有巨大潛力,可從多樣的圖結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)可遷移的表示,從而高效適應(yīng)各種圖領(lǐng)域和任務(wù)。
然而,構(gòu)建有效的自適應(yīng)圖基礎(chǔ)模型面臨諸多挑戰(zhàn),包括:
- 結(jié)構(gòu)異質(zhì)性:不同圖數(shù)據(jù)集的結(jié)構(gòu)特性和數(shù)據(jù)分布多樣,如節(jié)點度分布和圖結(jié)構(gòu)復(fù)雜度的差異,有效處理這種多樣性對開發(fā)統(tǒng)一模型至關(guān)重要。
 - 特征異質(zhì)性:圖的節(jié)點和邊特征具有異質(zhì)性,包括特征的類型、維度和語義的差異,有效處理特征異質(zhì)性對構(gòu)建通用圖模型至關(guān)重要。
 - 快速適應(yīng)能力:有效圖基礎(chǔ)模型應(yīng)能快速適應(yīng)新的圖數(shù)據(jù)集和領(lǐng)域,無需大量重新訓(xùn)練或微調(diào),能快速調(diào)整參數(shù)和學(xué)習(xí)策略以應(yīng)對新圖數(shù)據(jù)的結(jié)構(gòu)和分布特征。
 - 擴展定律:像計算機視覺和自然語言處理領(lǐng)域的成功基礎(chǔ)模型一樣,圖基礎(chǔ)模型應(yīng)能展現(xiàn)出擴展定律,即性能隨著模型規(guī)模或訓(xùn)練數(shù)據(jù)集的增加而系統(tǒng)提升,通過利用這一現(xiàn)象,圖基礎(chǔ)模型能解鎖前所未有的能力和泛化能力。
 
為應(yīng)對這些挑戰(zhàn),該論文提出了基于混合專家(MoE)架構(gòu)的 AnyGraph模型。

圖混合專家框架
解決跨域圖異構(gòu)性
為了建模不同應(yīng)用領(lǐng)域之間的異構(gòu)圖結(jié)構(gòu)模式,AnyGraph采用了一種混合專家(Mixture-of-Expert,MoE)的模型架構(gòu)。
該架構(gòu)由多個圖專家模型組成,每個模型都可以獨立對輸入的圖數(shù)據(jù)進行預(yù)測。
在設(shè)計中,不同的專家模型應(yīng)當負責(zé)處理具有特定模式的圖數(shù)據(jù)。
AnyGraph設(shè)計了一種路由算法,用于將輸入的圖數(shù)據(jù)分配給最善于處理它的專家模型,進行訓(xùn)練或者預(yù)測。
圖專家路由算法
基于圖自監(jiān)督學(xué)習(xí)任務(wù)的有效性,AnyGraph的路由算法采用一種自監(jiān)督的損失函數(shù),通過計算專家模型在輸入圖上的自監(jiān)督損失大小,來衡量模型與該輸入數(shù)據(jù)的匹配程度。
具體來說,AnyGraph在輸入圖數(shù)據(jù)中采樣一定的邊作為正例,并隨機采樣同樣數(shù)量的節(jié)點對作為負例。
通過計算專家模型對兩種邊預(yù)測分數(shù)的差值,可以看出模型對正例的識別能力,用于代表模型與數(shù)據(jù)的匹配程度。
基于訓(xùn)練頻率的路由修正
盡管上述方法可以高效、準確地找到最善于處理輸入數(shù)據(jù)的專家模型,但該方法常常造成一種“贏者通吃”的次優(yōu)結(jié)果:
由于訓(xùn)練早期的各種隨機因素,極少數(shù)專家模型,甚至一個模型,形成了對其他專家模型的優(yōu)勢,路由算法因此不再將訓(xùn)練數(shù)據(jù)分配給其他模型,造成了其他模型基本未經(jīng)訓(xùn)練、而最優(yōu)模型過于通用無法專精的結(jié)果。
這種情況與原本的設(shè)計不同,無法做到每個模型專注于處理特定類別的圖數(shù)據(jù)。
因此,AnyGraph維護每個專家的訓(xùn)練次數(shù)信息,將其納入匹配分數(shù)的計算中去,為較少經(jīng)歷訓(xùn)練的專家模型提供更多的訓(xùn)練機會。
AnyGraph的快速適應(yīng)能力
值得注意的是,基于上述MoE架構(gòu),AnyGraph在每次訓(xùn)練和測試的過程中,僅需要激活它1/K的模型參數(shù)。
這意味著計算時間和存儲開銷上的極大優(yōu)化,使其相對于同參數(shù)的其它非MoE模型具有極大的效率和適應(yīng)性優(yōu)勢。
因此,AnyGraph在應(yīng)對新數(shù)據(jù)時可以進行高效的微調(diào);當面臨和一些原始訓(xùn)練數(shù)據(jù)差距極大的情況時,還可以避免新數(shù)據(jù)對原本的模型參數(shù)產(chǎn)生過大的影響。
自適應(yīng)且高效的圖專家模型
解決域內(nèi)圖異構(gòu)性
不同圖數(shù)據(jù)的鄰接矩陣和特征通常具有不同的維度,為了彌合這一差距,AnyGraph的圖專家模型進行結(jié)構(gòu)和特征統(tǒng)一,具有不同維度的鄰接矩陣和節(jié)點特征矩陣被映射為具有固定維度的初始節(jié)點表征。
基于奇異值分解(SVD)在提取重要隱特征方面的有效性,AnyGraph利用SVD方法來構(gòu)建這一統(tǒng)一映射過程。
具體來說,研究人員使用SVD對鄰接矩陣和特征矩陣分別進行特征分解,每次得到兩個具有固定維度的節(jié)點特征矩陣,以及一個特征值對焦矩陣。
研究人員將這些信息進行整合、歸一化,得到具有相同維度的節(jié)點初始特征矩陣,而這些矩陣記錄了原始鄰接矩陣和特征矩陣的信息,又具有了相同的維度。
使用SVD進行這一過程具有一些潛在的優(yōu)勢。
SVD這種壓縮方法會按照隱含特征維度的重要程度進行排序,也就是說,其結(jié)果的第一個特征維度是SVD認為最重要的維度,而最后一個維度是其認為最不重要的特征維度。
這一特性潛在地規(guī)整了不同數(shù)據(jù)集之間的SVD特征,后續(xù)模型可以根據(jù)這一特點更容易地學(xué)習(xí)通用的預(yù)測網(wǎng)絡(luò)。
高效且強大的特征編碼
為了在保持效率的同時獲得對圖特征建模的強大能力,AnyGraph的圖專家模型采用多層感知機網(wǎng)絡(luò)(MLP)進行可學(xué)習(xí)的預(yù)測。
值得注意的是,每個專家模型都只采用了簡單的MLP網(wǎng)絡(luò),這種設(shè)計無法進行復(fù)雜的圖關(guān)系建模,例如GAT和GraphTransformer中的結(jié)構(gòu)學(xué)習(xí)能力。
但AnyGraph在頂層采用了MoE架構(gòu),它的設(shè)計初衷是通過多樣化但簡單的特征變換來處理總體上復(fù)雜的圖學(xué)習(xí)任務(wù)。通過集成多個特征變換MLP,AnyGraph可以成功覆蓋不同的圖數(shù)據(jù)子集,達到強大的圖預(yù)測能力。
高效的跨域模型訓(xùn)練
為了最大化AnyGraph的跨圖泛化能力,AnyGraph的訓(xùn)練樣本是由不同數(shù)據(jù)集的訓(xùn)練樣本混合并隨機排序得到。
每個批次的訓(xùn)練樣本包含一個圖、該圖當中一個批次的邊、該圖的預(yù)處理信息(初始節(jié)點表征和分配的最佳專家模型)。
AnyGraph采用廣泛應(yīng)用的邊預(yù)測任務(wù)作為預(yù)訓(xùn)練任務(wù),使用交叉熵損失作為優(yōu)化目標。在訓(xùn)練過程中,研究人員會進行定期的特征和結(jié)構(gòu)擴充,包括重新進行基于SVD的表征初始化、在專家路由時進行結(jié)構(gòu)采樣。
AnyGraph效果如何?
AnyGraph的實驗驗證采用了38個來自不同應(yīng)用領(lǐng)域的圖數(shù)據(jù)集,包括鏈路預(yù)測和節(jié)點分類兩個類別,涵蓋電商場景(用戶的購買、瀏覽和評分行為,商品間的共現(xiàn)關(guān)系),學(xué)術(shù)網(wǎng)絡(luò)(論文的引用關(guān)系及學(xué)者的合作關(guān)系),生物信息網(wǎng)絡(luò)(藥品、蛋白質(zhì)之間的相互影響關(guān)系),以及諸如郵件網(wǎng)絡(luò)、網(wǎng)站之間的鏈接關(guān)系、以及道路網(wǎng)絡(luò)。
為了更好地進行跨數(shù)據(jù)集的綜合性評價,實驗將所有數(shù)據(jù)集劃分為兩個數(shù)據(jù)集集合Link1和Link2,它們在總體上和單個領(lǐng)域內(nèi)都具有相近數(shù)量的邊,但各自包含的數(shù)據(jù)集不具有相同來源和相同的特征構(gòu)建方法。
研究人員使用其中一個訓(xùn)練模型,并在另一個集合上進行零樣本測試。此外,所有數(shù)據(jù)集還按照應(yīng)用領(lǐng)域劃分成了電商、學(xué)術(shù)網(wǎng)絡(luò)和其他三種類別,以進行更細致的領(lǐng)域測試,其他類別主要由生物信息網(wǎng)絡(luò)組成,包含了其他較小的類別。
零樣本預(yù)測能力
首先進行了AnyGraph和基線方法的對比實驗,基線方法包括圖神經(jīng)網(wǎng)絡(luò)、圖預(yù)訓(xùn)練方法、圖提示微調(diào)方法、以及兩種圖基礎(chǔ)模型。


可以觀察到在不同數(shù)據(jù)集上的零樣本預(yù)測優(yōu)勢。
此外,圖預(yù)訓(xùn)練和提示微調(diào)方法在跨數(shù)據(jù)集場景下常常表現(xiàn)出更差的效果,這凸顯了跨數(shù)據(jù)、跨場景進行預(yù)訓(xùn)練的困難,這樣做很難提取具有通用性的不變特征。
AnyGraph的擴展定律
在調(diào)整模型參數(shù)量和訓(xùn)練數(shù)據(jù)量的情況下,實驗測試了AnyGraph的零樣本和全樣本預(yù)測性能。

可以觀察到,盡管全樣本預(yù)測性能很早就出現(xiàn)了收斂,但零樣本預(yù)測能力卻能夠隨著參數(shù)量和數(shù)據(jù)量的增長而不斷增長,并出現(xiàn)了一些突變性的增長。
這體現(xiàn)了AnyGraph的零樣本預(yù)測能力符合擴展定律的特點,并提示了它的涌現(xiàn)能力。
研究人員認為,這種圖模型的擴展定律有兩個關(guān)鍵因素。
首先,測試任務(wù)需要具有一定的難度,而全樣本的圖監(jiān)督學(xué)習(xí)任務(wù)過于容易,模型的擴展定律很容易遇到邊際效應(yīng)。
其次,對于跨場景、跨圖的圖預(yù)測來說,它固有的特征和結(jié)構(gòu)異質(zhì)性問題使得MoE這樣的松散模型結(jié)構(gòu)更容易捕捉通用的不變性特征。
此外,研究人員觀測到當訓(xùn)練數(shù)據(jù)總量不足時,引入新的訓(xùn)練數(shù)據(jù)反而可能造成模型效果的下降,這源于訓(xùn)練數(shù)據(jù)具有特別的分布特點、在模型中引入了bias。當模型訓(xùn)練數(shù)據(jù)充足時,這一問題就自然消解了。
消融實驗
消融實驗驗證了AnyGraph的以下關(guān)鍵性設(shè)計:MoE架構(gòu)、對節(jié)點特征的利用、路由算法中的訓(xùn)練頻率正則、訓(xùn)練過程中的數(shù)據(jù)擴充。

結(jié)果顯示了這些設(shè)計對模型的零樣本和全樣本預(yù)測性能存在顯著的正面影響。
路由算法研究

上圖展示了AnyGraph路由機制的分配結(jié)果。
可以看到,具有相同來源(例如ML1M和ML10M)、具有相同特征構(gòu)建方法(例如arxiv-ta、Photo、GReads、Fitness)的數(shù)據(jù)集,通常會被分配給相同的專家模型,這體現(xiàn)了路由機制能夠準確捕捉數(shù)據(jù)集的不同特點,分配給不同的專家模型進行處理。
效率實驗
為了驗證模型的效率和快速適應(yīng)能力,研究人員測試了AnyGraph在微調(diào)時的效果增長曲線,以及固定訓(xùn)練步數(shù)的時間開銷。


可以看到,由于AnyGraph采用了MoE架構(gòu),它僅需要激活小部份的參數(shù)進行訓(xùn)練,這極大地減少了模型的訓(xùn)練時間。
同時,由于AnyGraph出色的零樣本預(yù)測能力,以及它基于MoE架構(gòu)的快速調(diào)整能力,AnyGraph可以更快、更好地進行模型微調(diào)。
項目地址:https://github.com/HKUDS/AnyGraph
論文鏈接:https://arxiv.org/pdf/2408.10700
實驗室主頁:https://sites.google.com/view/chaoh















 
 
 








 
 
 
 