港大新型圖基礎(chǔ)模型AnyGraph:挑戰(zhàn)Scaling Law,精準(zhǔn)建模多樣化結(jié)構(gòu)模式和特征空間
新型圖基礎(chǔ)模型來(lái)了——
AnyGraph,基于圖混合專家(MoE)架構(gòu),專門為實(shí)現(xiàn)圖模型跨場(chǎng)景泛化而生。
通過(guò)MoE架構(gòu)、路由算法、SVD方法和MLP網(wǎng)絡(luò)等,AnyGraph解決了跨域和域內(nèi)圖異構(gòu)性問(wèn)題,并進(jìn)行了高效跨域模型訓(xùn)練。
能夠精準(zhǔn)建模多樣化的結(jié)構(gòu)模式和特征空間。
在38個(gè)不同領(lǐng)域數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),AnyGraph在零樣本預(yù)測(cè)、擴(kuò)展定律、消融實(shí)驗(yàn)和效率實(shí)驗(yàn)等方面均表現(xiàn)出色。
AnyGraph由來(lái)自香港大學(xué)的研究人員完成。
關(guān)于AnyGraph的更多細(xì)節(jié)我們接著往下看。
AnyGraph長(zhǎng)啥樣?
隨著圖結(jié)構(gòu)數(shù)據(jù)在各個(gè)領(lǐng)域的日益普及,對(duì)具有出色泛化能力的圖學(xué)習(xí)模型的需求愈發(fā)迫切。
現(xiàn)實(shí)應(yīng)用中,圖學(xué)習(xí)模型需有效應(yīng)對(duì)分布偏移并適應(yīng)新的圖領(lǐng)域,但當(dāng)前的先進(jìn)模型在真正的泛化性能方面往往表現(xiàn)不足,嚴(yán)重依賴繁重的微調(diào)過(guò)程,難以適應(yīng)實(shí)際應(yīng)用中多樣的圖結(jié)構(gòu)和分布。
受成功的基礎(chǔ)模型在理解視覺(jué)和語(yǔ)言數(shù)據(jù)方面的啟發(fā),通用的圖基礎(chǔ)模型具有巨大潛力,可從多樣的圖結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)可遷移的表示,從而高效適應(yīng)各種圖領(lǐng)域和任務(wù)。
然而,構(gòu)建有效的自適應(yīng)圖基礎(chǔ)模型面臨諸多挑戰(zhàn),包括:
- 結(jié)構(gòu)異質(zhì)性:不同圖數(shù)據(jù)集的結(jié)構(gòu)特性和數(shù)據(jù)分布多樣,如節(jié)點(diǎn)度分布和圖結(jié)構(gòu)復(fù)雜度的差異,有效處理這種多樣性對(duì)開(kāi)發(fā)統(tǒng)一模型至關(guān)重要。
- 特征異質(zhì)性:圖的節(jié)點(diǎn)和邊特征具有異質(zhì)性,包括特征的類型、維度和語(yǔ)義的差異,有效處理特征異質(zhì)性對(duì)構(gòu)建通用圖模型至關(guān)重要。
- 快速適應(yīng)能力:有效圖基礎(chǔ)模型應(yīng)能快速適應(yīng)新的圖數(shù)據(jù)集和領(lǐng)域,無(wú)需大量重新訓(xùn)練或微調(diào),能快速調(diào)整參數(shù)和學(xué)習(xí)策略以應(yīng)對(duì)新圖數(shù)據(jù)的結(jié)構(gòu)和分布特征。
- 擴(kuò)展定律:像計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的成功基礎(chǔ)模型一樣,圖基礎(chǔ)模型應(yīng)能展現(xiàn)出擴(kuò)展定律,即性能隨著模型規(guī)?;蛴?xùn)練數(shù)據(jù)集的增加而系統(tǒng)提升,通過(guò)利用這一現(xiàn)象,圖基礎(chǔ)模型能解鎖前所未有的能力和泛化能力。
為應(yīng)對(duì)這些挑戰(zhàn),該論文提出了基于混合專家(MoE)架構(gòu)的 AnyGraph模型。
圖混合專家框架
解決跨域圖異構(gòu)性
為了建模不同應(yīng)用領(lǐng)域之間的異構(gòu)圖結(jié)構(gòu)模式,AnyGraph采用了一種混合專家(Mixture-of-Expert,MoE)的模型架構(gòu)。
該架構(gòu)由多個(gè)圖專家模型組成,每個(gè)模型都可以獨(dú)立對(duì)輸入的圖數(shù)據(jù)進(jìn)行預(yù)測(cè)。
在設(shè)計(jì)中,不同的專家模型應(yīng)當(dāng)負(fù)責(zé)處理具有特定模式的圖數(shù)據(jù)。
AnyGraph設(shè)計(jì)了一種路由算法,用于將輸入的圖數(shù)據(jù)分配給最善于處理它的專家模型,進(jìn)行訓(xùn)練或者預(yù)測(cè)。
圖專家路由算法
基于圖自監(jiān)督學(xué)習(xí)任務(wù)的有效性,AnyGraph的路由算法采用一種自監(jiān)督的損失函數(shù),通過(guò)計(jì)算專家模型在輸入圖上的自監(jiān)督損失大小,來(lái)衡量模型與該輸入數(shù)據(jù)的匹配程度。
具體來(lái)說(shuō),AnyGraph在輸入圖數(shù)據(jù)中采樣一定的邊作為正例,并隨機(jī)采樣同樣數(shù)量的節(jié)點(diǎn)對(duì)作為負(fù)例。
通過(guò)計(jì)算專家模型對(duì)兩種邊預(yù)測(cè)分?jǐn)?shù)的差值,可以看出模型對(duì)正例的識(shí)別能力,用于代表模型與數(shù)據(jù)的匹配程度。
基于訓(xùn)練頻率的路由修正
盡管上述方法可以高效、準(zhǔn)確地找到最善于處理輸入數(shù)據(jù)的專家模型,但該方法常常造成一種“贏者通吃”的次優(yōu)結(jié)果:
由于訓(xùn)練早期的各種隨機(jī)因素,極少數(shù)專家模型,甚至一個(gè)模型,形成了對(duì)其他專家模型的優(yōu)勢(shì),路由算法因此不再將訓(xùn)練數(shù)據(jù)分配給其他模型,造成了其他模型基本未經(jīng)訓(xùn)練、而最優(yōu)模型過(guò)于通用無(wú)法專精的結(jié)果。
這種情況與原本的設(shè)計(jì)不同,無(wú)法做到每個(gè)模型專注于處理特定類別的圖數(shù)據(jù)。
因此,AnyGraph維護(hù)每個(gè)專家的訓(xùn)練次數(shù)信息,將其納入匹配分?jǐn)?shù)的計(jì)算中去,為較少經(jīng)歷訓(xùn)練的專家模型提供更多的訓(xùn)練機(jī)會(huì)。
AnyGraph的快速適應(yīng)能力
值得注意的是,基于上述MoE架構(gòu),AnyGraph在每次訓(xùn)練和測(cè)試的過(guò)程中,僅需要激活它1/K的模型參數(shù)。
這意味著計(jì)算時(shí)間和存儲(chǔ)開(kāi)銷上的極大優(yōu)化,使其相對(duì)于同參數(shù)的其它非MoE模型具有極大的效率和適應(yīng)性優(yōu)勢(shì)。
因此,AnyGraph在應(yīng)對(duì)新數(shù)據(jù)時(shí)可以進(jìn)行高效的微調(diào);當(dāng)面臨和一些原始訓(xùn)練數(shù)據(jù)差距極大的情況時(shí),還可以避免新數(shù)據(jù)對(duì)原本的模型參數(shù)產(chǎn)生過(guò)大的影響。
自適應(yīng)且高效的圖專家模型
解決域內(nèi)圖異構(gòu)性
不同圖數(shù)據(jù)的鄰接矩陣和特征通常具有不同的維度,為了彌合這一差距,AnyGraph的圖專家模型進(jìn)行結(jié)構(gòu)和特征統(tǒng)一,具有不同維度的鄰接矩陣和節(jié)點(diǎn)特征矩陣被映射為具有固定維度的初始節(jié)點(diǎn)表征。
基于奇異值分解(SVD)在提取重要隱特征方面的有效性,AnyGraph利用SVD方法來(lái)構(gòu)建這一統(tǒng)一映射過(guò)程。
具體來(lái)說(shuō),研究人員使用SVD對(duì)鄰接矩陣和特征矩陣分別進(jìn)行特征分解,每次得到兩個(gè)具有固定維度的節(jié)點(diǎn)特征矩陣,以及一個(gè)特征值對(duì)焦矩陣。
研究人員將這些信息進(jìn)行整合、歸一化,得到具有相同維度的節(jié)點(diǎn)初始特征矩陣,而這些矩陣記錄了原始鄰接矩陣和特征矩陣的信息,又具有了相同的維度。
使用SVD進(jìn)行這一過(guò)程具有一些潛在的優(yōu)勢(shì)。
SVD這種壓縮方法會(huì)按照隱含特征維度的重要程度進(jìn)行排序,也就是說(shuō),其結(jié)果的第一個(gè)特征維度是SVD認(rèn)為最重要的維度,而最后一個(gè)維度是其認(rèn)為最不重要的特征維度。
這一特性潛在地規(guī)整了不同數(shù)據(jù)集之間的SVD特征,后續(xù)模型可以根據(jù)這一特點(diǎn)更容易地學(xué)習(xí)通用的預(yù)測(cè)網(wǎng)絡(luò)。
高效且強(qiáng)大的特征編碼
為了在保持效率的同時(shí)獲得對(duì)圖特征建模的強(qiáng)大能力,AnyGraph的圖專家模型采用多層感知機(jī)網(wǎng)絡(luò)(MLP)進(jìn)行可學(xué)習(xí)的預(yù)測(cè)。
值得注意的是,每個(gè)專家模型都只采用了簡(jiǎn)單的MLP網(wǎng)絡(luò),這種設(shè)計(jì)無(wú)法進(jìn)行復(fù)雜的圖關(guān)系建模,例如GAT和GraphTransformer中的結(jié)構(gòu)學(xué)習(xí)能力。
但AnyGraph在頂層采用了MoE架構(gòu),它的設(shè)計(jì)初衷是通過(guò)多樣化但簡(jiǎn)單的特征變換來(lái)處理總體上復(fù)雜的圖學(xué)習(xí)任務(wù)。通過(guò)集成多個(gè)特征變換MLP,AnyGraph可以成功覆蓋不同的圖數(shù)據(jù)子集,達(dá)到強(qiáng)大的圖預(yù)測(cè)能力。
高效的跨域模型訓(xùn)練
為了最大化AnyGraph的跨圖泛化能力,AnyGraph的訓(xùn)練樣本是由不同數(shù)據(jù)集的訓(xùn)練樣本混合并隨機(jī)排序得到。
每個(gè)批次的訓(xùn)練樣本包含一個(gè)圖、該圖當(dāng)中一個(gè)批次的邊、該圖的預(yù)處理信息(初始節(jié)點(diǎn)表征和分配的最佳專家模型)。
AnyGraph采用廣泛應(yīng)用的邊預(yù)測(cè)任務(wù)作為預(yù)訓(xùn)練任務(wù),使用交叉熵?fù)p失作為優(yōu)化目標(biāo)。在訓(xùn)練過(guò)程中,研究人員會(huì)進(jìn)行定期的特征和結(jié)構(gòu)擴(kuò)充,包括重新進(jìn)行基于SVD的表征初始化、在專家路由時(shí)進(jìn)行結(jié)構(gòu)采樣。
AnyGraph效果如何?
AnyGraph的實(shí)驗(yàn)驗(yàn)證采用了38個(gè)來(lái)自不同應(yīng)用領(lǐng)域的圖數(shù)據(jù)集,包括鏈路預(yù)測(cè)和節(jié)點(diǎn)分類兩個(gè)類別,涵蓋電商場(chǎng)景(用戶的購(gòu)買、瀏覽和評(píng)分行為,商品間的共現(xiàn)關(guān)系),學(xué)術(shù)網(wǎng)絡(luò)(論文的引用關(guān)系及學(xué)者的合作關(guān)系),生物信息網(wǎng)絡(luò)(藥品、蛋白質(zhì)之間的相互影響關(guān)系),以及諸如郵件網(wǎng)絡(luò)、網(wǎng)站之間的鏈接關(guān)系、以及道路網(wǎng)絡(luò)。
為了更好地進(jìn)行跨數(shù)據(jù)集的綜合性評(píng)價(jià),實(shí)驗(yàn)將所有數(shù)據(jù)集劃分為兩個(gè)數(shù)據(jù)集集合Link1和Link2,它們?cè)诳傮w上和單個(gè)領(lǐng)域內(nèi)都具有相近數(shù)量的邊,但各自包含的數(shù)據(jù)集不具有相同來(lái)源和相同的特征構(gòu)建方法。
研究人員使用其中一個(gè)訓(xùn)練模型,并在另一個(gè)集合上進(jìn)行零樣本測(cè)試。此外,所有數(shù)據(jù)集還按照應(yīng)用領(lǐng)域劃分成了電商、學(xué)術(shù)網(wǎng)絡(luò)和其他三種類別,以進(jìn)行更細(xì)致的領(lǐng)域測(cè)試,其他類別主要由生物信息網(wǎng)絡(luò)組成,包含了其他較小的類別。
零樣本預(yù)測(cè)能力
首先進(jìn)行了AnyGraph和基線方法的對(duì)比實(shí)驗(yàn),基線方法包括圖神經(jīng)網(wǎng)絡(luò)、圖預(yù)訓(xùn)練方法、圖提示微調(diào)方法、以及兩種圖基礎(chǔ)模型。
可以觀察到在不同數(shù)據(jù)集上的零樣本預(yù)測(cè)優(yōu)勢(shì)。
此外,圖預(yù)訓(xùn)練和提示微調(diào)方法在跨數(shù)據(jù)集場(chǎng)景下常常表現(xiàn)出更差的效果,這凸顯了跨數(shù)據(jù)、跨場(chǎng)景進(jìn)行預(yù)訓(xùn)練的困難,這樣做很難提取具有通用性的不變特征。
AnyGraph的擴(kuò)展定律
在調(diào)整模型參數(shù)量和訓(xùn)練數(shù)據(jù)量的情況下,實(shí)驗(yàn)測(cè)試了AnyGraph的零樣本和全樣本預(yù)測(cè)性能。
可以觀察到,盡管全樣本預(yù)測(cè)性能很早就出現(xiàn)了收斂,但零樣本預(yù)測(cè)能力卻能夠隨著參數(shù)量和數(shù)據(jù)量的增長(zhǎng)而不斷增長(zhǎng),并出現(xiàn)了一些突變性的增長(zhǎng)。
這體現(xiàn)了AnyGraph的零樣本預(yù)測(cè)能力符合擴(kuò)展定律的特點(diǎn),并提示了它的涌現(xiàn)能力。
研究人員認(rèn)為,這種圖模型的擴(kuò)展定律有兩個(gè)關(guān)鍵因素。
首先,測(cè)試任務(wù)需要具有一定的難度,而全樣本的圖監(jiān)督學(xué)習(xí)任務(wù)過(guò)于容易,模型的擴(kuò)展定律很容易遇到邊際效應(yīng)。
其次,對(duì)于跨場(chǎng)景、跨圖的圖預(yù)測(cè)來(lái)說(shuō),它固有的特征和結(jié)構(gòu)異質(zhì)性問(wèn)題使得MoE這樣的松散模型結(jié)構(gòu)更容易捕捉通用的不變性特征。
此外,研究人員觀測(cè)到當(dāng)訓(xùn)練數(shù)據(jù)總量不足時(shí),引入新的訓(xùn)練數(shù)據(jù)反而可能造成模型效果的下降,這源于訓(xùn)練數(shù)據(jù)具有特別的分布特點(diǎn)、在模型中引入了bias。當(dāng)模型訓(xùn)練數(shù)據(jù)充足時(shí),這一問(wèn)題就自然消解了。
消融實(shí)驗(yàn)
消融實(shí)驗(yàn)驗(yàn)證了AnyGraph的以下關(guān)鍵性設(shè)計(jì):MoE架構(gòu)、對(duì)節(jié)點(diǎn)特征的利用、路由算法中的訓(xùn)練頻率正則、訓(xùn)練過(guò)程中的數(shù)據(jù)擴(kuò)充。
結(jié)果顯示了這些設(shè)計(jì)對(duì)模型的零樣本和全樣本預(yù)測(cè)性能存在顯著的正面影響。
路由算法研究
上圖展示了AnyGraph路由機(jī)制的分配結(jié)果。
可以看到,具有相同來(lái)源(例如ML1M和ML10M)、具有相同特征構(gòu)建方法(例如arxiv-ta、Photo、GReads、Fitness)的數(shù)據(jù)集,通常會(huì)被分配給相同的專家模型,這體現(xiàn)了路由機(jī)制能夠準(zhǔn)確捕捉數(shù)據(jù)集的不同特點(diǎn),分配給不同的專家模型進(jìn)行處理。
效率實(shí)驗(yàn)
為了驗(yàn)證模型的效率和快速適應(yīng)能力,研究人員測(cè)試了AnyGraph在微調(diào)時(shí)的效果增長(zhǎng)曲線,以及固定訓(xùn)練步數(shù)的時(shí)間開(kāi)銷。
可以看到,由于AnyGraph采用了MoE架構(gòu),它僅需要激活小部份的參數(shù)進(jìn)行訓(xùn)練,這極大地減少了模型的訓(xùn)練時(shí)間。
同時(shí),由于AnyGraph出色的零樣本預(yù)測(cè)能力,以及它基于MoE架構(gòu)的快速調(diào)整能力,AnyGraph可以更快、更好地進(jìn)行模型微調(diào)。
項(xiàng)目地址:https://github.com/HKUDS/AnyGraph
論文鏈接:https://arxiv.org/pdf/2408.10700
實(shí)驗(yàn)室主頁(yè):https://sites.google.com/view/chaoh