KDD 2024|港大黃超團(tuán)隊(duì)深度解析大模型在圖機(jī)器學(xué)習(xí)領(lǐng)域的「未知邊界」
本文的主要作者來自香港大學(xué)的數(shù)據(jù)智能實(shí)驗(yàn)室 (Data Intelligence Lab)。作者中,第一作者任旭濱和第二作者湯嘉斌都是香港大學(xué)數(shù)據(jù)科學(xué)院的一年級(jí)博士生,指導(dǎo)老師為 Data Intelligence Lab@HKU 的黃超教授。香港大學(xué)數(shù)據(jù)智能實(shí)驗(yàn)室致力于人工智能和數(shù)據(jù)挖掘的相關(guān)研究,涵蓋大語言模型、圖神經(jīng)網(wǎng)絡(luò)、信息檢索、推薦系統(tǒng)、時(shí)空數(shù)據(jù)挖掘等領(lǐng)域。此前的工作包括了通用圖大語言模型 GraphGPT,HiGPT;智慧城市大語言模型 UrbanGPT;可解釋大語言模型推薦算法 XRec 等。
在信息爆炸的當(dāng)今時(shí)代,我們?nèi)绾螐暮迫鐭熀5臄?shù)據(jù)中探尋深層次的聯(lián)系呢?
對(duì)此,香港大學(xué)、圣母大學(xué)等機(jī)構(gòu)的專家學(xué)者在圖學(xué)習(xí)與大型語言模型領(lǐng)域的最新綜述中,為我們揭示了答案。
圖,作為描繪現(xiàn)實(shí)世界中各種關(guān)系的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),其重要性不言而喻。以往的研究已證明,圖神經(jīng)網(wǎng)絡(luò)在圖相關(guān)的任務(wù)中取得了令人矚目的成果。然而,隨著圖數(shù)據(jù)應(yīng)用場(chǎng)景復(fù)雜度的不斷提升,圖機(jī)器學(xué)習(xí)的瓶頸問題也越發(fā)凸顯。近期,大型語言模型在自然語言處理領(lǐng)域大放異彩,其出色的語言理解和總結(jié)能力備受矚目。正因如此,將大語言模型與圖學(xué)習(xí)技術(shù)相融合,以提升圖學(xué)習(xí)任務(wù)的效能,已成為業(yè)界新的研究熱點(diǎn)。
這篇綜述針對(duì)當(dāng)前圖學(xué)習(xí)領(lǐng)域的關(guān)鍵技術(shù)挑戰(zhàn),如模型泛化能力、魯棒性,以及復(fù)雜圖數(shù)據(jù)的理解能力等,進(jìn)行了深入分析,并展望了未來大模型技術(shù)在突破這些 "未知邊界" 方面的潛力。
- 論文地址:https://arxiv.org/abs/2405.08011
- 項(xiàng)目地址:https://github.com/HKUDS/Awesome-LLM4Graph-Papers
- 港大數(shù)據(jù)智能實(shí)驗(yàn)室:https://sites.google.com/view/chaoh/home
該綜述深入回顧了最新應(yīng)用于圖學(xué)習(xí)中的 LLMs,并提出了一種全新的分類方法,依據(jù)框架設(shè)計(jì)對(duì)現(xiàn)有技術(shù)進(jìn)行了系統(tǒng)分類。其詳盡剖析了四種不同的算法設(shè)計(jì)思路:一是以圖神經(jīng)網(wǎng)絡(luò)為前綴,二是以大語言模型為前綴,三是大語言模型與圖集成,四是僅使用大語言模型。針對(duì)每一類別,我們都著重介紹了其中的核心技術(shù)方法。此外,該綜述還深入探討了各種框架的優(yōu)勢(shì)及其局限性,并指明了未來研究的潛在方向。
香港大學(xué)數(shù)據(jù)智能實(shí)驗(yàn)室的黃超教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì),將在 KDD 2024 大會(huì)上深入探討大模型在圖學(xué)習(xí)領(lǐng)域所面臨的 "未知邊界"。
1 基本知識(shí)
在計(jì)算機(jī)科學(xué)領(lǐng)域,圖(Graph)是一種重要的非線性數(shù)據(jù)結(jié)構(gòu),它由節(jié)點(diǎn)集(V)和邊集(E)構(gòu)成。每條邊連接一對(duì)節(jié)點(diǎn),并可能是有向的(具有明確的起點(diǎn)和終點(diǎn))或無向的(不指定方向)。特別值得一提的是,文本屬性圖(Text-Attributed Graph, TAG)作為圖的特殊形式,為每個(gè)節(jié)點(diǎn)分配了一個(gè)序列化的文本特征,如句子,這一特性在大型語言模型時(shí)代顯得尤為關(guān)鍵。文本屬性圖可以規(guī)范地表示為由節(jié)點(diǎn)集 V、邊集 E 和文本特征集 T 組成的三元組,即 G* = (V, E, T)。
圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNNs)是針對(duì)圖結(jié)構(gòu)數(shù)據(jù)設(shè)計(jì)的深度學(xué)習(xí)框架。它通過聚合鄰近節(jié)點(diǎn)的信息來更新節(jié)點(diǎn)的嵌入表示。具體來說,GNN 的每一層都會(huì)通過特定的函數(shù)來更新節(jié)點(diǎn)嵌入 h,該函數(shù)綜合考慮當(dāng)前節(jié)點(diǎn)的嵌入狀態(tài)以及周邊節(jié)點(diǎn)的嵌入信息,從而生成下一層的節(jié)點(diǎn)嵌入。
大型語言模型(Large Language Models, LLMs)是一種強(qiáng)大的回歸模型。近期研究顯示,包含數(shù)十億參數(shù)的語言模型在解決多種自然語言任務(wù)時(shí)表現(xiàn)卓越,如翻譯、摘要生成和指令執(zhí)行,因而被稱為大型語言模型。目前,大多數(shù)前沿的 LLMs 都基于采用查詢 - 鍵 - 值(QKV)機(jī)制的 Transformer 塊構(gòu)建,該機(jī)制能高效地在詞元序列中整合信息。根據(jù)注意力的應(yīng)用方向和訓(xùn)練方式,語言模型可分為兩大類型:
- 掩碼語言建模(Masked Language Modeling, MLM)是一種廣受歡迎的 LLMs 預(yù)訓(xùn)練目標(biāo)。它涉及在序列中選擇性地掩蓋特定的詞元,并訓(xùn)練模型依據(jù)周邊上下文預(yù)測(cè)這些被掩蓋的詞元。為實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè),模型會(huì)綜合考慮被掩蓋詞元的前后文環(huán)境。
- 因果語言建模(Causal Language Modeling, CLM)是另一種主流的 LLMs 預(yù)訓(xùn)練目標(biāo)。它要求模型根據(jù)序列中先前的詞元預(yù)測(cè)下一個(gè)詞元。在此過程中,模型僅依據(jù)當(dāng)前詞元之前的上下文來進(jìn)行準(zhǔn)確的預(yù)測(cè)。
2 圖學(xué)習(xí)與大語言模型
在這篇綜述文章中,作者依據(jù)模型的推理流程 —— 即圖數(shù)據(jù)、文本數(shù)據(jù)的處理方式以及與大型語言模型(LLMs)的交互方式,提出了一種新的分類方法。具體而言,我們歸納了四種主要的模型架構(gòu)設(shè)計(jì)類型,具體如下:
- GNNs as Prefix(GNNs 作為前綴):在此類別中,圖神經(jīng)網(wǎng)絡(luò)(GNNs)作為首要組件,負(fù)責(zé)處理圖數(shù)據(jù),并為 LLMs 提供具有結(jié)構(gòu)感知的標(biāo)記(如節(jié)點(diǎn)級(jí)、邊級(jí)或圖級(jí)標(biāo)記),以供后續(xù)推理使用。
- LLMs as Prefix(LLMs 作為前綴):在這一類別中,LLMs 首先處理附帶文本信息的圖數(shù)據(jù),隨后為圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練提供節(jié)點(diǎn)嵌入或生成的標(biāo)簽。
- LLMs-Graphs Integration(LLMs 與圖集成):該類別的方法致力于實(shí)現(xiàn) LLMs 與圖數(shù)據(jù)之間更為深入的整合,例如通過融合訓(xùn)練或與 GNNs 的對(duì)齊。此外,還構(gòu)建了基于 LLM 的智能體(agent),以便與圖信息進(jìn)行交互。
- LLMs-Only(僅使用 LLMs):此類別設(shè)計(jì)了實(shí)用的提示技巧,將圖結(jié)構(gòu)化數(shù)據(jù)嵌入到詞元序列中,從而便于 LLMs 進(jìn)行推斷。同時(shí),部分方法還融合了多模態(tài)標(biāo)記,進(jìn)一步豐富了模型的處理能力。
2.1 GNNs as Prefix
在圖神經(jīng)網(wǎng)絡(luò)(GNNs)作為前綴的方法體系中,GNNs 發(fā)揮著結(jié)構(gòu)編碼器的作用,顯著提升了大型語言模型(LLMs)對(duì)圖結(jié)構(gòu)數(shù)據(jù)的解析能力,從而為多種下游任務(wù)帶來益處。這些方法里,GNNs 主要作為編碼器,負(fù)責(zé)將復(fù)雜的圖數(shù)據(jù)轉(zhuǎn)換為包含豐富結(jié)構(gòu)信息的圖 token 序列,這些序列隨后被輸入到 LLMs 中,與自然語言處理流程相契合。
這些方法大體上可分為兩類:首先是節(jié)點(diǎn)級(jí) Token 化,即將圖結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)單獨(dú)輸入到 LLM 中。這一做法的目的是使 LLM 能夠深入理解細(xì)粒度的節(jié)點(diǎn)級(jí)結(jié)構(gòu)信息,并準(zhǔn)確辨別不同節(jié)點(diǎn)間的關(guān)聯(lián)與差異。其次是圖級(jí) Token 化,它采用特定的池化技術(shù)將整個(gè)圖壓縮為固定長(zhǎng)度的 token 序列,旨在捕捉圖結(jié)構(gòu)的整體高級(jí)語義。
對(duì)于節(jié)點(diǎn)級(jí) Token 化而言,它特別適用于需要建模節(jié)點(diǎn)級(jí)別精細(xì)結(jié)構(gòu)信息的圖學(xué)習(xí)任務(wù),如節(jié)點(diǎn)分類和鏈接預(yù)測(cè)。在這些任務(wù)中,模型需要能夠區(qū)分不同節(jié)點(diǎn)間的細(xì)微語義差別。傳統(tǒng)的圖神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)相鄰節(jié)點(diǎn)的信息為每個(gè)節(jié)點(diǎn)生成一個(gè)獨(dú)特的表示,然后基于此進(jìn)行下游的分類或預(yù)測(cè)。節(jié)點(diǎn)級(jí) Token 化方法能夠最大限度地保留每個(gè)節(jié)點(diǎn)的特有結(jié)構(gòu)特征,對(duì)下游任務(wù)的執(zhí)行大有裨益。
另一方面,圖級(jí) Token 化則是為了適應(yīng)那些需要從節(jié)點(diǎn)數(shù)據(jù)中提煉全局信息的圖級(jí)任務(wù)。在 GNN 作為前綴的框架下,通過各種池化操作,圖級(jí) Token 化能夠?qū)⒈姸喙?jié)點(diǎn)表示綜合成一個(gè)統(tǒng)一的圖表示,這樣不僅能夠捕獲圖的全局語義,還能進(jìn)一步提升各類下游任務(wù)的執(zhí)行效果。
2.2 LLMs as Prefix
大語言模型(LLMs)前綴法利用大型語言模型生成的豐富信息來優(yōu)化圖神經(jīng)網(wǎng)絡(luò)(GNNs)的訓(xùn)練過程。這些信息涵蓋了文本內(nèi)容、LLMs 產(chǎn)生的標(biāo)簽或嵌入等多種數(shù)據(jù)。根據(jù)這些信息的應(yīng)用方式,相關(guān)技術(shù)可分為兩大類:一是利用 LLMs 生成的嵌入來助力 GNNs 的訓(xùn)練;二是將 LLMs 生成的標(biāo)簽整合到 GNNs 的訓(xùn)練流程中。
在利用 LLMs 嵌入方面,GNNs 的推理過程涉及節(jié)點(diǎn)嵌入的傳遞與聚合。然而,初始節(jié)點(diǎn)嵌入的質(zhì)量和多樣性在不同領(lǐng)域中差異顯著,例如推薦系統(tǒng)中的 ID 基礎(chǔ)嵌入或引文網(wǎng)絡(luò)中的詞袋模型嵌入,可能缺乏清晰度和豐富性。這種嵌入質(zhì)量的不足有時(shí)會(huì)限制 GNNs 的性能表現(xiàn)。此外,缺乏通用的節(jié)點(diǎn)嵌入設(shè)計(jì)也影響了 GNNs 在處理不同節(jié)點(diǎn)集時(shí)的泛化能力。幸運(yùn)的是,通過借助大型語言模型在語言總結(jié)和建模方面的卓越能力,我們可以為 GNNs 生成富有意義和效果的嵌入,從而提升其訓(xùn)練效果。
在整合 LLMs 標(biāo)簽方面,另一種策略是將這些標(biāo)簽作為監(jiān)督信號(hào),以增強(qiáng) GNNs 的訓(xùn)練效果。值得注意的是,這里的監(jiān)督標(biāo)簽不僅限于傳統(tǒng)的分類標(biāo)簽,還包括嵌入、圖等多種形式。由 LLMs 生成的信息并不直接作為 GNNs 的輸入數(shù)據(jù),而是構(gòu)成了更為精細(xì)的優(yōu)化監(jiān)督信號(hào),從而幫助 GNNs 在各種圖相關(guān)任務(wù)上取得更加卓越的性能。
2.3 LLMs-Graphs Intergration
該類方法進(jìn)一步整合了大型語言模型與圖數(shù)據(jù),涵蓋多樣化的方法論,不僅提升了大型語言模型(LLMs)在圖處理任務(wù)中的能力,同時(shí)也優(yōu)化了圖神經(jīng)網(wǎng)絡(luò)(GNNs)的參數(shù)學(xué)習(xí)。這些方法可被歸納為三種類型:一是 GNNs 與 LLMs 的融合,旨在實(shí)現(xiàn)模型間的深度整合與共同訓(xùn)練;二是 GNNs 與 LLMs 之間的對(duì)齊,專注于兩種模型在表示或任務(wù)層面上的對(duì)齊;三是構(gòu)建基于 LLMs 的自主智能體,以規(guī)劃和執(zhí)行圖相關(guān)任務(wù)。
在 GNNs 與 LLMs 的融合方面,通常 GNNs 專注于處理結(jié)構(gòu)化數(shù)據(jù),而 LLMs 則擅長(zhǎng)處理文本數(shù)據(jù),這導(dǎo)致兩者具有不同的特征空間。為了解決這一問題,并促進(jìn)兩種數(shù)據(jù)模態(tài)對(duì) GNNs 和 LLMs 學(xué)習(xí)的共同增益,一些方法采用對(duì)比學(xué)習(xí)或期望最大化(EM)迭代訓(xùn)練等技術(shù),以對(duì)齊兩個(gè)模型的特征空間。這種做法提升了圖和文本信息的建模精度,從而在各種任務(wù)中提高了性能。
關(guān)于 GNNs 與 LLMs 的對(duì)齊,盡管表示對(duì)齊實(shí)現(xiàn)了兩個(gè)模型的共同優(yōu)化和嵌入級(jí)別的對(duì)齊,但在推理階段它們?nèi)允仟?dú)立的。為了實(shí)現(xiàn) LLMs 和 GNNs 之間更緊密的集成,一些研究聚焦于設(shè)計(jì)更深層次的模塊架構(gòu)融合,例如將 LLMs 中的變換器層與 GNNs 中的圖神經(jīng)層相結(jié)合。通過共同訓(xùn)練 GNNs 和 LLMs,可以在圖任務(wù)中為兩個(gè)模塊帶來雙向的增益。
最后,在基于 LLM 的圖智能體方面,借助 LLMs 在指令理解和自我規(guī)劃解決問題上的出色能力,新的研究方向是構(gòu)建基于 LLMs 的自主智能體,以處理人類給出的或與研究相關(guān)的任務(wù)。通常情況下,這樣的智能體包括記憶、感知和行動(dòng)三個(gè)模塊,形成觀察、記憶回憶和行動(dòng)的循環(huán),用于解決特定任務(wù)。在圖論領(lǐng)域,基于 LLMs 的智能體能夠直接與圖數(shù)據(jù)進(jìn)行交互,執(zhí)行如節(jié)點(diǎn)分類和鏈接預(yù)測(cè)等任務(wù)。
2.4 LLMs-Only
該綜述在 LLMs-Only 的章節(jié)中詳細(xì)闡述了直接將大型語言模型(LLMs)應(yīng)用于各種以圖為導(dǎo)向任務(wù)的情況,即所謂的 “僅 LLMs” 類別。這些方法的目標(biāo)是讓 LLMs 能夠直接接受圖結(jié)構(gòu)信息,理解它,并結(jié)合這些信息對(duì)各種下游任務(wù)進(jìn)行推理。這些方法主要可以分為兩大類:i)無需微調(diào)的方法,旨在設(shè)計(jì) LLMs 能夠理解的提示,直接促使預(yù)訓(xùn)練的 LLMs 執(zhí)行以圖為導(dǎo)向的任務(wù);ii)需要微調(diào)的方法,專注于將圖轉(zhuǎn)換為特定方式的序列,并通過微調(diào)方法對(duì)齊圖 token 序列和自然語言 token 序列。
無需微調(diào)的方法:鑒于圖數(shù)據(jù)獨(dú)特的結(jié)構(gòu)特性,出現(xiàn)了兩個(gè)關(guān)鍵挑戰(zhàn):一是有效地用自然語言格式構(gòu)建圖;二是確定大型語言模型(LLMs)是否能夠準(zhǔn)確理解以語言形式表示的圖結(jié)構(gòu)。為了解決這些問題,一部分研究人員開發(fā)了無需調(diào)整的方法,在純文本空間內(nèi)對(duì)圖進(jìn)行建模和推理,從而探索預(yù)訓(xùn)練 LLMs 在增強(qiáng)結(jié)構(gòu)理解方面的潛力。
需要微調(diào)的方法:由于使用純文本表達(dá)圖結(jié)構(gòu)信息存在局限性,近期的主流方法是在將圖輸入到大型語言模型(LLMs)時(shí),將圖作為節(jié)點(diǎn) token 序列與自然語言 token 序列對(duì)齊。與前述的 GNN 作為前綴的方法不同,需要調(diào)整的僅 LLM 方法放棄了圖編碼器,轉(zhuǎn)而采用特定的文本描述來體現(xiàn)圖結(jié)構(gòu),并且在提示中精心設(shè)計(jì)了 prompts,這在各種下游圖相關(guān)任務(wù)中取得了有希望的表現(xiàn)。
3 未來的研究方向
該綜述還討論了大型語言模型在圖領(lǐng)域的一些開放問題和潛在的未來研究方向:
多模態(tài)圖與大型語言模型(LLMs)的融合。近期研究顯示,大型語言模型在處理和理解圖像、視頻等多模態(tài)數(shù)據(jù)方面表現(xiàn)出非凡能力。這一進(jìn)步為將 LLMs 與包含多種模態(tài)特征的多模態(tài)圖數(shù)據(jù)相結(jié)合提供了新的契機(jī)。研發(fā)能夠處理此類圖數(shù)據(jù)的多模態(tài) LLMs,將使我們?cè)诰C合考慮文本、視覺、聽覺等多種數(shù)據(jù)類型的基礎(chǔ)上,對(duì)圖結(jié)構(gòu)進(jìn)行更為精確和全面的推理。
提升效率與降低計(jì)算成本。目前,LLMs 的訓(xùn)練和推理階段涉及的高昂計(jì)算成本已成為其發(fā)展的重大瓶頸,制約了它們處理包含數(shù)百萬節(jié)點(diǎn)的大規(guī)模圖數(shù)據(jù)的能力。當(dāng)嘗試將 LLMs 與圖神經(jīng)網(wǎng)絡(luò)(GNNs)結(jié)合時(shí),由于兩種強(qiáng)大模型的融合,這一挑戰(zhàn)變得更為嚴(yán)峻。因此,亟待發(fā)現(xiàn)并實(shí)施有效策略,以降低 LLMs 和 GNNs 的訓(xùn)練計(jì)算成本,這不僅有助于緩解當(dāng)前面臨的限制,還將進(jìn)一步拓展 LLMs 在圖相關(guān)任務(wù)中的應(yīng)用范圍,從而提升它們?cè)跀?shù)據(jù)科學(xué)領(lǐng)域的實(shí)用價(jià)值和影響力。
應(yīng)對(duì)多樣化的圖任務(wù)。當(dāng)前的研究方法主要集中在傳統(tǒng)的圖相關(guān)任務(wù)上,例如鏈接預(yù)測(cè)和節(jié)點(diǎn)分類。但考慮到 LLMs 的強(qiáng)大能力,我們有必要深入探索其在處理更為復(fù)雜和生成性任務(wù)方面的潛力,如圖生成、圖理解以及基于圖的問題回答等。通過擴(kuò)展基于 LLM 的方法以涵蓋這些復(fù)雜任務(wù),我們將為 LLMs 在不同領(lǐng)域的應(yīng)用開辟無數(shù)新機(jī)遇。例如,在藥物研發(fā)領(lǐng)域,LLMs 可以促進(jìn)新分子結(jié)構(gòu)的生成;在社交網(wǎng)絡(luò)分析領(lǐng)域,它們可以提供對(duì)復(fù)雜關(guān)系模式的深入洞察;在知識(shí)圖譜構(gòu)建方面,LLMs 則有助于創(chuàng)建更加全面且上下文準(zhǔn)確的知識(shí)庫。
構(gòu)建用戶友好的圖智能體。目前,大多數(shù)為圖相關(guān)任務(wù)設(shè)計(jì)的基于 LLM 的智能體都是針對(duì)單一任務(wù)定制的。這些智能體通常采用單次運(yùn)行模式,旨在一次性解決問題。然而,理想的基于 LLM 的智能體應(yīng)具備用戶友好性,并且能夠動(dòng)態(tài)地在圖數(shù)據(jù)中搜索答案,以響應(yīng)用戶提出的多樣化開放式問題。為實(shí)現(xiàn)這一目標(biāo),我們需要開發(fā)一個(gè)既靈活又穩(wěn)健的智能體,它能夠與用戶進(jìn)行迭代交互,并熟練應(yīng)對(duì)圖數(shù)據(jù)的復(fù)雜性,提供準(zhǔn)確且相關(guān)的答案。這將要求智能體不僅具備高度的適應(yīng)性,還需展現(xiàn)出強(qiáng)大的穩(wěn)健性。
4 總結(jié)
該綜述對(duì)圖數(shù)據(jù)定制的大型語言模型(LLMs)進(jìn)行了深入探討,并提出了基于模型的推理框架設(shè)的分類方法,將不同的模型細(xì)致地劃分為四種各具特色的框架設(shè)計(jì)。每一種設(shè)計(jì)都展現(xiàn)出其獨(dú)特的優(yōu)點(diǎn)與局限性。不僅如此,該綜述還對(duì)這些特性展開了全面的討論,深入挖掘了每一種框架在應(yīng)對(duì)圖數(shù)據(jù)處理任務(wù)時(shí)的潛力和挑戰(zhàn)。此項(xiàng)調(diào)研工作旨在為那些熱衷于探索并應(yīng)用大型語言模型來解決圖相關(guān)問題的研究人員提供參考資源,并且希望最終通過這項(xiàng)工作,推動(dòng)對(duì) LLMs 與圖數(shù)據(jù)結(jié)合應(yīng)用的更深層次理解,進(jìn)一步催生該領(lǐng)域的技術(shù)創(chuàng)新和突破。