破解三大數(shù)據(jù)庫AI難題!北大&亞馬遜推出全球首個(gè)圖中心RDB基礎(chǔ)模型
在企業(yè)系統(tǒng)和科學(xué)研究中普遍存在、結(jié)構(gòu)復(fù)雜的關(guān)系型數(shù)據(jù)庫(Relational DataBase, RDB)場景中,基礎(chǔ)模型的探索仍處于早期階段。
這是因?yàn)镽DB中的多表交互和異質(zhì)特征,使傳統(tǒng)通用大模型在此類結(jié)構(gòu)化環(huán)境下難以直接發(fā)揮效能。
基于此,北京大學(xué)張牧涵團(tuán)隊(duì)聯(lián)合亞馬遜云科技共同提出了Griffin:一個(gè)具有開創(chuàng)性的、以圖為中心的RDB基礎(chǔ)模型。
Griffin將RDB視為動(dòng)態(tài)異質(zhì)圖進(jìn)行建模與推理,通過在超過1.5億行的表格數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練和監(jiān)督微調(diào),構(gòu)建了一個(gè)具備可遷移性與強(qiáng)泛化能力的基礎(chǔ)模型,相關(guān)成果已被國際頂級(jí)會(huì)議ICML 2025正式接收。
挑戰(zhàn):復(fù)雜的表間關(guān)系及豐富的表內(nèi)語義信息
關(guān)系數(shù)據(jù)庫通過明確的模式(Schema)定義數(shù)據(jù)結(jié)構(gòu),廣泛服務(wù)于金融、電商、科研、物流、政府信息系統(tǒng)等關(guān)鍵領(lǐng)域,是現(xiàn)代信息社會(huì)的核心數(shù)字基礎(chǔ)設(shè)施。
根據(jù)市場預(yù)測,到2028年全球數(shù)據(jù)庫管理系統(tǒng)(DBMS)市場將超過1330億美元。
然而,RDB智能建模所面臨的挑戰(zhàn)極為復(fù)雜,集中體現(xiàn)在以下三方面:
- 拓?fù)浣Y(jié)構(gòu)高度復(fù)雜數(shù)據(jù)以多表形式存儲(chǔ),并通過主鍵外鍵等約束關(guān)系構(gòu)成復(fù)雜的圖結(jié)構(gòu),傳統(tǒng)單表范式難以捕捉全局上下文。
- 特征高度異構(gòu)表內(nèi)字段涵蓋文本、數(shù)值、類別、時(shí)間序列等多種類型,信息表現(xiàn)形態(tài)各異,模型需具備統(tǒng)一表征能力。
- 深層次語義關(guān)系表內(nèi)外存在豐富的顯性與隱性邏輯關(guān)系,對模型的關(guān)系理解和推理能力構(gòu)成巨大挑戰(zhàn)。
上圖展示了一個(gè)典型的RDB,綠色的Purchase Table記錄了交易數(shù)據(jù)(每一行包括用戶ID、購買的商品ID、用戶對商品的評(píng)分、以及購買日期)。而每一行又可通過User ID這一外鍵鏈接到User Table里的對應(yīng)行,或通過Item ID這一外鍵鏈接到Product Table里的對應(yīng)行,來獲取用戶或商品的特定信息。
相比普通表格(單表)數(shù)據(jù),RDB往往具有非常復(fù)雜的表間關(guān)系以及豐富的表內(nèi)語義信息,對建模和基礎(chǔ)模型訓(xùn)練提出了挑戰(zhàn)。同時(shí),社區(qū)長期缺乏能真實(shí)反映生產(chǎn)場景的標(biāo)準(zhǔn)化基準(zhǔn)。
諸如4DBInfer(arXiv:2404.18209)等數(shù)據(jù)集正緩慢填補(bǔ)空白,為新模型(包括Griffin)提供了統(tǒng)一的評(píng)測土壤。
方法:以圖為中心的數(shù)據(jù)庫建模
Griffin的核心思想是將關(guān)系型數(shù)據(jù)庫整體抽象為時(shí)序異質(zhì)圖,再在此圖上進(jìn)行統(tǒng)一的編碼、消息傳遞和解碼,以此捕捉跨表、跨時(shí)間的深層依賴。具體來說,它的創(chuàng)新設(shè)計(jì)可以拆解為以下幾點(diǎn):
RDB的數(shù)據(jù)建模:結(jié)構(gòu)化圖表示與時(shí)序感知
首先,Griffin把每張數(shù)據(jù)表中的一行記錄映射為圖中的一個(gè)節(jié)點(diǎn),而主鍵-外鍵(PK-FK)約束被建模為帶類型的有向邊。這樣,原本分散在多張表中的記錄就組成了一張異質(zhì)圖,其節(jié)點(diǎn)/邊類型天然反映了模式信息。
為了避免未來信息泄漏并符合生產(chǎn)預(yù)測任務(wù)的因果約束,模型在訓(xùn)練和推理時(shí)會(huì)圍繞目標(biāo)節(jié)點(diǎn)采樣“局部時(shí)序子圖”:僅納入時(shí)間戳早于目標(biāo)節(jié)點(diǎn)的鄰域。
該采樣流程借鑒了4DBInfer等基準(zhǔn)的成熟做法,可在保證效率的同時(shí)顯式注入時(shí)間方向。
統(tǒng)一數(shù)據(jù)編碼器:異構(gòu)信息的規(guī)范化表征
RDB中既包含文本/類別字段,也有數(shù)值、時(shí)間序列等多模態(tài)特征。Griffin設(shè)計(jì)了一套統(tǒng)一編碼機(jī)制,把不同類型轉(zhuǎn)換為同一語義空間中的向量:
- 類別&文本:先將類別值映射為其自然語言描述,再同原生文本一起輸入經(jīng)過預(yù)訓(xùn)練的文本編碼器(如Nomic Embeddings),得到語義豐富的高維嵌入。
- 數(shù)值:歸一化后的數(shù)值輸入給預(yù)訓(xùn)練的浮點(diǎn)編碼器(ENC)。ENC與其配對的解碼器DEC通過聯(lián)合重構(gòu)任務(wù)訓(xùn)練:編碼后必須能夠無損地解碼回原始浮點(diǎn)值,重構(gòu)誤差被最小化后這兩個(gè)組件參數(shù)即被凍結(jié)。
- 元數(shù)據(jù)&任務(wù)上下文:表名、列名以及邊類型被同樣送入文本編碼器;同時(shí),根據(jù)當(dāng)前預(yù)測目標(biāo)列名生成的任務(wù)描述會(huì)在后續(xù)所有層次參與注意力計(jì)算,指導(dǎo)模型聚焦目標(biāo)。
經(jīng)過上述步驟,原始多態(tài)信息被規(guī)范化為一組高語義的向量,為后續(xù)圖消息傳遞奠定基礎(chǔ)。
先進(jìn)MPNN架構(gòu):深度關(guān)系推理網(wǎng)絡(luò)
統(tǒng)一編碼后的圖被送入Griffin定制的Message Passing Neural Network (MPNN),其核心由兩個(gè)互補(bǔ)模塊構(gòu)成:
交叉注意力(Cross-Attention)列內(nèi)聚合:對每個(gè)節(jié)點(diǎn),模型利用當(dāng)前節(jié)點(diǎn)嵌入和任務(wù)嵌入生成查詢向量,與列元數(shù)據(jù)和列特征進(jìn)行交互,動(dòng)態(tài)評(píng)估不同列對當(dāng)前任務(wù)的重要性并加權(quán)聚合。該設(shè)計(jì)天然滿足列置換不變性,且可處理列數(shù)可變的表。
層級(jí)聚合(Hierarchical Aggregation)跨表推理:在消息傳遞的每一層,先對同一邊類型的鄰居消息做均值聚合,再在不同邊類型間做最大池化。這種兩階段層級(jí)策略提升了模型在處理具有復(fù)雜拓?fù)浣Y(jié)構(gòu)和多變鄰居數(shù)量的表間關(guān)聯(lián)時(shí)的穩(wěn)定性。
通過多層迭代,MPNN能夠捕獲從近鄰到遠(yuǎn)程的復(fù)合依賴,為下游任務(wù)提供信息豐富的節(jié)點(diǎn)表征。
統(tǒng)一任務(wù)解碼器:多任務(wù)輸出的一體化方案
MPNN輸出的節(jié)點(diǎn)向量隨后進(jìn)入統(tǒng)一解碼器,使Griffin能夠在不改動(dòng)架構(gòu)的前提下同時(shí)處理多種預(yù)測任務(wù)。
分類任務(wù):把候選類別標(biāo)簽本身的文本嵌入當(dāng)作可學(xué)習(xí)的動(dòng)態(tài)分類頭,與節(jié)點(diǎn)向量做內(nèi)積得到概率分布,能夠拓展到可變類比數(shù)量的任務(wù)。
回歸任務(wù):直接將節(jié)點(diǎn)向量輸入預(yù)訓(xùn)練DEC,反解得到最終的預(yù)測數(shù)值。
訓(xùn)練:三階段優(yōu)化方案
Griffin通過“自監(jiān)督預(yù)訓(xùn)練→聯(lián)合監(jiān)督微調(diào)→下游任務(wù)微調(diào)”的三級(jí)管線,逐步注入從通用表格語義到特定RDB任務(wù)知識(shí)的能力層次。
第一階段:補(bǔ)全預(yù)訓(xùn)練(Completion Pretraining)
Griffin首先在海量且多樣化的單表數(shù)據(jù)集上進(jìn)行自監(jiān)督學(xué)習(xí),任務(wù)形式類似“完形填空”。模型根據(jù)一行數(shù)據(jù)中已知列信息來預(yù)測被遮蔽單元的嵌入表示,并最小化預(yù)測嵌入與真實(shí)嵌入間的余弦距離,從而建立對表格結(jié)構(gòu)與語義的基礎(chǔ)理解。
第二階段:聯(lián)合監(jiān)督微調(diào)(Joint Supervised Fine-Tuning, SFT)
在完成自監(jiān)督預(yù)訓(xùn)練后,Griffin使用單表任務(wù)或RDB任務(wù)的數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào),使模型進(jìn)一步貼合真實(shí)場景中的預(yù)測需求與數(shù)據(jù)特性。
第三階段:下游任務(wù)微調(diào)(Downstream Task Fine-Tuning)
最后,經(jīng)過預(yù)訓(xùn)練和SFT的Griffin會(huì)針對具體下游RDB基準(zhǔn)任務(wù)進(jìn)行精細(xì)化微調(diào),以在特定應(yīng)用場景中取得最佳性能。
驗(yàn)證:三階段訓(xùn)練的優(yōu)越性
為全面評(píng)估各訓(xùn)練階段對模型性能的具體貢獻(xiàn),對Griffin的三個(gè)關(guān)鍵變體進(jìn)行深入分析:Griffin-unpretrained(僅采用Griffin的基礎(chǔ)架構(gòu),未經(jīng)任何預(yù)訓(xùn)練)、Griffin-pretrained(僅進(jìn)行單表預(yù)訓(xùn)練及單表SFT)以及Griffin-RDB-SFT(經(jīng)歷完整的三階段訓(xùn)練流程)。
上圖比較了四個(gè) GNN 基線模型、四個(gè)使用 DFS 的單表基線模型以及兩個(gè) Griffin 變體的性能,每個(gè)模型均在單個(gè)任務(wù)上進(jìn)行了微調(diào)。
最左側(cè)的子圖展示了所有任務(wù)上的平均排名,其余子圖按評(píng)估指標(biāo)對任務(wù)進(jìn)行分組,結(jié)果相應(yīng)地進(jìn)行了平均。
通過系統(tǒng)實(shí)驗(yàn)驗(yàn)證了Griffin在架構(gòu)設(shè)計(jì)和預(yù)訓(xùn)練策略上的有效性,發(fā)現(xiàn)Griffin在多個(gè)RDB基準(zhǔn)測試(如4DBInfer和RelBench)中表現(xiàn)優(yōu)異,并進(jìn)一步分析了其在少樣本場景下的跨任務(wù)遷移能力與數(shù)據(jù)領(lǐng)域間關(guān)系的影響。
Griffin的核心優(yōu)勢可歸納為以下三點(diǎn):
1.強(qiáng)大的基礎(chǔ)架構(gòu)性能
即便完全未預(yù)訓(xùn)練(Griffin-unpretrained),憑借統(tǒng)一編碼、交叉注意力和層級(jí)化MPNN等設(shè)計(jì),模型在各下游RDB任務(wù)微調(diào)后的表現(xiàn)仍優(yōu)于GNN基線方法及結(jié)合深度特征合成(DFS)的傳統(tǒng)單表模型,體現(xiàn)了架構(gòu)本身的先進(jìn)性。
2.單表預(yù)訓(xùn)練的普適性增益
僅在大規(guī)模、多樣化單表數(shù)據(jù)上完成預(yù)訓(xùn)練的Griffin-pretrained,相較未預(yù)訓(xùn)練版本取得性能提升,驗(yàn)證單表場景中學(xué)習(xí)到的知識(shí)可遷移至復(fù)雜的RDB任務(wù),增強(qiáng)模型泛化能力。
3.RDB-SFT驅(qū)動(dòng)的遷移
當(dāng)進(jìn)一步在針對性RDB數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)(Griffin-RDB-SFT)后,模型在一定情況下展現(xiàn)出跨任務(wù)遷移能力,尤其在小樣本場景下更為突出,取決于以下2個(gè)因素:
- 數(shù)據(jù)相似性:SFT數(shù)據(jù)與目標(biāo)任務(wù)領(lǐng)域具有較高相似性(例如,同為電商領(lǐng)域的跨任務(wù)遷移),模型性能將獲得提升;
- 數(shù)據(jù)多樣性:在更多樣化的SFT數(shù)據(jù)上訓(xùn)練(例如,使用包含體育、社交、醫(yī)療等多個(gè)其他領(lǐng)域的混合數(shù)據(jù)進(jìn)行SFT,再遷移至電商領(lǐng)域任務(wù)),同樣能有效提升模型性能。
論文鏈接:https://arxiv.org/abs/2505.05568代碼鏈接:https://github.com/yanxwb/griffin