偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nav id="ureti"></nav>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

破解三大數(shù)據(jù)庫AI難題！北大＆亞馬遜推出全球首個圖中心RDB基礎(chǔ)模型

2025-06-16 09:10:00

人工智能新聞

北京大學張牧涵團隊聯(lián)合亞馬遜云科技共同提出了Griffin：一個具有開創(chuàng)性的、以圖為中心的RDB基礎(chǔ)模型。

在企業(yè)系統(tǒng)和科學研究中普遍存在、結(jié)構(gòu)復雜的關(guān)系型數(shù)據(jù)庫（Relational DataBase, RDB）場景中，基礎(chǔ)模型的探索仍處于早期階段。

這是因為RDB中的多表交互和異質(zhì)特征，使傳統(tǒng)通用大模型在此類結(jié)構(gòu)化環(huán)境下難以直接發(fā)揮效能。

基于此，北京大學張牧涵團隊聯(lián)合亞馬遜云科技共同提出了Griffin：一個具有開創(chuàng)性的、以圖為中心的RDB基礎(chǔ)模型。

Griffin將RDB視為動態(tài)異質(zhì)圖進行建模與推理，通過在超過1.5億行的表格數(shù)據(jù)上進行預訓練和監(jiān)督微調(diào)，構(gòu)建了一個具備可遷移性與強泛化能力的基礎(chǔ)模型，相關(guān)成果已被國際頂級會議ICML 2025正式接收。

挑戰(zhàn)：復雜的表間關(guān)系及豐富的表內(nèi)語義信息

關(guān)系數(shù)據(jù)庫通過明確的模式（Schema）定義數(shù)據(jù)結(jié)構(gòu)，廣泛服務于金融、電商、科研、物流、政府信息系統(tǒng)等關(guān)鍵領(lǐng)域，是現(xiàn)代信息社會的核心數(shù)字基礎(chǔ)設施。

根據(jù)市場預測，到2028年全球數(shù)據(jù)庫管理系統(tǒng)（DBMS）市場將超過1330億美元。

然而，RDB智能建模所面臨的挑戰(zhàn)極為復雜，集中體現(xiàn)在以下三方面：

拓撲結(jié)構(gòu)高度復雜數(shù)據(jù)以多表形式存儲，并通過主鍵外鍵等約束關(guān)系構(gòu)成復雜的圖結(jié)構(gòu)，傳統(tǒng)單表范式難以捕捉全局上下文。
特征高度異構(gòu)表內(nèi)字段涵蓋文本、數(shù)值、類別、時間序列等多種類型，信息表現(xiàn)形態(tài)各異，模型需具備統(tǒng)一表征能力。
深層次語義關(guān)系表內(nèi)外存在豐富的顯性與隱性邏輯關(guān)系，對模型的關(guān)系理解和推理能力構(gòu)成巨大挑戰(zhàn)。

上圖展示了一個典型的RDB，綠色的Purchase Table記錄了交易數(shù)據(jù)（每一行包括用戶ID、購買的商品ID、用戶對商品的評分、以及購買日期）。而每一行又可通過User ID這一外鍵鏈接到User Table里的對應行，或通過Item ID這一外鍵鏈接到Product Table里的對應行，來獲取用戶或商品的特定信息。

相比普通表格（單表）數(shù)據(jù)，RDB往往具有非常復雜的表間關(guān)系以及豐富的表內(nèi)語義信息，對建模和基礎(chǔ)模型訓練提出了挑戰(zhàn)。同時，社區(qū)長期缺乏能真實反映生產(chǎn)場景的標準化基準。

諸如4DBInfer(arXiv:2404.18209)等數(shù)據(jù)集正緩慢填補空白，為新模型（包括Griffin）提供了統(tǒng)一的評測土壤。

方法：以圖為中心的數(shù)據(jù)庫建模

Griffin的核心思想是將關(guān)系型數(shù)據(jù)庫整體抽象為時序異質(zhì)圖，再在此圖上進行統(tǒng)一的編碼、消息傳遞和解碼，以此捕捉跨表、跨時間的深層依賴。具體來說，它的創(chuàng)新設計可以拆解為以下幾點:

RDB的數(shù)據(jù)建模：結(jié)構(gòu)化圖表示與時序感知

首先，Griffin把每張數(shù)據(jù)表中的一行記錄映射為圖中的一個節(jié)點，而主鍵-外鍵（PK-FK）約束被建模為帶類型的有向邊。這樣，原本分散在多張表中的記錄就組成了一張異質(zhì)圖，其節(jié)點/邊類型天然反映了模式信息。

為了避免未來信息泄漏并符合生產(chǎn)預測任務的因果約束，模型在訓練和推理時會圍繞目標節(jié)點采樣“局部時序子圖”：僅納入時間戳早于目標節(jié)點的鄰域。

該采樣流程借鑒了4DBInfer等基準的成熟做法，可在保證效率的同時顯式注入時間方向。

統(tǒng)一數(shù)據(jù)編碼器：異構(gòu)信息的規(guī)范化表征

RDB中既包含文本/類別字段，也有數(shù)值、時間序列等多模態(tài)特征。Griffin設計了一套統(tǒng)一編碼機制，把不同類型轉(zhuǎn)換為同一語義空間中的向量：

類別&文本：先將類別值映射為其自然語言描述，再同原生文本一起輸入經(jīng)過預訓練的文本編碼器（如Nomic Embeddings），得到語義豐富的高維嵌入。
數(shù)值：歸一化后的數(shù)值輸入給預訓練的浮點編碼器（ENC）。ENC與其配對的解碼器DEC通過聯(lián)合重構(gòu)任務訓練：編碼后必須能夠無損地解碼回原始浮點值，重構(gòu)誤差被最小化后這兩個組件參數(shù)即被凍結(jié)。
元數(shù)據(jù)&任務上下文：表名、列名以及邊類型被同樣送入文本編碼器；同時，根據(jù)當前預測目標列名生成的任務描述會在后續(xù)所有層次參與注意力計算，指導模型聚焦目標。

經(jīng)過上述步驟，原始多態(tài)信息被規(guī)范化為一組高語義的向量，為后續(xù)圖消息傳遞奠定基礎(chǔ)。

先進MPNN架構(gòu)：深度關(guān)系推理網(wǎng)絡

統(tǒng)一編碼后的圖被送入Griffin定制的Message Passing Neural Network (MPNN)，其核心由兩個互補模塊構(gòu)成：

交叉注意力（Cross-Attention）列內(nèi)聚合：對每個節(jié)點，模型利用當前節(jié)點嵌入和任務嵌入生成查詢向量，與列元數(shù)據(jù)和列特征進行交互，動態(tài)評估不同列對當前任務的重要性并加權(quán)聚合。該設計天然滿足列置換不變性，且可處理列數(shù)可變的表。

層級聚合（Hierarchical Aggregation）跨表推理：在消息傳遞的每一層，先對同一邊類型的鄰居消息做均值聚合，再在不同邊類型間做最大池化。這種兩階段層級策略提升了模型在處理具有復雜拓撲結(jié)構(gòu)和多變鄰居數(shù)量的表間關(guān)聯(lián)時的穩(wěn)定性。

通過多層迭代，MPNN能夠捕獲從近鄰到遠程的復合依賴，為下游任務提供信息豐富的節(jié)點表征。

統(tǒng)一任務解碼器：多任務輸出的一體化方案

MPNN輸出的節(jié)點向量隨后進入統(tǒng)一解碼器，使Griffin能夠在不改動架構(gòu)的前提下同時處理多種預測任務。

分類任務：把候選類別標簽本身的文本嵌入當作可學習的動態(tài)分類頭，與節(jié)點向量做內(nèi)積得到概率分布,能夠拓展到可變類比數(shù)量的任務。

回歸任務：直接將節(jié)點向量輸入預訓練DEC，反解得到最終的預測數(shù)值。

訓練：三階段優(yōu)化方案

Griffin通過“自監(jiān)督預訓練→聯(lián)合監(jiān)督微調(diào)→下游任務微調(diào)”的三級管線，逐步注入從通用表格語義到特定RDB任務知識的能力層次。

第一階段：補全預訓練(Completion Pretraining)

Griffin首先在海量且多樣化的單表數(shù)據(jù)集上進行自監(jiān)督學習，任務形式類似“完形填空”。模型根據(jù)一行數(shù)據(jù)中已知列信息來預測被遮蔽單元的嵌入表示，并最小化預測嵌入與真實嵌入間的余弦距離，從而建立對表格結(jié)構(gòu)與語義的基礎(chǔ)理解。

第二階段：聯(lián)合監(jiān)督微調(diào)(Joint Supervised Fine-Tuning, SFT)

在完成自監(jiān)督預訓練后，Griffin使用單表任務或RDB任務的數(shù)據(jù)集進行監(jiān)督微調(diào)，使模型進一步貼合真實場景中的預測需求與數(shù)據(jù)特性。

第三階段：下游任務微調(diào)(Downstream Task Fine-Tuning)

最后，經(jīng)過預訓練和SFT的Griffin會針對具體下游RDB基準任務進行精細化微調(diào)，以在特定應用場景中取得最佳性能。

驗證：三階段訓練的優(yōu)越性

為全面評估各訓練階段對模型性能的具體貢獻，對Griffin的三個關(guān)鍵變體進行深入分析：Griffin-unpretrained（僅采用Griffin的基礎(chǔ)架構(gòu)，未經(jīng)任何預訓練）、Griffin-pretrained（僅進行單表預訓練及單表SFT）以及Griffin-RDB-SFT（經(jīng)歷完整的三階段訓練流程）。

上圖比較了四個 GNN 基線模型、四個使用 DFS 的單表基線模型以及兩個 Griffin 變體的性能，每個模型均在單個任務上進行了微調(diào)。

最左側(cè)的子圖展示了所有任務上的平均排名，其余子圖按評估指標對任務進行分組，結(jié)果相應地進行了平均。

通過系統(tǒng)實驗驗證了Griffin在架構(gòu)設計和預訓練策略上的有效性，發(fā)現(xiàn)Griffin在多個RDB基準測試（如4DBInfer和RelBench）中表現(xiàn)優(yōu)異，并進一步分析了其在少樣本場景下的跨任務遷移能力與數(shù)據(jù)領(lǐng)域間關(guān)系的影響。

Griffin的核心優(yōu)勢可歸納為以下三點：

1.強大的基礎(chǔ)架構(gòu)性能

即便完全未預訓練（Griffin-unpretrained），憑借統(tǒng)一編碼、交叉注意力和層級化MPNN等設計，模型在各下游RDB任務微調(diào)后的表現(xiàn)仍優(yōu)于GNN基線方法及結(jié)合深度特征合成（DFS）的傳統(tǒng)單表模型，體現(xiàn)了架構(gòu)本身的先進性。

2.單表預訓練的普適性增益

僅在大規(guī)模、多樣化單表數(shù)據(jù)上完成預訓練的Griffin-pretrained，相較未預訓練版本取得性能提升，驗證單表場景中學習到的知識可遷移至復雜的RDB任務，增強模型泛化能力。

3.RDB-SFT驅(qū)動的遷移

當進一步在針對性RDB數(shù)據(jù)上進行監(jiān)督微調(diào)（Griffin-RDB-SFT）后，模型在一定情況下展現(xiàn)出跨任務遷移能力，尤其在小樣本場景下更為突出，取決于以下2個因素：

數(shù)據(jù)相似性：SFT數(shù)據(jù)與目標任務領(lǐng)域具有較高相似性（例如，同為電商領(lǐng)域的跨任務遷移），模型性能將獲得提升；
數(shù)據(jù)多樣性：在更多樣化的SFT數(shù)據(jù)上訓練（例如，使用包含體育、社交、醫(yī)療等多個其他領(lǐng)域的混合數(shù)據(jù)進行SFT，再遷移至電商領(lǐng)域任務），同樣能有效提升模型性能。

論文鏈接：https://arxiv.org/abs/2505.05568代碼鏈接：https://github.com/yanxwb/griffin

責任編輯：張燕妮來源：量子位

模型數(shù)據(jù)庫 AI

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<li id="vf0oy"><option id="vf0oy"></option></li>

<del id="vf0oy"></del>

<ruby id="vf0oy"><font id="vf0oy"></font></ruby>