多模態(tài)文檔類“GraphRAG”框架實(shí)現(xiàn)思路-LAD-RAG框架 原創(chuàng)
下面再看一個(gè)思路,圍繞解決在視覺豐富文檔(VRDs,如含圖表、多頁報(bào)告、幻燈片的PDF)理解的缺陷:
- 丟失布局與結(jié)構(gòu)上下文:傳統(tǒng)RAG將文檔拆分為孤立塊(如段落)嵌入,忽略跨頁依賴(如“章節(jié)標(biāo)題-后續(xù)內(nèi)容”關(guān)聯(lián))和布局層級(如“圖表-標(biāo)題-注釋”的視覺關(guān)聯(lián)),易漏檢關(guān)鍵證據(jù)。
- 過度依賴語義嵌入:僅通過文本/圖像嵌入的相似度檢索,無法處理依賴符號/結(jié)構(gòu)線索的查詢(如“統(tǒng)計(jì)所有源自Pew研究中心的圖表”)——這類查詢需聚合“圖表類型+來源標(biāo)注”等顯式結(jié)構(gòu)信息,而嵌入無法捕捉此類細(xì)節(jié)。
- top-k檢索:固定檢索數(shù)量(如top-5/10),不適應(yīng)查詢復(fù)雜度(例:“介紹3個(gè)組織”僅需3頁,“統(tǒng)計(jì)荷蘭位置圖片”需12頁),導(dǎo)致“證據(jù)不足”或“噪聲過多”。
LAD-RAG 通過以下方式解決傳統(tǒng) RAG 在VRD 中的三個(gè)關(guān)鍵局限性:

二、LAD-RAG框架

LAD-RAG 框架流程:在信息攝取階段,大型視覺語言模型從每頁文檔中提取要素并編碼至索引系統(tǒng),同時(shí)構(gòu)建捕獲頁面間與頁面內(nèi)關(guān)聯(lián)的文檔關(guān)系圖以支持符號檢索。在推理階段,智能體解析問題并循環(huán)交互神經(jīng)網(wǎng)絡(luò)索引與文檔關(guān)系圖,從而檢索相關(guān)證據(jù),實(shí)現(xiàn)問題感知與結(jié)構(gòu)感知的雙重檢索機(jī)制。左:攝入階段構(gòu)建雙索引;右:推理階段LLM智能體動(dòng)態(tài)檢索
2.1、第一階段:Ingestion
攝入階段的目標(biāo)是通過“視覺語言模型(LVLM)+運(yùn)行內(nèi)存”構(gòu)建包含布局結(jié)構(gòu)和跨頁依賴的文檔表示,最終輸出“符號文檔圖”和“索引”。
2.1.1 核心步驟1:文檔元素提取與Running Memory維護(hù)
為捕捉跨頁上下文,LAD-RAG模擬人類閱讀習(xí)慣(逐頁理解+記憶累積),分兩步處理文檔:
- 文檔逐頁元素提取:使用GPT-4o(強(qiáng)視覺語言模型)逐頁解析VRD,提取頁面中所有本地化元素(如段落、圖表、表格、章節(jié)標(biāo)題、腳注),并為每個(gè)元素生成“自包含描述”(用于后續(xù)節(jié)點(diǎn)構(gòu)建)。
每個(gè)元素需包含5類關(guān)鍵信息(為后續(xù)符號圖節(jié)點(diǎn)屬性做準(zhǔn)備):
- 布局位置(如“左上”“頁腳”);
- 元素類型(如“figure”“section_header”);
- 顯示內(nèi)容(文本、圖表數(shù)據(jù)、表格數(shù)值);
- 自包含摘要(脫離上下文也可理解的描述,如“2023年美國移民意愿柱狀圖,對比公眾與拉丁裔群體”);
- 視覺屬性(字體、顏色、大?。?。
- Running Memory(M)累積跨頁信息
維護(hù)一個(gè)“動(dòng)態(tài)記憶庫”,類似人類閱讀時(shí)的“持續(xù)理解”,逐頁累積三類高-level信息:
- 章節(jié)結(jié)構(gòu)(如“1. 引言 → 1.1 研究背景”的層級);
- 實(shí)體提及(如反復(fù)出現(xiàn)的“Pew研究中心”“大數(shù)據(jù)轉(zhuǎn)型案例”);
- 主題進(jìn)展(如“從‘問題提出’到‘案例分析’的邏輯流”)。
當(dāng)處理新頁面時(shí),通過內(nèi)存關(guān)聯(lián)新元素與歷史信息(如“新圖表屬于第2章案例分析”),為后續(xù)跨頁邊的構(gòu)建提供依據(jù)。
2.1.2 核心步驟2:構(gòu)建符號文檔圖(G)
符號文檔圖是將文檔的“結(jié)構(gòu)與布局關(guān)系"圖的構(gòu)成如下:
組成 | 具體設(shè)計(jì) | 作用 |
節(jié)點(diǎn)(Nodes) | 每個(gè)節(jié)點(diǎn)對應(yīng)1個(gè)頁面元素(如1個(gè)圖表、1個(gè)段落),屬性即3.1中提取的“布局位置、元素類型、摘要”等信息 | 實(shí)現(xiàn)“細(xì)粒度檢索”(如僅檢索所有“figure”節(jié)點(diǎn)) |
邊(Edges) | 連接節(jié)點(diǎn)的兩類關(guān)系: | 捕捉跨元素/跨頁依賴,支持“結(jié)構(gòu)化檢索”(如“找到附錄A的所有延續(xù)頁面”) |
邊的構(gòu)建依賴“運(yùn)行內(nèi)存”——例如,內(nèi)存中記錄“第22頁‘附錄A’是章節(jié)層級的葉子節(jié)點(diǎn)”,處理第23頁時(shí),通過內(nèi)存識別“第23頁內(nèi)容是附錄A的延續(xù)”,并建立“第22頁附錄節(jié)點(diǎn)→第23頁附錄節(jié)點(diǎn)”的“continues”邊。
2.1.3 核心步驟3:神經(jīng)-符號雙索引存儲(chǔ)
攝入階段的最終輸出是兩類互補(bǔ)索引,為推理階段的多模態(tài)檢索提供基礎(chǔ):
- 符號索引(G):即完整的文檔圖對象,存儲(chǔ)節(jié)點(diǎn)/邊的顯式結(jié)構(gòu)屬性(如“元素類型=figure”“邊類型=continues”),支持“基于規(guī)則的結(jié)構(gòu)化查詢”(如“篩選所有屬于第3章且引用圖表的段落”)。
- 神經(jīng)索引(E):對所有節(jié)點(diǎn)的“自包含摘要”進(jìn)行向量嵌入(如用E5/BGE模型),構(gòu)建向量數(shù)據(jù)庫,支持“基于語義相似度的檢索”(如“找到與‘大數(shù)據(jù)轉(zhuǎn)型案例’語義相似的節(jié)點(diǎn)”)。
雙索引避免傳統(tǒng)RAG僅依賴嵌入的局限,也避免純符號檢索缺乏語義理解的問題。
相關(guān)提示詞:

用于提取文檔圖結(jié)點(diǎn)的提示。

用于跨文檔頁面構(gòu)建和更新運(yùn)行記憶的提示。

用于文檔圖譜構(gòu)建的攝取過程中所使用的提示
2.2、第二階段:推理——LLM智能體動(dòng)態(tài)檢索證據(jù)
推理階段的目標(biāo)是通過LLM智能體(仍基于GPT-4o)動(dòng)態(tài)交互雙索引,根據(jù)查詢需求自適應(yīng)選擇檢索策略,直到收集到“完整且低噪聲”的證據(jù)。
這里文章核心的介紹了LLM智能體與三大檢索工具。
智能體的核心能力是“理解查詢需求→選擇檢索工具→迭代優(yōu)化證據(jù)集”,其可調(diào)用三類工具(對應(yīng)不同檢索場景):
工具名稱 | 功能 | 適用場景 |
NeuroSemanticSearch | 向神經(jīng)索引(E)發(fā)送查詢,返回語義相似度最高的節(jié)點(diǎn)(如“檢索‘大數(shù)據(jù)轉(zhuǎn)型案例’相關(guān)節(jié)點(diǎn)”) | 查詢依賴語義理解(無顯式結(jié)構(gòu)要求) |
SymbolicGraphQuery | 向符號索引(G)發(fā)送結(jié)構(gòu)化查詢,篩選符合屬性/關(guān)系的節(jié)點(diǎn)(如“篩選所有‘type=figure’且‘屬于第2章’的節(jié)點(diǎn)”) | 查詢依賴結(jié)構(gòu)/符號線索(如“統(tǒng)計(jì)特定來源的圖表數(shù)量”) |
Contextualize | 輸入1個(gè)節(jié)點(diǎn),基于文檔圖的“社區(qū)檢測”(Louvain算法)擴(kuò)展其“結(jié)構(gòu)鄰近節(jié)點(diǎn)”(如“輸入‘附錄A’節(jié)點(diǎn),擴(kuò)展所有屬于同一社區(qū)的附錄延續(xù)節(jié)點(diǎn)”) | 需補(bǔ)充節(jié)點(diǎn)的上下文(如“找到與目標(biāo)節(jié)點(diǎn)相關(guān)的所有章節(jié)內(nèi)容”) |
社區(qū)檢測細(xì)節(jié):Louvain算法會(huì)將文檔圖中“結(jié)構(gòu)/語義高度關(guān)聯(lián)的節(jié)點(diǎn)”聚類為“社區(qū)”(如“第3章的所有圖表+段落+標(biāo)題”構(gòu)成一個(gè)社區(qū)),Contextualize工具通過調(diào)用社區(qū)信息,快速擴(kuò)展出“完整的上下文證據(jù)”,避免漏檢。

這一階段提示詞
實(shí)驗(yàn)性能

各模型在不同檢索類型(經(jīng) topk 調(diào)整:證據(jù)數(shù)量與 LAD-RAG 相同)及 top-k 下的準(zhǔn)確率得分。 單/多參考分別指需要單頁或多頁證據(jù)的問題。

案例研究顯示,LAD-RAG 成功檢索出所有對比普通大眾與拉丁裔/西班牙裔群體的圖表。傳統(tǒng)語 義檢索器不僅遺漏大量相關(guān)圖表,還會(huì)混入無關(guān)內(nèi)容,而 LAD-RAG 則動(dòng)態(tài)選擇符號檢索方案:先篩選 所有圖形結(jié)點(diǎn),再利用周邊布局進(jìn)行語境化分析,最終判定是否符合查詢要求。這種基于圖譜引導(dǎo)的多步 驟流程實(shí)現(xiàn)了精準(zhǔn)且完備的證據(jù)收集。

案例研究展示 LAD-RAG 檢索多頁參考文獻(xiàn)的過程。當(dāng)語義搜索僅能定位參考文獻(xiàn)首頁時(shí),因語義 重疊較弱而遺漏后續(xù)內(nèi)容,LAD-RAG 動(dòng)態(tài)切換至基于圖形的上下文關(guān)聯(lián)技術(shù),成功恢復(fù)所有結(jié)構(gòu)相關(guān) 的結(jié)點(diǎn),實(shí)現(xiàn)完整證據(jù)覆蓋。

MMLongBench-Doc 問答準(zhǔn)確率細(xì)分。

在 LongDocURL 上的問答準(zhǔn)確率細(xì)分
參考文獻(xiàn):LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding,https://arxiv.org/pdf/2510.07233v1
本文轉(zhuǎn)載自????大模型自然語言處理?? 作者:余俊暉

















