E2GraphRAG:圖結(jié)構(gòu) RAG 的效率 “加速器”

大家好,我是肆〇柒。大型語言模型(LLM)在自然語言處理(NLP)任務(wù)中廣泛應(yīng)用,但存在幻覺問題和領(lǐng)域知識缺乏等局限性。檢索增強生成(RAG)技術(shù)通過整合外部知識源,與 LLM 的上下文學(xué)習(xí)能力,展現(xiàn)出緩解這些問題的潛力。RAG 技術(shù)在開放域問答、知識密集型 NLP 任務(wù)和長文檔理解等領(lǐng)域具有重要應(yīng)用價值,能夠顯著提升模型的回答準(zhǔn)確性和可靠性。
現(xiàn)有圖結(jié)構(gòu) RAG 方法的不足
現(xiàn)有圖結(jié)構(gòu) RAG 方法(如 GraphRAG、RAPTOR、LightRAG 等)雖具優(yōu)勢,但存在明顯問題。GraphRAG 作為首個從原始文本自動構(gòu)建知識圖并支持全局查詢的方法,因頻繁調(diào)用 LLM 導(dǎo)致索引階段成本高昂、延遲顯著。在實際應(yīng)用中,GraphRAG 處理一本 200k tokens 的書,因調(diào)用 LLM 次數(shù)過多,索引時間長達(dá)數(shù)小時,時間成本增加約 3-5 倍。RAPTOR 雖構(gòu)建層次摘要樹,卻因忽略文檔原始語境流程、聚類耗時且采用傳統(tǒng)向量檢索導(dǎo)致結(jié)果偏差。LightRAG 和 FastGraphRAG 雖降低索引開銷,但 LLM 輸出格式不穩(wěn)定導(dǎo)致實體和關(guān)系提取不準(zhǔn)確。LazyGraphRAG 因檢索延遲高,無法滿足實時新聞分析系統(tǒng)快速檢索和生成新聞洞察的需求,導(dǎo)致響應(yīng)遲緩,影響用戶體驗。
E2GraphRAG 的針對性突破
E2GraphRAG 針對現(xiàn)有圖結(jié)構(gòu) RAG 方法的效率瓶頸、單一結(jié)構(gòu)整合不足以及檢索靈活性問題,提出創(chuàng)新解決方案。其核心創(chuàng)新在于構(gòu)建摘要樹與實體圖雙結(jié)構(gòu),結(jié)合自適應(yīng)檢索策略,實現(xiàn)高效索引與精準(zhǔn)檢索。實驗表明,E2GraphRAG 在索引階段比 GraphRAG 快 10 倍,在檢索階段比 LightRAG 快 100 倍,同時保持出色的問答性能,在 NovelQA 使用 Qwen 時取得最佳性能,在 InfiniteQA 跨兩個基礎(chǔ)模型均表現(xiàn)最佳。
現(xiàn)有技術(shù)回顧
RAG 方法分類
RAG 方法可以根據(jù)其依賴的外部知識源類型大致分為兩類:基于非結(jié)構(gòu)化文本知識庫的 RAG 方法和基于結(jié)構(gòu)化實體圖的 RAG 方法。
基于非結(jié)構(gòu)化文本知識基的 RAG 方法
這類方法主要依賴于非結(jié)構(gòu)化的文本數(shù)據(jù)作為外部知識源。它們通過檢索與查詢相關(guān)的文本片段(通常是文檔或文檔片段)來增強語言模型的上下文理解能力。這些方法的優(yōu)點在于其靈活性和適應(yīng)性,因為非結(jié)構(gòu)化文本可以涵蓋各種主題和領(lǐng)域。然而,由于缺乏全局和結(jié)構(gòu)化的理解,這些方法在處理復(fù)雜查詢時可能會遇到困難,例如在需要多跳推理或長文檔理解的場景中。
基于結(jié)構(gòu)化實體圖的 RAG 方法
與基于非結(jié)構(gòu)化文本的方法不同,基于結(jié)構(gòu)化實體圖的 RAG 方法利用預(yù)先構(gòu)建的實體圖作為知識源。這些實體圖通常包含豐富的語義信息,如實體之間的關(guān)系和屬性。通過在實體圖上進(jìn)行檢索,模型可以更有效地進(jìn)行多跳推理和信息聚合,從而提供更深入的語義理解。然而,構(gòu)建高質(zhì)量的領(lǐng)域特定知識圖通常需要大量的專家努力,并且難以擴展到新的領(lǐng)域或數(shù)據(jù)集。
現(xiàn)有圖結(jié)構(gòu) RAG 方法及應(yīng)用案例
剛才提到的,基于非結(jié)構(gòu)化文本知識庫的 RAG 方法易組織且適應(yīng)性強,但缺乏對內(nèi)容的全局和結(jié)構(gòu)化理解?;诮Y(jié)構(gòu)化實體圖的 RAG 方法支持多跳推理和信息聚合,構(gòu)建高質(zhì)量領(lǐng)域知識圖卻需大量專家努力且難以擴展。
比如,GraphRAG 利用 LLM 構(gòu)建知識圖、聚類節(jié)點和總結(jié)社區(qū)形成多粒度知識圖,但索引階段因頻繁調(diào)用 LLM 導(dǎo)致高昂成本和延遲,全局檢索依賴 LLM 判斷相關(guān)社區(qū)帶來顯著計算開銷。在科技領(lǐng)域問答系統(tǒng)中,GraphRAG 因索引效率低難以及時更新知識庫,無法快速響應(yīng)用戶查詢。RAPTOR 構(gòu)建層次摘要樹卻忽略文檔原始語境流程,聚類耗時且傳統(tǒng)向量檢索易導(dǎo)致結(jié)果偏差。在金融領(lǐng)域風(fēng)險評估報告分析中,RAPTOR 無法準(zhǔn)確把握報告語境邏輯,出現(xiàn)檢索結(jié)果偏差。LightRAG 和 FastGraphRAG 雖降低索引開銷,但 LLM 輸出格式不穩(wěn)定導(dǎo)致實體和關(guān)系提取不準(zhǔn)確。在醫(yī)療文獻(xiàn)檢索中,影響對醫(yī)療知識的準(zhǔn)確檢索和應(yīng)用。LazyGraphRAG 因檢索延遲高,無法滿足實時新聞分析系統(tǒng)快速檢索和生成新聞洞察的需求,導(dǎo)致響應(yīng)遲緩,影響用戶體驗。
E2GraphRAG 方法
索引階段
文檔預(yù)處理
將文檔分塊,使用對應(yīng)后續(xù)總結(jié)任務(wù)模型的分詞器,劃分為 1200 tokens 的塊,相鄰塊間重疊 100 tokens,以減少句子分割導(dǎo)致的語義損失。分塊后的文檔結(jié)構(gòu)為D= C1,C2 ,...,Cn。
摘要樹構(gòu)建
遞歸合并和總結(jié)文本塊構(gòu)建層次樹結(jié)構(gòu)。每 g 個連續(xù)塊組總結(jié)一次,采用最小化提示策略,因現(xiàn)代 LLM 在指令調(diào)優(yōu)階段已接受大量文本總結(jié)任務(wù)訓(xùn)練。使用預(yù)訓(xùn)練嵌入模型編碼所有塊和總結(jié),利用 Faiss 存儲向量實現(xiàn)高效密集檢索。摘要樹結(jié)構(gòu)中,葉節(jié)點對應(yīng)塊,中間或根節(jié)點對應(yīng)總結(jié)。節(jié)點越靠近根,信息越全局抽象;越靠近葉,信息越詳細(xì)具體。以圖表直觀展示摘要樹結(jié)構(gòu),區(qū)分不同信息層次。
具體算法步驟:
1. 輸入文檔 D,分詞處理后劃分為多個塊 c?, c?,…,c?。
2. 初始化總結(jié)層次 h 為 0,塊序列 S? = D。
3. 對每個總結(jié)層次 h,從 S? 中每 g 個連續(xù)塊生成一個總結(jié)塊 s。
4. 若總結(jié)塊數(shù)量大于 g,則 h +=1,S? = 生成的總結(jié)塊序列,重復(fù)步驟 3;否則,停止總結(jié),得到最終摘要樹。
5. 使用預(yù)訓(xùn)練嵌入模型對所有塊和總結(jié)塊編碼,得到向量表示,通過 Faiss 索引存儲。
例如,在處理一本包含 100 個文本塊的文檔時,假設(shè)每 5 個塊進(jìn)行一次總結(jié),那么第一層總結(jié)將生成 20 個總結(jié)塊。若繼續(xù)總結(jié),每 5 個總結(jié)塊再次總結(jié),最終可能得到 4 個最高層次的總結(jié)塊,形成一個層次分明的摘要樹。

E2GraphRAG索引階段的概述。左側(cè)展示了索引任務(wù),中間部分呈現(xiàn)了四種數(shù)據(jù)結(jié)構(gòu),右側(cè)顯示了構(gòu)建的兩個索引
上圖直觀展示了索引階段的四大核心任務(wù):文檔預(yù)處理、實體圖提取、摘要樹構(gòu)建及兩種索引的建立??梢钥吹?,文檔預(yù)處理后得到的塊,經(jīng)過實體抽取構(gòu)建實體圖,同時塊通過遞歸總結(jié)形成摘要樹,實體圖與摘要樹之間通過實體-塊索引和塊-實體索引建立聯(lián)系。
實體圖提取
利用 SpaCy 提取每個塊中的命名實體和普通名詞作為實體。將共現(xiàn)于同一句子中的實體間構(gòu)建無向加權(quán)邊,邊權(quán)重計算公式為:w(e_i,e_j) = 共現(xiàn)次數(shù) / 句子中實體總數(shù)。將塊級子圖合并為整個文檔的圖,統(tǒng)一相同實體并累加相同源目標(biāo)實體對的邊權(quán)重。構(gòu)建實體到塊和塊到實體的索引,實現(xiàn)實體圖與摘要樹間的多對多映射,為后續(xù)檢索提供便利。
例如,在一個新聞文檔的處理中,某個文本塊中提到 “公司 A 在 2024 年發(fā)布新產(chǎn)品 B,該產(chǎn)品采用新技術(shù) C”,則通過 SpaCy 可提取出 “公司 A”“新產(chǎn)品 B”“新技術(shù) C” 等實體,并根據(jù)它們在句子中的共現(xiàn)關(guān)系構(gòu)建加權(quán)邊。這些邊的權(quán)重反映了實體之間的關(guān)聯(lián)緊密程度,為后續(xù)檢索提供了豐富的語義信息。
并行優(yōu)化
總結(jié)任務(wù)依賴 LLM 和 GPU,SpaCy 實體提取主要在 CPU 上運行,二者可并行執(zhí)行。在多線程環(huán)境下,分別啟動 LLM 總結(jié)任務(wù)和 SpaCy 實體提取任務(wù),通過線程間通信機制協(xié)調(diào)進(jìn)度,優(yōu)化整體計算時間,降低索引階段時間成本。
例如,在實際的服務(wù)器環(huán)境中,可以分配 4 個 CPU 核心用于 SpaCy 實體提取任務(wù),同時利用 GPU 加速 LLM 的總結(jié)任務(wù)。通過合理調(diào)度,確保兩個任務(wù)并行執(zhí)行且互不干擾,從而將索引時間減少約 40%。
檢索階段
自適應(yīng)檢索策略核心思想
基于查詢中實體在圖中的連接密度動態(tài)選擇局部檢索和全局檢索模式。查詢實體在圖中密集連接則局部檢索,否則全局檢索。這種機制通過建模實體間結(jié)構(gòu)關(guān)系,避免手動預(yù)定義查詢模式,提升檢索靈活性和針對性。
以下是算法的偽代碼,能夠直觀地展示檢索階段的邏輯流程,幫助大家更好地理解 E2GraphRAG 的檢索機制

檢索階段的偽代碼
局部檢索流程
- 實體提取與映射 :使用 SpaCy 從查詢中提取實體,并映射到構(gòu)建的圖頂點,忽略無法映射的實體。
 - 圖過濾步驟 :枚舉查詢實體對并根據(jù)最短路徑跳數(shù)進(jìn)行篩選,保留滿足條件的實體對集合 Ph。超參數(shù) h 控制過濾嚴(yán)格程度,平衡后續(xù)步驟中召回塊數(shù)量。具體篩選算法如下:
 

- 索引映射與候選塊獲取 :對于 Ph 中的每個實體對,利用實體到塊索引獲取相關(guān)塊的交集,形成候選塊集 Cevidence。當(dāng)候選塊數(shù)量不超過 k 時直接返回結(jié)果,否則通過逐步降低 h 跳閾值來減少塊數(shù)量,直至滿足條件或結(jié)果為空,再回退并應(yīng)用基于實體覆蓋和出現(xiàn)頻率的排名機制選擇最終塊。具體操作步驟如下:
 

- 排名與格式化 :實體覆蓋排名計算公式為:score_coverage(c) = 匹配的實體數(shù)量 / 塊 c 中的總實體數(shù)量;實體出現(xiàn)排名計算公式為:score_occurrence(c) = 匹配的實體出現(xiàn)次數(shù) / 塊 c 的總詞數(shù)。利用塊到實體索引優(yōu)化排名時間。將檢索到的塊和實體以 “實體 1 - 實體 2:塊” 格式組織輸入給 LLM,采用去重和合并連續(xù)塊的優(yōu)化策略,減少輸入冗余和 token 消耗。
 
例如,在檢索與 “人工智能” 和 “機器學(xué)習(xí)” 相關(guān)的信息時,通過圖過濾步驟篩選出這兩個實體在知識圖譜中緊密相連的部分,如 “深度學(xué)習(xí)”“神經(jīng)網(wǎng)絡(luò)” 等相關(guān)實體對。然后利用索引映射獲取包含這些實體的文本塊,經(jīng)過排名與格式化后,將相關(guān)信息以清晰的結(jié)構(gòu)輸入到 LLM 中,以便生成準(zhǔn)確且全面的回答。

E2GraphRAG的檢索階段。屬于局部檢索的操作以淺黃色突出顯示,而屬于全局檢索的操作以淺綠色突出顯示
上圖展示了檢索階段的完整流程,其中局部檢索操作用淺黃色突出顯示,包括實體提取、圖過濾等關(guān)鍵步驟;全局檢索操作則用淺綠色標(biāo)識,清晰地區(qū)分了兩種檢索模式下的具體操作,有助于理解自適應(yīng)檢索策略的執(zhí)行過程。
全局檢索流程
當(dāng)查詢中未識別出實體或?qū)嶓w對不滿足條件時,采用密集檢索方法在摘要樹上進(jìn)行全局檢索。使用折疊樹密集檢索方法,利用索引階段的嵌入模型編碼查詢,計算查詢嵌入與索引嵌入的相似度,選擇前 k 個最相關(guān)的塊作為補充信息,并按相似度降序排列。具體算法如下:
1. 輸入查詢 q,摘要樹 T,嵌入模型 E,索引向量庫 V,檢索數(shù)量 k。
2. 使用 E 對 q 進(jìn)行編碼,得到查詢向量 。
3. 在 V 中搜索與 最相似的 k 個向量,對應(yīng)的塊為檢索結(jié)果。
4. 按相似度降序排列檢索結(jié)果并返回。
實驗
為了全面評估 E2GraphRAG 在索引和檢索效率以及問答效果方面的性能,通過與現(xiàn)有方法的對比,驗證 E2GraphRAG 是否能夠在保證效果的同時顯著提升效率。實驗設(shè)計涵蓋多個評估指標(biāo)和數(shù)據(jù)集,以確保結(jié)果的可靠性和普適性。
實驗設(shè)置
基礎(chǔ)模型選擇
選擇 Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct 作為基礎(chǔ)模型,因其在資源有限和數(shù)據(jù)隱私要求嚴(yán)格場景下適用。選擇 BGE-M3 作為嵌入模型,因其性能出色。
數(shù)據(jù)集介紹
使用 NovelQA 和 InfiniteBench(包括 InfiniteChoice 和 InfiniteQA)數(shù)據(jù)集。這些數(shù)據(jù)集文檔平均包含約 200k tokens,適合評估方法在極長文檔上的全局查詢能力。NovelQA 包含 89 本書及 2305 個多項選擇問題,涵蓋 65 本公共領(lǐng)域書籍和 24 本購買的版權(quán)書籍。InfiniteChoice 包含 58 本書及 229 個多項選擇問題,InfiniteQA 包含 20 本書及 102 個問題。例如,NovelQA 中的《哈利?波特與阿茲卡班的囚徒》相關(guān)文檔,其語言風(fēng)格為敘述性與對話性相結(jié)合,包含大量人物、事件等實體,對模型的實體關(guān)系捕捉和長文檔處理能力提出了較高要求。
評估指標(biāo)
針對多項選擇和封閉式 QA 任務(wù)分別采用準(zhǔn)確率和 ROUGE-L 作為評估指標(biāo)。為評估索引和檢索階段的系統(tǒng)效率,測量每本書的索引時間和每個查詢的檢索時間。
與 GraphRAG-Local、GraphRAG-Global、LightRAGHybrid 和 RAPTOR 對比。這些方法的選擇依據(jù)是為了確保全面評估。部分方法因代碼未公開或與本地部署模型不兼容,無法納入實驗。
實驗結(jié)果與分析
深化實驗細(xì)節(jié)
- 數(shù)據(jù)集特點與性能表現(xiàn) :在 NovelQA 數(shù)據(jù)集中,其涵蓋多種類型的書籍,如小說、歷史著作等。小說中的實體關(guān)系往往復(fù)雜且多變,如人物之間的情感糾葛、情節(jié)發(fā)展中的角色轉(zhuǎn)變等。E2GraphRAG 在處理這類文檔時,通過構(gòu)建的實體圖能夠有效捕捉人物等實體之間的復(fù)雜關(guān)系。例如在處理《哈利?波特》系列相關(guān)問題時,能夠準(zhǔn)確把握角色間的關(guān)系變化,從而為問答提供有力支持。歷史著作則涉及大量的事件、時間、地點等實體,其語義結(jié)構(gòu)相對嚴(yán)謹(jǐn)。E2GraphRAG 的摘要樹構(gòu)建有助于對歷史事件的發(fā)展脈絡(luò)進(jìn)行層次化總結(jié),便于快速定位與特定歷史時期或事件相關(guān)的信息。在不同領(lǐng)域數(shù)據(jù)集上的良好表現(xiàn),證明了 E2GraphRAG 的廣泛適應(yīng)性。
 

每個數(shù)據(jù)集中每個問題的實體數(shù)量
上表提供了每個數(shù)據(jù)集中每個問題的實體數(shù)量統(tǒng)計,包括平均值、最小值和最大值。下圖柱狀圖可以直觀地展示數(shù)據(jù)集中問題的實體復(fù)雜度分布。

不同實體數(shù)量中的問題分布
- 模型參數(shù)敏感性分析 :以總結(jié)層次 g 為例,當(dāng) g 取較小值時,如 g=2,意味著在構(gòu)建摘要樹時,每 2 個連續(xù)塊進(jìn)行一次總結(jié)。這會導(dǎo)致摘要樹的層次較多,葉節(jié)點到根節(jié)點的路徑較長。雖然這樣可以保留較多的細(xì)節(jié)信息,但也會增加索引時間和存儲開銷。實驗發(fā)現(xiàn),當(dāng) g=2 時,索引時間比 g=5 時增加了約 30%,且檢索效率也略有下降,因為需要在更多的層次中進(jìn)行遍歷搜索。而當(dāng) g 取較大值,如 g=10,雖然減少了摘要樹的層次,但每個總結(jié)塊涵蓋的信息范圍較廣,可能導(dǎo)致信息過于抽象,丟失一些關(guān)鍵細(xì)節(jié),進(jìn)而影響檢索結(jié)果的準(zhǔn)確性。在檢索效果上,當(dāng) g=10 時,準(zhǔn)確率相較于 g=5 時下降了約 5%。對于超參數(shù) h,在局部檢索的圖過濾步驟中,h 的取值對實體對的篩選嚴(yán)格程度有顯著影響。較小的 h 值(如 h=1)會嚴(yán)格篩選出緊密相連的實體對,減少候選塊數(shù)量,提高檢索效率,但可能遺漏一些具有間接關(guān)聯(lián)的實體對,導(dǎo)致部分相關(guān)信息無法被檢索到。實驗表明,當(dāng) h=1 時,檢索召回率比 h=3 時降低了約 15%。而較大的 h 值(如 h=5)則會放寬篩選條件,召回更多候選塊,但增加了后續(xù)處理的數(shù)據(jù)量,降低了檢索效率。通過綜合考慮檢索效率和效果,確定 g 在 3-5 之間,h 在 2-4 之間時,E2GraphRAG 能夠取得較好的平衡。
 
效率對比
E2GraphRAG 在索引階段比 GraphRAG 快 10 倍,比 RAPTOR 快約 2 倍;在檢索階段比 LightRAG 快 100 倍以上,比 GraphRAG 的本地模式快約 10 倍。RAPTOR 因 GPU 加速的密集檢索實現(xiàn)最快檢索速度,但索引階段的聚類操作導(dǎo)致效率不高;GraphRAG 因小 LLM 輸出 JSON 格式的不穩(wěn)定性,索引時間長;LightRAG 在索引階段因每個塊調(diào)用 LLM 提取多粒度實體和關(guān)系導(dǎo)致高延遲。

在 NovelQA、InfiniteChoice 和 InfiniteQA 上的總體結(jié)果,最佳結(jié)果以粗體標(biāo)出,次優(yōu)結(jié)果以下劃線標(biāo)出。Met. 表示每個數(shù)據(jù)集的評估指標(biāo),在 NovelQA 和 InfiniteChoice 上使用準(zhǔn)確率(accuracy),在 InfiniteQA 上使用 ROUGE-L。IT 表示索引構(gòu)建時間,QT 表示查詢時間
上表呈現(xiàn)了 E2GraphRAG 與其他基線方法在 NovelQA、InfiniteChoice 和 InfiniteQA 數(shù)據(jù)集上的綜合性能對比。從表中可以看出,E2GraphRAG 在索引時間和查詢時間上均展現(xiàn)出顯著優(yōu)勢。例如,在 NovelQA 數(shù)據(jù)集上使用 Qwen 模型時,E2GraphRAG 的索引時間僅為 1397.11,相較于 GraphRAG-L 的 13793.89 和 LightRAG 的 5290.93,效率提升高達(dá) 10 倍左右;查詢時間更是快至 0.02,相比 LightRAG 的 15.68 實現(xiàn)了 100 倍的加速。


時間成本隨文檔token數(shù)量變化的函數(shù)關(guān)系,針對每種方法進(jìn)行統(tǒng)計。統(tǒng)計基于 NovelQA 和 InfiniteChoice 數(shù)據(jù)集,以 Qwen 作為基礎(chǔ)模型
上圖以 NovelQA 和 InfiniteChoice 數(shù)據(jù)集為例,進(jìn)一步直觀展現(xiàn)了各方法索引時間隨文檔 tokens 數(shù)量變化的趨勢。可以看出,E2GraphRAG 的索引時間增長趨勢最為平緩,表明其在處理長文檔時具備更優(yōu)的時間復(fù)雜度,擴展性更強。例如,當(dāng)文檔 tokens 數(shù)量達(dá)到較高值時,E2GraphRAG 的索引時間依然能保持在較低水平,而其他方法的索引時間則迅速攀升。
效果對比
E2GraphRAG 在 NovelQA 使用 Qwen 時取得最佳性能,在 InfiniteQA 跨兩個基礎(chǔ)模型均表現(xiàn)最佳。GraphRAG 的本地模式在效果上優(yōu)于其他基線方法,但索引效率低。LightRAG 盡管試圖平衡效果和效率,但因依賴 LLM 能力且在使用 Llama3.1 時表現(xiàn)不佳,效果仍不理想。
例如,在 NovelQA 數(shù)據(jù)集上,使用 Qwen 模型時,E2GraphRAG 的準(zhǔn)確率達(dá)到 45.6%,相較于 GraphRAG 提升了約 5%。在 InfiniteQA 數(shù)據(jù)集上,E2GraphRAG 在兩個基礎(chǔ)模型上的 ROUGE-L 分?jǐn)?shù)均達(dá)到 13.65 和 11.07,相較于其他方法有顯著提升。
性能提升原因分析
索引階段,E2GraphRAG 的并行優(yōu)化策略充分利用 LLM 和 SpaCy 的不同硬件資源,遞歸總結(jié)文本塊的算法有效降低了信息冗余,顯著提高了索引效率。檢索階段,自適應(yīng)檢索策略能夠根據(jù)查詢特征動態(tài)選擇檢索模式,避免了傳統(tǒng)方法中固定檢索模式帶來的局限性。同時,實體圖的構(gòu)建和利用增強了檢索結(jié)果的相關(guān)性和準(zhǔn)確性,讓模型能夠更精準(zhǔn)地捕捉實體間的語義關(guān)系。在不同數(shù)據(jù)集和模型中,E2GraphRAG 的優(yōu)勢體現(xiàn)在高效處理長文檔和靈活應(yīng)對復(fù)雜查詢。
例如,在處理長文檔時,E2GraphRAG 的摘要樹能夠快速定位到與查詢相關(guān)的不同層次的信息塊,而實體圖則能有效關(guān)聯(lián)這些信息塊中的實體,為生成連貫且準(zhǔn)確的回答提供有力支持。這種結(jié)合全局和局部信息的能力,使其在面對復(fù)雜查詢時能夠提供更全面和準(zhǔn)確的答案。

消融研究結(jié)果。每個數(shù)據(jù)集的最佳結(jié)果以粗體突出顯示。對于其他方法,與E2GraphRAG相比的性能差異在每個值下方標(biāo)注,其中↓(紅色)表示下降,↑(綠色)表示上升。標(biāo)注的數(shù)字表示與E2GraphRAG相比的性能絕對差異
上表展示了 E2GraphRAG 的消融研究結(jié)果。通過對比不同組件缺失情況下的模型性能,可以清晰地看出各個模塊對整體效果的貢獻(xiàn)。例如,當(dāng)僅采用密集檢索時,模型性能在多個數(shù)據(jù)集上均出現(xiàn)明顯下降,表明自適應(yīng)檢索策略和相關(guān)組件對提升檢索效果具有關(guān)鍵作用。這進(jìn)一步驗證了 E2GraphRAG 設(shè)計的合理性和各組件的有效性。
總結(jié)
本文介紹了一種名為E2GraphRAG的改進(jìn)型基于圖的檢索增強生成(RAG)框架,目標(biāo)是為了解決現(xiàn)有圖結(jié)構(gòu)RAG方法在效率和靈活性上的不足。E2GraphRAG框架結(jié)合了樹和圖結(jié)構(gòu)的優(yōu)點,在索引階段構(gòu)建摘要樹和實體圖,并建立兩者之間的雙向索引;在檢索階段采用自適應(yīng)檢索策略,根據(jù)查詢實體在圖中的連接情況動態(tài)選擇局部或全局檢索模式。
在索引階段,E2GraphRAG首先使用大型語言模型(LLM)遞歸地對文檔片段進(jìn)行總結(jié),生成多粒度的摘要樹。同時,利用SpaCy工具從每個片段中提取實體并構(gòu)建實體圖,并為每個片段構(gòu)建子圖,然后將所有片段級子圖合并成一個圖。此外,還構(gòu)建了實體到片段和片段到實體的索引,以建立實體圖和摘要樹之間的多對多映射關(guān)系,便于后續(xù)檢索過程中的查找。
在檢索階段,E2GraphRAG采用自適應(yīng)檢索策略。首先從查詢中提取實體,并將它們映射到構(gòu)建的圖的頂點上。如果查詢實體在圖中密集連接,則執(zhí)行局部檢索;否則,回退到全局檢索。這種自適應(yīng)機制通過明確建模實體之間的結(jié)構(gòu)關(guān)系,避免了繁瑣的手動設(shè)置查詢模式,提高了檢索的靈活性和針對性。局部檢索包括圖過濾步驟,保留查詢中語義相關(guān)的實體對,通過索引映射找到與這些實體對相關(guān)的片段集合,并進(jìn)行進(jìn)一步的篩選和排序。全局檢索則在查詢中沒有實體或?qū)嶓w對不滿足一定條件時執(zhí)行,基于向量相似度從摘要樹中檢索候選片段,并根據(jù)實體出現(xiàn)的頻率對它們進(jìn)行排序和選擇。
通過在NovelQA、InfiniteChoice和InfiniteQA等數(shù)據(jù)集上的實驗,驗證了E2GraphRAG在效率和效果上的優(yōu)勢。實驗結(jié)果表明,E2GraphRAG在索引階段比GraphRAG快10倍,比RAPTOR快約2倍;在檢索階段比LightRAG快100倍以上,比GraphRAG的局部模式快約10倍,同時保持了與GraphRAG相當(dāng)?shù)男Ч?。在NovelQA數(shù)據(jù)集上,使用Qwen時E2GraphRAG取得了最佳性能;在InfiniteQA數(shù)據(jù)集上,兩種基礎(chǔ)模型均取得了最佳性能。
盡管E2GraphRAG在試驗表現(xiàn)的效率和效果上取得了顯著提升,但其檢索設(shè)計仍然相對直觀,可能存在更優(yōu)的檢索策略尚未被發(fā)現(xiàn)。此外,該模型對底層文檔的質(zhì)量和中立性高度依賴,若索引了有偏見或錯誤的數(shù)據(jù),系統(tǒng)可能會產(chǎn)生誤導(dǎo)性或有害的輸出。自動實體提取和圖構(gòu)建也可能傳播錯誤或忽視少數(shù)觀點。總體而言,E2GraphRAG通過大幅降低索引和檢索成本,為開放域問答、知識密集型NLP任務(wù)和長文檔理解等下游應(yīng)用提供了更高效和有效的解決方案,同時強調(diào)了在使用該框架時應(yīng)與可信的數(shù)據(jù)源和人類監(jiān)督結(jié)合,以確保其負(fù)責(zé)任地使用。未來的工作可以探索去偏方法和提高檢索路徑的透明度。















 
 
 








 
 
 
 