偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于圖的 RAG 方法總結(jié)(GraphRAG、 GraphReader、LightRAG、HippoRAG和KAG)

人工智能
基于圖結(jié)構(gòu)的 RAG 方法成為研究熱點,通過引入知識圖譜的實體關(guān)系建模能力,有效解決了傳統(tǒng) RAG 在多跳推理、長文本理解和全局語義捕捉中的局限性。本文詳細分析五種代表性方法:GraphRAG、GraphReader、LightRAG、HippoRAG和KAG ,從實現(xiàn)細節(jié)、優(yōu)缺點及適用場景展開對比。

在自然語言處理領(lǐng)域,檢索增強生成(RAG)技術(shù)通過結(jié)合外部知識庫與語言模型,顯著提升了模型在知識密集型任務(wù)中的表現(xiàn)。近年來,基于圖結(jié)構(gòu)的 RAG 方法成為研究熱點,通過引入知識圖譜的實體關(guān)系建模能力,有效解決了傳統(tǒng) RAG 在多跳推理、長文本理解和全局語義捕捉中的局限性。本文詳細分析五種代表性方法:GraphRAG、GraphReader、LightRAG、HippoRAG和KAG ,從實現(xiàn)細節(jié)、優(yōu)缺點及適用場景展開對比。


1、GraphRAG

微軟提出GraphRAG, 通過 “從局部到全局” 的層次抽象,填補了傳統(tǒng) RAG 在宏觀語義理解中的空白,尤其適合需要 “鳥瞰式” 知識整合的場景。

項目地址:https://github.com/microsoft/graphrag

論文地址:https://arxiv.org/pdf/2404.16130

方法介紹

GraphRAG 的目標(biāo)是通過層次化圖結(jié)構(gòu)實現(xiàn)對大規(guī)模文本的全局理解,其核心流程分為索引構(gòu)建階段(離線)和查詢響應(yīng)階段(在線),具體如下:

索引構(gòu)建階段:先將源文檔分割為帶重疊的文本塊,利用 LLM 提取實體、關(guān)系和協(xié)變量,構(gòu)建無模式知識圖;再通過 Leiden 算法對圖進行多層社區(qū)劃分,形成 “主題→子主題→具體實體” 的層次結(jié)構(gòu),最后自底向上生成各層社區(qū)摘要,低層聚焦細節(jié),高層整合主題共性,壓縮文本量以提升檢索效率。

查詢響應(yīng)階段:解析查詢提取關(guān)鍵詞,匹配包含相關(guān)關(guān)鍵詞的社區(qū),將社區(qū)摘要分塊后利用 LLM 并行生成中間答案,按評分合并生成最終全局答案,必要時可遞歸調(diào)用低層社區(qū)檢索補充細節(jié)。

優(yōu)點

全局理解能力強:層次社區(qū)結(jié)構(gòu)支持從局部到全局的多粒度摘要,適合宏觀問題(如 “數(shù)據(jù)集主要主題”)。

高效摘要生成:社區(qū)摘要可并行處理,減少上下文 token 消耗(如根級摘要僅需原始文本 1% 的 token)。

領(lǐng)域無關(guān)性:通用圖構(gòu)建流程,適用于多種文本類型(如新聞、播客、學(xué)術(shù)文獻)。

缺點

細節(jié)丟失風(fēng)險:高層社區(qū)摘要可能忽略關(guān)鍵細節(jié),影響答案準(zhǔn)確性。

調(diào)參復(fù)雜:社區(qū)層級選擇和塊大小需根據(jù)數(shù)據(jù)集優(yōu)化,缺乏通用策略。

適用場景

大規(guī)模文本摘要:如企業(yè)知識庫全局檢索、行業(yè)報告趨勢分析。

需要多粒度回答的場景:如教育領(lǐng)域跨章節(jié)知識點總結(jié)、市場調(diào)研多數(shù)據(jù)源整合。

2、GraphReader

阿里,上海AI Lab等,針對長上下文、復(fù)雜關(guān)系問題,提出GraphReader,通過構(gòu)建基于圖的智能體系統(tǒng)(Graph-based Agent System),以結(jié)構(gòu)化的方式組織長文本,并利用智能體自主探索該圖。概述如圖所示:

論文地址:https://arxiv.org/abs/2406.14550

方法介紹

GraphReader 的算法實現(xiàn)圍繞圖構(gòu)建、圖探索和答案推理三個階段展開:

在圖構(gòu)建階段,先將長文檔按段落分割成適配 LLM 的文本塊,再借助 LLM 從文本塊中抽取原子事實和關(guān)鍵元素,最后對關(guān)鍵元素標(biāo)準(zhǔn)化處理,構(gòu)建節(jié)點并建立節(jié)點間的鏈接,形成完整圖結(jié)構(gòu)。

圖探索階段,智能體拿到問題和圖后,先初始化筆記本,拆解問題制定計劃并選擇初始節(jié)點;接著依次對原子事實、文本塊和相鄰節(jié)點進行探索,在探索過程中通過不同操作函數(shù),判斷并記錄有價值的信息,直至收集到足夠回答問題的內(nèi)容。

答案推理階段,智能體完成圖探索后,將筆記本中記錄的信息進行編譯,運用思維鏈推理方式,生成最終答案。

優(yōu)點

長文本處理能力強:通過圖結(jié)構(gòu)壓縮長文本信息,緩解 LLM 上下文窗口限制。

自主推理靈活性:智能體可動態(tài)調(diào)整探索路徑,適應(yīng)不同復(fù)雜度的查詢。

高召回率:原子事實和塊遍歷機制確保關(guān)鍵信息不遺漏,支持多跳推理。

缺點

計算成本高:智能體多輪探索和圖遍歷增加延遲,實時性較差。

初始化依賴人工:合理計劃和節(jié)點選擇需要領(lǐng)域知識引導(dǎo),自動化程度較低。

適用場景

超長文檔分析:如法律卷宗審閱、科學(xué)論文綜述生成。

需要深度上下文理解的場景:如歷史文獻跨段落事件關(guān)聯(lián)、技術(shù)文檔故障排查。

3、HippoRAG

HippoRAG 是一種受神經(jīng)生物學(xué)啟發(fā)的檢索增強生成模型,概述如圖所示:

論文地址:https://arxiv.org/abs/2405.14831

項目地址:https://github.com/OSU-NLP-Group/HippoRAG

實現(xiàn)細節(jié)

神經(jīng)生物學(xué)啟發(fā)的知識表示:HippoRAG 模擬人類海馬體的記憶機制,通過 “模式分離” 和 “模式完成” 兩個核心操作實現(xiàn)知識整合。在索引構(gòu)建階段,模型使用開放信息抽取(OpenIE)技術(shù)從文本中提取實體、關(guān)系和屬性,構(gòu)建無模式知識圖譜(Graph)。圖中的節(jié)點表示實體,邊表示關(guān)系,并通過同義詞邊連接語義相似的實體,提升圖的連通性。例如,“蘋果公司” 和 “Apple Inc.” 通過同義詞邊關(guān)聯(lián),增強實體鏈接能力。

單步多跳檢索機制:針對傳統(tǒng) RAG 多輪檢索的低效問題,HippoRAG 提出基于個性化 PageRank(PPR)的單步多跳檢索算法。當(dāng)接收到查詢時,模型首先使用 LLM 提取查詢中的命名實體作為種子節(jié)點,然后通過 PPR 算法在知識圖譜上傳播概率,一次性召回與查詢相關(guān)的多跳實體。例如,查詢 “蘋果公司創(chuàng)始人的教育背景” 可直接召回 “Steve Jobs” 及其畢業(yè)院校 “Reed College”,避免了傳統(tǒng)方法的多次迭代檢索。

混合檢索與答案生成:HippoRAG 采用向量檢索與圖檢索相結(jié)合的策略:向量檢索(如 ColBERTv2)負責(zé)召回相關(guān)文本塊,圖檢索負責(zé)捕捉實體間的結(jié)構(gòu)化關(guān)系。模型將兩種檢索結(jié)果融合后,通過 LLM 生成最終答案。為提升答案的可靠性,HippoRAG 引入證據(jù)評分機制,對召回的文本塊和圖路徑進行置信度評估,優(yōu)先選擇高可信度的信息作為答案依據(jù)。

知識更新與遺忘機制:受海馬體記憶鞏固過程的啟發(fā),HippoRAG 設(shè)計了動態(tài)知識更新策略。當(dāng)有新數(shù)據(jù)加入時,模型通過增量式圖構(gòu)建更新知識庫,同時保留舊知識的歷史版本。為避免知識庫無限膨脹,模型引入 “遺忘” 機制,定期刪除低價值或過時的知識,通過注意力機制評估知識的重要性,確保知識庫的高效性和準(zhǔn)確性。

優(yōu)點

高效多跳檢索:單步完成多跳推理,相比傳統(tǒng)方法減少迭代次數(shù),提升效率。

生物可解釋性:模擬人類記憶機制,推理過程符合認知科學(xué)規(guī)律,可解釋性較強。

缺點

依賴高質(zhì)量圖譜:OpenIE 提取三元組的準(zhǔn)確性影響整體性能,噪聲圖譜會導(dǎo)致檢索偏差。

復(fù)雜問題處理不足:缺乏邏輯規(guī)則支持,難以處理需要數(shù)值計算或?qū)哟瓮评淼娜蝿?wù)。

適用場景

實體關(guān)聯(lián)清晰、邏輯推理需求較低的事實問答場景:如學(xué)術(shù)領(lǐng)域人物關(guān)系查詢、歷史事件因果分析。

需要快速多跳檢索的場景:如金融欺詐關(guān)聯(lián)分析、藥物靶點相互作用預(yù)測。

4、LightRAG

北郵、港大等提出LightRAG, 一種輕量級的檢索增強生成模型,主要關(guān)注以下三個方面:全面的信息檢索、高效低成本的檢索、快速適應(yīng)數(shù)據(jù)變化。

項目地址:https://github.com/HKUDS/LightRAG

論文地址:https://arxiv.org/abs/2410.05779

方法介紹

算法實現(xiàn)圍繞基于圖的文本索引、雙層檢索范式和檢索增強答案生成三大核心模塊展開。

基于圖的文本索引模塊,LightRAG 先將文檔分割成小塊,利用 LLM 抽取實體與關(guān)系,構(gòu)建知識圖譜。通過去重、生成鍵值對優(yōu)化圖結(jié)構(gòu),并具備增量更新能力,可高效整合新文檔,提升檢索性能與信息理解深度。

雙層檢索范式是 LightRAG 的關(guān)鍵創(chuàng)新。低層次檢索聚焦具體實體屬性或關(guān)系,用于回答精確性問題;高層次檢索則聚合多實體關(guān)系信息,處理抽象主題查詢。通過提取本地與全局關(guān)鍵詞,結(jié)合向量數(shù)據(jù)庫匹配與子圖鄰近節(jié)點收集,實現(xiàn)了精準(zhǔn)檢索與全面信息整合。

檢索增強答案生成環(huán)節(jié),LightRAG 將檢索到的實體、關(guān)系描述及原始文本等信息拼接后輸入通用 LLM,通過整合查詢與多源文本,生成契合用戶意圖的答案,兼顧上下文連貫性與回答質(zhì)量 。

優(yōu)點

輕量級設(shè)計:無需復(fù)雜邏輯推理,通過雙層檢索平衡細節(jié)與全局理解,檢索效率高。

動態(tài)適應(yīng)性強:支持增量更新知識庫,適合實時數(shù)據(jù)場景(如新聞?wù)討B(tài)賽事分析)。

低成本部署:相比 KAG,減少了符號推理模塊,更易在資源受限環(huán)境中部署。

缺點

推理能力有限:依賴語義相似性,缺乏顯式邏輯規(guī)則,難以處理深層推理任務(wù)。

長文本處理不足:未顯式建模段落間依賴關(guān)系,復(fù)雜多跳問題中召回率較低。

適用場景

快速響應(yīng)型問答:如智能客服、實時資訊檢索、跨領(lǐng)域概況總結(jié)。

需要動態(tài)更新知識的場景:如電商產(chǎn)品推薦、社交媒體熱點分析。

5、KAG

螞蟻集團提出KAG(Knowledge Augmented Generation),旨在解決傳統(tǒng)語言模型及相關(guān)技術(shù)在知識處理與復(fù)雜問題求解方面存在的一系列難題。

項目地址:https://github.com/OpenSPG/KAG

論文地址:https://arxiv.org/abs/2409.13731

方法介紹

三層架構(gòu)協(xié)同運作:KAG-Builder 利用 LLMFriSPG 框架構(gòu)建離線索引,實現(xiàn)文本塊與知識圖譜的互索引,支持無模式信息抽取和結(jié)構(gòu)化知識對齊;KAG-Solver 作為邏輯形式引導(dǎo)的混合推理引擎,整合規(guī)劃、檢索、推理算子,可進行符號推理與數(shù)值計算;KAG-Model 則增強 LLM 的自然語言理解、推理和生成能力,支持端到端推理。

知識表示創(chuàng)新:LLMFriSPG 框架采用分層存儲知識,包括 KGcs 層、KGfr 層、RC 層,支持動態(tài)屬性和概念分層,解決信息損失問題;同時,通過圖結(jié)構(gòu)與原始文本塊的雙向互索引機制,有效提升檢索準(zhǔn)確性和可解釋性。

邏輯推理求解:KAG 將自然語言問題拆解為邏輯表達式,借助 ReSP 反思機制等多輪迭代,逐步逼近答案,能夠支持多跳推理和數(shù)值計算,實現(xiàn)復(fù)雜問題的深度推理。

優(yōu)點

強推理能力:結(jié)合符號邏輯與文本檢索,擅長處理需要多跳推理、邏輯計算的專業(yè)領(lǐng)域問題(如法律、醫(yī)學(xué))。

高可解釋性:互索引機制保留原始文本上下文,推理過程可追溯。

領(lǐng)域適應(yīng)性強:通過領(lǐng)域知識注入和模式約束,有效減少開放信息抽取的噪聲。

缺點

構(gòu)建成本高:需要專業(yè)知識構(gòu)建結(jié)構(gòu)化知識圖譜,依賴大量標(biāo)注數(shù)據(jù)和專家人力。

計算復(fù)雜度高:邏輯形式求解和多輪迭代增加推理延遲,對算力要求較高。

適用場景

專業(yè)領(lǐng)域復(fù)雜問答:如法律條文解析、醫(yī)療診斷推理、科學(xué)文獻分析。

需要強邏輯推理、高準(zhǔn)確性和可解釋性的場景:如金融風(fēng)控報告生成、政策合規(guī)性檢查。

6、總結(jié)

對于一些場景的推薦算法及原因如下:

場景類型

推薦算法

核心原因

專業(yè)領(lǐng)域復(fù)雜推理

KAG

邏輯規(guī)則 + 領(lǐng)域知識注入,適合法律條文解析、醫(yī)療診斷等需要精確推理的場景

實時動態(tài)問答

LightRAG

雙層檢索響應(yīng)快,支持增量更新,適合新聞熱點、電商咨詢等實時性要求高的場景

多跳實體關(guān)聯(lián)分析

HippoRAG

單步 PPR 檢索捕獲實體間隱含關(guān)系,適合學(xué)術(shù)合作網(wǎng)絡(luò)、社交關(guān)系挖掘等場景

超長文檔深度理解

GraphReader

圖探索 + 塊遍歷處理長距離依賴,適合法律卷宗審閱、技術(shù)文檔故障排查等場景

跨領(lǐng)域全局摘要

GraphRAG

層次社區(qū)整合全局主題,適合企業(yè)知識庫概覽、行業(yè)趨勢分析等需要宏觀理解的場景

對于RAG方法的選擇,整體來講,還是要通過任務(wù)、成本等方面來綜合考慮,沒有能夠通用一切場景的方法:

  1. 優(yōu)先考慮任務(wù)性質(zhì):
    若需邏輯嚴(yán)謹性(如金融風(fēng)控),選 KAG;若需快速響應(yīng)(如客服),選 LightRAG。
    若問題涉及實體網(wǎng)絡(luò)(如人物關(guān)系),選 HippoRAG;若處理超長文本(如合同),選 GraphReader;若需全局概覽(如行業(yè)報告),選 GraphRAG。
  2. 平衡成本與效率:
    KAG 和 GraphReader 構(gòu)建成本高,適合預(yù)算充足的企業(yè)級場景;LightRAG 和 HippoRAG 輕量級,適合中小團隊快速落地。
  3. 結(jié)合領(lǐng)域數(shù)據(jù)特性:
    結(jié)構(gòu)化數(shù)據(jù)多的領(lǐng)域(如醫(yī)療記錄)適合 KAG;非結(jié)構(gòu)化長文本(如用戶評論)適合 GraphReader;實體密集型數(shù)據(jù)(如學(xué)術(shù)論文)適合 HippoRAG/GraphRAG。
責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-03-13 12:24:34

2024-04-30 16:17:34

RAGLLM

2025-03-06 10:41:32

2025-05-19 18:03:15

LightRAGRAG人工智能

2025-02-06 13:50:06

2024-06-24 14:32:33

2025-06-13 01:33:00

2025-06-11 02:55:00

GraphRAGRAG框架

2024-07-15 12:18:39

2025-06-03 02:11:00

2024-08-12 08:28:53

2025-05-19 14:50:00

2024-10-14 14:45:00

數(shù)據(jù)模型

2025-05-13 01:00:00

HippoRAG大語言模型LLMs

2009-06-22 17:15:50

Java Applet拓撲圖

2024-04-30 09:48:33

LLMRAG人工智能

2024-11-14 18:39:23

2025-04-09 09:00:00

2024-06-03 10:53:18

LLMRAGGraphRAG
點贊
收藏

51CTO技術(shù)棧公眾號