偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GraphRAG 真的比傳統(tǒng) RAG 更強(qiáng)嗎?到底什么時候該用GraphRAG?

人工智能
GraphRAG不是傳統(tǒng)RAG的“替代品”,而是“補(bǔ)充方案”——它用額外的成本,換來了復(fù)雜場景下的推理能力和可靠性。隨著GraphRAG-Bench這類基準(zhǔn)的完善,未來我們或許能看到更高效、更輕量化的GraphRAG框架,讓它在更多場景中落地。

在大模型時代,檢索增強(qiáng)生成(RAG)早已成為解決 “幻覺” 問題的核心方案。但隨著技術(shù)演進(jìn),GraphRAG—— 這種引入圖結(jié)構(gòu)的進(jìn)階形態(tài),卻陷入了 “理論美好、實(shí)踐迷?!?的困境:有人說它在多跳推理中表現(xiàn)驚艷,也有人抱怨它延遲高、Token 消耗大,簡單任務(wù)反而不如傳統(tǒng) RAG。

到底什么時候該用 GraphRAG?廈門大學(xué)、香港理工大學(xué)等團(tuán)隊(duì)聯(lián)合發(fā)表的論文《When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation》,不僅戳破了現(xiàn)有評估基準(zhǔn)的漏洞,更用全新的 GraphRAG-Bench 框架,為 “RAG vs GraphRAG” 的選擇提供了清晰指南。

01、先搞懂:RAG 和 GraphRAG 到底差在哪?


圖片

要判斷 “誰更適合”,首先得明確二者的核心差異。傳統(tǒng) RAG 和 GraphRAG 的本質(zhì)區(qū)別,在于對 “上下文關(guān)系” 的處理方式 ——

傳統(tǒng) RAG:快,但 “只見樹木不見森林”

傳統(tǒng) RAG 的邏輯很直接:用戶提問后,它基于語義相似性從語料庫中檢索相關(guān)文本片段,再把這些片段喂給大模型生成答案。這種模式的優(yōu)勢是 “快”,無需額外處理,能快速定位離散事實(shí),但短板也很明顯:

它只關(guān)注單個文本片段與查詢的匹配度,卻忽略了概念之間的隱藏關(guān)系—— 比如 “肺癌治療方案” 與 “化療藥物副作用”“患者肝腎功能評估” 之間的關(guān)聯(lián),傳統(tǒng) RAG 可能只能檢索到孤立的 “治療方案” 文本,卻無法串聯(lián)起后續(xù)的 “副作用管理” 和 “評估標(biāo)準(zhǔn)”,導(dǎo)致復(fù)雜任務(wù)中答案不完整。

GraphRAG:能 “織網(wǎng)”,但有額外成本

GraphRAG 則在 RAG 的基礎(chǔ)上多了一步 “圖構(gòu)建”:先把語料庫中的實(shí)體(如 “肺癌”“紫杉醇”)、關(guān)系(如 “治療藥物”“副作用”)提取出來,構(gòu)建成一張知識圖;用戶提問時,它不僅檢索直接相關(guān)的節(jié)點(diǎn),還會遍歷圖以捕獲相互連接的子圖,發(fā)現(xiàn)潛在模式,捕捉多步推理鏈(比如 “肺癌→紫杉醇治療→白細(xì)胞降低→需注射升白針”)。

這種 “織網(wǎng)” 能力讓它在復(fù)雜任務(wù)中更有潛力,但代價也很直觀:

  • 圖構(gòu)建需要額外計(jì)算資源,處理大規(guī)模數(shù)據(jù)時耗時久;
  • 檢索階段要遍歷圖結(jié)構(gòu),延遲比傳統(tǒng) RAG 高 2-3 倍(論文中 HotpotQA 數(shù)據(jù)集的實(shí)測結(jié)果);
  • Token 消耗大,部分 GraphRAG 框架(如 Global-GraphRAG)的提示長度甚至能達(dá)到 40000 Token,遠(yuǎn)超傳統(tǒng) RAG。

總的來說,這兩種范式之間的主要區(qū)別在于它們對上下文深度的處理RAG 在需要快速訪問離散信息的場景中表現(xiàn)出色,而GraphRAG 則強(qiáng)調(diào)對需要對相互連接的數(shù)據(jù)進(jìn)行細(xì)致理解的任務(wù)進(jìn)行深度上下文分析。

02、現(xiàn)有基準(zhǔn)的 “三大漏洞”:根本測不出 GraphRAG 的真實(shí)水平

為什么之前對 GraphRAG 的評價褒貶不一?論文指出,核心問題出在評估基準(zhǔn)本身?,F(xiàn)有常用的基準(zhǔn)(如 HotpotQA、UltraDomain)是為傳統(tǒng) RAG 設(shè)計(jì)的,用來測 GraphRAG 時,就像用 “尺子量體重”,完全抓不住重點(diǎn)。

這些基準(zhǔn)的漏洞主要有三個:

1. 任務(wù)太 “淺”:只考 “找事實(shí)”,不考 “真推理”

現(xiàn)有基準(zhǔn)的 “多跳問題”,本質(zhì)上還是 “事實(shí)拼接”。比如 “誰創(chuàng)立了 Kjaer Weis 公司?這個人出生在哪個城市?”—— 只需要找到兩個離散事實(shí),再拼在一起,根本不需要復(fù)雜的邏輯綜合。

但現(xiàn)實(shí)中的復(fù)雜問題,比如 “為什么 xxx 公司在某市場失?。俊?,可能需要串聯(lián) “市場進(jìn)入時機(jī)→供應(yīng)鏈中斷→監(jiān)管罰款→品牌受損” 的多步因果鏈,這才是 GraphRAG 的優(yōu)勢場景?,F(xiàn)有基準(zhǔn)完全沒有這類任務(wù),自然測不出 GraphRAG 的價值。

2. 語料太 “散”:缺乏結(jié)構(gòu)化知識,圖結(jié)構(gòu)無用武之地

現(xiàn)有基準(zhǔn)的語料大多來自維基百科、新聞,這些文本雖然通用,但缺乏明確的邏輯層次。比如醫(yī)學(xué)領(lǐng)域的語料,既沒有 “癥狀→診斷→治療” 的清晰關(guān)系,也沒有 “藥物相互作用” 的結(jié)構(gòu)化定義 ——GraphRAG 即便構(gòu)建了圖,也只是 “零散節(jié)點(diǎn)的堆砌”,發(fā)揮不出 “遍歷推理” 的優(yōu)勢。

論文中提到,UltraDomain 雖然嘗試用教科書構(gòu)建領(lǐng)域語料,但概念之間的連接依然松散,遠(yuǎn)達(dá)不到測試多跳推理的閾值。

3. 指標(biāo)太 “偏”:只看最終答案,不管 “過程價值”

現(xiàn)有基準(zhǔn)的評估指標(biāo)(如答案準(zhǔn)確率、ROUGE 分?jǐn)?shù)),只關(guān)注最終生成的文本好不好,卻把 GraphRAG 的核心過程(圖構(gòu)建質(zhì)量、檢索相關(guān)性)當(dāng)成了黑箱。

比如兩個 GraphRAG 模型,一個圖結(jié)構(gòu)清晰、檢索到的推理鏈完整,只是生成時語言不夠流暢;另一個圖結(jié)構(gòu)混亂,但靠大模型 “腦補(bǔ)” 出了流暢答案 —— 現(xiàn)有指標(biāo)會把后者判為 “更好”,但這顯然違背了 GraphRAG “靠結(jié)構(gòu)提升推理能力” 的初衷。

圖片

03、GraphRAG-Bench:首個能 “精準(zhǔn)把脈” 的評估框架

為了補(bǔ)上這些漏洞,論文團(tuán)隊(duì)提出了GraphRAG-Bench—— 一個專門為 GraphRAG 設(shè)計(jì)的基準(zhǔn)框架。它的核心思路是:從 “任務(wù)、語料、指標(biāo)” 三個維度,全面覆蓋 GraphRAG 的優(yōu)勢場景和短板。

具體而言,GraphRAG-Bench包含以下三個核心組成部分:

  1. 難度遞增的任務(wù):涵蓋從簡單的事實(shí)檢索到復(fù)雜的多跳推理、上下文摘要和創(chuàng)意生成。
  2. 具有不同信息密度的真實(shí)語料庫:結(jié)合了結(jié)構(gòu)化的領(lǐng)域知識和非結(jié)構(gòu)化的文本數(shù)據(jù)。
  3. 全流程系統(tǒng)評估:從圖構(gòu)建、知識檢索到最終生成的全面評估。

圖片

1. 任務(wù):從 “找事實(shí)” 到 “創(chuàng)內(nèi)容”,難度階梯式遞增

GraphRAG-Bench設(shè)計(jì)了四類任務(wù),覆蓋從簡單到復(fù)雜的全場景,精準(zhǔn)測試不同能力:

任務(wù)類型

核心目標(biāo)

對應(yīng)場景舉例

測試重點(diǎn)

事實(shí)檢索

定位離散信息

“肺癌的常見癥狀有哪些?”

檢索速度、事實(shí)準(zhǔn)確性

多跳推理

串聯(lián)多步邏輯關(guān)系

“紫杉醇治療肺癌會導(dǎo)致哪些副作用?如何應(yīng)對?”

圖遍歷能力、推理連貫性

上下文摘要

整合分散信息成連貫敘述

“總結(jié)某患者的病情發(fā)展與治療方案”

信息整合能力、上下文忠實(shí)度

創(chuàng)意生成

基于知識生成新穎內(nèi)容

“設(shè)計(jì)一個針對肺癌患者的康復(fù)計(jì)劃”

知識應(yīng)用能力、事實(shí)可靠性

這種階梯式任務(wù)設(shè)計(jì),能清晰看出:傳統(tǒng)RAG在“事實(shí)檢索”中更高效,而GraphRAG在“多跳推理”“上下文摘要”中更有優(yōu)勢。

2. 語料:“結(jié)構(gòu)化 + 非結(jié)構(gòu)化” 雙結(jié)合,還原真實(shí)場景

GraphRAG-Bench沒有用通用語料,而是針對性選擇了兩類互補(bǔ)數(shù)據(jù):

  • 結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù):來自美國國家綜合癌癥網(wǎng)絡(luò)(NCCN)臨床指南,包含“癥狀→診斷→治療”的明確層次、藥物相互作用規(guī)則,專門測試GraphRAG的“結(jié)構(gòu)化推理”能力;
  • 非結(jié)構(gòu)化小說文本:來自古登堡計(jì)劃的20世紀(jì)前小說(選鮮為人知的作品,避免與大模型預(yù)訓(xùn)練數(shù)據(jù)重疊),文本中有非線性的敘事邏輯,測試GraphRAG在“模糊語境”中的檢索魯棒性。

這兩類語料覆蓋了“精準(zhǔn)領(lǐng)域知識”和“真實(shí)模糊文本”,正好對應(yīng)GraphRAG的典型應(yīng)用場景。

圖片

3. 指標(biāo):全流程評估,不只看 “最終答案”

GraphRAG-Bench最關(guān)鍵的創(chuàng)新,是設(shè)計(jì)了三階段評估指標(biāo),從“圖構(gòu)建”到“檢索”再到“生成”,每個環(huán)節(jié)都有明確衡量標(biāo)準(zhǔn):

  • 圖質(zhì)量:用“節(jié)點(diǎn)數(shù)”“邊數(shù)”“平均聚類系數(shù)”衡量圖的完整性和連接緊密性(比如醫(yī)學(xué)圖中“疾病-治療-副作用”的子圖聚類系數(shù)高,說明結(jié)構(gòu)更合理);
  • 檢索性能:用“上下文相關(guān)性”(檢索內(nèi)容與查詢的匹配度)和“證據(jù)召回率”(是否找全所有關(guān)鍵信息),避免“檢索冗余”或“遺漏關(guān)鍵鏈”;
  • 生成準(zhǔn)確性:除了傳統(tǒng)的語義相似度,還加入“忠實(shí)度”(答案是否完全基于檢索到的圖信息,不腦補(bǔ))和“證據(jù)覆蓋率”(是否覆蓋所有關(guān)鍵推理步驟)。

這種全流程指標(biāo),終于能“看到”GraphRAG的核心價值——比如某模型生成的答案雖然流暢,但“忠實(shí)度低”,說明它靠大模型腦補(bǔ),而非圖結(jié)構(gòu)的推理;反之,若“證據(jù)召回率高、忠實(shí)度高”,才是GraphRAG真正發(fā)揮了作用。

04、實(shí)驗(yàn):明確“什么時候該用 GraphRAG”

基于 GraphRAG-Bench,團(tuán)隊(duì)測試了 7 種主流 GraphRAG 框架(如 HippoRAG2、RAPTOR)與傳統(tǒng) RAG 的性能,旨在解決以下四個研究問題:

  1. Q1(生成準(zhǔn)確性):在GraphRAG-Bench基準(zhǔn)上,GraphRAG與RAG的表現(xiàn)相比如何?
  2. Q2(檢索性能):GraphRAG在檢索過程中是否檢索到更高質(zhì)量且更少冗余的信息?
  3. Q3(圖復(fù)雜度):構(gòu)建的圖是否正確組織了底層知識?
  4. Q4(效率):GraphRAG在檢索過程中是否引入了顯著的標(biāo)記開銷?

圖片

Q1(生成準(zhǔn)確性):在GraphRAG-Bench基準(zhǔn)上,GraphRAG與RAG的表現(xiàn)相比如何?

  1. 觀察1:基本RAG在簡單事實(shí)檢索任務(wù)中與GraphRAG相當(dāng)。在不需要跨連接概念進(jìn)行復(fù)雜推理的簡單事實(shí)檢索任務(wù)中,基本RAG與GraphRAG相當(dāng)或優(yōu)于后者。這表明在不太復(fù)雜的場景中,基本RAG的直接檢索方法已足夠,而GraphRAG額外的基于圖的處理可能會為更簡單的查詢引入冗余或噪聲信息,從而降低答案質(zhì)量。
  2. 觀察2:GraphRAG在復(fù)雜任務(wù)中表現(xiàn)出色。GraphRAG模型在復(fù)雜推理、上下文摘要和創(chuàng)意生成方面顯示出明顯優(yōu)勢。因?yàn)檫@些任務(wù)需要橋接多個概念之間的復(fù)雜關(guān)系,而這自然是圖結(jié)構(gòu)的優(yōu)勢所在。
  3. 觀察3:GraphRAG在創(chuàng)意任務(wù)中確保更高的事實(shí)可靠性。盡管RAG覆蓋了更多證據(jù)(40.0%),但RAPTOR在小說數(shù)據(jù)集上的忠實(shí)度得分最高(70.9%)——這可能是因?yàn)镚raphRAG的碎片化知識檢索使大范圍生成變得復(fù)雜。這種權(quán)衡凸顯了GraphRAG在精確性方面的優(yōu)勢,但也顯示了其在廣泛綜合方面的局限性。

圖片

Q2(檢索性能):GraphRAG在檢索過程中是否檢索到更高質(zhì)量且更少冗余的信息?

  1. 觀察4:RAG在不需要復(fù)雜邏輯的簡單問題的離散事實(shí)檢索方面表現(xiàn)出色,在小說數(shù)據(jù)集上實(shí)現(xiàn)了83.2%的上下文召回率(相比之下,HippoRAG2的上下文相關(guān)性最佳)。醫(yī)學(xué)數(shù)據(jù)集的結(jié)果證實(shí)了這一模式,表明1級問題的相關(guān)證據(jù)通常存在于單個段落中。這是因?yàn)镚raphRAG中使用的圖在這些場景中引入了一些邏輯相關(guān)但冗余的信息。
  2. 觀察5:隨著問題變得更加復(fù)雜,GraphRAG的優(yōu)勢明顯顯現(xiàn)。對于小說數(shù)據(jù)集上的2-3級問題,HippoRAG實(shí)現(xiàn)了顯著的證據(jù)召回率(87.9-90.9%),而HippoRAG2在上下文相關(guān)性方面領(lǐng)先(85.8-87.8%)。醫(yī)學(xué)數(shù)據(jù)集的結(jié)果強(qiáng)化了這一趨勢,證明了GraphRAG在跨遠(yuǎn)距離文本段連接信息方面的獨(dú)特能力,這對多跳推理和全面摘要至關(guān)重要。
  3. 觀察6:在需要廣泛知識綜合的創(chuàng)意任務(wù)上,RAG和GraphRAG表現(xiàn)出權(quán)衡。Global-GraphRAG實(shí)現(xiàn)了卓越的證據(jù)召回率(83.1%),而RAG保持了更好的上下文相關(guān)性(78.8%)。盡管GraphRAG總體上訪問了更多相關(guān)信息,但與RAG更集中的結(jié)果相比,其檢索方法自然會引入一些冗余。

圖片

Q3(圖復(fù)雜度):構(gòu)建的圖是否正確組織了底層知識?

  1. 觀察7:不同GraphRAG實(shí)現(xiàn)生成的索引圖表現(xiàn)出顯著的結(jié)構(gòu)差異。HippoRAG2生成的圖密度明顯更高,其節(jié)點(diǎn)數(shù)和邊數(shù)都大大超過了其他框架。具體而言,在小說數(shù)據(jù)集上,HippoRAG2平均有2,310條邊和523個節(jié)點(diǎn),而在醫(yī)學(xué)數(shù)據(jù)集上,平均有3,979條邊和598個節(jié)點(diǎn)。這種增強(qiáng)的圖密度提高了信息連接性和覆蓋率,最終有助于卓越的檢索和生成能力。

圖片

Q4(效率):GraphRAG在檢索過程中是否引入了顯著的標(biāo)記開銷?

  1. 觀察8:與普通RAG相比,GraphRAG由于知識檢索和基于圖的聚合所涉及的額外步驟,顯著增加了提示長度。具體而言,結(jié)合了社區(qū)摘要機(jī)制的Global-GraphRAG的提示大小高達(dá)4×10?個標(biāo)記。LightRAG也產(chǎn)生了較長的提示(約10?個標(biāo)記)。相比之下,HippoRAG2保持了更緊湊的提示大小(約103個標(biāo)記),顯示出更好的效率。這些結(jié)果突出表明,GraphRAG的結(jié)構(gòu)化流程會帶來可觀的標(biāo)記開銷。
  2. 觀察9:隨著任務(wù)復(fù)雜度和所需知識點(diǎn)數(shù)量的增加,GraphRAG的提示長度呈現(xiàn)明顯的上升趨勢。值得注意的是,Global-GraphRAG的提示大小在難度遞增的任務(wù)中從7,800個標(biāo)記擴(kuò)展到40,000個標(biāo)記。這種過多的標(biāo)記積累通常會引入冗余信息,進(jìn)而在檢索過程中降低上下文相關(guān)性。這些發(fā)現(xiàn)強(qiáng)調(diào)了GraphRAG中的一個關(guān)鍵權(quán)衡:雖然它提高了檢索的廣度和組織性,但也可能由于提示膨脹而導(dǎo)致效率低下,尤其是在復(fù)雜任務(wù)中。

圖片

05、總結(jié):選擇 RAG 還是 GraphRAG?

讀完這篇論文,其實(shí)不用再糾結(jié)“誰更好”,而是要問自己三個問題:

  1. 任務(wù)復(fù)雜度如何? 簡單事實(shí)檢索用傳統(tǒng)RAG,多跳推理、深度摘要用GraphRAG;
  2. 對實(shí)時性和成本敏感嗎? 敏感選傳統(tǒng)RAG,不敏感且追求質(zhì)量選GraphRAG;
  3. 語料有結(jié)構(gòu)化關(guān)系嗎? 有(如醫(yī)學(xué)指南、領(lǐng)域知識庫)用GraphRAG,無(如新聞、通用文本)優(yōu)先傳統(tǒng)RAG。

傳統(tǒng) RAG 的 “黃金場景”:簡單、快、資源有限

當(dāng)滿足以下條件時,別糾結(jié),直接用傳統(tǒng)RAG:

  1. 任務(wù)是簡單事實(shí)檢索:比如“某藥物的適應(yīng)癥是什么?”“某公司成立于哪一年?”——論文實(shí)測顯示,在這類任務(wù)中,傳統(tǒng)RAG的準(zhǔn)確率比GraphRAG高13.4%(Natural Questions數(shù)據(jù)集結(jié)果),且速度快、Token消耗少;
  2. 對實(shí)時性要求高:比如客服機(jī)器人、實(shí)時問答系統(tǒng),傳統(tǒng)RAG的低延遲優(yōu)勢明顯;
  3. 計(jì)算資源有限:小團(tuán)隊(duì)或邊緣設(shè)備,無法承擔(dān)圖構(gòu)建的額外成本,傳統(tǒng)RAG的性價比更高。

GraphRAG的“優(yōu)勢場景”:復(fù)雜、深度、需可靠  

當(dāng)任務(wù)符合以下特征時,GraphRAG的價值會凸顯:

  1. 需要多跳推理:比如“某患者同時患有肺癌和乙肝,使用紫杉醇治療時需注意哪些藥物相互作用?”——需要串聯(lián)“肺癌治療→紫杉醇→乙肝用藥(如恩替卡韋)→無相互作用”的推理鏈,傳統(tǒng)RAG容易遺漏關(guān)鍵環(huán)節(jié),而GraphRAG的圖遍歷能力能確保邏輯完整;
  2. 需要上下文摘要:比如“總結(jié)某疾病的最新治療進(jìn)展,包括藥物、臨床試驗(yàn)結(jié)果、適用人群”——需要整合分散在多篇文獻(xiàn)中的信息,GraphRAG能通過圖結(jié)構(gòu)關(guān)聯(lián)“藥物→試驗(yàn)數(shù)據(jù)→適用人群”,生成更全面的摘要;
  3. 對事實(shí)可靠性要求高:比如醫(yī)療診斷建議、法律文書生成,GraphRAG的“忠實(shí)度”更高(論文中RAPTOR在小說數(shù)據(jù)集的忠實(shí)度得分70.9%,高于傳統(tǒng)RAG的40.0%),能減少大模型的“腦補(bǔ)”,降低錯誤風(fēng)險。

關(guān)鍵提醒:GraphRAG的“權(quán)衡點(diǎn)”    

即便在優(yōu)勢場景中,也需要接受GraphRAG的“不完美”:

  • 它的Token消耗比傳統(tǒng)RAG高5-10倍,需要做好成本預(yù)算;
  • 圖構(gòu)建需要預(yù)處理,無法像傳統(tǒng)RAG那樣“拿到語料就能用”,適合靜態(tài)或慢更新的知識庫(如醫(yī)學(xué)指南、法律條文);
  • 不同GraphRAG框架的表現(xiàn)差異大,HippoRAG2因圖密度高(節(jié)點(diǎn)數(shù)、邊數(shù)更多),在多跳推理中表現(xiàn)最佳,但也需要更多計(jì)算資源。

總的來說,GraphRAG不是傳統(tǒng)RAG的“替代品”,而是“補(bǔ)充方案”——它用額外的成本,換來了復(fù)雜場景下的推理能力和可靠性。隨著GraphRAG-Bench這類基準(zhǔn)的完善,未來我們或許能看到更高效、更輕量化的GraphRAG框架,讓它在更多場景中落地。

如果想深入研究,推薦直接查看論文和項(xiàng)目:

  • 論文地址:https://arxiv.org/pdf/2506.05690
  • 項(xiàng)目地址(含GraphRAG-Bench代碼和數(shù)據(jù)):https://github.com/GraphRAG-Bench/GraphRAG-Benchmark
責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-06-11 02:55:00

GraphRAGRAG框架

2024-08-05 01:22:16

2024-04-30 16:17:34

RAGLLM

2017-05-15 09:55:07

2020-05-12 11:25:50

MySQLES數(shù)據(jù)庫

2024-11-26 07:20:25

2024-07-15 12:18:39

2025-07-08 09:06:49

2025-03-06 10:41:32

2017-04-05 21:43:08

MQ互聯(lián)網(wǎng)架構(gòu)

2025-05-27 00:15:00

RAG指數(shù)圖譜大模型

2020-10-27 09:50:06

Reactrende前端

2020-10-25 07:49:37

React組件

2025-03-13 12:24:34

2020-06-17 10:35:16

機(jī)器學(xué)習(xí)AI人工智能

2025-09-09 09:20:48

2023-11-24 08:17:38

金額類型存儲

2025-05-19 09:28:31

2025-09-29 08:45:36

2015-07-08 15:55:01

NSStringcopystrong
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號