GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考 原創(chuàng)
系統(tǒng)的評估總是有趣的,在前文,我們通過一個類似的benchmark得出結(jié)論:GraphRAG在需要多跳推理和上下文綜合的任務(wù)中表現(xiàn)優(yōu)異,但在簡單事實檢索任務(wù)中不如傳統(tǒng)RAG。見《???什么時候用GraphRAG?RAG VS GraphRAG綜合分析??》
本文,再來看一個評估工作,同樣是一個GraphRAG-bench,也再次通過評估得出GraphRAG適合多跳推理場景,并且系統(tǒng)的評估了九大GraphRAG(RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP和ToG)在這個benchmark上的性能,供參考。
評估設(shè)計
數(shù)據(jù)來源:從超過100本出版物中,系統(tǒng)地挑選出最具代表性的20本計算機科學(xué)領(lǐng)域的教科書。
數(shù)據(jù)處理:其實就是文檔解析,前面《文檔智能》專欄也介紹了很多,包含:預(yù)處理、內(nèi)容解析、后處理和層次結(jié)構(gòu)構(gòu)建。預(yù)處理階段包括PDF分類和元數(shù)據(jù)提??;內(nèi)容解析階段使用LayoutLMv3進行布局分析、公式識別和OCR;后處理階段使用MinerU重新排序和合并頁面區(qū)域;層次結(jié)構(gòu)構(gòu)建階段將提取的內(nèi)容組織成層次化的教科書樹結(jié)構(gòu)。
評估問題設(shè)計:定義了五種類型的問題,每種類型都針對GraphRAG的不同推理能力。如下表,GraphRAG-bench評估問題類型的描述
問題類型 | 描述 |
填空題(FB) | 要求用語義精確的術(shù)語完成上下文相關(guān)的陳述。這些題目評估模型利用局部語義依賴和圖結(jié)構(gòu)知識中的實體定位,生成上下文連貫內(nèi)容的能力。 |
多選題(MC) | 提供一個問題及4個選項,包括語言上合理的干擾項。這些題目評估模型通過區(qū)分性推理識別正確答案的能力,整合實體信息和邊關(guān)系以排除語義相似但事實錯誤的選項。 |
多選答題(MS) | 要求從4個選項中選擇2-4個正確答案,通常需要對相互關(guān)聯(lián)的概念進行推理。包含重疊干擾項的設(shè)置測試模型處理復(fù)雜查詢語義的能力,從多跳圖路徑中聚合證據(jù),并解決相關(guān)但非必要屬性之間的沖突。 |
判斷題(TF) | 涉及驗證陳述的正確性。這些題目衡量模型的事實準(zhǔn)確性評估能力,要求對知識進行邏輯推理。 |
開放式問題(OE) | 開放式問題允許廣泛的回答,要求方法生成詳細(xì)且全面的答案。這些題目評估模型的整體知識綜合能力,要求整合多學(xué)科知識以生成結(jié)構(gòu)化、邏輯連貫的長篇回答。 |
評估指標(biāo):涵蓋圖構(gòu)建、知識檢索、答案生成和推理過程的評價。圖構(gòu)建評估包括效率、成本和組織性;知識檢索評估包括索引時間和平均檢索時間;生成評估引入了新的Accuracy指標(biāo),考慮語義對齊和正確性;推理評估通過LLM對生成的理由進行評分,評估其邏輯一致性。
實驗與結(jié)論
- GraphRAG在大多數(shù)任務(wù)中顯著提升了LLM的推理能力。例如,在開放性問題(OE)上,GraphRAG的平均準(zhǔn)確率達(dá)到了52.42%,而基線模型GPT-4o-mini僅為52.23%。在多跳推理任務(wù)中,GraphRAG方法如RAPTOR和HippoRAG表現(xiàn)尤為突出,分別在準(zhǔn)確率和推理分?jǐn)?shù)上取得了73.58%和45.53%的成績。
- 在數(shù)學(xué)領(lǐng)域,GraphRAG方法的表現(xiàn)有所下降,這主要是因為數(shù)學(xué)問題需要嚴(yán)格的符號操作和精確的推理鏈,而GraphRAG檢索到的信息往往與問題要求不完全匹配,導(dǎo)致信息提取和轉(zhuǎn)換中的歧義或關(guān)鍵步驟丟失。
- 在倫理領(lǐng)域,GraphRAG和LLM本身的表現(xiàn)均較為一般,原因是倫理問題涉及主觀價值判斷,LLM通過統(tǒng)計學(xué)習(xí)捕獲的符號表示難以準(zhǔn)確建模這些模糊的倫理概念。
圖構(gòu)建過程的比較
知識檢索過程比較
生成過程的比較
推理能力比較
參考文獻:GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation,https://arxiv.org/pdf/2506.02404
repo:https://github.com/jeremycp3/GraphRAG-Bench
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:余俊暉
