偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="b0ffv"><strong id="b0ffv"></strong></kbd><dfn id="b0ffv"></dfn>

<nobr id="b0ffv"><optgroup id="b0ffv"></optgroup></nobr>

<thead id="b0ffv"></thead>

<nav id="b0ffv"><strong id="b0ffv"></strong></nav>

<var id="b0ffv"></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-6-13 08:42

瀏覽

0收藏

系統(tǒng)的評估總是有趣的，在前文，我們通過一個類似的benchmark得出結(jié)論：GraphRAG在需要多跳推理和上下文綜合的任務(wù)中表現(xiàn)優(yōu)異，但在簡單事實檢索任務(wù)中不如傳統(tǒng)RAG。見《???什么時候用GraphRAG？RAG VS GraphRAG綜合分析??》

本文，再來看一個評估工作，同樣是一個GraphRAG-bench，也再次通過評估得出GraphRAG適合多跳推理場景，并且系統(tǒng)的評估了九大GraphRAG（RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP和ToG）在這個benchmark上的性能，供參考。

評估設(shè)計

數(shù)據(jù)來源：從超過100本出版物中，系統(tǒng)地挑選出最具代表性的20本計算機科學(xué)領(lǐng)域的教科書。

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考-AI.x社區(qū)

數(shù)據(jù)處理：其實就是文檔解析，前面《文檔智能》專欄也介紹了很多，包含：預(yù)處理、內(nèi)容解析、后處理和層次結(jié)構(gòu)構(gòu)建。預(yù)處理階段包括PDF分類和元數(shù)據(jù)提??；內(nèi)容解析階段使用LayoutLMv3進行布局分析、公式識別和OCR；后處理階段使用MinerU重新排序和合并頁面區(qū)域；層次結(jié)構(gòu)構(gòu)建階段將提取的內(nèi)容組織成層次化的教科書樹結(jié)構(gòu)。

評估問題設(shè)計：定義了五種類型的問題，每種類型都針對GraphRAG的不同推理能力。如下表，GraphRAG-bench評估問題類型的描述

問題類型	描述
填空題(FB)	要求用語義精確的術(shù)語完成上下文相關(guān)的陳述。這些題目評估模型利用局部語義依賴和圖結(jié)構(gòu)知識中的實體定位，生成上下文連貫內(nèi)容的能力。
多選題(MC)	提供一個問題及4個選項，包括語言上合理的干擾項。這些題目評估模型通過區(qū)分性推理識別正確答案的能力，整合實體信息和邊關(guān)系以排除語義相似但事實錯誤的選項。
多選答題(MS)	要求從4個選項中選擇2-4個正確答案，通常需要對相互關(guān)聯(lián)的概念進行推理。包含重疊干擾項的設(shè)置測試模型處理復(fù)雜查詢語義的能力，從多跳圖路徑中聚合證據(jù)，并解決相關(guān)但非必要屬性之間的沖突。
判斷題(TF)	涉及驗證陳述的正確性。這些題目衡量模型的事實準(zhǔn)確性評估能力，要求對知識進行邏輯推理。
開放式問題(OE)	開放式問題允許廣泛的回答，要求方法生成詳細(xì)且全面的答案。這些題目評估模型的整體知識綜合能力，要求整合多學(xué)科知識以生成結(jié)構(gòu)化、邏輯連貫的長篇回答。

評估指標(biāo)：涵蓋圖構(gòu)建、知識檢索、答案生成和推理過程的評價。圖構(gòu)建評估包括效率、成本和組織性；知識檢索評估包括索引時間和平均檢索時間；生成評估引入了新的Accuracy指標(biāo)，考慮語義對齊和正確性；推理評估通過LLM對生成的理由進行評分，評估其邏輯一致性。

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考-AI.x社區(qū)

實驗與結(jié)論

GraphRAG在大多數(shù)任務(wù)中顯著提升了LLM的推理能力。例如，在開放性問題（OE）上，GraphRAG的平均準(zhǔn)確率達(dá)到了52.42%，而基線模型GPT-4o-mini僅為52.23%。在多跳推理任務(wù)中，GraphRAG方法如RAPTOR和HippoRAG表現(xiàn)尤為突出，分別在準(zhǔn)確率和推理分?jǐn)?shù)上取得了73.58%和45.53%的成績。
在數(shù)學(xué)領(lǐng)域，GraphRAG方法的表現(xiàn)有所下降，這主要是因為數(shù)學(xué)問題需要嚴(yán)格的符號操作和精確的推理鏈，而GraphRAG檢索到的信息往往與問題要求不完全匹配，導(dǎo)致信息提取和轉(zhuǎn)換中的歧義或關(guān)鍵步驟丟失。
在倫理領(lǐng)域，GraphRAG和LLM本身的表現(xiàn)均較為一般，原因是倫理問題涉及主觀價值判斷，LLM通過統(tǒng)計學(xué)習(xí)捕獲的符號表示難以準(zhǔn)確建模這些模糊的倫理概念。

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考-AI.x社區(qū)

圖構(gòu)建過程的比較

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考-AI.x社區(qū)

知識檢索過程比較

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考-AI.x社區(qū)

生成過程的比較

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考-AI.x社區(qū)

推理能力比較

GraphRAG變種這么多，該采用哪種？九大GraphRAG評估參考-AI.x社區(qū)

參考文獻：GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation，https://arxiv.org/pdf/2506.02404

repo：https://github.com/jeremycp3/GraphRAG-Bench

本文轉(zhuǎn)載自??大模型自然語言處理?? 作者：余俊暉

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

你想要的GraphRAG的內(nèi)容都在這了

大語言模型論文跟蹤 ? 4631瀏覽 ? 0回復(fù)
微軟 GraphRAG 與傳統(tǒng) RAG 架構(gòu)設(shè)計精髓

AIGC觀察者 ? 6949瀏覽 ? 0回復(fù)
GraphRAG項目雨后春筍般涌現(xiàn)！

PaperAgent ? 3279瀏覽 ? 0回復(fù)
動手實現(xiàn)GraphRAG，檢索效果大幅提升

小虎哦哦 ? 3799瀏覽 ? 0回復(fù)
一文徹底搞懂GraphRAG

小虎哦哦 ? 3337瀏覽 ? 0回復(fù)
kotaemon核心GraphRAG、Agent、多模態(tài)代碼解讀！

PaperAgent ? 3740瀏覽 ? 0回復(fù)
一文讀懂GraphRAG大模型知識圖譜

數(shù)字化助推器 ? 4816瀏覽 ? 0回復(fù)
小白也能讀懂的GraphRAG知識圖譜全流程解析，多圖預(yù)警！

AI博物院 ? 8298瀏覽 ? 0回復(fù)
GraphRAG進化，效率翻倍！

NLP前沿1 ? 2745瀏覽 ? 0回復(fù)
Nano-graphrag: 輕量級、靈活的 GraphRAG 實現(xiàn)

Syrupup ? 4152瀏覽 ? 0回復(fù)
GraphRAG+Langchain實現(xiàn)大模型知識圖譜

數(shù)字化助推器 ? 2920瀏覽 ? 0回復(fù)
GraphRAG結(jié)合普通RAG，打造Hybrid RAG

小虎哦哦 ? 3150瀏覽 ? 0回復(fù)
“大模型+知識圖譜”雙輪驅(qū)動的見解、技術(shù)和評估 - 英偉達(dá)的GraphRAG

知識圖譜科技 ? 3214瀏覽 ? 0回復(fù)
一篇大模型GraphRAG最新綜述

探索AGI ? 3074瀏覽 ? 0回復(fù)
看了這么多文章，終于理解了 Scaling Law

芝士AI吃魚 ? 6404瀏覽 ? 0回復(fù)
HippoRAG 2發(fā)布，GraphRAG退位！

PaperAgent ? 2400瀏覽 ? 0回復(fù)
Diffbot的GraphRAG大模型

知識圖譜科技 ? 2322瀏覽 ? 0回復(fù)
什么時候用GraphRAG？RAG VS GraphRAG綜合分析

大模型自然語言處理 ? 988瀏覽 ? 0回復(fù)
GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復(fù)雜推理性能

大模型自然語言處理 ? 714瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

RAG知識庫構(gòu)建新框架-EasyDoc小模型+多模態(tài)大模型結(jié)合的文檔智能解析框架 2天前發(fā)布
用于實時工業(yè)社區(qū)問答的RAG新框架-ComRAG 3天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：什么時候用GraphRAG？RAG VS GraphRAG綜合分析

下一篇：使用RAG的思想進行PPT生成的框架思路-SlideCoder

社區(qū)精華內(nèi)容

目錄

<tt id="q1zg5"><nobr id="q1zg5"></nobr></tt>

<tt id="q1zg5"></tt>

<button id="q1zg5"></button>

<bdo id="q1zg5"><source id="q1zg5"></source></bdo>