偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

你想要的GraphRAG的內(nèi)容都在這了

發(fā)布于 2024-7-8 07:48
瀏覽
0收藏

最近微軟終于開源了他的GraphRAG,短短7天就集齊了6.7K Star。那GraphRAG到底是個(gè)啥???

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

GraphRAG的論文實(shí)際上要比代碼開源早很多,論文應(yīng)是今年4月份在Arxiv上發(fā)表的,但是代碼是這個(gè)月1號(hào)才正式上傳開源。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

項(xiàng)目開源地址:https://github.com/microsoft/graphrag

項(xiàng)目幫助文檔:https://microsoft.github.io/graphrag/posts/get_started/

1. 為什么要提出GraphRAG?

RAG,又稱檢索增強(qiáng)生成(Retrieval Augumented Generation)。RAG目前已經(jīng)成為大語(yǔ)言模型應(yīng)用的核心組件之一,利用檢索到的內(nèi)容,無(wú)論是相似度檢索,還是傳統(tǒng)搜索、搜索引擎來(lái)增強(qiáng)大語(yǔ)言模型的外部知識(shí)。憑借這一能力,RAG在幫助LLM處理私有化數(shù)據(jù)集上發(fā)揮了巨大的潛力、取得了不俗的表現(xiàn),這些私有化數(shù)據(jù)集對(duì)于LLM來(lái)說(shuō)是全新的,比如企業(yè)內(nèi)部文檔、商業(yè)文件、用戶對(duì)話記錄等。即使如此,傳統(tǒng)RAG仍然存在很多問(wèn)題,比如:

  • ? 在處理多信息點(diǎn)時(shí)存在困難,比如某個(gè)問(wèn)題的回答需要整合多個(gè)文檔、多個(gè)片段的信息,提供全新的見解時(shí),傳統(tǒng)RAG往往在回答的全面性方面存在不足。

2.  什么是GraphRAG

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

如上圖所示,GraphRAG包括兩個(gè)處理階段,分別是:索引階段和查詢階段。索引階段利用LLM來(lái)自動(dòng)化構(gòu)建知識(shí)圖譜,提取出對(duì)應(yīng)的節(jié)點(diǎn)(如實(shí)體)、邊(如關(guān)系)和協(xié)變量(如主張,claim),然后利用社區(qū)發(fā)現(xiàn)技術(shù)(如Leiden算法)對(duì)整個(gè)知識(shí)圖譜進(jìn)行子圖劃分,然后自底而上對(duì)子圖利用LLM進(jìn)行摘要、總結(jié)。針對(duì)特定查詢,“全局答案(Global Search)”匯總所有與之相關(guān)的社區(qū)摘要最后匯總生成答案。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

2.1 源文檔生成文本片段

與傳統(tǒng)RAG一樣,GraphRAG也需要將源文檔轉(zhuǎn)化為文本片段(TextUnits),這個(gè)片段既會(huì)被用于圖譜抽取,也會(huì)作為知識(shí)的引用源,以便追溯回最初的原始文本內(nèi)容。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

在最新開源的GraphRAG代碼里,文本切分大?。ㄒ訲oken數(shù)計(jì)算)是可以根據(jù)用戶需求調(diào)整的。默認(rèn)是300個(gè)Token,盡管,作者發(fā)現(xiàn)1200個(gè)token大小的文本單元能取得更好效果。但是,越大的文本塊大小會(huì)導(dǎo)致輸出精度降低、召回率降低、并且降低參考文本的可讀性;不過(guò)文本塊尺寸越大,可以減少LLM調(diào)用次數(shù),整個(gè)處理過(guò)程速度可以更快。

下圖展示了,在相同的提取循環(huán)次數(shù)下,提取的實(shí)體數(shù)會(huì)隨著文檔片段的大小增加。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

文本單元的分組設(shè)置同樣可以根據(jù)用戶需求定制。默認(rèn)GraphRAG會(huì)按照文檔邊界來(lái)對(duì)齊單元,確保文檔與文本單元之間保持嚴(yán)格的一對(duì)一關(guān)聯(lián)。在少數(shù)情況下(特別是非常短的文檔),比如推文、聊天記錄這些情況下,會(huì)組合多個(gè)文檔構(gòu)成一個(gè)有意義的分析單元。

2.2 知識(shí)圖譜構(gòu)建

接下來(lái)的步驟就是對(duì)于每一段文本片段,利用LLM從中提取實(shí)體、關(guān)系、主張(Claim)。下圖是GraphRAG里面用于知識(shí)圖譜構(gòu)建的提示詞。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

因?yàn)槠?,這里不展示全部提示詞,大家可以自行參考鏈接:

./prompt_tune/template/entity_extraction.py

2.3 元素實(shí)例轉(zhuǎn)化為元素摘要

通過(guò)LLM對(duì)文檔中的實(shí)體、關(guān)系、主張進(jìn)行提取,本質(zhì)上是對(duì)文檔的一種抽象式摘要。同名同類型的實(shí)體將通過(guò)整合它們的描述形成統(tǒng)一的數(shù)組;同樣的,相同起點(diǎn)和終點(diǎn)的關(guān)系也將通過(guò)整合描述后進(jìn)行合并。

圖譜抽取的最后一步是對(duì)代表同一現(xiàn)實(shí)世界實(shí)體但名稱不同的實(shí)體進(jìn)行辨識(shí)。由于此過(guò)程通過(guò)LLM執(zhí)行,希望在不丟失信息的前提下,采取一種審慎且非破壞性的方法。

不過(guò),目前的實(shí)體辨識(shí)實(shí)現(xiàn)是具有破壞性的。將一系列實(shí)體提供給LLM,并要求其判斷哪些實(shí)體應(yīng)該合并。然后,這些實(shí)體將被合并為單一實(shí)體,并且它們的關(guān)系也會(huì)相應(yīng)更新。

GraphRAG正在積極探索其他實(shí)體辨識(shí)技術(shù)。在不久的將來(lái),實(shí)體辨識(shí)將通過(guò)在不同實(shí)體變體間建立一條邊來(lái)執(zhí)行,表明這些實(shí)體已經(jīng)被索引引擎辨識(shí)。這將使用戶能夠撤銷索引端的辨識(shí),并采用類似過(guò)程添加自己的非破壞性辨識(shí)。

2.4 元素概要至圖譜社群

上一步驟所構(gòu)建的索引可以視作一個(gè)均勻無(wú)向加權(quán)圖,實(shí)體節(jié)點(diǎn)通過(guò)關(guān)系邊相連,邊的權(quán)重反映了所檢測(cè)到關(guān)系實(shí)例的歸一化數(shù)量?;诖祟悎D,可以應(yīng)用多種社群發(fā)現(xiàn)算法,將圖遞歸劃分為多個(gè)社群,這些社群內(nèi)的節(jié)點(diǎn)間的聯(lián)系比與圖外其他節(jié)點(diǎn)更為緊密。在GraphRAG中,作者選用了Leiden算法,原因在于其能夠有效地挖掘大規(guī)模圖譜的層級(jí)社群結(jié)構(gòu)。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

該層級(jí)結(jié)構(gòu)的每一層都提供了一種劃分方式,以互斥且全面覆蓋的方式呈現(xiàn)圖中所有節(jié)點(diǎn),為全局性摘要的分治策略提供了可能。

2.5 圖譜社群至社群概要

接下來(lái)利用社群(知識(shí)圖譜子圖)數(shù)據(jù),利用LLM為每個(gè)社群總結(jié)為一個(gè)摘要式報(bào)告。這有助于在圖譜的不同細(xì)節(jié)層次上獲得宏觀的理解。比如,若社區(qū)A屬于最頂層,將獲得整個(gè)圖譜的綜合報(bào)告;若社區(qū)屬于較低層次,則報(bào)告將聚焦于一個(gè)特定的局部群體。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

可以通過(guò)提示詞里的示例,看一下這個(gè)知識(shí)圖譜報(bào)告長(zhǎng)什么樣子:

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

通過(guò)LLM對(duì)社區(qū)報(bào)告進(jìn)行濃縮、精簡(jiǎn),然后將這些報(bào)告內(nèi)容通過(guò)embedding模型進(jìn)行向量化,這里與傳統(tǒng)的RAG類似。

所以小編認(rèn)為,在整個(gè)GraphRAG里面,知識(shí)圖譜提取和這一步圖譜子圖摘要式總結(jié)是最為重要和特殊的。

2.6 社群概要至社群解答,再到全局解答

針對(duì)用戶的提問(wèn),社群的層接結(jié)構(gòu)特性意味著可以利用不同層級(jí)的社群摘要來(lái)回答問(wèn)題。在特定的社群中,用戶的提問(wèn)全局答復(fù)按以下過(guò)程生成:

  • ? 準(zhǔn)備社群概要。將社群概要隨機(jī)混洗,并劃分為預(yù)設(shè)的令牌大小的區(qū)塊。這樣做確保了相關(guān)信息均勻分布,而不是聚集(可能遺失)在單一的上下文窗口中。
  • ? 映射社群解答。并行生成每個(gè)區(qū)塊的中間答案。同時(shí)要求LLM為生成的答案打分,分?jǐn)?shù)范圍從0到100,以指示答案對(duì)目標(biāo)問(wèn)題的幫助程度。得分為0的答案將被排除。
  • ? 匯總為全局答案。根據(jù)有用性得分,將中間社群答案降序排列,并逐步整合進(jìn)新的上下文窗口,直至達(dá)到令牌限制。這一最終上下文將用于生成并返回給用戶的全局答案。

3. 對(duì)比分析

作者對(duì)比了六種配置的RAG,包括利用四層圖社群結(jié)構(gòu)的GraphRAG(C0、C1、C2、C3),以及將Map-Reduce應(yīng)用于原始文本的文本摘要方法(TS)、語(yǔ)義搜索RAG(SS)。

C0:利用根層級(jí)的社群概要來(lái)響應(yīng)用戶查詢,數(shù)量最為稀少。

C1:利用高級(jí)別社群概要解答問(wèn)題,這些是C0的子社群,如果存在的話;否則是C0社群的下投影。

C2:利用中層級(jí)社群概要來(lái)解答問(wèn)題,這些是C1的子社群,如果存在的話;否則是C1社群的下投影。

C3:利用底層社群概要來(lái)解答問(wèn)題,數(shù)量最多,這些是C2的子社群,如果存在的話;否則是C2社群的下投影。

TS:與GraphRAG方法相似,只是將原始文本(而非社群概要)隨機(jī)分配并分塊,用于map-reduce摘要階段。

SS:一種樸素RAG的實(shí)現(xiàn),檢索文本塊并添加至上下文窗口,直至達(dá)到設(shè)定的令牌限制。

3.1 全局方法相較于樸素RAG

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

如上圖,四種度量標(biāo)準(zhǔn)下每組125個(gè)問(wèn)題(每組問(wèn)題均重復(fù)五次并取平均值)的勝率對(duì)比圖。每一行代表的條件與每一列的條件相比較,勝者以粗體字標(biāo)出。自我勝率未作計(jì)算,以預(yù)期的50%作為參考線。

在全面性和多樣性上,GraphRAG的所有條件均超越了樸素RAG。特別是條件C1至C3,在答案的全面性和多樣性方面相較于TS(不依賴圖索引的全局文本摘要)顯示出了小幅提升。

全局方法在全面性和多樣性兩個(gè)指標(biāo)上,無(wú)論是播客還是新聞數(shù)據(jù)集,均持續(xù)超越了樸素RAG(SS)方法。具體來(lái)說(shuō),全局方法在播客文稿的全面性勝率介于72%到83%之間,在新聞文章上的勝率則在72%到80%之間,多樣性勝率分別為75%到82%和62%到71%。此外,我們以直接性作為有效性的檢驗(yàn),結(jié)果符合預(yù)期,即樸素RAG在所有對(duì)比中提供了最直接的回答。

3.2 社群摘要與原始文本的對(duì)比

對(duì)比社區(qū)概要和原始文本,社區(qū)概要在提升答案的全面性和多樣性方面,普遍帶來(lái)了雖小但穩(wěn)定的改進(jìn),根級(jí)概要不在此列。

  • ? 在播客數(shù)據(jù)集中,中級(jí)社區(qū)概要的全面性勝率為57%
  • ? 新聞數(shù)據(jù)集中,低級(jí)社區(qū)概要的全面性勝率為64%

多樣性方面:

  • ? 播客中級(jí)社區(qū)概要的勝率為57%,新聞低級(jí)社區(qū)概要?jiǎng)t為60%。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

上表展示了GraphRAG相較于原始文本摘要在可擴(kuò)展性上的優(yōu)勢(shì):針對(duì)低級(jí)社區(qū)概要(C3),GraphRAG所需的上下文Token數(shù)減少了26-33%;而針對(duì)根級(jí)社區(qū)概要(C0),令牌需求量更是減少了97%以上。

與其它全局方法相比,盡管性能略有降低,根級(jí)GraphRAG依然是進(jìn)行迭代問(wèn)答的高效方法,這種問(wèn)答是感知活動(dòng)的特點(diǎn),同時(shí)在全面性(勝率72%)和多樣性(勝率62%)上仍超越了樸素RAG。

3.3 回答效果展示

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

上圖第二、三行分別展示了GraphRAG和樸素RAG回答的效果對(duì)比,第四行展示了使用LLM對(duì)這兩個(gè)回答做出的評(píng)估結(jié)果(四個(gè)評(píng)估維度)。

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦