偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微軟即將推出超強(qiáng)RAG: LazyGraphRAG 效果更好,且成本能降低近1000倍! 原創(chuàng) 精華

發(fā)布于 2024-12-2 15:34
瀏覽
0收藏

1、什么是LazyGraphRAG

GraphRAG[1]旨在通過(guò)利用非結(jié)構(gòu)化文本中的隱式關(guān)系來(lái)擴(kuò)展AI系統(tǒng)可以在私有數(shù)據(jù)集上回答的問(wèn)題類別,相對(duì)于傳統(tǒng)矢量RAG(或“語(yǔ)義搜索”)的一個(gè)關(guān)鍵優(yōu)勢(shì)是它能夠回答解決整個(gè)數(shù)據(jù)集的全局查詢,例如“數(shù)據(jù)中的主要主題是什么?",或者“X最重要的含義是什么"。相反,向量RAG擅長(zhǎng)于本地查詢,其中答案類似于查詢并且可以在特定文本區(qū)域內(nèi)找到,如通常針對(duì)“who”、“what”、“when”和“where”問(wèn)題的情況。

最近微軟提出了一種完全不同的支持圖形的RAG方法,該方法不需要對(duì)源數(shù)據(jù)進(jìn)行事先匯總,從而避免了對(duì)某些用戶和用例可能過(guò)高的前期索引成本。我們稱這種方法為“LazyGraphRAG”。

LazyGraphRAG的一個(gè)關(guān)鍵優(yōu)勢(shì)是其在成本和質(zhì)量方面的固有可擴(kuò)展性。在一系列相互競(jìng)爭(zhēng)的方法中(標(biāo)準(zhǔn)矢量RAG,RAPTOR[2]和GraphRAG本地[3],全局[4]和DRIFT[5]搜索機(jī)制),LazyGraphRAG在成本質(zhì)量范圍內(nèi)表現(xiàn)出強(qiáng)大的性能,如下所示:

  • LazyGraphRAG的數(shù)據(jù)索引成本與矢量RAG相同,是完整GraphRAG成本的0.1%。
  • 對(duì)于與向量RAG相當(dāng)?shù)牟樵兂杀?,LazyGraphRAG在本地查詢上優(yōu)于所有競(jìng)爭(zhēng)方法,包括長(zhǎng)上下文向量RAG和GraphRAGDRIFT[6]搜索(我們最近引入的RAG方法表現(xiàn)出優(yōu)于向量RAG)以及GraphRAG本地搜索。
  • 同樣的LazyGraphRAG配置也顯示出與GraphRAG Global Search相似的全局查詢答案質(zhì)量,但查詢成本低700倍以上。
  • 對(duì)于GraphRAG全局搜索的4%的查詢成本,LazyGraphRAG在本地和全局查詢類型上都顯著優(yōu)于所有競(jìng)爭(zhēng)方法,包括C2級(jí)別的GraphRAG全局搜索(大多數(shù)應(yīng)用程序推薦的社區(qū)層次結(jié)構(gòu)的第三級(jí))。

LazyGraphRAG即將加入開(kāi)源GraphRAG庫(kù)[7],為本地和全局查詢提供統(tǒng)一的查詢接口,其輕量級(jí)數(shù)據(jù)索引的成本與標(biāo)準(zhǔn)矢量RAG相當(dāng)。

2、融合vector RAG和Graph RAG的優(yōu)勢(shì)

LazyGraphRAG旨在融合vector RAG和Graph RAG的優(yōu)勢(shì),同時(shí)克服各自的局限性:

  • vector RAG是一種最佳優(yōu)先搜索的形式,它使用與查詢的相似性來(lái)選擇最佳匹配的源文本塊。但是,它沒(méi)有考慮全局查詢的數(shù)據(jù)集的廣度。
  • GraphRAG全局搜索是廣度優(yōu)先搜索的一種形式,它使用源文本實(shí)體的社區(qū)結(jié)構(gòu),以確保在考慮數(shù)據(jù)集的全部廣度的情況下回答查詢。然而,它沒(méi)有意識(shí)到本地查詢要考慮的最佳社區(qū)。

LazyGraphRAG以迭代深化的方式結(jié)合了最佳優(yōu)先和廣度優(yōu)先搜索。與全GraphRAG的全局搜索機(jī)制相比,這種方法在延遲LLM使用和顯著提高答案生成效率方面是“懶惰”的。

3、技術(shù)特點(diǎn)

微軟已經(jīng)開(kāi)源了名為GraphRAG的項(xiàng)目,在數(shù)據(jù)索引部分,其主要借助大型模型對(duì)實(shí)體及其聯(lián)系進(jìn)行抽取和描繪,并為每個(gè)實(shí)體與關(guān)系產(chǎn)生摘要。

此過(guò)程中涉及圖形統(tǒng)計(jì)學(xué)來(lái)精進(jìn)實(shí)體圖并抽出分級(jí)的社區(qū)構(gòu)造。但這種方式的投入巨大,由于依賴眾多的語(yǔ)言模型處理,GraphRAG的數(shù)據(jù)索引費(fèi)用極為昂貴。

然而,LazyGraphRAG與前者有所不同,它無(wú)需預(yù)先進(jìn)行任何概括或生成嵌入,在數(shù)據(jù)索引階段,它利用自然語(yǔ)言處理的名詞短語(yǔ)抽取技術(shù)來(lái)識(shí)別觀念及其共現(xiàn)關(guān)系,在此基礎(chǔ)上運(yùn)用圖形統(tǒng)計(jì)學(xué)方法優(yōu)化觀念圖并抽取分層社區(qū)結(jié)構(gòu)。這使得LazyGraphRAG的索引成本極低,只有GraphRAG的0.1%,也就是說(shuō),降低了1000倍的成本。

在查詢處理方面,GraphRAG采用廣度優(yōu)先搜索以確保在響應(yīng)查詢時(shí)考慮到了全部數(shù)據(jù)集的廣度。然而,LazyGraphRAG則融合了最優(yōu)先搜索與廣度優(yōu)先搜索的動(dòng)態(tài)性,采取了逐步深化的策略。首先對(duì)文本片段進(jìn)行相似度排名,然后動(dòng)態(tài)選擇相關(guān)的社區(qū)以逐漸精煉查詢結(jié)果。

此種方式使得LazyGraphRAG能夠同時(shí)支持局部與全局查詢,而且在考慮整個(gè)數(shù)據(jù)集的廣度的同時(shí),也能有效地找到最匹配的文本部分。

4、驗(yàn)證結(jié)果

為了衡量LazyGraphRAG的性能表現(xiàn),微軟設(shè)置了三個(gè)不同的預(yù)算檔次,以觀察其在各種環(huán)境下的運(yùn)行狀態(tài)。

在最低預(yù)算等級(jí)下,進(jìn)行100次相關(guān)性測(cè)試,并利用低成本大模型時(shí),LazyGraphRAG顯現(xiàn)出了顯著的優(yōu)勢(shì)。無(wú)論是在局部查詢還是全局查詢中,其表現(xiàn)都超過(guò)了其他所有的方法。

在局部查詢場(chǎng)景中,LazyGraphRAG的性能明顯超越了C1、C2、C3_Dynamic、LS、DRIFT、SS_8K、SS_64K和RAPTOR等方法。雖然在全局查找方面,GraphRAG的全球搜索有時(shí)會(huì)顯現(xiàn)出更好的表現(xiàn),但從成本效益角度考慮,LazyGraphRAG依舊占據(jù)上風(fēng)。

當(dāng)預(yù)算等級(jí)提高至500次,并使用更高級(jí)別的大模型時(shí),LazyGraphRAG的優(yōu)勢(shì)進(jìn)一步放大。其成本僅為C2級(jí)別的4%,但性能卻遠(yuǎn)超過(guò)所有其他條件,包括C2級(jí)別的GraphRAG全球搜索。

這說(shuō)明LazyGraphRAG不僅在成本方面表現(xiàn)優(yōu)秀,查詢質(zhì)量也同樣出色,不論是在局部查詢或全局查詢中,都能給出更高質(zhì)量的答案。

最終,在1500次的高預(yù)算環(huán)境下,LazyGraphRAG的優(yōu)勢(shì)繼續(xù)擴(kuò)大。無(wú)論是在局部查詢還是全局查詢中,其表現(xiàn)都繼續(xù)上升,特別是在全球查詢中,其勝出頻率明顯超過(guò)其他方法。

即使在高預(yù)算環(huán)境下,LazyGraphRAG依然保持著其成本效益和查詢質(zhì)量的雙重優(yōu)勢(shì)。

微軟即將推出超強(qiáng)RAG: LazyGraphRAG 效果更好,且成本能降低近1000倍!-AI.x社區(qū)

Figure 1. Clustered bar charts showing win rates of LazyGraphRAG with relevance test budgets of (100, 500, 1,500) over competing conditions for each combination of (local, global) queries and (comprehensiveness, diversity, empowerment) metrics.

5、展望未來(lái)

LazyGraphRAG證明了,一個(gè)靈活的查詢機(jī)制能夠顯著優(yōu)于在本地-全局查詢范圍內(nèi)的多種專用查詢機(jī)制,且無(wú)需預(yù)先進(jìn)行大型語(yǔ)言模型數(shù)據(jù)總結(jié)的成本。其非??焖偾?guī)缀趺赓M(fèi)的索引使LazyGraphRAG成為一次性查詢、探索性分析和流數(shù)據(jù)使用案例的理想選擇,而其隨著相關(guān)性測(cè)試預(yù)算增加而平滑提高答案質(zhì)量的能力,使其成為一般性基準(zhǔn)測(cè)試RAG方法(例如,“RAG方法X以Y預(yù)算打敗LazyGraphRAG以完成任務(wù)Z”)的有價(jià)值工具。

那么這是否意味著全面使用LazyGraphRAG呢?microsoft認(rèn)為答案是否定的,原因有三:

  1. 對(duì)于實(shí)體、關(guān)系和社區(qū)摘要的GraphRAG數(shù)據(jù)索引,除了回答問(wèn)題外,還有其他用途(例如,閱讀和分享報(bào)告)。
  2. 將實(shí)體、關(guān)系和社區(qū)摘要的GraphRAG數(shù)據(jù)索引與類似LazyGraphRAG的搜索機(jī)制相結(jié)合,可能會(huì)比單獨(dú)使用LazyGraphRAG獲得更好的結(jié)果。
  3. 設(shè)計(jì)新型的GraphRAG數(shù)據(jù)索引以支持類似LazyGraphRAG的搜索機(jī)制(例如,通過(guò)預(yù)先聲明和主題提?。┛赡軙?huì)獲得最佳可能的結(jié)果。

Microsoft將在接下來(lái)的時(shí)期探索這些方向,所有的進(jìn)步(包括LazyGraphRAG本身)都會(huì)通過(guò)GraphRAG GitHub倉(cāng)庫(kù)發(fā)布,讓我們敬請(qǐng)期待!

參考資料

[1]GraphRAG: ??https://aka.ms/graphrag??

[2]RAPTOR: ??https://github.com/profintegra/raptor-rag??

[3]本地: ??https://microsoft.github.io/graphrag/query/local_search/??

[4]全局: ??https://microsoft.github.io/graphrag/query/global_search/??

[5]DRIFT: ??https://microsoft.github.io/graphrag/query/drift_search/??

[6]DRIFT: ??https://www.microsoft.com/en-us/research/blog/introducing-drift-search-combining-global-and-local-search-methods-to-improve-quality-and-efficiency/??

[7]GraphRAG庫(kù): ???https://github.com/microsoft/graphrag??


本文轉(zhuǎn)載自公眾號(hào)AI 博物院 作者:longyunfeigu

原文鏈接:??https://mp.weixin.qq.com/s/MWfDS92ITfspLij_LZCKDQ??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦