偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從零實(shí)現(xiàn)大模型-GraphRAG,構(gòu)建LLM中的關(guān)系數(shù)據(jù)庫(kù) 原創(chuàng)

發(fā)布于 2024-7-17 07:04
瀏覽
0收藏

傳統(tǒng)RAG

LLM預(yù)訓(xùn)練和微調(diào)一般都是基于公開的互聯(lián)網(wǎng)數(shù)據(jù),不可能包含公司內(nèi)部私有數(shù)據(jù),如果你問有關(guān)某公司的運(yùn)營(yíng)情況,直接基于模型參數(shù)生成的回答可能和胡說八道沒什么兩樣。

RAG(Retrieval-Augmented Generation)的思想就是將私有數(shù)據(jù)作為參考信息傳遞給LLM。這些私有數(shù)據(jù)除了作為一種補(bǔ)充信息,也可以作為一種限制,能避免LLM產(chǎn)生幻覺。

參考信息一般以文本、圖片等非結(jié)構(gòu)化形式存在。

RAG的流程是:

從零實(shí)現(xiàn)大模型-GraphRAG,構(gòu)建LLM中的關(guān)系數(shù)據(jù)庫(kù) -AI.x社區(qū)

1.首先要將文本劃分成片段,然后將片段轉(zhuǎn)換成向量存儲(chǔ)到向量數(shù)據(jù)庫(kù)中備用,這個(gè)向量就是這段文本語(yǔ)義信息的數(shù)字表示。

2.將用戶查詢轉(zhuǎn)換成向量。并與所有文本片段向量進(jìn)行相似度計(jì)算,取出top k個(gè)片段。

3.將用戶查詢和k個(gè)文本片段組織成特定prompt格式輸入到LLM中。

(計(jì)算文本的向量可以調(diào)用API或者使用像llamaindex這樣的庫(kù))

GraphRAG

但傳統(tǒng)的RAG仍有一些限制。

例如,基于某個(gè)公司的運(yùn)營(yíng)數(shù)據(jù)搭建RAG,由于LLM上下文大小的限制,劃分的文本片段不可能太大,所以每個(gè)文本片段不可能包含太多信息。

如果你問某個(gè)員工去年的銷售業(yè)績(jī),基于RAG,LLM很可能會(huì)給出準(zhǔn)確回答,因?yàn)槟硞€(gè)文本片段很可能包含了某個(gè)員工的年終總結(jié)信息。

但如果你問該員工所在團(tuán)隊(duì)去年的銷售情況呢?就算某個(gè)文本片段包含了該團(tuán)隊(duì)的銷售數(shù)據(jù),LLM也很難通過該員工找到團(tuán)隊(duì)的其它成員。

微軟最近提出的GraphRAG(Graph-based Retrieval Augmented Generation)就是解決這個(gè)問題。

GraphRAG就是將圖和傳統(tǒng)的RAG結(jié)合了起來(lái)。

構(gòu)造知識(shí)圖譜

圖是由節(jié)點(diǎn)和邊組成的,節(jié)點(diǎn)可以表示各種實(shí)體,邊表示實(shí)體之間的關(guān)系。

GraphRAG的核心就是構(gòu)造知識(shí)圖譜,可以通過GPT4或者使用像llamaindex(KnowledgeGraphIndex)這樣的庫(kù)構(gòu)造知識(shí)圖譜。

從零實(shí)現(xiàn)大模型-GraphRAG,構(gòu)建LLM中的關(guān)系數(shù)據(jù)庫(kù) -AI.x社區(qū)

將公司運(yùn)營(yíng)文檔構(gòu)造成知識(shí)圖譜:

1.識(shí)別出文檔中包含的實(shí)體以及實(shí)體之間的關(guān)系(員工,同事)

2.將實(shí)體進(jìn)行聚類(同組同事)

3.對(duì)每個(gè)聚類進(jìn)行總結(jié)(銷售情況)

4.將實(shí)體進(jìn)行向量化,轉(zhuǎn)換到圖向量空間

5.提取實(shí)體對(duì)應(yīng)的原始文本,并轉(zhuǎn)換成向量

Query

當(dāng)用戶提問時(shí),首先在知識(shí)圖譜中找到與用戶提問語(yǔ)義相關(guān)的實(shí)體,同時(shí)找到與實(shí)體相關(guān)的原始文本,最后將這些信息組織成特定prompt格式輸入給LLM。

從零實(shí)現(xiàn)大模型-GraphRAG,構(gòu)建LLM中的關(guān)系數(shù)據(jù)庫(kù) -AI.x社區(qū)


References

[1]           https://github.com/microsoft/graphrag

[2]           https://microsoft.github.io/graphrag/

[3]           ??https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/??


本文轉(zhuǎn)載自公眾號(hào)人工智能大講堂 

原文鏈接:??https://mp.weixin.qq.com/s/q2BRAiivIFNXWyQIbwx18Q??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦