偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

搭建大模型知識(shí)庫(kù)流程,以及基于Langchain實(shí)現(xiàn)大模型知識(shí)庫(kù)案例 原創(chuàng)

發(fā)布于 2024-9-5 16:00
瀏覽
0收藏

“ RAG檢索增強(qiáng)生成是為了解決大模型知識(shí)不足的問(wèn)題 ”

大模型主要面臨三個(gè)問(wèn)題:

  • 垂直領(lǐng)域內(nèi)的知識(shí)不足
  • 大模型知識(shí)有時(shí)間限制
  • 大模型幻覺(jué)問(wèn)題

第一個(gè)問(wèn)題產(chǎn)生的原因是因?yàn)椋瑳](méi)有經(jīng)過(guò)垂直領(lǐng)域數(shù)據(jù)訓(xùn)練的大模型普遍表現(xiàn)不好;其次是目前的大模型采用的是預(yù)訓(xùn)練模式,也就是說(shuō)需要先收集訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,但只能收集之前的數(shù)據(jù),不能收集當(dāng)前和以后的數(shù)據(jù);最后就是大模型幻覺(jué)問(wèn)題,幻覺(jué)問(wèn)題產(chǎn)生的原因就是知識(shí)不足,導(dǎo)致在一些領(lǐng)域問(wèn)題中一本正經(jīng)的胡說(shuō)八道。

因此,說(shuō)到底大模型產(chǎn)生以上三個(gè)問(wèn)題的主要原因就是知識(shí)不足,因此RAG——檢索增強(qiáng)生成技術(shù)就出現(xiàn)了。

RAG技術(shù)配合知識(shí)庫(kù)技術(shù),就能夠補(bǔ)充大模型知識(shí)不足的問(wèn)題,知識(shí)庫(kù)的作用就相當(dāng)于給大模型配置一個(gè)資料室,遇到不懂的就去資料室里查。

今天,我們就來(lái)討論一下本地知識(shí)庫(kù)的實(shí)現(xiàn)步驟,以及代碼。

知識(shí)庫(kù)的實(shí)現(xiàn)步驟及代碼

嚴(yán)格來(lái)說(shuō),解決大模型知識(shí)不足問(wèn)題的技術(shù)是RAG——檢索增強(qiáng)生成,而不是知識(shí)庫(kù)技術(shù)。

知識(shí)庫(kù)技術(shù)在大模型之前就已經(jīng)出現(xiàn)了,簡(jiǎn)單來(lái)說(shuō)就是公司內(nèi)部的文檔系統(tǒng),里面記錄了企業(yè)內(nèi)部的資料,文檔等,形式可以是一個(gè)web系統(tǒng),甚至就是一個(gè)文件夾。

而我們今天說(shuō)的大模型知識(shí)庫(kù)是基于RAG技術(shù),結(jié)合知識(shí)庫(kù)技術(shù)產(chǎn)生的一個(gè)變種,主要區(qū)別就是數(shù)據(jù)格式問(wèn)題。

RAG文檔檢索生成,就是通過(guò)把資料向量化,并為了提升查詢效率需要把向量化的文檔存入到向量數(shù)據(jù)庫(kù),然后每次在問(wèn)大模型之前,先去向量數(shù)據(jù)庫(kù)中查詢與問(wèn)題相關(guān)的內(nèi)容,通過(guò)提示詞的方式一并傳入到大模型中,這樣就可以解決大模型知識(shí)不足的問(wèn)題。

搭建大模型知識(shí)庫(kù)流程,以及基于Langchain實(shí)現(xiàn)大模型知識(shí)庫(kù)案例-AI.x社區(qū)

之所以要把資料向量化的原因是,在傳統(tǒng)的查詢搜索過(guò)程中,使用的主要是基于字符匹配的方式進(jìn)行查詢,比如說(shuō)你想查詢西紅柿炒蛋的做法,查詢的內(nèi)容中就必須包含西紅柿和炒蛋這幾個(gè)字。

而有了大模型技術(shù),把資料向量化之后,就可以通過(guò)語(yǔ)義進(jìn)行查詢,大模型會(huì)根據(jù)語(yǔ)義分析,知道西紅柿和番茄是一個(gè)東西。


大模型知識(shí)庫(kù)的原理就是給大模型外掛一個(gè)資料庫(kù),但大模型畢竟不是人,需要把資料,文檔等轉(zhuǎn)化為大模型能夠識(shí)別的格式,就是文檔向量化。


搭建大模型知識(shí)庫(kù),需要經(jīng)過(guò)以下幾個(gè)步驟:

文檔加載

在當(dāng)今互聯(lián)網(wǎng)時(shí)代,知識(shí)的形式多種多樣,比如文本格式的就是txt,word,pdf等;還有其它格式如圖片,結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)等。

因此,打造一個(gè)知識(shí)庫(kù)需要支持多種文檔,以及不同文檔的加載路徑,如本地加載,網(wǎng)絡(luò)加載等;而這就是文檔加載需要解決的問(wèn)題。

文檔分割

在大模型應(yīng)用中,長(zhǎng)文本處理是一個(gè)問(wèn)題,并且大模型窗口都有上下文長(zhǎng)度限制;并且,文檔還需要處理成大模型能夠識(shí)別的向量格式,因此對(duì)一些長(zhǎng)文本文檔需要進(jìn)行文本分割,解決文檔過(guò)長(zhǎng)而導(dǎo)致的問(wèn)題。

文檔分割根據(jù)不同的任務(wù)場(chǎng)景,需要進(jìn)行不同的處理,比如文檔分割的長(zhǎng)度,分割形式(比如,段落,標(biāo)點(diǎn)符號(hào)等),重疊長(zhǎng)度等。

詞嵌入

在傳統(tǒng)的知識(shí)庫(kù)系統(tǒng)中,文檔是以文本,圖片,視頻等格式存在的,使用者主要是人,因此只需要能夠通過(guò)網(wǎng)絡(luò)加載文檔即可。

但在大模型應(yīng)用中,大模型不認(rèn)識(shí)字,它能夠處理的格式只有向量。而且,還需要進(jìn)行語(yǔ)義分析,因此需要通過(guò)詞嵌入的方式,把文檔轉(zhuǎn)化為大模型能夠處理的,且語(yǔ)義連貫的形式,也就是向量格式,而這個(gè)技術(shù)就叫做詞嵌入。

詞嵌入工具本質(zhì)上也是一個(gè)大模型,只不過(guò)是專門訓(xùn)練用來(lái)完成語(yǔ)義理解和向量轉(zhuǎn)化的模型。


Sentence-transformer 詞嵌入python 庫(kù) 可以支持多種嵌入模型 或者可以使用第三方提供的轉(zhuǎn)化工具,比如openAI,通義千問(wèn)等。


文檔處理整體流程入下圖所示:

搭建大模型知識(shí)庫(kù)流程,以及基于Langchain實(shí)現(xiàn)大模型知識(shí)庫(kù)案例-AI.x社區(qū)

文檔存儲(chǔ)

文檔存儲(chǔ)的功能就是需要把通過(guò)詞嵌入轉(zhuǎn)化的大模型能夠識(shí)別的向量格式存儲(chǔ)起來(lái),一般使用的是向量數(shù)據(jù)庫(kù)。

當(dāng)大模型需要使用的時(shí)候,再通過(guò)檢索的形式從向量數(shù)據(jù)庫(kù)中獲取。

文檔存儲(chǔ)的作用是為了解決查詢效率的問(wèn)題,但也并不是必須的;比如說(shuō),當(dāng)你知識(shí)庫(kù)的內(nèi)容很少的時(shí)候,你也可以選擇每次提問(wèn)的時(shí)候,重新加載文檔并向量化,這樣之前向量化過(guò)的文檔就存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,下次使用的時(shí)候就可以直接從數(shù)據(jù)庫(kù)中查詢。

就類似于在web開(kāi)發(fā)中,你也可以把用戶數(shù)據(jù)通過(guò)|或某種符合間隔起來(lái)并保存到txt文件中,每次查詢的時(shí)候需要讀取文件并解析數(shù)據(jù),這樣就會(huì)非常的麻煩;而如果把用戶信息存儲(chǔ)到數(shù)據(jù)庫(kù)中,就會(huì)方便的多。

搭建大模型知識(shí)庫(kù)流程,以及基于Langchain實(shí)現(xiàn)大模型知識(shí)庫(kù)案例-AI.x社區(qū)

文檔檢索

從向量數(shù)據(jù)庫(kù)中,通過(guò)語(yǔ)義對(duì)數(shù)據(jù)進(jìn)行檢索,然后把檢索結(jié)果帶入到大模型中,供大模型使用。技術(shù)實(shí)現(xiàn)是通過(guò)數(shù)學(xué)計(jì)算,根據(jù)向量計(jì)算相對(duì)位置,位置越近語(yǔ)義相關(guān)度越高;比如歐式距離,cos值等。

RAG的難點(diǎn)和重點(diǎn)是數(shù)據(jù)的質(zhì)量和檢索質(zhì)量,也就是說(shuō)本地知識(shí)庫(kù)的好壞和使用的模型(用來(lái)回答問(wèn)題的模型,不是詞嵌入的模型)沒(méi)有什么關(guān)系,只是和你檢索的效果有關(guān)。

簡(jiǎn)單來(lái)說(shuō)就是,你的知識(shí)庫(kù)數(shù)據(jù)質(zhì)量和向量數(shù)據(jù)庫(kù)的質(zhì)量越好,RAG的效果才越好。

完整代碼用戶可以在公眾號(hào)回復(fù)  RAG案例 即可獲得。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/PhxFos15uHHcdLnmyHTlHg??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-9-5 18:03:15修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦