偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LlamaIndex:如何為大模型加載一個AI知識庫?

人工智能
大模型,如何用到產(chǎn)業(yè)中?

大模型被喻為人類正在經(jīng)歷的一場科技革命,而橫亙在大模型和實際業(yè)務(wù)場景之間的,是大模型在面對企業(yè)復(fù)雜業(yè)務(wù)場景時解決問題的能力,要具備這樣的能力,數(shù)據(jù)是關(guān)鍵。

這其中需要的數(shù)據(jù),不是通用大模型訓(xùn)練時用到的那些常見數(shù)據(jù),而是與企業(yè)業(yè)務(wù)相關(guān)的數(shù)據(jù),這些數(shù)據(jù)是大模型廠商在做模型訓(xùn)練難以觸達(dá)的。

這就使得,當(dāng)大模型真正進(jìn)入實際應(yīng)用場景中時,往往需要由企業(yè)再次提供這些數(shù)據(jù)進(jìn)行再訓(xùn)練。

這些由企業(yè)提供的數(shù)據(jù),往往又會構(gòu)成一個本地數(shù)據(jù)庫,這個數(shù)據(jù)庫又可以被稱為本地知識庫。

LlamaIndex就是橋接大模型和本地知識庫的一個神奇的框架。

給大模型“補鈣”

自2022年11月ChatGPT一鳴驚人后,全球科技巨頭都開始部署自己的大模型業(yè)務(wù),大模型成了這個時代最性感的名詞,也被認(rèn)為是人類又一次顛覆式的科技革命。

那么大模型究竟從何而來?

眾所周知,人類對人工智能技術(shù)的研究由來已久,大模型是人工智能技術(shù)研究中的一個分支,而大模型的本質(zhì)是大數(shù)據(jù)、大算力。

大算力自不必提,就大數(shù)據(jù)而言,ChatGPT在訓(xùn)練過程中,使用的數(shù)據(jù)普遍源于互聯(lián)網(wǎng)上的公開數(shù)據(jù),例如維基百科、媒體文章、網(wǎng)上問答、開源社區(qū)等中的數(shù)據(jù)。

OpenAI團隊基于這些公開數(shù)據(jù)對模型進(jìn)行訓(xùn)練后,就讓ChatGPT具備了摘要生成、文本生成、問答對話這些最基本的能力,這也是為什么ChatGPT最早的商用嘗試,是被微軟集成到了Bing中,用戶優(yōu)化搜索引擎。

不過,這樣的通用大模型,只是擁有了互聯(lián)網(wǎng)意義上的通用,在解決個人或企業(yè)遇到的實際問題時,現(xiàn)有大模型的能力依然有些捉襟見肘。

為了解決大模型在進(jìn)入實際業(yè)務(wù)場景中的問題,就需要對給大模型“補鈣”,目前行業(yè)中最流行的有三種方法:

第一種方法是提示詞工程,這一方法是在已經(jīng)訓(xùn)練好的大模型上,通過輸入你想要查詢內(nèi)容的上下文,讓大模型運行補充一定的語境,然后通過編寫高效、準(zhǔn)確的prompt,讓大模型輸出更精確的答案。

這種方法不僅對工程人員編寫提示詞的要求很高,也要求大模型擁有足夠強的長文本輸入和解析能力,這也是為什么大模型廠商都在增強自家大模型的長文本能力的原因之一。

第二種方法是微調(diào),也就是我們常說的Fine Tuning,是在已經(jīng)預(yù)訓(xùn)練好的大模型上,使用特定的數(shù)據(jù)集進(jìn)行二次訓(xùn)練,使模型適應(yīng)特定任務(wù)或領(lǐng)域。

這種方法目前也存在諸如對計算資源要求高、偏差容易被放大、易遭受對抗性攻擊,甚至?xí)?dǎo)致“災(zāi)難性遺忘”等問題。

第三種方法就是RAG,是在原有大模型應(yīng)用流程中,加入本地知識庫,通過本地知識庫的引入,補充大模型專業(yè)能力上的不足。

LlamaIndex就是通過第三種方法來讓大模型具備進(jìn)入企業(yè)實際應(yīng)用場景中的落地能力。

為大模型加載AI知識庫

在LlamaIndex框架下,該團隊一共構(gòu)建了三個關(guān)鍵組件,分別是:數(shù)據(jù)連接器、數(shù)據(jù)索引、查詢接口。

這三個關(guān)鍵組件也是LlamaIndex將個人或企業(yè)的本地知識庫“加載”到大模型中的三個主要步驟。

首先,第一步是通過數(shù)據(jù)連接器(LlamaHub)解決以往機器學(xué)習(xí)中數(shù)據(jù)清洗和數(shù)據(jù)治理的問題。

目前LlamaHub支持160多種數(shù)據(jù)格式,通過LlamaHub將這些數(shù)據(jù)形成一個Document對象列表,或是一個Node列表,并將這個列表與大模型關(guān)聯(lián)起來。

第二步是通過數(shù)據(jù)索引來解決的是為不同應(yīng)用場景調(diào)整數(shù)據(jù)結(jié)構(gòu)的問題。

通過LlamaHub形成Document對象列表后,通過數(shù)據(jù)索引組件,構(gòu)建一個用于補充查詢策略、可供大模型查詢的索引,例如構(gòu)建成現(xiàn)在較為常見的向量索引。

值得一提的是,LlamaIndex現(xiàn)在可以將不同類型的數(shù)據(jù)統(tǒng)一加工成結(jié)構(gòu)化數(shù)據(jù),供大模型后續(xù)進(jìn)行調(diào)用、訓(xùn)練和學(xué)習(xí)。

第三步是通過查詢接口輸入prompt和接收經(jīng)過知識庫后生成的結(jié)果。

通過這三個關(guān)鍵組件,LlamaIndex為大模型和本地知識庫搭建了一條連通橋梁,為行業(yè)大模型或私有大模型提供了一條簡單構(gòu)建路徑。

責(zé)任編輯:龐桂玉 來源: 至頂網(wǎng)
相關(guān)推薦

2025-05-15 09:56:32

2023-11-26 00:30:05

2025-05-21 13:01:23

2025-05-08 01:00:00

2025-02-12 12:12:59

2025-04-25 09:00:00

2025-04-30 09:06:23

AI知識庫大模型

2024-06-03 08:50:36

2024-01-17 16:11:30

2016-09-13 10:56:03

運維性能密度

2022-05-16 09:59:30

內(nèi)部威脅網(wǎng)絡(luò)安全

2025-06-03 06:30:05

2024-09-06 13:18:58

2024-06-25 08:00:00

ChatGPTLLM人工智能

2025-05-09 09:13:37

2024-07-15 08:31:19

點贊
收藏

51CTO技術(shù)棧公眾號