偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LlamaIndex:如何為大模型加載一個(gè)AI知識(shí)庫(kù)?

人工智能
大模型,如何用到產(chǎn)業(yè)中?

大模型被喻為人類正在經(jīng)歷的一場(chǎng)科技革命,而橫亙?cè)诖竽P秃蛯?shí)際業(yè)務(wù)場(chǎng)景之間的,是大模型在面對(duì)企業(yè)復(fù)雜業(yè)務(wù)場(chǎng)景時(shí)解決問題的能力,要具備這樣的能力,數(shù)據(jù)是關(guān)鍵。

這其中需要的數(shù)據(jù),不是通用大模型訓(xùn)練時(shí)用到的那些常見數(shù)據(jù),而是與企業(yè)業(yè)務(wù)相關(guān)的數(shù)據(jù),這些數(shù)據(jù)是大模型廠商在做模型訓(xùn)練難以觸達(dá)的。

這就使得,當(dāng)大模型真正進(jìn)入實(shí)際應(yīng)用場(chǎng)景中時(shí),往往需要由企業(yè)再次提供這些數(shù)據(jù)進(jìn)行再訓(xùn)練。

這些由企業(yè)提供的數(shù)據(jù),往往又會(huì)構(gòu)成一個(gè)本地?cái)?shù)據(jù)庫(kù),這個(gè)數(shù)據(jù)庫(kù)又可以被稱為本地知識(shí)庫(kù)。

LlamaIndex就是橋接大模型和本地知識(shí)庫(kù)的一個(gè)神奇的框架。

給大模型“補(bǔ)鈣”

自2022年11月ChatGPT一鳴驚人后,全球科技巨頭都開始部署自己的大模型業(yè)務(wù),大模型成了這個(gè)時(shí)代最性感的名詞,也被認(rèn)為是人類又一次顛覆式的科技革命。

那么大模型究竟從何而來?

眾所周知,人類對(duì)人工智能技術(shù)的研究由來已久,大模型是人工智能技術(shù)研究中的一個(gè)分支,而大模型的本質(zhì)是大數(shù)據(jù)、大算力。

大算力自不必提,就大數(shù)據(jù)而言,ChatGPT在訓(xùn)練過程中,使用的數(shù)據(jù)普遍源于互聯(lián)網(wǎng)上的公開數(shù)據(jù),例如維基百科、媒體文章、網(wǎng)上問答、開源社區(qū)等中的數(shù)據(jù)。

OpenAI團(tuán)隊(duì)基于這些公開數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練后,就讓ChatGPT具備了摘要生成、文本生成、問答對(duì)話這些最基本的能力,這也是為什么ChatGPT最早的商用嘗試,是被微軟集成到了Bing中,用戶優(yōu)化搜索引擎。

不過,這樣的通用大模型,只是擁有了互聯(lián)網(wǎng)意義上的通用,在解決個(gè)人或企業(yè)遇到的實(shí)際問題時(shí),現(xiàn)有大模型的能力依然有些捉襟見肘。

為了解決大模型在進(jìn)入實(shí)際業(yè)務(wù)場(chǎng)景中的問題,就需要對(duì)給大模型“補(bǔ)鈣”,目前行業(yè)中最流行的有三種方法:

第一種方法是提示詞工程,這一方法是在已經(jīng)訓(xùn)練好的大模型上,通過輸入你想要查詢內(nèi)容的上下文,讓大模型運(yùn)行補(bǔ)充一定的語(yǔ)境,然后通過編寫高效、準(zhǔn)確的prompt,讓大模型輸出更精確的答案。

這種方法不僅對(duì)工程人員編寫提示詞的要求很高,也要求大模型擁有足夠強(qiáng)的長(zhǎng)文本輸入和解析能力,這也是為什么大模型廠商都在增強(qiáng)自家大模型的長(zhǎng)文本能力的原因之一。

第二種方法是微調(diào),也就是我們常說的Fine Tuning,是在已經(jīng)預(yù)訓(xùn)練好的大模型上,使用特定的數(shù)據(jù)集進(jìn)行二次訓(xùn)練,使模型適應(yīng)特定任務(wù)或領(lǐng)域。

這種方法目前也存在諸如對(duì)計(jì)算資源要求高、偏差容易被放大、易遭受對(duì)抗性攻擊,甚至?xí)?dǎo)致“災(zāi)難性遺忘”等問題。

第三種方法就是RAG,是在原有大模型應(yīng)用流程中,加入本地知識(shí)庫(kù),通過本地知識(shí)庫(kù)的引入,補(bǔ)充大模型專業(yè)能力上的不足。

LlamaIndex就是通過第三種方法來讓大模型具備進(jìn)入企業(yè)實(shí)際應(yīng)用場(chǎng)景中的落地能力。

為大模型加載AI知識(shí)庫(kù)

在LlamaIndex框架下,該團(tuán)隊(duì)一共構(gòu)建了三個(gè)關(guān)鍵組件,分別是:數(shù)據(jù)連接器、數(shù)據(jù)索引、查詢接口。

這三個(gè)關(guān)鍵組件也是LlamaIndex將個(gè)人或企業(yè)的本地知識(shí)庫(kù)“加載”到大模型中的三個(gè)主要步驟。

首先,第一步是通過數(shù)據(jù)連接器(LlamaHub)解決以往機(jī)器學(xué)習(xí)中數(shù)據(jù)清洗和數(shù)據(jù)治理的問題。

目前LlamaHub支持160多種數(shù)據(jù)格式,通過LlamaHub將這些數(shù)據(jù)形成一個(gè)Document對(duì)象列表,或是一個(gè)Node列表,并將這個(gè)列表與大模型關(guān)聯(lián)起來。

第二步是通過數(shù)據(jù)索引來解決的是為不同應(yīng)用場(chǎng)景調(diào)整數(shù)據(jù)結(jié)構(gòu)的問題。

通過LlamaHub形成Document對(duì)象列表后,通過數(shù)據(jù)索引組件,構(gòu)建一個(gè)用于補(bǔ)充查詢策略、可供大模型查詢的索引,例如構(gòu)建成現(xiàn)在較為常見的向量索引。

值得一提的是,LlamaIndex現(xiàn)在可以將不同類型的數(shù)據(jù)統(tǒng)一加工成結(jié)構(gòu)化數(shù)據(jù),供大模型后續(xù)進(jìn)行調(diào)用、訓(xùn)練和學(xué)習(xí)。

第三步是通過查詢接口輸入prompt和接收經(jīng)過知識(shí)庫(kù)后生成的結(jié)果。

通過這三個(gè)關(guān)鍵組件,LlamaIndex為大模型和本地知識(shí)庫(kù)搭建了一條連通橋梁,為行業(yè)大模型或私有大模型提供了一條簡(jiǎn)單構(gòu)建路徑。

責(zé)任編輯:龐桂玉 來源: 至頂網(wǎng)
相關(guān)推薦

2023-11-26 00:30:05

2025-05-15 09:56:32

2025-05-21 13:01:23

2025-05-08 01:00:00

2025-04-25 09:00:00

2025-02-12 12:12:59

2025-04-30 09:06:23

AI知識(shí)庫(kù)大模型

2024-06-03 08:50:36

2024-01-17 16:11:30

2022-05-16 09:59:30

內(nèi)部威脅網(wǎng)絡(luò)安全

2016-09-13 10:56:03

運(yùn)維性能密度

2025-10-09 00:00:00

SpringAIOCI

2025-06-03 06:30:05

2022-09-29 15:13:47

健康管理平臺(tái)—鴻蒙

2012-11-15 09:38:46

2025-07-16 09:18:06

2025-05-09 09:13:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)