偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<li id="crwjm"><tt id="crwjm"></tt></li>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何選擇Embedding Model？關(guān)于嵌入模型的十個(gè)思考

原創(chuàng) 精選

作者：曹洪偉 2025-05-06 08:51:37

稀疏嵌入使用的是傳統(tǒng)的技術(shù)，如TF-IDF或bm25，這些方法會(huì)產(chǎn)生非常高維度但是大部分都是零的向量。盡管看起來(lái)有點(diǎn)浪費(fèi)空間，但在精確的關(guān)鍵字檢索系統(tǒng)中卻很有效，比如搜索引擎和傳統(tǒng)文獻(xiàn)檢索。

在大模型應(yīng)用中，尤其基于RAG框架的大模型應(yīng)用，嵌入模型（embedding Model）是不可或缺的關(guān)鍵組件。這里總結(jié)了筆者在實(shí)踐中關(guān)于潛入模型的10個(gè)思考，希望對(duì)大家有所幫助。

1. 嵌入模型在RAG中的重要性

嵌入模型能夠?qū)⑽谋巨D(zhuǎn)換成數(shù)值形式的向量，這讓計(jì)算機(jī)可以更高效地處理、對(duì)比和檢索信息。這些向量能夠捕捉單詞、短語(yǔ)甚至是整篇文檔之間的意義聯(lián)系，這使得嵌入模型成為了各種自然語(yǔ)言處理任務(wù)中的關(guān)鍵工具。

在檢索增強(qiáng)生成（RAG）系統(tǒng)中，嵌入模型扮演著核心角色，它負(fù)責(zé)從知識(shí)庫(kù)中找出并排序與用戶(hù)查詢(xún)最相關(guān)的信息。當(dāng)用戶(hù)提出問(wèn)題時(shí)，嵌入模型通過(guò)比較文本向量來(lái)尋找最匹配的文檔。選擇合適的嵌入模型對(duì)于確保檢索結(jié)果既準(zhǔn)確又有意義至關(guān)重要，這樣最終生成的回答也會(huì)更加精準(zhǔn)和有用。

舉個(gè)例子，在法律領(lǐng)域的RAG系統(tǒng)中，如果使用了專(zhuān)門(mén)針對(duì)法律術(shù)語(yǔ)訓(xùn)練的嵌入模型，那么系統(tǒng)就能更好地找到與查詢(xún)相關(guān)的法律文件，并保證引用的判例法資料既準(zhǔn)確又貼切上下文。這種精確性對(duì)于需要高度專(zhuān)業(yè)性和準(zhǔn)確性的工作場(chǎng)景來(lái)說(shuō)尤為重要，比如法律研究或醫(yī)療文獻(xiàn)分析等。通過(guò)這種方式，嵌入模型不僅提升了信息檢索的質(zhì)量，還增強(qiáng)了整個(gè)系統(tǒng)的實(shí)用性。

2. 嵌入模型結(jié)構(gòu)中對(duì)上下文的處理方式

上下文窗口指的是嵌入模型一次性能夠處理的最大文本量，即它可以考慮的單詞或子單詞的數(shù)量。這個(gè)參數(shù)影響著模型在生成文本表示時(shí)能涵蓋多少內(nèi)容。

較大的上下文窗口意味著模型可以處理更長(zhǎng)的段落而不用擔(dān)心信息被截?cái)唷＿@對(duì)于需要理解長(zhǎng)篇文檔的任務(wù)非常重要，比如分析研究論文、法律文件或是學(xué)術(shù)成績(jī)單。

舉個(gè)例子，在進(jìn)行語(yǔ)義搜索時(shí)，如果模型的上下文窗口較小，它可能會(huì)錯(cuò)過(guò)文檔后面部分的重要信息。相反，擁有較大上下文窗口的模型則能夠捕捉到整個(gè)文檔中的廣泛含義，從而提供更加準(zhǔn)確的搜索結(jié)果。

實(shí)際上，不同的模型支持不同的上下文長(zhǎng)度。一些較老的模型可能僅限于處理512個(gè)標(biāo)記，但更新的模型已經(jīng)能夠處理數(shù)千個(gè)標(biāo)記了，這使得它們非常適合處理復(fù)雜任務(wù)，如總結(jié)長(zhǎng)篇文章或從詳細(xì)的文檔中提取信息。

基于Transformer的嵌入模型（如BERT）與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNNs）不同，并不具備內(nèi)在的順序感知能力。為了彌補(bǔ)這一點(diǎn)，這些模型使用位置嵌入來(lái)記錄每個(gè)詞的位置信息：

絕對(duì)位置嵌入：直接為序列中的每個(gè)標(biāo)記賦予一個(gè)特定的位置值（例如，BERT采用正弦函數(shù)來(lái)實(shí)現(xiàn)這一目標(biāo)），這樣模型就能了解每個(gè)詞在句子中的具體位置。
相對(duì)位置嵌入：不是關(guān)注詞語(yǔ)的具體位置，而是關(guān)注詞語(yǔ)之間的相對(duì)距離（例如，T5模型采用了這種方法）。這種方法有助于更好地理解詞語(yǔ)間的相互關(guān)系，而不是單純依賴(lài)于它們出現(xiàn)的順序。

這種對(duì)詞序的精確捕捉對(duì)于處理長(zhǎng)文本尤其重要，因?yàn)樗_保了即使是文檔中相隔較遠(yuǎn)的詞也能被正確地理解和關(guān)聯(lián)起來(lái)，這對(duì)于提高文本檢索和文檔排序的準(zhǔn)確性至關(guān)重要。通過(guò)這種方式，模型不僅能夠理解單個(gè)詞語(yǔ)的意義，還能把握整個(gè)文檔的結(jié)構(gòu)和邏輯。

3. Tokenization機(jī)制對(duì)嵌入模型的影響

Tokenization是指將文本切分成較小單元的過(guò)程，這些單元被稱(chēng)為標(biāo)記，可以是單個(gè)單詞、單詞的一部分甚至是單個(gè)字符。這是嵌入模型處理文本前的一個(gè)重要預(yù)處理步驟，因?yàn)樗苯雨P(guān)系到文本如何被轉(zhuǎn)換成數(shù)值形式。

不同的Tokenization方法對(duì)嵌入模型處理各種文本的效果有很大影響：

單詞級(jí)Tokenization：這種方法把每個(gè)單詞視為一個(gè)單獨(dú)的標(biāo)記。然而，它在處理新造詞或罕見(jiàn)詞匯時(shí)會(huì)遇到困難，因?yàn)檫@些詞可能不在模型已知的詞匯表中。
子詞Tokenization（如Byte-Pair Encoding或WordPiece）：這種技術(shù)會(huì)將單詞分解成更小的部分或者子詞。例如，“unhappiness”可能會(huì)被拆分成“un”、“happi”和“ness”。這種方式讓模型能夠更好地應(yīng)對(duì)詞匯表之外的單詞，因此在現(xiàn)代模型中非常流行。它巧妙地平衡了詞匯表大小與靈活性，使得模型能處理從日常用語(yǔ)到專(zhuān)業(yè)術(shù)語(yǔ)在內(nèi)的廣泛詞匯，而不會(huì)使詞匯表變得過(guò)大。
字符級(jí)Tokenization：這里每個(gè)字符都被當(dāng)作一個(gè)單獨(dú)的標(biāo)記。這種方法對(duì)于那些形態(tài)復(fù)雜但可以通過(guò)較少字符表達(dá)的語(yǔ)言特別有用，盡管這樣做會(huì)使序列變得更長(zhǎng)。

選擇合適的Tokenization方法對(duì)于嵌入模型能否有效地處理特定領(lǐng)域的語(yǔ)言、專(zhuān)業(yè)術(shù)語(yǔ)或多語(yǔ)言文本至關(guān)重要。比如，在醫(yī)療保健領(lǐng)域應(yīng)用中，使用子詞級(jí)別的Tokenization方法就顯得尤為重要，這樣可以確保模型準(zhǔn)確理解和處理像“心肌梗死”這樣的專(zhuān)業(yè)術(shù)語(yǔ)。正確選擇標(biāo)記化策略有助于提高模型性能，使其更適合特定的應(yīng)用場(chǎng)景。

4. 嵌入模型維數(shù)對(duì)性能影響

維數(shù)指的是模型為每個(gè)嵌入生成的數(shù)值數(shù)量，它決定了這些向量能包含多少信息。

低維嵌入（比如128或256維）計(jì)算效率高，處理速度快，但可能在表達(dá)語(yǔ)義上不如高維嵌入那樣細(xì)膩，這可能會(huì)在某些任務(wù)中影響準(zhǔn)確性。適合那些對(duì)速度和效率要求較高的場(chǎng)景。
高維嵌入（如768或1024維）能夠捕捉更加微妙的語(yǔ)義關(guān)系，提供更強(qiáng)大的表達(dá)能力。然而，它們需要更多的計(jì)算資源和內(nèi)存支持，這意味著更高的成本和較慢的處理速度。高維嵌入可以更精細(xì)地表達(dá)文本的意義，但在資源有限的情況下使用會(huì)面臨挑戰(zhàn)。

對(duì)于超過(guò)1024維這樣的極高維度嵌入，雖然提供了非常豐富的語(yǔ)義表示，但也帶來(lái)了一些問(wèn)題：

增加的計(jì)算成本：存儲(chǔ)和處理這些高維向量需要更多的內(nèi)存和更強(qiáng)的計(jì)算能力。
維數(shù)災(zāi)難：隨著維度的增加，在高維空間中比較相似性變得困難，因?yàn)榫嚯x間的差異難以區(qū)分。
較慢的檢索時(shí)間：如果不進(jìn)行優(yōu)化，搜索大型嵌入數(shù)據(jù)庫(kù)將變得相當(dāng)耗時(shí)。

為了應(yīng)對(duì)這些問(wèn)題，有幾種緩解策略：

使用降維技術(shù)，例如PCA（主成分分析）或t-SNE，可以在保留關(guān)鍵信息的同時(shí)減少計(jì)算負(fù)擔(dān)。
采用高效的矢量搜索技術(shù)，像FAISS（Facebook AI最近鄰搜索）或HNSW（分級(jí)導(dǎo)航小世界），可以顯著加快檢索速度。

選擇合適的維數(shù)取決于具體的應(yīng)用需求。對(duì)于實(shí)時(shí)應(yīng)用，如聊天機(jī)器人或語(yǔ)音助手，低維嵌入通常是更好的選擇，因?yàn)檫@類(lèi)場(chǎng)景更看重速度和效率。而對(duì)于文檔相似性分析等需要高度精確的任務(wù)，更高維度的嵌入則更為合適，因?yàn)樗艽_保對(duì)復(fù)雜文本內(nèi)容的更精準(zhǔn)描述。這樣，通過(guò)權(quán)衡不同維度帶來(lái)的利弊，可以根據(jù)實(shí)際需求找到最合適的解決方案。

5. 詞匯量大小對(duì)嵌入模型的影響

嵌入模型的詞匯表大小決定了它能識(shí)別和處理的獨(dú)特單詞或標(biāo)記的數(shù)量。一個(gè)更大的詞匯表可以提升模型的準(zhǔn)確性，因?yàn)樗芾斫飧鼜V泛的單詞，包括特定領(lǐng)域的術(shù)語(yǔ)和多種語(yǔ)言表達(dá)。但是，這也意味著需要更多的內(nèi)存和計(jì)算資源。

大詞匯表的優(yōu)勢(shì)：擁有較大的詞匯表讓模型能夠更好地理解和表示各種各樣的單詞，尤其是那些領(lǐng)域特有的術(shù)語(yǔ)或是來(lái)自不同語(yǔ)言的詞匯。這對(duì)于像科學(xué)研究或多語(yǔ)言文獻(xiàn)檢索這樣的應(yīng)用場(chǎng)景尤為重要，因?yàn)樗鼈兘?jīng)常需要處理大量的專(zhuān)業(yè)術(shù)語(yǔ)或跨語(yǔ)言信息。
小詞匯表的情況：如果詞匯表較小，則可以減少所需的內(nèi)存并加快處理速度。然而，這可能導(dǎo)致模型在遇到不常見(jiàn)的單詞或者特定領(lǐng)域的術(shù)語(yǔ)時(shí)表現(xiàn)不佳。

舉個(gè)例子，在生物醫(yī)學(xué)領(lǐng)域的自然語(yǔ)言處理模型中，為了精確地理解和使用醫(yī)學(xué)術(shù)語(yǔ)，一個(gè)較大的詞匯表是必不可少的。另一方面，對(duì)于客戶(hù)服務(wù)聊天機(jī)器人來(lái)說(shuō)，由于它們主要處理的是日常對(duì)話(huà)中的常見(jiàn)問(wèn)題，因此一個(gè)小一些的詞匯表就足夠了，并且還能保證響應(yīng)的速度和效率。

總結(jié)來(lái)說(shuō)，當(dāng)你的應(yīng)用涉及到廣泛的主題、多種語(yǔ)言或者是包含大量專(zhuān)業(yè)術(shù)語(yǔ)的內(nèi)容時(shí)，選擇一個(gè)較大的詞匯表會(huì)更有利。但要注意的是，這樣做也會(huì)增加對(duì)內(nèi)存的需求，這在資源有限的情況下可能成為一個(gè)挑戰(zhàn)。因此，在選擇模型時(shí)，你需要根據(jù)具體的使用場(chǎng)景來(lái)平衡詞匯表大小與資源限制之間的關(guān)系。

6. 訓(xùn)練數(shù)據(jù)對(duì)嵌入模型的影響

開(kāi)發(fā)嵌入模型時(shí)所用的訓(xùn)練數(shù)據(jù)對(duì)其性能有著重大影響，因?yàn)檫@決定了模型能理解什么樣的語(yǔ)言和知識(shí)范疇。

如果一個(gè)模型是基于廣泛的一般性互聯(lián)網(wǎng)資料（比如維基百科、新聞文章）進(jìn)行訓(xùn)練的，它在日常對(duì)話(huà)中可能會(huì)表現(xiàn)得不錯(cuò)，但在金融、法律或醫(yī)學(xué)這樣的專(zhuān)業(yè)領(lǐng)域可能就力不從心了。相反，如果模型是在特定領(lǐng)域的數(shù)據(jù)集上訓(xùn)練的，例如針對(duì)醫(yī)療保健應(yīng)用的醫(yī)學(xué)期刊，那么它在這個(gè)特定領(lǐng)域內(nèi)的表現(xiàn)就會(huì)更加出色。

訓(xùn)練數(shù)據(jù)的質(zhì)量與多樣性對(duì)于模型的表現(xiàn)至關(guān)重要。高質(zhì)量且多樣化的訓(xùn)練數(shù)據(jù)能夠顯著提升模型的知識(shí)水平和處理能力。

對(duì)特定領(lǐng)域數(shù)據(jù)進(jìn)行微調(diào)可以增強(qiáng)嵌入模型的專(zhuān)業(yè)術(shù)語(yǔ)理解和語(yǔ)境細(xì)微差別的把握。這樣做帶來(lái)的好處包括：

提高檢索精度：模型能更準(zhǔn)確地找到符合查詢(xún)意圖的文檔。
更好地掌握術(shù)語(yǔ)：學(xué)習(xí)并理解那些在通用模型中未被充分表示的領(lǐng)域特定術(shù)語(yǔ)。
減少偏見(jiàn)：通過(guò)微調(diào)可以減少通用模型中存在的各種偏見(jiàn)問(wèn)題。

舉例來(lái)說(shuō)，一個(gè)法律文獻(xiàn)檢索系統(tǒng)通過(guò)使用經(jīng)過(guò)法律文本微調(diào)的模型，可以從法律判例法和法規(guī)中受益，確保搜索結(jié)果與法律相關(guān)，而非泛泛的一般信息。

因此，在選擇嵌入模型時(shí)，必須考量其訓(xùn)練數(shù)據(jù)是否與預(yù)期的應(yīng)用場(chǎng)景相匹配。比如，構(gòu)建法律文獻(xiàn)檢索系統(tǒng)的團(tuán)隊(duì)?wèi)?yīng)該選用那些已經(jīng)接受過(guò)法律案例和法規(guī)訓(xùn)練的模型，以保證搜索結(jié)果的精準(zhǔn)度和適用性。這樣不僅能提高工作效率，還能確保內(nèi)容的相關(guān)性和準(zhǔn)確性。

圖片

7. 嵌入模型的成本與部署方式選擇

在挑選嵌入模型時(shí)，有幾個(gè)成本因素需要考慮：

基礎(chǔ)設(shè)施成本：運(yùn)行嵌入模型需要一定的計(jì)算資源支持，比如GPU或是云服務(wù)器，這方面的花費(fèi)取決于你選擇的硬件配置和使用時(shí)間。
API成本：一些商業(yè)模型，例如OpenAI和Cohere提供的服務(wù)，會(huì)根據(jù)處理的Token數(shù)量收費(fèi)。這意味著隨著使用量的增加，費(fèi)用也會(huì)相應(yīng)上升。
存儲(chǔ)和內(nèi)存成本。高維度的大型嵌入模型需要更多的存儲(chǔ)空間和內(nèi)存來(lái)運(yùn)行，這對(duì)資源的要求更高，自然也增加了成本。
推理成本。當(dāng)你在一個(gè)大規(guī)模的數(shù)據(jù)集上進(jìn)行推斷操作時(shí)，尤其是當(dāng)嵌入需要頻繁更新的情況下，這個(gè)過(guò)程可能會(huì)相當(dāng)昂貴。

舉個(gè)例子，如果是一家正在構(gòu)建搜索引擎的初創(chuàng)公司，他們可能會(huì)傾向于選擇開(kāi)源的嵌用模型以減少API成本。相反，那些擁有豐富計(jì)算資源的大企業(yè)，則可能更愿意選擇性能優(yōu)越但價(jià)格不菲的專(zhuān)有模型，因?yàn)樗麄冏非蟮氖亲罡叩臏?zhǔn)確性和效率，而不太在意成本問(wèn)題。

其中，基于API的模型使用起來(lái)非常方便快捷，但長(zhǎng)期來(lái)看，特別是對(duì)于需要大量使用的應(yīng)用程序來(lái)說(shuō)，成本可能會(huì)變得非常高。另一方面，開(kāi)源模型雖然更加經(jīng)濟(jì)實(shí)惠，但是要求用戶(hù)具備更高的技術(shù)知識(shí)，并且需要自行搭建和維護(hù)相關(guān)的基礎(chǔ)設(shè)施。這樣看來(lái)，選擇哪種模型不僅要考慮預(yù)算限制，還要結(jié)合自身的技術(shù)能力和實(shí)際需求來(lái)決定。

8. 嵌入模型的性能評(píng)估指標(biāo)

嵌入模型的好壞通過(guò)多種基準(zhǔn)和測(cè)試方法來(lái)評(píng)估：

首先是MTEB：這是一個(gè)非常流行的評(píng)估框架，用于測(cè)試嵌入模型在不同自然語(yǔ)言處理任務(wù)上的表現(xiàn)，如語(yǔ)義搜索、分類(lèi)和聚類(lèi)。得分越高，通常意味著模型在這些任務(wù)中的表現(xiàn)越出色。
內(nèi)在評(píng)估：這種方法通過(guò)類(lèi)似單詞相似性這樣的任務(wù)來(lái)檢測(cè)嵌入能否準(zhǔn)確捕捉詞語(yǔ)的意義。
外部評(píng)估：側(cè)重于考察嵌入模型在實(shí)際應(yīng)用中的表現(xiàn)，比如搜索排名、推薦系統(tǒng)和問(wèn)答任務(wù)等下游應(yīng)用場(chǎng)景的實(shí)際效果。
自定義測(cè)試：即在自己的數(shù)據(jù)集上運(yùn)行測(cè)試以確保它能滿(mǎn)足特定需求。例如，一個(gè)專(zhuān)注于法律文獻(xiàn)檢索的律師事務(wù)所需要評(píng)估模型根據(jù)判例法準(zhǔn)確檢索信息的能力；而一家優(yōu)化產(chǎn)品推薦的電商公司，則更關(guān)心嵌入模型如何影響客戶(hù)參與度。

另外，余弦距離是一種衡量?jī)蓚€(gè)向量間相似性的指標(biāo)，通過(guò)計(jì)算兩個(gè)向量夾角的余弦值來(lái)確定它們之間的相似程度。在嵌入模型中，這個(gè)指標(biāo)用來(lái)判斷兩段文本在語(yǔ)義上是否相近。余弦距離的范圍從-1到1，具體含義如下：

1表示兩個(gè)向量方向一致，意味著高度相似；
0表示兩個(gè)向量相互垂直，意味著沒(méi)有相似性；
-1則表示兩個(gè)向量方向完全相反。

在語(yǔ)義搜索和RAG系統(tǒng)的文獻(xiàn)檢索功能中，余弦距離被廣泛應(yīng)用，用來(lái)根據(jù)文檔與查詢(xún)間的接近程度對(duì)相關(guān)文檔進(jìn)行排序。這樣一來(lái)，就能有效地找到與查詢(xún)最相關(guān)的文檔。

9. 不同嵌入類(lèi)型的適用場(chǎng)景

靜態(tài)嵌入就像是給每個(gè)單詞都貼上了一個(gè)固定的標(biāo)簽，不管這個(gè)單詞在不同的句子或段落里是怎么用的。比如Word2Vec、GloVe和FastText這些工具就是這么做的。這種方法雖然能顯示出詞語(yǔ)間的關(guān)系，但不能識(shí)別同一個(gè)詞在不同場(chǎng)合下的不同意思，像“銀行”這個(gè)詞，在指河邊的“河岸”時(shí)和作為金融機(jī)構(gòu)的“銀行”時(shí)的意思就被混為一談了。

而上下文詞嵌入則更聰明一些，像是BERT、RoBERTa和Sentence Transformers這樣的工具，它們會(huì)根據(jù)單詞周?chē)奈淖謥?lái)動(dòng)態(tài)生成表示，這就讓它們能夠理解一個(gè)詞在不同場(chǎng)景中的多種含義。這使得這類(lèi)模型在執(zhí)行RAG檢索、語(yǔ)義搜索和文本摘要等任務(wù)時(shí)表現(xiàn)得更加出色。

稠密嵌入是通過(guò)像BERT、SBERT和GPT這樣的模型生成的，它們把每個(gè)詞轉(zhuǎn)化為緊湊且固定長(zhǎng)度的小向量（比如說(shuō)768或者1024維）。這種表示方法非常擅長(zhǎng)捕捉詞語(yǔ)間的語(yǔ)義聯(lián)系，適用于需要深入理解文本意義的任務(wù)，如語(yǔ)義搜索和在RAG中進(jìn)行相似度排序。

相比之下，稀疏嵌入使用的是傳統(tǒng)的技術(shù)，如TF-IDF或bm25，這些方法會(huì)產(chǎn)生非常高維度但是大部分都是零的向量。盡管看起來(lái)有點(diǎn)浪費(fèi)空間，但在精確的關(guān)鍵字檢索系統(tǒng)中卻很有效，比如搜索引擎和傳統(tǒng)文獻(xiàn)檢索。

現(xiàn)在的一些先進(jìn)的RAG流程還會(huì)結(jié)合稠密和稀疏嵌入的優(yōu)點(diǎn)，形成所謂的混合搜索方式，這樣不僅能保證找到的內(nèi)容與關(guān)鍵詞匹配，還能確保內(nèi)容之間有更深的語(yǔ)義關(guān)聯(lián)，從而提升整體的檢索準(zhǔn)確性。

10. 嵌入模型程度選型與RAG實(shí)踐

在選擇嵌入模型時(shí)，我們需要考慮幾個(gè)關(guān)鍵因素。首先得看它能否處理文檔的長(zhǎng)度，這就涉及到上下文窗口大?。蝗缓笫敲總€(gè)令牌的成本，這關(guān)系到使用費(fèi)用的問(wèn)題；接著要考慮的是模型的質(zhì)量如何，比如通過(guò)MTEB得分或基準(zhǔn)性能來(lái)評(píng)估；還要平衡語(yǔ)義豐富度和計(jì)算效率，即維度的選擇；最后別忘了令牌化單位的影響。同時(shí)，在特定的數(shù)據(jù)集和應(yīng)用場(chǎng)景下測(cè)試模型的表現(xiàn)也非常重要。

使用嵌入模型的RAG系統(tǒng)工作流程大致如下：

預(yù)處理：這里會(huì)將輸入的文字拆分成標(biāo)記，并用預(yù)先訓(xùn)練好的模型（像BERT或者句子transformer）把這些標(biāo)記變成向量形式的嵌入。
建索引：就是把生成的這些嵌入信息保存到一個(gè)專(zhuān)門(mén)的向量數(shù)據(jù)庫(kù)里，比如FAISS、Pinecone或Weaviate這樣的工具。
檢索：當(dāng)有查詢(xún)進(jìn)來(lái)的時(shí)候，就到了檢索環(huán)節(jié)。系統(tǒng)會(huì)給這個(gè)查詢(xún)生成一個(gè)對(duì)應(yīng)的嵌入，然后利用余弦距離或者近似最近鄰搜索的方法，找出最相似的前k個(gè)文檔。
排序：根據(jù)一些額外的標(biāo)準(zhǔn)，如bm25分?jǐn)?shù)或交叉編碼器的結(jié)果，對(duì)找到的文檔重新排序。
增強(qiáng)：將篩選出的文檔交給大型語(yǔ)言模型（LLM），例如OpenAI的GPT系列、Claude或是Mistral等，讓它們基于這些文檔提供的事實(shí)和背景信息產(chǎn)生回答。

通過(guò)這一整套流程，可以確保最終的回答既準(zhǔn)確又具有相關(guān)性。

責(zé)任編輯：武曉燕來(lái)源：喔家ArchiSelf

RAG 框架模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)