偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RAG數(shù)據(jù)召回優(yōu)化方案——先進(jìn)行標(biāo)量召回再進(jìn)行相似度召回 原創(chuàng)

發(fā)布于 2025-10-9 06:56
瀏覽
0收藏

“ RAG召回時(shí)最好進(jìn)行多次過濾,這樣才能大大提升召回文檔的質(zhì)量?!?/strong>

關(guān)于RAG數(shù)據(jù)召回技術(shù),大家都都知道現(xiàn)在普遍使用的是相似度(語義)召回方式;但對(duì)沒有真正實(shí)際操作過的人來說,可能會(huì)認(rèn)為RAG只能進(jìn)行相似度召回;但在真正的業(yè)務(wù)場(chǎng)景中,標(biāo)量召回的效果可能會(huì)比相似度召回更好。

原因在于,RAG的目的是為了更準(zhǔn)確的召回與問題相關(guān)的內(nèi)容,但并沒有限制具體的召回方式,不論是傳統(tǒng)的字符匹配,分詞技術(shù)(如es),還是現(xiàn)在爆火的相似度計(jì)算都可以作為數(shù)據(jù)召回的手段,而且可以根據(jù)不同的場(chǎng)景選擇合適的召回方式。

標(biāo)量召回和相似度召回

標(biāo)量召回就是基于傳統(tǒng)的字段匹配的方式,而相似度召回是基于向量計(jì)算的方式;其分別對(duì)應(yīng)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和現(xiàn)在的向量數(shù)據(jù)庫。

向量數(shù)據(jù)庫作為一個(gè)相對(duì)比較新的中間件,可能部分剛開始學(xué)習(xí)向量數(shù)據(jù)庫的人并不了解其運(yùn)作機(jī)制,可能會(huì)有人認(rèn)為其只支持向量計(jì)算。

但事實(shí)是,向量數(shù)據(jù)庫和傳統(tǒng)的數(shù)據(jù)庫并沒有什么特別本質(zhì)的區(qū)別,其更像是在傳統(tǒng)數(shù)據(jù)庫的基礎(chǔ)之上,增加了向量計(jì)算,以及單獨(dú)的向量字段,因此向量數(shù)據(jù)庫同樣支持傳統(tǒng)的字符匹配模式。

RAG數(shù)據(jù)召回優(yōu)化方案——先進(jìn)行標(biāo)量召回再進(jìn)行相似度召回-AI.x社區(qū)

我們都知道在RAG中有一個(gè)非常重要的組件——Embedding嵌入模型,其作用是把自然語言轉(zhuǎn)換成向量形式。

而向量數(shù)據(jù)庫的運(yùn)作原理就是,在文檔處理階段,通過對(duì)文檔進(jìn)行拆分,然后再通過embedding模型把拆分之后的文檔轉(zhuǎn)換成向量模式,之后保存到向量數(shù)據(jù)庫中的向量字段中。

然后在用戶提問時(shí),通過同樣的方式把用戶問題轉(zhuǎn)換成向量模式,之后再通過某種計(jì)算方式對(duì)用戶問題和拆分的文檔進(jìn)行向量匹配,如歐式距離,余弦相似度計(jì)算等方式,來計(jì)算用戶問題和具體文檔之間的相似度,相似度越高,其語義相關(guān)性越大;這就是相似度召回的基本原理。

但是呢,相似度計(jì)算畢竟不是很準(zhǔn)確,特別是在語義不明確的情況下;其召回的數(shù)據(jù)質(zhì)量真的無法保證,因此這時(shí)就需要使用標(biāo)量召回配合相似度召回來提升文檔的召回質(zhì)量。

RAG數(shù)據(jù)召回優(yōu)化方案——先進(jìn)行標(biāo)量召回再進(jìn)行相似度召回-AI.x社區(qū)

舉例來說,針對(duì)不同的用戶可能存在不同的特性,然后可以把這些特性作為文檔的屬性進(jìn)行數(shù)據(jù)隔離;如有些文檔屬于部門專有文檔,有些文檔屬于用戶文檔,有些文檔又屬于企業(yè)內(nèi)部文檔;而部門名稱,用戶文檔,企業(yè)文檔等都屬于數(shù)據(jù)特征。

因此,不同用戶提出的問題,可以先根據(jù)用戶所在的部門,或者屬于消費(fèi)者和管理者的角色,先篩選出對(duì)于角色的文檔;然后再次基礎(chǔ)之后,在進(jìn)行相似度召回,這樣就能大大提升文檔召回的準(zhǔn)確率。

本文轉(zhuǎn)載自???AI探索時(shí)代??? 作者:DFires

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦