偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了 精華

發(fā)布于 2025-6-27 00:36
瀏覽
0收藏

一、為什么需要 RAG 技術(shù)?

1.1 傳統(tǒng)語(yǔ)言模型的局限性

傳統(tǒng)的語(yǔ)言模型,比如 GPT-3,雖然在生成文本方面表現(xiàn)出色,但它們有一個(gè)顯著的局限性:它們依賴于預(yù)訓(xùn)練的參數(shù),無(wú)法動(dòng)態(tài)訪問(wèn)外部知識(shí)。這意味著這些模型在處理實(shí)時(shí)信息、領(lǐng)域特定知識(shí)或罕見(jiàn)實(shí)體時(shí)表現(xiàn)不佳。舉個(gè)例子,在問(wèn)答任務(wù)中,模型可能會(huì)生成不準(zhǔn)確或過(guò)時(shí)的答案,因?yàn)樗鼰o(wú)法訪問(wèn)最新的數(shù)據(jù)。就像你問(wèn)一個(gè)朋友“今天天氣怎么樣?”,但他只能告訴你去年的天氣情況,顯然這樣的信息對(duì)你來(lái)說(shuō)毫無(wú)用處。

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

這種局限性在需要精確答案的場(chǎng)景中尤為明顯。例如,在醫(yī)療領(lǐng)域,醫(yī)生可能需要最新的研究數(shù)據(jù)來(lái)做出診斷,而傳統(tǒng)的語(yǔ)言模型無(wú)法提供這些信息。同樣,在法律領(lǐng)域,律師需要引用最新的法律條文,而模型只能基于過(guò)去的知識(shí)生成答案,這顯然是不夠的。

1.2 檢索增強(qiáng)生成(RAG)的誕生

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

為了解決傳統(tǒng)語(yǔ)言模型的局限性,檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)技術(shù)應(yīng)運(yùn)而生。RAG 通過(guò)將大規(guī)模檢索系統(tǒng)與生成模型相結(jié)合,解決了傳統(tǒng)模型的局限性。它能夠動(dòng)態(tài)地從外部知識(shí)源(如文檔、數(shù)據(jù)庫(kù)或結(jié)構(gòu)化數(shù)據(jù))中檢索信息,并在生成過(guò)程中利用這些信息,從而生成更準(zhǔn)確、上下文相關(guān)的輸出。

這種結(jié)合不僅提升了模型的性能,還使其能夠處理更復(fù)雜的任務(wù),如多跳推理和跨領(lǐng)域知識(shí)整合。舉個(gè)例子,如果你問(wèn) RAG 模型“量子計(jì)算的最新進(jìn)展是什么?”,它可以從最新的研究論文中檢索相關(guān)信息,并生成一個(gè)基于這些信息的詳細(xì)答案。這種能力使得 RAG 在需要精確和實(shí)時(shí)信息的場(chǎng)景中表現(xiàn)出色。

1.3 RAG 的應(yīng)用場(chǎng)景

RAG 技術(shù)在多個(gè)領(lǐng)域展現(xiàn)了巨大的潛力,尤其是在問(wèn)答、摘要生成和信息檢索等任務(wù)中。例如,在開(kāi)放域問(wèn)答中,RAG 模型能夠從海量文檔中檢索相關(guān)信息,生成更精確的答案;在文檔摘要任務(wù)中,它能夠利用外部文檔生成更豐富、更全面的摘要。此外,RAG 還在對(duì)話系統(tǒng)、知識(shí)圖譜構(gòu)建等領(lǐng)域展現(xiàn)了強(qiáng)大的能力。

在醫(yī)療領(lǐng)域,RAG 可以幫助醫(yī)生快速檢索最新的研究數(shù)據(jù),輔助診斷和治療決策。在法律領(lǐng)域,律師可以使用 RAG 來(lái)檢索最新的法律條文,確保他們的法律建議是最新和準(zhǔn)確的。在教育領(lǐng)域,RAG 可以為學(xué)生提供個(gè)性化的學(xué)習(xí)材料,幫助他們更好地理解復(fù)雜的概念。

總的來(lái)說(shuō),RAG 技術(shù)通過(guò)結(jié)合檢索和生成的能力,解決了傳統(tǒng)語(yǔ)言模型的局限性,使其在多個(gè)領(lǐng)域中表現(xiàn)出色。無(wú)論是需要實(shí)時(shí)信息的問(wèn)答任務(wù),還是需要精確答案的領(lǐng)域特定任務(wù),RAG 都能提供強(qiáng)大的支持。

二、RAG 技術(shù)解析

2.1 核心組件:檢索與生成

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)的核心思想是將檢索和生成兩個(gè)過(guò)程緊密結(jié)合。首先,模型根據(jù)輸入查詢從外部知識(shí)源中檢索相關(guān)信息;然后,生成模型利用檢索到的信息生成最終的輸出。這種動(dòng)態(tài)的知識(shí)整合機(jī)制使得 RAG 模型能夠在生成過(guò)程中實(shí)時(shí)訪問(wèn)外部知識(shí),從而提升輸出的準(zhǔn)確性和相關(guān)性。

舉個(gè)例子,假設(shè)你問(wèn)一個(gè) RAG 模型:“誰(shuí)發(fā)明了電話?”模型會(huì)首先從外部知識(shí)庫(kù)中檢索與“電話發(fā)明”相關(guān)的文檔或段落,然后基于這些信息生成一個(gè)準(zhǔn)確的答案:“亞歷山大·格拉漢姆·貝爾發(fā)明了電話?!边@種結(jié)合檢索和生成的方式,使得 RAG 模型在處理需要外部知識(shí)的任務(wù)時(shí)表現(xiàn)尤為出色。

2.2 檢索機(jī)制:從海量數(shù)據(jù)中找到關(guān)鍵信息

檢索機(jī)制是 RAG 的關(guān)鍵部分。它需要從龐大的知識(shí)庫(kù)中快速找到與查詢最相關(guān)的信息。常用的檢索方法包括基于關(guān)鍵詞的稀疏檢索(如 BM25)和基于語(yǔ)義的稠密檢索(如 DPR,Dense Passage Retrieval)。稠密檢索通過(guò)將查詢和文檔映射到同一向量空間,利用向量相似度(如余弦相似度)來(lái)找到最相關(guān)的文檔。

例如,如果你問(wèn):“什么是量子計(jì)算?”稀疏檢索可能會(huì)通過(guò)匹配關(guān)鍵詞“量子”和“計(jì)算”來(lái)找到相關(guān)文檔,而稠密檢索則會(huì)通過(guò)語(yǔ)義理解,找到與“量子計(jì)算”概念相關(guān)的文檔,即使這些文檔中沒(méi)有直接出現(xiàn)“量子”或“計(jì)算”這兩個(gè)詞。

2.3 生成過(guò)程:結(jié)合內(nèi)部與外部知識(shí)

生成過(guò)程不僅依賴于模型的內(nèi)部知識(shí),還結(jié)合了檢索到的外部信息。模型通過(guò)“去噪”和“推理”兩個(gè)步驟來(lái)處理檢索到的信息。去噪步驟過(guò)濾掉不相關(guān)或矛盾的信息,確保生成的內(nèi)容基于可靠的來(lái)源;推理步驟則幫助模型從多個(gè)信息源中提取邏輯關(guān)系,生成連貫的答案。

例如,當(dāng)模型檢索到多篇關(guān)于“量子計(jì)算”的文檔時(shí),去噪步驟會(huì)排除那些與主題無(wú)關(guān)或信息不準(zhǔn)確的文檔,而推理步驟則會(huì)從剩下的文檔中提取關(guān)鍵信息,生成一個(gè)全面且邏輯清晰的答案。

2.4 知識(shí)整合:如何將外部知識(shí)融入生成

知識(shí)整合是 RAG 的另一個(gè)關(guān)鍵步驟。它可以通過(guò)多種方式實(shí)現(xiàn),例如在輸入層直接將檢索到的文檔與查詢拼接,或在中間層通過(guò)注意力機(jī)制將外部知識(shí)融入模型的隱藏狀態(tài)。不同的整合策略適用于不同的任務(wù)需求,選擇合適的策略可以顯著提升模型的表現(xiàn)。

例如,在輸入層整合時(shí),模型會(huì)將檢索到的文檔與查詢一起輸入生成模型;而在中間層整合時(shí),模型會(huì)在生成過(guò)程中動(dòng)態(tài)調(diào)整注意力機(jī)制,確保外部知識(shí)能夠被有效利用。這種靈活的知識(shí)整合方式,使得 RAG 模型在處理復(fù)雜任務(wù)時(shí)能夠更加精準(zhǔn)地生成答案。

3. RAG關(guān)鍵步驟

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

RAG模型通過(guò)利用外部知識(shí)來(lái)增強(qiáng)生成過(guò)程,從而生成更準(zhǔn)確且符合上下文的回答?;A(chǔ)RAG方法包括以下幾個(gè)關(guān)鍵步驟:

? 用戶意圖理解

? 知識(shí)源與解析

? 知識(shí)嵌入

? 知識(shí)索引

? 知識(shí)檢索

? 知識(shí)整合

? 回答生成

? 知識(shí)引用

3.1 用戶意圖理解

高質(zhì)量的查詢對(duì)于檢索有價(jià)值的知識(shí)至關(guān)重要。由于用戶的意圖往往不明確,準(zhǔn)確理解用戶查詢是實(shí)現(xiàn)更有效和精確檢索的關(guān)鍵。目前,許多研究專注于提升對(duì)用戶查詢的理解。本兩種提升查詢質(zhì)量的關(guān)鍵方法:查詢分解和查詢重寫。

3.1.1 查詢分解(Query Decomposition)

查詢分解方法已成為增強(qiáng)語(yǔ)言模型推理能力的有效策略,尤其適用于需要多步或組合推理的復(fù)雜任務(wù),例如:

?最少到最多提示(least-to-most prompting):將復(fù)雜問(wèn)題逐步分解為更簡(jiǎn)單的子問(wèn)題,從而提升模型在更困難任務(wù)上的泛化能力。這種方法在SCAN任務(wù)中表現(xiàn)出色,GPT-3模型僅用14個(gè)示例就達(dá)到了99%以上的準(zhǔn)確率。

?自問(wèn)(Self-ask):采用了類似的方法,但進(jìn)一步優(yōu)化了過(guò)程,通過(guò)讓模型提出并回答后續(xù)問(wèn)題,減少了組合性差距,從而實(shí)現(xiàn)了更好的多跳推理。

?驗(yàn)證鏈(Chain-of-Verification, CoVe):通過(guò)讓模型獨(dú)立驗(yàn)證其回答,提高了答案的可靠性,顯著減少了在列表問(wèn)題和長(zhǎng)文本生成任務(wù)中的幻覺(jué)現(xiàn)象。

?鏈中搜索(Search-in-the-Chain, SearChain):將信息檢索(IR)整合到推理過(guò)程中。在該框架中,模型構(gòu)建一個(gè)查詢鏈(Chain-of-Query, CoQ),每個(gè)查詢都通過(guò)IR進(jìn)行驗(yàn)證,從而提高了推理路徑的準(zhǔn)確性和可追溯性。SearChain允許模型根據(jù)檢索到的信息動(dòng)態(tài)調(diào)整其推理,從而在多跳問(wèn)答和事實(shí)核查等知識(shí)密集型任務(wù)中表現(xiàn)出色。

3.1.2 查詢重寫

查詢重寫已成為提升RAG性能的關(guān)鍵技術(shù),特別是在解決語(yǔ)義差距和改善任務(wù)結(jié)果方面。

?重寫-檢索-閱讀(Rewrite-Retrieve-Read, RRR):通過(guò)使用LLM在檢索前生成和優(yōu)化查詢,提升了查詢與目標(biāo)知識(shí)的對(duì)齊,從而在開(kāi)放域問(wèn)答和多選任務(wù)中顯著提高了性能。

?BEQUE:專注于電子商務(wù)搜索中的長(zhǎng)尾查詢,通過(guò)監(jiān)督微調(diào)、離線反饋和對(duì)比學(xué)習(xí)來(lái)彌合語(yǔ)義差距,從而在GMV和交易量等業(yè)務(wù)指標(biāo)上取得了顯著提升。

?HyDE:引入了一種零樣本的密集檢索方法,通過(guò)讓LLM生成假設(shè)文檔并將其編碼用于檢索相關(guān)文檔,超越了傳統(tǒng)的無(wú)監(jiān)督檢索器。

?Step-Back Prompting:鼓勵(lì)LLM從具體示例中抽象出高級(jí)概念,從而在STEM、多跳問(wèn)答和基于知識(shí)的推理任務(wù)中提升了推理能力。這些方法共同增強(qiáng)了RAG在跨領(lǐng)域知識(shí)密集型任務(wù)中的有效性和可擴(kuò)展性。

3.2 知識(shí)源與解析(Knowledge Source and Parsing)

RAG可以利用的知識(shí)類型多種多樣,為L(zhǎng)LM提供了豐富的上下文信息。所使用的知識(shí)類別,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和多模態(tài)知識(shí),以及它們各自的解析和整合方法。

3.2.1 結(jié)構(gòu)化知識(shí)的利用

知識(shí)圖譜(Knowledge Graphs, KGs)是一種結(jié)構(gòu)化表示,以圖的形式封裝實(shí)體及其相互關(guān)系。

其結(jié)構(gòu)化特性便于高效查詢和檢索,而語(yǔ)義關(guān)系則支持更細(xì)致的理解和推理。KGs整合了來(lái)自不同來(lái)源的信息,提供了統(tǒng)一的知識(shí)庫(kù)。然而,將KGs整合到RAG系統(tǒng)中也面臨挑戰(zhàn),包括從大規(guī)模KGs中導(dǎo)航和提取相關(guān)子圖的復(fù)雜性、KGs擴(kuò)展時(shí)的可擴(kuò)展性問(wèn)題,以及將結(jié)構(gòu)化數(shù)據(jù)與語(yǔ)言模型的無(wú)序數(shù)據(jù)處理對(duì)齊的困難。例如:

?GRAG:通過(guò)跨多個(gè)文檔檢索文本子圖,提升了RAG系統(tǒng)中的信息檢索效率。

?KG-RAG:引入了探索鏈(Chain of Explorations, CoE)算法,通過(guò)高效導(dǎo)航KGs來(lái)提升知識(shí)圖譜問(wèn)答(KGQA)任務(wù)的表現(xiàn)。

?GNN-RAG:利用圖神經(jīng)網(wǎng)絡(luò)(GNNs)從KGs中檢索和處理信息,在與LLM對(duì)接之前增強(qiáng)了推理能力。從歷史數(shù)據(jù)構(gòu)建KGs作為RAG的外部知識(shí)源,有效提升了信息檢索和生成能力[255]。

?SURGE框架:利用KG信息生成上下文相關(guān)且基于知識(shí)的對(duì)話,提升了交互質(zhì)量。

?SMART-SLIC、KARE、ToG 2.0KAG,展示了KGs在特定領(lǐng)域作為外部知識(shí)源的有效性,提升了RAG系統(tǒng)的準(zhǔn)確性和效率。

3.2.2 半結(jié)構(gòu)化知識(shí)的提取

半結(jié)構(gòu)化數(shù)據(jù)介于結(jié)構(gòu)化和非結(jié)構(gòu)化格式之間,具有組織元素但沒(méi)有嚴(yán)格的模式。例如,JSON和XML文件、電子郵件以及HTML文檔。HTML作為網(wǎng)頁(yè)的基礎(chǔ),結(jié)合了標(biāo)簽和屬性等結(jié)構(gòu)化組件與自由文本等非結(jié)構(gòu)化內(nèi)容。

這種混合特性允許HTML表示復(fù)雜信息,包括文本、圖像和鏈接。然而,HTML的靈活性也可能導(dǎo)致不一致和異常,給數(shù)據(jù)提取和整合到RAG系統(tǒng)帶來(lái)挑戰(zhàn)。

?HtmlRAG:在大多數(shù)場(chǎng)景中,開(kāi)源HTML解析技術(shù)仍然是高效數(shù)據(jù)提取和無(wú)縫整合的關(guān)鍵。這些工具提供了強(qiáng)大的解析能力和對(duì)多樣化HTML結(jié)構(gòu)的適應(yīng)性,確保了在各種應(yīng)用場(chǎng)景中的高效性和準(zhǔn)確性。

?Beautiful Soup:一個(gè)用于解析HTML和XML文檔的Python庫(kù),創(chuàng)建解析樹(shù)以便輕松提取數(shù)據(jù);

?html5ever:由Servo項(xiàng)目開(kāi)發(fā)的開(kāi)源HTML解析器,遵循WHATWG的“HTML5”規(guī)范;

?htmlparser2:一個(gè)用于Node.js環(huán)境的強(qiáng)大HTML解析器,提供快速靈活的方式處理HTML文檔;

?MyHTML“”一個(gè)基于Crystal語(yǔ)言的高性能HTML5解析器,綁定到lexborisov的myhtml和Modest庫(kù);

?Fast HTML Parser[39],一個(gè)極快的HTML解析器,生成最小的DOM樹(shù)并支持基本元素查詢。

3.2.3 非結(jié)構(gòu)化知識(shí)的解析

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

非結(jié)構(gòu)化知識(shí)涵蓋了缺乏一致結(jié)構(gòu)的數(shù)據(jù)類型,如自由文本和PDF文檔。與遵循預(yù)定義模式的結(jié)構(gòu)化數(shù)據(jù)不同,非結(jié)構(gòu)化數(shù)據(jù)的格式多樣,通常包含復(fù)雜內(nèi)容,使得直接檢索和解釋具有挑戰(zhàn)性。在非結(jié)構(gòu)化格式中,PDF文檔在知識(shí)密集型領(lǐng)域中尤為常見(jiàn),包括學(xué)術(shù)研究、法律文件和公司報(bào)告。PDF通常包含大量信息,如文本、表格和嵌入圖像,但其固有的結(jié)構(gòu)可變性使得提取和整合到RAG系統(tǒng)變得復(fù)雜。

解析PDF仍然具有挑戰(zhàn)性,因?yàn)樾枰獪?zhǔn)確解釋不同的布局、字體和嵌入結(jié)構(gòu)。將PDF轉(zhuǎn)換為RAG系統(tǒng)可讀的格式需要光學(xué)字符識(shí)別(OCR)來(lái)捕獲文本,布局分析來(lái)理解空間關(guān)系,以及先進(jìn)的方法來(lái)解釋表格和公式等復(fù)雜元素。

?ABINet:通過(guò)雙向處理增強(qiáng)了OCR的準(zhǔn)確性。

?GPTPDF:使用視覺(jué)模型將表格和公式等復(fù)雜元素解析為結(jié)構(gòu)化的Markdown,在大規(guī)模處理中具有高成本效益。

?Marker:專注于清理噪聲元素,同時(shí)保留文檔的核心格式,非常適合學(xué)術(shù)和科學(xué)文檔。

?PDF-Extract-Kit:支持高質(zhì)量?jī)?nèi)容提取,包括公式識(shí)別和布局檢測(cè)

?Zerox OCR:將PDF頁(yè)面轉(zhuǎn)換為圖像,并使用GPT模型生成Markdown,有效管理標(biāo)題和表格等結(jié)構(gòu)。

?MarkItDown:是一個(gè)多功能工具,能夠?qū)DF、媒體、網(wǎng)頁(yè)數(shù)據(jù)和存檔等多種文件類型轉(zhuǎn)換為Markdown。

3.2.4 多模態(tài)知識(shí)的整合

多模態(tài)知識(shí)(包括圖像、音頻和視頻)提供了豐富的互補(bǔ)信息,可以顯著增強(qiáng)RAG系統(tǒng),特別是在需要深度上下文理解的任務(wù)中。圖像提供空間和視覺(jué)細(xì)節(jié),音頻貢獻(xiàn)時(shí)間和語(yǔ)音層,而視頻結(jié)合了空間和時(shí)間維度,捕捉運(yùn)動(dòng)和復(fù)雜場(chǎng)景。傳統(tǒng)的RAG系統(tǒng)主要設(shè)計(jì)用于文本數(shù)據(jù),在處理和檢索這些模態(tài)的信息時(shí)往往表現(xiàn)不佳,導(dǎo)致在非文本內(nèi)容至關(guān)重要時(shí)生成不完整或不夠細(xì)致的回答。

為了應(yīng)對(duì)這些限制,現(xiàn)代多模態(tài)RAG系統(tǒng)開(kāi)發(fā)了基本方法來(lái)整合和檢索跨模態(tài)的數(shù)據(jù)。其核心理念是將不同模態(tài)對(duì)齊到一個(gè)共享的嵌入空間中進(jìn)行統(tǒng)一處理和檢索。

?CLIP:將視覺(jué)和語(yǔ)言對(duì)齊到一個(gè)共享空間

?Wav2Vec 2.0CLAP:音頻模型則專注于音頻與文本的對(duì)齊。

?ViViT:處理空間和時(shí)間特征。

3.3 知識(shí)嵌入(Knowledge Embedding)

知識(shí)通常存儲(chǔ)在大量文本文檔中,首先被分割為簡(jiǎn)潔且有意義的單元,每個(gè)單元封裝一個(gè)核心思想。這些單元隨后被轉(zhuǎn)換為向量嵌入,編碼語(yǔ)義信息,便于通過(guò)相似性度量進(jìn)行高效檢索。

3.3.1 分塊劃分

分塊劃分是一個(gè)基礎(chǔ)過(guò)程,顯著影響文檔檢索質(zhì)量,從而影響整體性能。分塊劃分的主要目標(biāo)是將大段文本分割為可管理的單元或“塊”,從而實(shí)現(xiàn)更高效的檢索和生成。通過(guò)將復(fù)雜文檔分割為更小、連貫的單元,RAG可以實(shí)現(xiàn)對(duì)上下文保留的精細(xì)控制,并提升信息檢索的準(zhǔn)確性。分塊劃分的目標(biāo)和挑戰(zhàn)在于確保分割后的塊保留有意義的上下文,同時(shí)避免冗余和信息丟失。傳統(tǒng)的分塊方法,如固定長(zhǎng)度、基于規(guī)則或基于語(yǔ)義的劃分,相對(duì)簡(jiǎn)單,但缺乏捕捉復(fù)雜文本中細(xì)微結(jié)構(gòu)的靈活性。這些方法在處理格式多樣或包含跨段落語(yǔ)義流的文檔時(shí)往往表現(xiàn)不佳,導(dǎo)致由于上下文信息碎片化而檢索效果不理想。

隨著分塊劃分方法的演變,早期的固定長(zhǎng)度方法逐漸被更自適應(yīng)和智能的策略所取代。最近的優(yōu)化策略旨在捕捉文本中細(xì)粒度的信息分布和語(yǔ)義結(jié)構(gòu)。例如:

?命題級(jí)分塊:將文本分割為單個(gè)事實(shí)的小單元,從而捕捉更豐富的信息。

?LumberChunker:使用LLM檢測(cè)段落之間的內(nèi)容變化,從而創(chuàng)建上下文敏感的塊。

?元分塊方法:(如邊際采樣分塊和困惑度分塊)優(yōu)化塊邊界,以更好地滿足RAG需求,提升上下文捕捉和檢索效果。

?延遲分塊:一種創(chuàng)新方法,與傳統(tǒng)做法不同,它在分塊之前對(duì)整個(gè)文檔進(jìn)行嵌入,從而使模型保留完整的上下文,特別是在處理復(fù)雜或上下文密集的文本時(shí),顯著改善了檢索結(jié)果。這些先進(jìn)的分塊策略使RAG能夠更好地適應(yīng)復(fù)雜的文檔結(jié)構(gòu),捕捉細(xì)微信息,并提升檢索準(zhǔn)確性,為多樣化的檢索和生成任務(wù)提供了更強(qiáng)大的支持。

3.3.2 文本嵌入模型

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

在基于查詢檢索塊時(shí),該過(guò)程依賴于查詢與塊之間的向量相似性計(jì)算(如余弦相似性)。將塊準(zhǔn)確映射為向量表示對(duì)于有效捕捉語(yǔ)義意義并與相關(guān)查詢對(duì)齊至關(guān)重要。

傳統(tǒng)方法,如:

?詞袋模型(Bag of Words, BoW):強(qiáng)調(diào)詞頻但忽略語(yǔ)法

?N-gram:捕捉語(yǔ)言結(jié)構(gòu)但面臨維度挑戰(zhàn)

?TF-IDF模型:結(jié)合了詞頻和上下文,但仍受高維度問(wèn)題的限制。

以上方法無(wú)法全面表示語(yǔ)義信息。相比之下,基于深度學(xué)習(xí)的現(xiàn)代詞嵌入方法,如:

?Word2Vec、GloVefastText:通過(guò)利用上下文、共現(xiàn)模式或詞根變化來(lái)編碼單詞。

然而,這些嵌入是靜態(tài)的,無(wú)法適應(yīng)不同的上下文。

Transformer架構(gòu) 的引入,特別是BERT ,在捕捉上下文意義和增強(qiáng)語(yǔ)義表示方面取得了重大進(jìn)展。BERT 及其衍生模型,如RoBERTaALBERT 和DPR,顯著提升了文檔檢索能力。

BGENV-EmbedSFR-Embedding,在多語(yǔ)言和特定領(lǐng)域的基準(zhǔn)測(cè)試中表現(xiàn)出色。

3.3.3 多模態(tài)嵌入模型  

知識(shí)不僅以文本形式表示,還包括圖像、音頻和視頻。因此,對(duì)多模態(tài)嵌入模型的需求日益增加,這些模型將來(lái)自不同模態(tài)的信息整合到一個(gè)統(tǒng)一的向量空間中。這些模型專門設(shè)計(jì)用于捕捉不同數(shù)據(jù)類型之間的關(guān)系和共享信息,從而實(shí)現(xiàn)更全面和統(tǒng)一的表示。

對(duì)于圖像,模型處理JPG或PNG等圖像格式,生成與文本相同的語(yǔ)義向量空間中的嵌入。

?Normalizer-Free ResNets (NFNet):提供了一個(gè)高效的框架來(lái)提取圖像特征

? **Vision Transformer (ViT)**: 利用Transformer架構(gòu)學(xué)習(xí)高質(zhì)量表示。

?對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練(CLIP):通過(guò)對(duì)比學(xué)習(xí)將視覺(jué)和文本模態(tài)對(duì)齊,生成了適用于零樣本分類和跨模態(tài)檢索的多功能嵌入。

對(duì)于音頻,模型提取音高、音色、節(jié)奏和語(yǔ)義等關(guān)鍵特征,從而實(shí)現(xiàn)對(duì)音頻的有效和有意義分析,以支持檢索任務(wù)。

?Wav2Vec 2.0:一種自監(jiān)督學(xué)習(xí)模型,直接從原始波形中學(xué)習(xí)音頻表示,生成適用于多種音頻任務(wù)的高層次嵌入。

?對(duì)比語(yǔ)言-音頻預(yù)訓(xùn)練(CLAP):一種最先進(jìn)的模型,通過(guò)從成對(duì)的音頻和文本數(shù)據(jù)中學(xué)習(xí)生成音頻嵌入,為音頻與自然語(yǔ)言的整合提供了統(tǒng)一框架。

對(duì)于視頻,模型旨在將視頻數(shù)據(jù)表示為緊湊且特征豐富的向量,捕捉空間、時(shí)間和語(yǔ)義信息。

? **Video Vision Transformer (ViViT)**:基于ViT,能夠有效處理視頻理解任務(wù),捕捉空間和時(shí)間特征。

?VideoPrism:因其在廣泛視頻理解基準(zhǔn)測(cè)試中的最先進(jìn)表現(xiàn)而備受關(guān)注。它特別擅長(zhǎng)在不同視頻領(lǐng)域中泛化,而無(wú)需特定任務(wù)的微調(diào)。

3.4 知識(shí)索引(Knowledge Indexing)

在RAG中,索引被定義為數(shù)據(jù)的結(jié)構(gòu)化組織,能夠從大規(guī)模數(shù)據(jù)集中高效訪問(wèn)和檢索信息。索引將用戶查詢映射到相關(guān)的文檔塊、知識(shí)片段或其他信息內(nèi)容,充當(dāng)存儲(chǔ)數(shù)據(jù)與檢索機(jī)制之間的橋梁。索引的有效性對(duì)RAG系統(tǒng)至關(guān)重要,因?yàn)樗苯佑绊戫憫?yīng)準(zhǔn)確性、檢索速度和計(jì)算效率。

3.4.1 索引結(jié)構(gòu)

結(jié)構(gòu)化索引:結(jié)構(gòu)化索引基于預(yù)定義的固定屬性組織數(shù)據(jù),通常采用表格或關(guān)系格式。在早期的知識(shí)檢索工作中,如REALM系統(tǒng),文本倒排索引被廣泛用作基礎(chǔ)技術(shù),而Table RAG則使用特定于表格的索引結(jié)構(gòu),結(jié)合列索引和行索引,以高效檢索相關(guān)表格條目用于語(yǔ)言生成任務(wù)[30]。

非結(jié)構(gòu)化索引:非結(jié)構(gòu)化索引則設(shè)計(jì)用于自由格式或半結(jié)構(gòu)化數(shù)據(jù),在現(xiàn)代RAG系統(tǒng)中更為常見(jiàn)。向量索引利用先前嵌入階段生成的向量來(lái)提高檢索效率,如naive RAG、ANCEG-retriever,后者使用語(yǔ)言模型將圖的文本屬性轉(zhuǎn)換為向量。

圖索引:圖索引是一種非結(jié)構(gòu)化索引,利用圖結(jié)構(gòu)的固有優(yōu)勢(shì)來(lái)表示和檢索互連數(shù)據(jù)。在圖索引中,數(shù)據(jù)點(diǎn)被表示為節(jié)點(diǎn),而它們之間的關(guān)系通過(guò)邊表示。這種索引范式特別擅長(zhǎng)捕捉語(yǔ)義關(guān)系和上下文信息,從而支持復(fù)雜的查詢和推理任務(wù)。

3.5 知識(shí)檢索( Knowledge Retrieval)

在RAG系統(tǒng)中,知識(shí)檢索是一個(gè)關(guān)鍵步驟,決定了生成模型能夠獲取到哪些外部知識(shí)。知識(shí)檢索的目標(biāo)是從大規(guī)模的外部知識(shí)庫(kù)中快速、準(zhǔn)確地找到與用戶查詢最相關(guān)的信息。為了實(shí)現(xiàn)這一目標(biāo),RAG系統(tǒng)通常依賴于高效的檢索算法和索引結(jié)構(gòu)。

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

知識(shí)檢索是基于給定查詢從向量數(shù)據(jù)庫(kù)中識(shí)別并檢索相關(guān)知識(shí)的過(guò)程。包括檢索策略和搜索方法。檢索策略關(guān)注如何識(shí)別相關(guān)知識(shí),而搜索方法則定義了用于快速定位最相關(guān)信息的算法。

3.5.1 檢索策略

檢索的目標(biāo)是根據(jù)輸入查詢識(shí)別并提取最相關(guān)的知識(shí)。通過(guò)使用相似性函數(shù)檢索最相關(guān)的 top-k 個(gè)知識(shí)塊。根據(jù)不同的相似性函數(shù),檢索策略可以分為三種類型:稀疏檢索、稠密檢索和混合檢索。

稀疏檢索  

稀疏檢索策略通過(guò)詞語(yǔ)分析和匹配利用稀疏向量檢索文檔或知識(shí)塊。傳統(tǒng)的稀疏檢索策略使用術(shù)語(yǔ)匹配指標(biāo),如 BM25、TF-IDF 和查詢似然,通過(guò)計(jì)算詞語(yǔ)出現(xiàn)頻率和逆文檔頻率來(lái)估計(jì)文檔與查詢的相關(guān)性。

稠密檢索  

稠密檢索策略將查詢和文檔編碼到低維向量空間中,通過(guò)向量表示的點(diǎn)積或余弦相似度來(lái)衡量相關(guān)性。稠密檢索器,如 DPR 和 ANCE,基于 BERT 架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型,并在無(wú)監(jiān)督數(shù)據(jù)上進(jìn)行微調(diào),以生成高質(zhì)量的查詢和文檔表示。

最近,大語(yǔ)言模型(LLMs)在語(yǔ)義理解和表示能力方面表現(xiàn)出色?;?LLMs 的強(qiáng)大能力,研究者們嘗試使用 LLMs 生成判別性文本嵌入。例如,Llama2Vec  是一種輕量級(jí)方法,通過(guò)兩個(gè)無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù)(EBAE 和 EBAR)將 LLMs 用于稠密檢索。RepLLaMA 微調(diào) LLaMA 作為稠密檢索器,利用其整體表示長(zhǎng)文檔的能力進(jìn)行高效文本檢索。

混合檢索  

混合檢索策略結(jié)合了稀疏和稠密檢索技術(shù),旨在通過(guò)利用每種方法的優(yōu)勢(shì)來(lái)優(yōu)化性能。例如,RAP-Gen 和 BlendedRAG 將傳統(tǒng)的關(guān)鍵詞匹配與深度語(yǔ)義理解相結(jié)合,使系統(tǒng)既能從稀疏檢索的效率中受益,又能通過(guò)稠密表示捕獲更深層次的上下文。BASHEXPLAINER 采用兩階段訓(xùn)練策略,首先使用稠密檢索器捕獲語(yǔ)義信息,然后使用稀疏檢索器獲取詞匯信息,從而實(shí)現(xiàn)性能優(yōu)異的自動(dòng)代碼注釋生成。這種雙重策略解決了每種方法的局限性;例如,稀疏策略可能在語(yǔ)義細(xì)微差別上表現(xiàn)不佳,而稠密策略則可能計(jì)算密集。通過(guò)結(jié)合兩者的優(yōu)勢(shì),混合模型提高了各種任務(wù)中的檢索準(zhǔn)確性和相關(guān)性。

3.5.2 搜索方法

搜索方法是指為給定查詢向量從向量數(shù)據(jù)庫(kù)中高效識(shí)別相似向量的算法。搜索方法可以分為兩種類型:最近鄰搜索(NNS)和近似最近鄰搜索(ANNS)。

最近鄰搜索  

NNS 的暴力算法是一種簡(jiǎn)單的算法,窮舉掃描數(shù)據(jù)庫(kù)中的所有向量,計(jì)算與查詢向量的距離以識(shí)別最接近的向量。然而,這種方法計(jì)算成本高,在大規(guī)模數(shù)據(jù)集上不切實(shí)際。

引入了基于樹(shù)的方法來(lái)提高搜索效率。例如,Bentley 提出了一種基于 k-d 樹(shù)的方法,該方法將 k 維空間遞歸劃分為超矩形區(qū)域,從而提高了數(shù)據(jù)組織和搜索速度。其他基于樹(shù)的結(jié)構(gòu),如 Ball-tree、R-tree和 M-tree,也通過(guò)將數(shù)據(jù)劃分為超球體、矩形或度量空間等結(jié)構(gòu)來(lái)增強(qiáng)最近鄰搜索,從而提高了搜索性能,特別是在高維和復(fù)雜數(shù)據(jù)集中。

近似最近鄰搜索  

ANNS 在準(zhǔn)確性、速度和內(nèi)存效率之間取得了平衡,使其特別適用于大規(guī)模和高維數(shù)據(jù)。這包括基于哈希的方法、基于樹(shù)的方法、基于圖的方法和基于量化的方法。

? 基于哈希的方法,將高維向量轉(zhuǎn)換為二進(jìn)制代碼,優(yōu)化內(nèi)存使用并加速搜索操作。例如,深度哈希使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)哈希函數(shù),將高維向量映射為二進(jìn)制代碼,同時(shí)保留相似數(shù)據(jù)之間的語(yǔ)義關(guān)系。

? 基于樹(shù)的 ANNS 方法,包括 K-means 樹(shù)和 ANNOY,通過(guò)層次化組織數(shù)據(jù),通過(guò)高效遍歷樹(shù)結(jié)構(gòu)來(lái)減少搜索空間。這些方法將數(shù)據(jù)集劃分為分區(qū)或簇,使得在搜索過(guò)程中僅探索相關(guān)區(qū)域。

? 基于圖的方法,如分層可導(dǎo)航小世界(HNSW),通過(guò)反映數(shù)據(jù)點(diǎn)之間接近度的邊連接數(shù)據(jù)點(diǎn),從而通過(guò)導(dǎo)航圖快速進(jìn)行最近鄰搜索。

? 基于量化的方法,如乘積量化,旨在通過(guò)將向量量化為較小的碼本來(lái)壓縮數(shù)據(jù),從而在保持搜索速度和準(zhǔn)確性之間良好平衡的同時(shí)減少內(nèi)存需求。

多樣化的 ANNS 方法為大規(guī)模、高維數(shù)據(jù)集中的快速高效最近鄰搜索提供了強(qiáng)大的解決方案,每種方法在準(zhǔn)確性、速度和內(nèi)存使用方面都有其自身的權(quán)衡。

3.6 知識(shí)整合

知識(shí)整合是指將檢索到的外部知識(shí)與生成模型的內(nèi)部知識(shí)相結(jié)合,以提高輸出的準(zhǔn)確性和連貫性?;旧?,知識(shí)整合可以分為三種類型:輸入層整合、中間層整合和輸出層整合。

3.6.1 輸入層整合

輸入層整合是指在輸入層將檢索到的信息與原始查詢直接整合,旨在增強(qiáng)生成過(guò)程中的上下文信息。根據(jù)整合方法的不同,輸入層整合可以分為兩種類型:文本級(jí)整合和特征級(jí)整合。

文本級(jí)整合  

將檢索到的 top-k 文檔直接與查詢拼接。為了減少低質(zhì)量信息的影響并更好地利用大語(yǔ)言模型(LLMs)的上下文學(xué)習(xí)能力,一些方法對(duì)知識(shí)塊進(jìn)行重新排序,優(yōu)先處理最相關(guān)的內(nèi)容,而另一些方法則應(yīng)用加權(quán)過(guò)濾從檢索內(nèi)容中去除不相關(guān)信息。由于 LLMs 的輸入長(zhǎng)度限制,對(duì)上下文進(jìn)行壓縮,使模型能夠在有限的輸入大小內(nèi)學(xué)習(xí)更多信息。

特征級(jí)整合  

特征級(jí)整合側(cè)重于在特征級(jí)別將檢索內(nèi)容的編碼形式與原始輸入整合。與簡(jiǎn)單地拼接原始文本不同,將輸入查詢和檢索到的文檔轉(zhuǎn)換為特征表示(如稠密或稀疏向量),然后再輸入到模型中。通過(guò)在特征表示而非原始文本上操作,特征級(jí)整合允許對(duì)輸入數(shù)據(jù)進(jìn)行更靈活的操縱。

3.6.2 中間層整合

中間層整合是指將外部知識(shí)整合到生成器的隱藏層中。基于注意力的方法 是中間層整合中常見(jiàn)的方法之一。

? RETRO 模型:引入了一種新穎的交叉注意力模塊,將檢索到的信息與模型的中間表示相結(jié)合。

? TOME:引入了 提及記憶 機(jī)制,通過(guò)存儲(chǔ)和檢索實(shí)體提及表示,將外部知識(shí)整合到 Transformer 中。

? LongMem框架:使用自適應(yīng)殘差網(wǎng)絡(luò)進(jìn)行記憶檢索,結(jié)合注意力機(jī)制高效訪問(wèn)和檢索相關(guān)的長(zhǎng)期記憶。

3.6.3 輸出層整合

輸出層整合是指在生成器的輸出層整合檢索到的知識(shí)。這種方法通常將檢索知識(shí)的 logits 與模型的輸出 logits 結(jié)合,從而實(shí)現(xiàn)增強(qiáng)生成。輸出層整合可以分為兩個(gè)主要分支:

?基于集成的整合聚合來(lái)自檢索的 logits,例如在 kNN-LM中,最近鄰的概率與模型的預(yù)測(cè)進(jìn)行插值,以提高泛化能力和魯棒性。

?基于校準(zhǔn)的整合則使用檢索 logits 來(lái)優(yōu)化模型的預(yù)測(cè)置信度,如置信度增強(qiáng)的 kNN-MT。

3.7 答案生成

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

在 RAG 系統(tǒng)中,生成組件是生成既準(zhǔn)確又上下文相關(guān)的回答的核心。

然而,在 RAG 模型中實(shí)現(xiàn)高質(zhì)量輸出需要克服兩大挑戰(zhàn):處理噪聲檢索以及實(shí)現(xiàn)對(duì)多樣化信息的有效推理。

3.7.1 去噪

去噪在 RAG 模型中至關(guān)重要,目的是減少?gòu)拇笮椭R(shí)庫(kù)中檢索到的無(wú)關(guān)、矛盾或誤導(dǎo)性信息的影響。檢索中的噪聲會(huì)嚴(yán)重影響生成輸出的事實(shí)準(zhǔn)確性和連貫性,因此去噪機(jī)制在 RAG 管道中不可或缺。

顯式去噪技術(shù)  

一種有效的去噪方法是通過(guò)顯式監(jiān)督。InstructRAG引入了 理性生成,模型被指示生成中間理性,以澄清每個(gè)檢索文檔的相關(guān)性。這些理性通過(guò)引導(dǎo)模型專注于更準(zhǔn)確和上下文相關(guān)的內(nèi)容,有效地過(guò)濾了噪聲。REFEED 框架利用大語(yǔ)言模型根據(jù)檢索數(shù)據(jù)重新評(píng)估響應(yīng)的準(zhǔn)確性,迭代地丟棄不太相關(guān)的信息,從而優(yōu)化初始答案。

基于判別器的去噪  

COMBO 框架使用預(yù)訓(xùn)練的判別器將生成的段落與檢索到的段落配對(duì),在最終生成階段之前評(píng)估每對(duì)的連貫性和相關(guān)性。這種基于判別器的方法確保識(shí)別并過(guò)濾無(wú)關(guān)或矛盾的信息,從而最小化幻覺(jué)的風(fēng)險(xiǎn)。

自反思和自適應(yīng)去噪  

Self-RAG引入了一種自反思機(jī)制,模型通過(guò)評(píng)估其響應(yīng)的連貫性和事實(shí)性來(lái)批評(píng)和修訂自己的輸出。這種方法提供了一種動(dòng)態(tài)處理噪聲的方式,因?yàn)槟P涂梢酝ㄟ^(guò)自我評(píng)估迭代地過(guò)濾不可信或無(wú)關(guān)的信息。此外,自適應(yīng)檢索策略允許模型根據(jù)任務(wù)特定標(biāo)準(zhǔn)檢索文檔,動(dòng)態(tài)調(diào)整檢索范圍和過(guò)濾強(qiáng)度,以優(yōu)化相關(guān)性和質(zhì)量。

上下文過(guò)濾和置信度評(píng)分  

模型可以根據(jù)檢索信息與查詢的一致性為其分配分?jǐn)?shù),在整合之前過(guò)濾掉低置信度的檢索。這種方法利用置信度閾值系統(tǒng)地排除噪聲文檔,特別適用于相關(guān)性差異顯著的開(kāi)放域問(wèn)答任務(wù)。

3.7.2 推理

除了去噪,推理對(duì)于需要跨多個(gè)文檔綜合信息的任務(wù)至關(guān)重要。有效的推理使模型能夠?qū)z索到的信息情境化,建立邏輯連貫性,并生成準(zhǔn)確反映復(fù)雜關(guān)系的響應(yīng)。

結(jié)構(gòu)化知識(shí)和基于圖的推理  

一種高級(jí)推理方法涉及整合結(jié)構(gòu)化知識(shí)源(如知識(shí)圖譜)以輔助復(fù)雜的關(guān)系推理。Think-on-Graph 2.0 引入了一個(gè)框架,將知識(shí)圖譜與非結(jié)構(gòu)化文本相結(jié)合,使模型能夠推理實(shí)體之間的結(jié)構(gòu)化關(guān)系。通過(guò)利用圖結(jié)構(gòu),模型獲得了更深層次的上下文理解,提高了回答涉及復(fù)雜關(guān)系的查詢的能力。

跨注意力用于多文檔推理  

為了促進(jìn)跨多個(gè)文檔的推理,RETRO 模型采用了分塊跨注意力,使生成模型能夠關(guān)注檢索到的文本塊中的相關(guān)信息。這種跨注意力機(jī)制有助于保持上下文連貫性,特別是在信息跨越多個(gè)文檔的開(kāi)放域設(shè)置中。跨注意力也在增強(qiáng)的 kNN 方法中得到了探索,其中 kNN 注意力層允許模型在生成過(guò)程中利用鄰域信息,從而實(shí)現(xiàn)上下文相關(guān)內(nèi)容的無(wú)縫整合。

記憶增強(qiáng)推理  

記憶增強(qiáng)推理,如 EAE 和 TOME 等模型中所示,整合了特定實(shí)體的記憶模塊。這些模型存儲(chǔ)并動(dòng)態(tài)檢索與實(shí)體相關(guān)的信息,使生成模型能夠隨著時(shí)間的推移保持一致性和連貫性。記憶模塊在需要縱向一致性或多步推理的任務(wù)中特別有益,因?yàn)樗鼈冊(cè)试S模型在對(duì)話或文檔的不同部分中回憶特定實(shí)體的細(xì)節(jié)。

檢索校準(zhǔn)和選擇性推理推理的另一個(gè)關(guān)鍵進(jìn)展是檢索校準(zhǔn),模型被訓(xùn)練為根據(jù)上下文相關(guān)性優(yōu)先處理某些檢索信息。校準(zhǔn)技術(shù)幫助模型識(shí)別最關(guān)鍵的信息,在推理之前過(guò)濾掉不太相關(guān)的檢索。

分層和多輪推理對(duì)于需要多步推理的復(fù)雜查詢,分層或多輪推理模型允許模型迭代處理檢索到的信息,每輪都優(yōu)化其理解。多輪推理特別適用于涉及因果或時(shí)間依賴性的任務(wù),因?yàn)樗鼓P湍軌蚋鶕?jù)新信息“重新審視”先前的知識(shí),形成分層的理解,從而提高響應(yīng)的準(zhǔn)確性和連貫性。

3.8 知識(shí)引用

在 RAG 中,引用對(duì)于確保模型響應(yīng)的透明度、可信度和事實(shí)基礎(chǔ)至關(guān)重要。通過(guò)將生成的內(nèi)容歸因于可驗(yàn)證的來(lái)源,用戶可以輕松驗(yàn)證信息,減少聲明驗(yàn)證的負(fù)擔(dān),并改進(jìn)評(píng)估過(guò)程。此外,有效的引用有助于減少幻覺(jué),增強(qiáng)模型輸出的事實(shí)完整性。

3.8.1 引用生成策略

在語(yǔ)言模型中生成引用有兩種主要策略:同步引用生成 和 生成后引用檢索。

? 同步生成被 WebGPT、GopherCite 和 RECLAIM 等模型使用,它們?cè)陧憫?yīng)生成過(guò)程中實(shí)時(shí)檢索信息。這種方法確保答案和引用緊密對(duì)齊,減少幻覺(jué)并提高事實(shí)準(zhǔn)確性。

? 生成后引用被 RARR和 LaMDA等模型使用,它先生成答案,然后再檢索引用。雖然這種方法降低了計(jì)算復(fù)雜性,但由于答案的生成獨(dú)立于引用,增加了響應(yīng)與引用來(lái)源之間不一致的風(fēng)險(xiǎn)。

兩種方法各有優(yōu)勢(shì):同步生成提供了更強(qiáng)的事實(shí)基礎(chǔ),而生成后引用則在響應(yīng)生成中提供了更大的靈活性。

3.8.2 引用粒度的進(jìn)展

引用粒度——即引用中提供的細(xì)節(jié)水平——在最近的模型中有了顯著提升。早期的模型如 LaMDA 使用粗粒度引用,通常引用整個(gè)文檔或 URL,雖然有助于事實(shí)基礎(chǔ),但需要用戶篩選無(wú)關(guān)信息。最近的模型,如 WebGPT、WebBrain和 GopherCite,已經(jīng)向細(xì)粒度引用發(fā)展。

這些模型檢索特定的證據(jù)片段,或?qū)W⒂诶斫忾L(zhǎng)文檔以支持個(gè)別聲明。RECLAIM 模型代表了最高水平的引用粒度,將個(gè)別聲明鏈接到源材料中的確切句子。

4. 高級(jí)RAG

高級(jí)RAG方法超越了基礎(chǔ)的RAG模型,通過(guò)一系列創(chuàng)新技術(shù)克服了基礎(chǔ)RAG系統(tǒng)的局限性。這些方法旨在從多個(gè)維度提升RAG系統(tǒng)的能力,包括訓(xùn)練優(yōu)化、多模態(tài)處理、記憶增強(qiáng)和智能推理。

4.1 RAG訓(xùn)練

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

RAG訓(xùn)練的核心在于優(yōu)化檢索和生成組件之間的協(xié)同作用,以實(shí)現(xiàn)最佳性能。有效的訓(xùn)練策略確保檢索器獲取相關(guān)信息的同時(shí),生成器能夠產(chǎn)生連貫且準(zhǔn)確的輸出。本節(jié)將介紹三種主要的訓(xùn)練方法:靜態(tài)訓(xùn)練、單向引導(dǎo)訓(xùn)練和協(xié)同訓(xùn)練。

4.1.1 靜態(tài)訓(xùn)練

靜態(tài)訓(xùn)練是一種簡(jiǎn)單但有效的方法,在訓(xùn)練過(guò)程中固定檢索器或生成器中的一個(gè)組件,專注于優(yōu)化另一個(gè)組件。這種方法在計(jì)算資源有限或需要快速部署的場(chǎng)景中尤為適用。例如,固定檢索器并優(yōu)化生成器可以利用已有的檢索機(jī)制(如BM25或BERT),從而減少訓(xùn)練開(kāi)銷。然而,靜態(tài)訓(xùn)練的缺點(diǎn)是可能影響系統(tǒng)的整體性能,因?yàn)橹挥袉我唤M件被優(yōu)化,可能導(dǎo)致檢索與生成之間的協(xié)同作用不足。

4.1.2 單向引導(dǎo)訓(xùn)練

單向引導(dǎo)訓(xùn)練通過(guò)一個(gè)組件引導(dǎo)另一個(gè)組件的優(yōu)化,分為檢索器引導(dǎo)生成器訓(xùn)練和生成器引導(dǎo)檢索器訓(xùn)練兩種方式。? 檢索器引導(dǎo)生成器訓(xùn)練:利用高質(zhì)量檢索文檔指導(dǎo)生成器的訓(xùn)練,例如RETRO和RALMs等模型通過(guò)預(yù)訓(xùn)練的檢索器(如BERT和COLBERTV2)提升生成器的輸出質(zhì)量。? 生成器引導(dǎo)檢索器訓(xùn)練:根據(jù)生成器的性能優(yōu)化檢索器,例如DKRR和AAR等模型利用生成器的注意力分?jǐn)?shù)或生成信號(hào)指導(dǎo)檢索器的訓(xùn)練,確保檢索內(nèi)容與生成需求一致。

4.1.3 協(xié)同訓(xùn)練

協(xié)同訓(xùn)練同時(shí)優(yōu)化檢索器和生成器,通過(guò)聯(lián)合訓(xùn)練實(shí)現(xiàn)整體系統(tǒng)性能的提升。這種方法確保兩個(gè)組件的改進(jìn)相互促進(jìn),例如RAG和MIPS等模型通過(guò)協(xié)同訓(xùn)練優(yōu)化檢索過(guò)程,使檢索器能夠根據(jù)生成器的反饋逐步提升檢索效果,同時(shí)生成器也能更好地利用檢索信息。

4.2 多模態(tài)RAG

多模態(tài)RAG擴(kuò)展了傳統(tǒng)文本RAG系統(tǒng),通過(guò)整合圖像、音頻、視頻等多種模態(tài)信息,豐富了系統(tǒng)的輸出能力。然而,多模態(tài)RAG面臨兩大挑戰(zhàn):一是如何有效表示和檢索跨模態(tài)知識(shí),二是如何理解和利用多模態(tài)信息生成合適的響應(yīng)。

4.2.1 多模態(tài)表示與檢索

多模態(tài)RAG的基礎(chǔ)在于將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的向量表示,并實(shí)現(xiàn)跨模態(tài)的高效檢索。例如,CLIP通過(guò)學(xué)習(xí)圖像和文本的對(duì)齊表示,實(shí)現(xiàn)了跨模態(tài)檢索;Wav2Vec 2.0和ViViT則分別處理音頻和視頻內(nèi)容,提取豐富的特征表示。

4.2.2 多模態(tài)理解與生成

多模態(tài)RAG系統(tǒng)需要進(jìn)一步理解跨模態(tài)關(guān)系并生成連貫的輸出。例如,MuRAG和RA-CM3通過(guò)檢索和生成多模態(tài)內(nèi)容(如圖像和文本)提升問(wèn)答系統(tǒng)的能力;Transfusion和Show-o等模型則結(jié)合語(yǔ)言建模和擴(kuò)散模型,支持廣泛的視覺(jué)-語(yǔ)言任務(wù)。

4.3 記憶RAG

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

記憶RAG通過(guò)引入顯式記憶機(jī)制,彌補(bǔ)了傳統(tǒng)RAG系統(tǒng)中隱式記憶和實(shí)時(shí)檢索之間的空白。這種機(jī)制在處理長(zhǎng)文檔理解、個(gè)性化知識(shí)管理等場(chǎng)景中表現(xiàn)出色。

4.3.1 記憶類型

隱式記憶:存儲(chǔ)在模型參數(shù)中的知識(shí),例如預(yù)訓(xùn)練的檢索器和生成器權(quán)重,提供快速推理但難以更新。? 顯式記憶:壓縮的、結(jié)構(gòu)化的長(zhǎng)期知識(shí)表示,例如對(duì)整本書或用戶行為模式的理解,比隱式記憶更靈活且易于更新。? 工作記憶:臨時(shí)存儲(chǔ)的檢索文本塊,用于當(dāng)前任務(wù)的生成,類似于人類的短期記憶。

4.3.2 技術(shù)實(shí)現(xiàn)

記憶RAG通過(guò)稀疏鍵值緩存實(shí)現(xiàn)顯式記憶,例如Memory3通過(guò)兩階段預(yù)訓(xùn)練將原始輸入轉(zhuǎn)換為顯式記憶;MemoRAG采用輕量級(jí)LLM作為全局記憶系統(tǒng),提升長(zhǎng)文本處理能力;CAG則通過(guò)預(yù)計(jì)算鍵值緩存完全消除實(shí)時(shí)檢索需求,提高系統(tǒng)效率。

4.4 Agentic RAG

不懂RAG?看這一篇萬(wàn)字長(zhǎng)文就夠了-AI.x社區(qū)圖片

Agentic RAG將自主智能體與RAG技術(shù)結(jié)合,通過(guò)動(dòng)態(tài)管理檢索策略和優(yōu)化推理過(guò)程,顯著提升了系統(tǒng)的性能。

4.4.1 查詢理解與策略規(guī)劃

智能體通過(guò)分析查詢復(fù)雜性和主題,制定合適的檢索策略。例如,AT-RAG通過(guò)主題過(guò)濾和迭代推理提升多跳查詢的檢索效率;REAPER則通過(guò)基于推理的檢索規(guī)劃優(yōu)化復(fù)雜查詢的處理。

4.4.2 工具利用

Agentic RAG能夠利用多種外部工具(如搜索引擎、計(jì)算器和API)增強(qiáng)檢索和推理能力。例如,AT-RAG和RAGENTIC通過(guò)多代理協(xié)作和工具集成,靈活應(yīng)對(duì)不同任務(wù)需求。

4.4.3 推理與決策優(yōu)化

智能體通過(guò)多步推理和決策優(yōu)化,評(píng)估信息源可靠性并優(yōu)化檢索策略。例如,PlanRAG通過(guò)“先計(jì)劃后檢索”的方法提升生成模型的決策能力;REAPER則通過(guò)推理增強(qiáng)檢索規(guī)劃,提高系統(tǒng)響應(yīng)速度。

通過(guò)以上高級(jí)RAG方法,RAG系統(tǒng)在處理復(fù)雜、動(dòng)態(tài)和專門化任務(wù)時(shí)展現(xiàn)出更強(qiáng)的能力和適應(yīng)性。

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI

標(biāo)簽
已于2025-6-27 11:14:21修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦