
譯者 | 晶顏
審校 | 重樓
大型語言模型(LLM)正在重塑人工智能的格局,然其亦面臨一項持續(xù)性挑戰(zhàn)——檢索和利用超出其訓(xùn)練數(shù)據(jù)的信息。目前,有兩種模式相左的方法可以解決這個問題:其一為InfiniRetri,該方法借助LLM自身的注意力機(jī)制,從長輸入中檢索相關(guān)上下文;其二是檢索增強(qiáng)生成(RAG),它在生成響應(yīng)前,動態(tài)地從結(jié)構(gòu)化數(shù)據(jù)庫獲取外部知識。
每種方法都有其獨(dú)特的優(yōu)勢、局限性和權(quán)衡之處。InfiniRetri的目標(biāo)是通過在模型現(xiàn)有架構(gòu)內(nèi)工作來最大限度地提高效率,而RAG通過集成實時外部信息來提高事實準(zhǔn)確性。但究竟哪一種方法更優(yōu)呢?
了解這兩種方法的運(yùn)行機(jī)制,優(yōu)勢及局限所在,對于確定它們在未來人工智能驅(qū)動的文本生成中的作用至關(guān)重要。
InfiniRetri和RAG如何檢索信息
InfiniRetri通過利用基于轉(zhuǎn)換器(Transformer)模型的原生注意力機(jī)制來動態(tài)地從長上下文中檢索相關(guān)的令牌。它并非無限制地擴(kuò)展模型的上下文窗口,而是迭代選擇并僅保留最重要的令牌,從而能夠在優(yōu)化內(nèi)存效率的同時,處理顯著更長的輸入。
標(biāo)準(zhǔn)LLM處理有限長度的輸入,一旦超出上下文窗口就會丟棄先前的信息,而InfiniRetri使用滾動存儲系統(tǒng)。它按段處理文本,識別并僅存儲最相關(guān)的令牌,同時丟棄冗余信息。這使得它可以有效地從大量輸入中檢索關(guān)鍵細(xì)節(jié),而不需要外部存儲或數(shù)據(jù)庫查找。
在諸如“大海撈針”(Needle-In-a-Haystack,NIH)測試等受控檢索場景中,InfiniRetri已經(jīng)展示了超過100萬個令牌的100%檢索準(zhǔn)確率,凸顯其在極長上下文中追蹤關(guān)鍵信息的能力。然而,這并不意味著它在所有任務(wù)中均能達(dá)到完美的準(zhǔn)確性。

另一方面,RAG采用了一種完全不同的方法,它使用外部檢索步驟來擴(kuò)展模型。當(dāng)出現(xiàn)查詢時,RAG首先搜索知識庫——通常是矢量數(shù)據(jù)庫、文檔存儲庫或搜索引擎——以查找相關(guān)的支持文檔。
然后將這些檢索到的文本附加到LLM的輸入中,使其能夠生成基于實時外部信息的響應(yīng)。該方法確保模型能夠訪問新的、特定于領(lǐng)域的知識,使其比純參數(shù)模型更不容易產(chǎn)生幻覺。

兩者的關(guān)鍵區(qū)別在于檢索發(fā)生的位置。InfiniRetri從內(nèi)部檢索先前處理過的文本,而RAG從外部檢索結(jié)構(gòu)化知識庫。這一差異對性能、效率及可擴(kuò)展性均會產(chǎn)生重大影響。
哪種方法更有效?
InfiniRetri和RAG之間的性能比較揭示了在效率、準(zhǔn)確性和計算需求方面的鮮明對比。InfiniRetri能夠在自身架構(gòu)內(nèi)動態(tài)檢索信息,這使其無需額外的基礎(chǔ)設(shè)施即可運(yùn)行,即無需外部存儲、檢索器或微調(diào)嵌入。這使得它成為長文檔處理的絕佳選擇,尤其是當(dāng)相關(guān)信息已經(jīng)包含在提供的輸入之中時。
然而,InfiniRetri也確有局限性。由于它只在模型的注意力機(jī)制內(nèi)運(yùn)行,因此完全依賴于LLM預(yù)先存在的知識。如果一條信息并未包含在模型的訓(xùn)練或輸入中,則無法被檢索到。這使得infinireti在回答需要最新知識的基于事實或?qū)崟r查詢時效率較低。
相反地,RAG擅長知識密集型任務(wù)。因為它從外部數(shù)據(jù)庫中提取信息,所以它可以用真實的、實時的信息來補(bǔ)充模型的預(yù)訓(xùn)練知識。這使得它在對準(zhǔn)確性要求較高的法律文件處理和研究應(yīng)用中非常有效。
然而,RAG對外部檢索的依賴也帶來了更高的計算成本,具體取決于所使用的檢索方法。此外,外部查詢會引入延遲,且延遲會隨數(shù)據(jù)庫大小而變化。在LLM生成響應(yīng)之前,每個查詢都需要進(jìn)行數(shù)據(jù)庫搜索、文檔檢索和擴(kuò)展,這使得LLM在連續(xù)長文本處理方面明顯慢于InfiniRetri。
在計算效率方面,InfiniRetri具有明顯的優(yōu)勢。由于它在內(nèi)部檢索信息而無需對外部系統(tǒng)調(diào)用API,因此它的運(yùn)行延遲較低,基礎(chǔ)設(shè)施需求較少。同時,RAG雖然功能強(qiáng)大,但受到其檢索器效率的限制,必須對其進(jìn)行微調(diào)以確保高召回率和相關(guān)性。
哪一個符合你的需求?
雖然這兩種方法在各自的領(lǐng)域都非常有效,但都并非“放之四海而皆準(zhǔn)”的解決方案。InfiniRetri最適合需要高效長文檔檢索但不需要外部知識更新的應(yīng)用程序。這包括法律文件分析、多回合對話保留和長格式摘要。它選擇和保留相關(guān)標(biāo)記的迭代方法使長文本處理高效,而不會占用大量內(nèi)存,使其成為敘事一致性和基于推理的任務(wù)的強(qiáng)大選擇。
另一方面,RAG是現(xiàn)實世界信息檢索的理想選擇,在準(zhǔn)確性和事實核查至關(guān)重要的情況下表現(xiàn)突出。它對于開放領(lǐng)域的問答、基于研究的應(yīng)用以及必須將幻覺風(fēng)險降至最低的行業(yè)十分有效。因為它從外部來源檢索,所以它確保響應(yīng)保持在可驗證的事實基礎(chǔ)上,而不是依賴于模型的靜態(tài)訓(xùn)練數(shù)據(jù)。
但是,RAG需要不斷維護(hù)其檢索基礎(chǔ)結(jié)構(gòu)。更新外部數(shù)據(jù)庫對于保持準(zhǔn)確性至關(guān)重要,而管理索引、嵌入和存儲可能會帶來極大的操作復(fù)雜性。此外,延遲也是一個主要問題,因為檢索時間隨著數(shù)據(jù)庫大小的增加而增加,這使得它不太適合速度至關(guān)重要的實時應(yīng)用程序。
這些方法會合并嗎?
隨著人工智能研究的不斷進(jìn)步,未來的檢索很可能不會是InfiniRetri和RAG之間的競爭,而是兩者的結(jié)合?;旌戏椒梢岳肐nfiniRetri高效的基于注意力的檢索來處理長文檔,同時在必要時結(jié)合RAG獲取實時外部知識的能力。
一個頗具前景的方向是自適應(yīng)檢索模型,LLM首先嘗試使用InfiniRetri的方法進(jìn)行內(nèi)部檢索。如果它確定缺少必要的信息,就會觸發(fā)一個外部的類似于RAG的檢索步驟。這將平衡計算效率和準(zhǔn)確性,減少不必要的檢索調(diào)用,同時在需要時仍能確保基于事實的依據(jù)。
另一個開發(fā)領(lǐng)域是智能緩存機(jī)制,通過RAG從外部檢索到的相關(guān)信息,可以在內(nèi)部使用InfiniRetri的注意力技術(shù)進(jìn)行存儲和管理。這將允許模型在多個交互中重用檢索到的知識,而不需要重復(fù)的數(shù)據(jù)庫查詢,從而減少延遲并提高性能。
為工作選擇合適的工具
在InfiniRetri和RAG之間做出選擇,將最終取決于給定應(yīng)用程序的特定需求。如果任務(wù)需要快速、高效和可擴(kuò)展的長上下文檢索,InfiniRetri無疑是贏家。如果任務(wù)需要實時事實檢查和外部知識擴(kuò)充,RAG將是最佳選擇。
雖然這兩種方法各有優(yōu)勢,但實際上它們可以互補(bǔ),特別是在混合系統(tǒng)中,動態(tài)平衡內(nèi)部基于注意力的檢索和基于任務(wù)需求的外部知識增強(qiáng)。未來的檢索系統(tǒng)可能會整合兩者的優(yōu)勢,從而產(chǎn)生更強(qiáng)大、適應(yīng)性更強(qiáng)的人工智能模型。比起“非InfiniRetri 即RAG”的問題,LLM檢索的真正未來可能是InfiniRetri和RAG協(xié)同工作。
原文標(biāo)題:Breaking the Context Barrier of LLMs: InfiniRetri vs RAG,作者:Graziano Casto



































