偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta發(fā)現(xiàn):RAG系統(tǒng)太慢是做了太多無(wú)用功

發(fā)布于 2025-10-17 07:27
瀏覽
0收藏

你的 RAG 系統(tǒng)慢,可能是因?yàn)樵谧鎏酂o(wú)用功。

最近,Meta 的研究團(tuán)隊(duì)發(fā)布了 REFRAG 框架,證明了一個(gè)關(guān)鍵發(fā)現(xiàn):在 RAG 系統(tǒng)中,99% 的跨段落注意力計(jì)算都是浪費(fèi)的。

隨著上下文窗口不斷增長(zhǎng),首個(gè) token 的生成延遲呈二次方增長(zhǎng),這成為了 RAG 系統(tǒng)的性能瓶頸。REFRAG 通過(guò)一種新的壓縮策略,實(shí)現(xiàn)了 30.85 倍的首 token 生成加速,同時(shí)保持了模型的準(zhǔn)確性。

核心技術(shù)方案

Meta發(fā)現(xiàn):RAG系統(tǒng)太慢是做了太多無(wú)用功-AI.x社區(qū)

傳統(tǒng)RAG流程很簡(jiǎn)單:查詢來(lái)了,編碼成向量,從向量數(shù)據(jù)庫(kù)里找相似的文本塊,然后一股腦塞給LLM。這種方法能工作,但代價(jià)不小。大多數(shù)檢索到的塊包含無(wú)關(guān)文本,LLM必須處理遠(yuǎn)多于需要的token,這在算力、延遲和上下文上都在白白花錢。

REFRAG 的核心思路是不將檢索到的原始 token 直接輸入生成模型,而是采用以下策略:

  1. 將上下文劃分為固定大小的塊
  2. 使用輕量級(jí)編碼器(如 RoBERTa)生成壓縮的塊嵌入
  3. 將這些嵌入與查詢 token 一起輸入解碼器
  4. 通過(guò)強(qiáng)化學(xué)習(xí)策略選擇性地展開(kāi)重要的塊

這種設(shè)計(jì)使得注意力計(jì)算的復(fù)雜度從 token 數(shù)量降低到塊數(shù)量。在 16 倍壓縮率下,系統(tǒng)實(shí)現(xiàn)了 16.53 倍的加速,同時(shí)性能比現(xiàn)有方法提升了 9.3%。

那么這和重排器有啥不同呢?


Meta發(fā)現(xiàn):RAG系統(tǒng)太慢是做了太多無(wú)用功-AI.x社區(qū)

普通的帶重排的RAG管道,重排器只是在文本層面對(duì)塊重新排序或修剪,并不改變輸入LLM的表示形式。LLM仍然會(huì)一個(gè)token不落地接收到頂部幾個(gè)塊的完整文本。

而REFRAG是在嵌入層面進(jìn)行壓縮、過(guò)濾和替換。它不讓LLM消耗每個(gè)塊所有的token嵌入,而是用一個(gè)壓縮嵌入代表一個(gè)塊,讓RL策略決定哪幾個(gè)塊值得擴(kuò)展成完整形式。更重要的是,REFRAG將相關(guān)性過(guò)濾移到了LLM的表示空間,而不僅僅是檢索空間。LLM本身被訓(xùn)練去理解壓縮后的嵌入并基于其進(jìn)行推理。

創(chuàng)新點(diǎn)

研究團(tuán)隊(duì)發(fā)現(xiàn) RAG 系統(tǒng)的一個(gè)重要特征:檢索段落之間的注意力呈現(xiàn)塊對(duì)角結(jié)構(gòu)。段落內(nèi)部的 token 相互關(guān)注度高,但跨段落的注意力幾乎為零。這種稀疏性為壓縮優(yōu)化提供了理論基礎(chǔ)。

在訓(xùn)練方法上,團(tuán)隊(duì)采用了課程學(xué)習(xí)(Curriculum learning)策略。模型首先學(xué)習(xí)重建單個(gè)塊,然后逐步增加到多個(gè)塊。這種漸進(jìn)式訓(xùn)練對(duì)于模型掌握壓縮能力至關(guān)重要。此外,強(qiáng)化學(xué)習(xí)策略能夠動(dòng)態(tài)決定哪些內(nèi)容塊需要完整展開(kāi),實(shí)現(xiàn)了壓縮率的自適應(yīng)調(diào)整。

實(shí)驗(yàn)驗(yàn)證

Meta發(fā)現(xiàn):RAG系統(tǒng)太慢是做了太多無(wú)用功-AI.x社區(qū)


Meta發(fā)現(xiàn):RAG系統(tǒng)太慢是做了太多無(wú)用功-AI.x社區(qū)

在多個(gè)基準(zhǔn)測(cè)試中,REFRAG 展現(xiàn)了穩(wěn)定的性能提升:

  • RAG 任務(wù):在相同延遲條件下,性能比 LLaMA 提升 1.22%(強(qiáng)檢索器)到 1.93%(弱檢索器)
  • 多輪對(duì)話:由于能夠通過(guò)壓縮保留更多歷史上下文,在對(duì)話輪數(shù)增加時(shí)優(yōu)勢(shì)更加明顯
  • 文檔摘要:在長(zhǎng)文檔處理任務(wù)中,REFRAG 能夠在同等計(jì)算預(yù)算下處理更多內(nèi)容

Meta發(fā)現(xiàn):RAG系統(tǒng)太慢是做了太多無(wú)用功-AI.x社區(qū)

小結(jié)

在實(shí)際工程落地層面,也需要一些工作。比如:

為了增加跨查詢復(fù)用,壓縮后的塊嵌入可以預(yù)先計(jì)算并存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,支持跨查詢復(fù)用。這種"隨處壓縮"的能力使其特別適合多輪對(duì)話和智能體應(yīng)用場(chǎng)景。

為了增加可解釋性,解釋哪些壓縮上下文影響了答案。壓縮管道需要有檢索一樣的溯源機(jī)制,存儲(chǔ)塊哈希和版本信息。

同時(shí),雖然強(qiáng)化學(xué)習(xí)策略提供了更好的性能,但固定壓縮率的版本在實(shí)際部署中可能更加穩(wěn)定可靠。

總的來(lái)說(shuō),REFRAG 的成功表明,針對(duì)特定應(yīng)用場(chǎng)景的優(yōu)化十分有必要。就 RAG 系統(tǒng)而言,理解并利用其特有的注意力稀疏性,比籠統(tǒng)擴(kuò)大上下文窗口更加有效。

論文:https://arxiv.org/abs/2509.01092

本文轉(zhuǎn)載自???AI工程化???,作者:ully

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦