偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×

發(fā)布于 2025-9-16 07:25
瀏覽
0收藏

一、RAG一些棘手的問(wèn)題

檢索增強(qiáng)生成(RAG)通過(guò)把外部知識(shí)以“拼接文檔”形式喂給大模型,在多輪對(duì)話、開(kāi)放域問(wèn)答、Agent 等場(chǎng)景取得顯著效果。然而,該范式帶來(lái)兩個(gè)問(wèn)題:

  • 延遲爆炸:輸入長(zhǎng)度驟增,首詞延遲(TTFT)與 KV-Cache 顯存隨 token 數(shù)線性乃至二次方增長(zhǎng)。
  • 信息稀疏:檢索返回的幾十篇文檔里,僅極少數(shù)片段與當(dāng)前 query 真正相關(guān);其余 token 對(duì)生成幾乎無(wú)貢獻(xiàn),卻仍要參與全部注意力計(jì)算。

有一些緩解手段,但是效果有限。例如:

  • 稀疏注意力 / 線性注意力:把 O(n2) 降為 O(n) 或 O(n log n),但 KV-Cache 體積不變,TTFT 依舊隨序列長(zhǎng)度線性增加。
  • 前綴壓縮 / 滑動(dòng)窗口:只能丟棄最左側(cè) token,無(wú)法處理“中間大段無(wú)用信息”的 RAG 場(chǎng)景。
  • Chunk 級(jí)編碼器(如 CEPE):把文檔先經(jīng)編碼器壓成向量,再用交叉注意力注入解碼器,但仍以“token”為基本單元,未突破“所有 token 必須進(jìn) KV-Cache”的桎梏,且僅支持前綴壓縮,不支持多輪、任意位置壓縮。

二、4個(gè)問(wèn)題的解決思路

問(wèn)題

關(guān)鍵技術(shù)

工作原理簡(jiǎn)述

不修改解碼器參數(shù)

的前提下,把 RAG 上下文“壓”到極小,卻保持生成質(zhì)量

Chunk-level 表示替代 Token 序列

以 k 個(gè) token 為一組,用輕量編碼器壓成一個(gè)向量,解碼器只在該向量上做注意力,輸入長(zhǎng)度立即降為 1/k。

復(fù)用檢索階段已算好的文檔向量

,避免重復(fù)編碼

預(yù)計(jì)算 + 可復(fù)用 Chunk Embedding

檢索階段已產(chǎn)出文檔向量,直接緩存;推理時(shí)僅需輕量投影 φ(·) 對(duì)齊解碼器隱空間,零重復(fù)編碼。

在任意位置、任意粒度

做“壓縮-解壓”決策,以適配多輪對(duì)話、Agent 等復(fù)雜格式

“Compress-Anywhere” 自回歸掩碼

把壓縮向量當(dāng)“特殊 token”插入原始序列任意位置,通過(guò)定制 attention mask 維持自回歸,支持多輪、中間摘要等格式。

在壓縮率可動(dòng)態(tài)調(diào)整

的同時(shí),保證訓(xùn)練穩(wěn)定、推理加速效果可預(yù)測(cè)

RL-based Selective Expansion

訓(xùn)練一個(gè)策略網(wǎng)絡(luò) πθ,按 chunk 重要性順序決定“哪些解壓回 token”,在推理階段可實(shí)時(shí)調(diào)整壓縮率,無(wú)需重新微調(diào)模型。

三、REFRAG

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區(qū)

3.1 REFRAG的輸入與輸出

  • 輸入:question token q?…q?,檢索返回文檔 d?…d?,總長(zhǎng)度 T = n + m。
  • 分塊:文檔側(cè)每 k 個(gè) token 切為一 chunk C?,得 L = ?m/k? 塊。
  • 編碼:輕量編碼器 M???(·)(RoBERTa 系列)輸出 chunk embedding c? = M???(C?)。
  • 投影:φ(c?) → e???? ∈ ??,與解碼器詞嵌入同維。
  • 解碼器輸入:[e?,…,e? ? question tokens;  e????,…,e???? ? compressed chunks]序列長(zhǎng)度由 n + m 縮至 n + L(L ≈ m/k)。
  • 生成:標(biāo)準(zhǔn)自回歸,注意力只在 n+L 個(gè)表示上計(jì)算,復(fù)雜度 O((n+L)2) ≈ O(n2/k2)。

3.2 訓(xùn)練三階段(穩(wěn)定壓縮的關(guān)鍵)

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區(qū)

  1. 重建任務(wù)(Reconstruction)目的:讓 φ 與 M??? 學(xué)會(huì)“k 個(gè) token → 一個(gè)向量 → 還原 k 個(gè) token”的信息守恒。做法:凍結(jié)解碼器,僅訓(xùn)練 M??? + φ;輸入前 s token,用 chunk 嵌入重建自身。
  2. 持續(xù)預(yù)訓(xùn)練(CPT,Next-Paragraph Prediction)目的:讓解碼器“習(xí)慣”把 chunk 嵌入當(dāng)上下文。做法:解凍解碼器,以“前 s token 的 chunk 嵌入”預(yù)測(cè)后 o token,采用課程學(xué)習(xí)
  • 階段 1 只重建 1 個(gè) chunk,階段 9 重建 256 個(gè) chunk,逐步加難度,防止梯度爆炸/欠擬合。
  1. 下游微調(diào) + 選擇性解壓(SFT + RL Expansion)目的:適配 RAG、多輪對(duì)話、摘要等任務(wù),并學(xué)會(huì)“重要 chunk 不解壓”。做法:
  • 先以 90 % 壓縮率混合輸入(90 % chunk 嵌入 + 10 % 原始 token)繼續(xù)微調(diào)。
  • 再用強(qiáng)化學(xué)習(xí)(PPO-GRPO)訓(xùn)練策略 πθ,按順序挑選 T′ 個(gè) chunk 恢復(fù)成 token;獎(jiǎng)勵(lì) = -perplexity。推理時(shí),給定延遲預(yù)算,可動(dòng)態(tài)選 T′,實(shí)現(xiàn)“同延遲更多文檔”或“同文檔更低延遲”。

3.3 復(fù)雜度與加速比

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區(qū)

記 s = 文檔側(cè) token 數(shù),k = 壓縮粒度,則

  • KV-Cache 內(nèi)存:降為 1/k
  • TTFT 計(jì)算量:≈ 1/k2(短文本 1/k,長(zhǎng)文本 1/k2)
  • 實(shí)驗(yàn)峰值:k=32 時(shí) TTFT 加速 30.85×,吞吐量最高 6.78×,perplexity 與 Full-Context 基線持平甚至更好。

四、REFRAG的流程

1.檢索端改造

  • 沿用現(xiàn)有雙塔向量檢索,僅加“保存 chunk 向量”邏輯;向量庫(kù)存 FP16,占空間 < 1 % 原文本。

2.編碼器離線蒸餾

  • 選 RoBERTa-Base 為教師,用 MSE 損失對(duì)齊 LLaMA 詞嵌入空間;訓(xùn)練 1 epoch,8×A100 約 6 小時(shí)。

3.重建任務(wù)

  • 凍結(jié) LLaMA,僅訓(xùn)編碼器+2 層 MLP 投影;學(xué)習(xí)率 2e-4,batch 256,4 萬(wàn)步即可。

4. CPT + 課程學(xué)習(xí)

  • 數(shù)據(jù)混合按表 8 幾何序列;9 個(gè)階段共 40 k 步,學(xué)習(xí)率 5e-5,F(xiàn)SDP 8 節(jié)點(diǎn) 64 卡,一天完成。

5.下游微調(diào)

  • RAG 數(shù)據(jù) 110 萬(wàn)條,混合 5 域問(wèn)答;90 % 壓縮率混合輸入,訓(xùn)練 1 epoch,學(xué)習(xí)率 2e-5。

6.RL 策略訓(xùn)練(可選)

  • 用 GRPO 組采樣 64 條軌跡,T′=L/4,clip=0.2,訓(xùn)練 5 k 步即可上線;推理時(shí)按延遲預(yù)算選 T′。

7 部署

  • 緩存 chunk 向量放 CPU 內(nèi)存,推理時(shí)異步預(yù)?。?/li>
  • batch=1 實(shí)測(cè) A100 上 16 k token 上下文 TTFT 從 2.8 s → 90 ms。

五、實(shí)驗(yàn)驗(yàn)證與消融分析

5.1 主實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集:Arxiv、Book、PG19、Proof-pile + 16 項(xiàng) RAG 基準(zhǔn)(NQ、TQA、MMLU 等)基線:LLaMA-2-7B、LLaMA-32K、CEPE、REPLUG、LLaMAK(截?cái)嗥ヅ?token 數(shù))指標(biāo):perplexity、ExactMatch、F1、Accuracy、TTFT、Throughput

模型

平均困惑度↓

TTFT 加速比↑

顯存節(jié)省

LLaMA-Full

1.00×

1.0×

0 %

CEPE

+2.1 %

2.0×

50 %

REFRAG16

-1.2 %

16.5×

93.75 %

REFRAG32

+0.8 %

30.8×

96.9 %

結(jié)論:在相同或更低困惑度前提下,REFRAG 把首詞延遲壓到 CEPE 的 1/3.75,顯存僅用 3 %。

5.2 下游任務(wù)抽樣

  • RAG(強(qiáng)檢索器):REFRAG8 與 LLaMA-FT 10-passage 相比,平均準(zhǔn)確率 +1.22 %,延遲僅 1/5.26。
  • RAG(弱檢索器):REFRAG 因能裝 8× 更多文檔,在檢索質(zhì)量差時(shí)優(yōu)勢(shì)放大,平均 +1.93 %。
  • 多輪對(duì)話:TopiOCQA 6 輪場(chǎng)景,REFRAG8 比 LLaMA-FT 提升 5.6 %,因無(wú)需截?cái)鄽v史。
  • 長(zhǎng)文檔摘要:Arxiv/Pubmed  Rouge-1 提升 3–5 點(diǎn),同解碼 token 預(yù)算下顯著領(lǐng)先。

5.3 消融實(shí)驗(yàn)

  1. 無(wú)課程學(xué)習(xí):重建任務(wù) perplexity 從 0.135 → 1.599,CPT 不收斂。
  2. 無(wú)重建預(yù)初始化:CPT 階段 perplexity 差 30 % 以上。
  3. 無(wú) RL 選擇:固定壓縮率 8 的 REFRAG8 被“REFRAG16+RL 選 50 %”全面超越,驗(yàn)證動(dòng)態(tài)解壓>靜態(tài)低壓縮。
  4. 編碼器大小:RoBERTa-Base→Large 僅降 0.2 % perplexity,解碼器 7B→13B 降 8 %,說(shuō)明瓶頸在解碼器容量而非編碼器。

六、REFRAG與其它方案對(duì)比

方法

壓縮粒度

是否復(fù)用檢索向量

支持任意位置

動(dòng)態(tài)壓縮

模型改動(dòng)

LLMLingua

token

預(yù)算驅(qū)動(dòng)

無(wú)

CEPE

token

否(僅前綴)

需改交叉注意

Compressive Transformer

segment

需從頭訓(xùn)練

REFRAG

chunk

是(RL)

零解碼器參數(shù)

七、RAG改進(jìn)的幾個(gè)方向

  1. 極端壓縮率(k≥64)下信息損失陡增,需探索非均勻分段層次壓縮
  2. 多模態(tài)擴(kuò)展:文本-圖像混合 RAG 時(shí),chunk 定義與對(duì)齊策略待研究。
  3. 在線學(xué)習(xí):隨著知識(shí)庫(kù)更新,如何增量更新 chunk 向量而避免全量重算。
  4. 端側(cè)落地:chunk 向量緩存仍占內(nèi)存,可結(jié)合量化+索引壓縮進(jìn)一步瘦身。

八、結(jié)論

REFRAG 重新審視了 RAG 的“長(zhǎng)上下文”假設(shè),指出其注意力矩陣的塊對(duì)角稀疏性使得“token-level 全計(jì)算”成為巨大浪費(fèi)。

通過(guò)“先壓縮、再感知、后擴(kuò)展”,在零解碼器參數(shù)、零生成質(zhì)量損失的前提下,把首詞延遲壓到現(xiàn)有工作的 1/3.75,顯存節(jié)省 90 % 以上,并支持任意位置、動(dòng)態(tài)壓縮的復(fù)雜場(chǎng)景。

實(shí)驗(yàn)覆蓋 RAG、多輪對(duì)話、長(zhǎng)文摘要三大任務(wù),加速比 6–30× 全面領(lǐng)先,為“大模型+知識(shí)庫(kù)”在 web-scale、Agent 等延遲敏感場(chǎng)景落地提供了可工程化、可擴(kuò)展的新范式。

??https://arxiv.org/pdf/2509.01092??

??https://github.com/simulanics/REFRAG??

本文轉(zhuǎn)載自???CourseAI???,作者:CourseAI

標(biāo)簽
已于2025-9-16 07:30:53修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦