偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Meta最新REFRAG框架引爆RAG圈！KV緩存暴降90%，速度狂飆30×

發(fā)布于 2025-9-16 07:25

瀏覽

0收藏

一、RAG一些棘手的問(wèn)題

檢索增強(qiáng)生成（RAG）通過(guò)把外部知識(shí)以“拼接文檔”形式喂給大模型，在多輪對(duì)話、開(kāi)放域問(wèn)答、Agent 等場(chǎng)景取得顯著效果。然而，該范式帶來(lái)兩個(gè)問(wèn)題：

延遲爆炸：輸入長(zhǎng)度驟增，首詞延遲（TTFT）與 KV-Cache 顯存隨 token 數(shù)線性乃至二次方增長(zhǎng)。
信息稀疏：檢索返回的幾十篇文檔里，僅極少數(shù)片段與當(dāng)前 query 真正相關(guān)；其余 token 對(duì)生成幾乎無(wú)貢獻(xiàn)，卻仍要參與全部注意力計(jì)算。

有一些緩解手段，但是效果有限。例如：

稀疏注意力 / 線性注意力：把 O(n2) 降為 O(n) 或 O(n log n)，但 KV-Cache 體積不變，TTFT 依舊隨序列長(zhǎng)度線性增加。
前綴壓縮 / 滑動(dòng)窗口：只能丟棄最左側(cè) token，無(wú)法處理“中間大段無(wú)用信息”的 RAG 場(chǎng)景。
Chunk 級(jí)編碼器（如 CEPE）：把文檔先經(jīng)編碼器壓成向量，再用交叉注意力注入解碼器，但仍以“token”為基本單元，未突破“所有 token 必須進(jìn) KV-Cache”的桎梏，且僅支持前綴壓縮，不支持多輪、任意位置壓縮。

二、4個(gè)問(wèn)題的解決思路

問(wèn)題	關(guān)鍵技術(shù)	工作原理簡(jiǎn)述
不修改解碼器參數(shù) 的前提下，把 RAG 上下文“壓”到極小，卻保持生成質(zhì)量	Chunk-level 表示替代 Token 序列	以 k 個(gè) token 為一組，用輕量編碼器壓成一個(gè)向量，解碼器只在該向量上做注意力，輸入長(zhǎng)度立即降為 1/k。
復(fù)用檢索階段已算好的文檔向量，避免重復(fù)編碼	預(yù)計(jì)算 + 可復(fù)用 Chunk Embedding	檢索階段已產(chǎn)出文檔向量，直接緩存；推理時(shí)僅需輕量投影 φ(·) 對(duì)齊解碼器隱空間，零重復(fù)編碼。
在任意位置、任意粒度做“壓縮-解壓”決策，以適配多輪對(duì)話、Agent 等復(fù)雜格式	“Compress-Anywhere” 自回歸掩碼	把壓縮向量當(dāng)“特殊 token”插入原始序列任意位置，通過(guò)定制 attention mask 維持自回歸，支持多輪、中間摘要等格式。
在壓縮率可動(dòng)態(tài)調(diào)整的同時(shí)，保證訓(xùn)練穩(wěn)定、推理加速效果可預(yù)測(cè)	RL-based Selective Expansion	訓(xùn)練一個(gè)策略網(wǎng)絡(luò) πθ，按 chunk 重要性順序決定“哪些解壓回 token”，在推理階段可實(shí)時(shí)調(diào)整壓縮率，無(wú)需重新微調(diào)模型。

三、REFRAG

Meta最新REFRAG框架引爆RAG圈！KV緩存暴降90%，速度狂飆30×-AI.x社區(qū)

3.1 REFRAG的輸入與輸出

輸入：question token q?…q?，檢索返回文檔 d?…d?，總長(zhǎng)度 T = n + m。
分塊：文檔側(cè)每 k 個(gè) token 切為一 chunk C?，得 L = ?m/k? 塊。
編碼：輕量編碼器 M???(·)（RoBERTa 系列）輸出 chunk embedding c? = M???(C?)。
投影：φ(c?) → e???? ∈ ??，與解碼器詞嵌入同維。
解碼器輸入：[e?,…,e? ? question tokens; e????,…,e???? ? compressed chunks]序列長(zhǎng)度由 n + m 縮至 n + L（L ≈ m/k）。
生成：標(biāo)準(zhǔn)自回歸，注意力只在 n+L 個(gè)表示上計(jì)算，復(fù)雜度 O((n+L)2) ≈ O(n2/k2)。

3.2 訓(xùn)練三階段（穩(wěn)定壓縮的關(guān)鍵）

Meta最新REFRAG框架引爆RAG圈！KV緩存暴降90%，速度狂飆30×-AI.x社區(qū)

重建任務(wù)（Reconstruction）目的：讓 φ 與 M??? 學(xué)會(huì)“k 個(gè) token → 一個(gè)向量 → 還原 k 個(gè) token”的信息守恒。做法：凍結(jié)解碼器，僅訓(xùn)練 M??? + φ；輸入前 s token，用 chunk 嵌入重建自身。
持續(xù)預(yù)訓(xùn)練（CPT，Next-Paragraph Prediction）目的：讓解碼器“習(xí)慣”把 chunk 嵌入當(dāng)上下文。做法：解凍解碼器，以“前 s token 的 chunk 嵌入”預(yù)測(cè)后 o token，采用課程學(xué)習(xí)：

階段 1 只重建 1 個(gè) chunk，階段 9 重建 256 個(gè) chunk，逐步加難度，防止梯度爆炸/欠擬合。

下游微調(diào) + 選擇性解壓（SFT + RL Expansion）目的：適配 RAG、多輪對(duì)話、摘要等任務(wù)，并學(xué)會(huì)“重要 chunk 不解壓”。做法：

先以 90 % 壓縮率混合輸入（90 % chunk 嵌入 + 10 % 原始 token）繼續(xù)微調(diào)。
再用強(qiáng)化學(xué)習(xí)（PPO-GRPO）訓(xùn)練策略 πθ，按順序挑選 T′ 個(gè) chunk 恢復(fù)成 token；獎(jiǎng)勵(lì) = -perplexity。推理時(shí)，給定延遲預(yù)算，可動(dòng)態(tài)選 T′，實(shí)現(xiàn)“同延遲更多文檔”或“同文檔更低延遲”。

3.3 復(fù)雜度與加速比

Meta最新REFRAG框架引爆RAG圈！KV緩存暴降90%，速度狂飆30×-AI.x社區(qū)

記 s = 文檔側(cè) token 數(shù)，k = 壓縮粒度，則

KV-Cache 內(nèi)存：降為 1/k
TTFT 計(jì)算量：≈ 1/k2（短文本 1/k，長(zhǎng)文本 1/k2）
實(shí)驗(yàn)峰值：k=32 時(shí) TTFT 加速 30.85×，吞吐量最高 6.78×，perplexity 與 Full-Context 基線持平甚至更好。

四、REFRAG的流程

1.檢索端改造

沿用現(xiàn)有雙塔向量檢索，僅加“保存 chunk 向量”邏輯；向量庫(kù)存 FP16，占空間 < 1 % 原文本。

2.編碼器離線蒸餾

選 RoBERTa-Base 為教師，用 MSE 損失對(duì)齊 LLaMA 詞嵌入空間；訓(xùn)練 1 epoch，8×A100 約 6 小時(shí)。

3.重建任務(wù)

凍結(jié) LLaMA，僅訓(xùn)編碼器+2 層 MLP 投影；學(xué)習(xí)率 2e-4，batch 256，4 萬(wàn)步即可。

4. CPT + 課程學(xué)習(xí)

數(shù)據(jù)混合按表 8 幾何序列；9 個(gè)階段共 40 k 步，學(xué)習(xí)率 5e-5，F(xiàn)SDP 8 節(jié)點(diǎn) 64 卡，一天完成。

5.下游微調(diào)

RAG 數(shù)據(jù) 110 萬(wàn)條，混合 5 域問(wèn)答；90 % 壓縮率混合輸入，訓(xùn)練 1 epoch，學(xué)習(xí)率 2e-5。

6.RL 策略訓(xùn)練（可選）

用 GRPO 組采樣 64 條軌跡，T′=L/4，clip=0.2，訓(xùn)練 5 k 步即可上線；推理時(shí)按延遲預(yù)算選 T′。

7 部署

緩存 chunk 向量放 CPU 內(nèi)存，推理時(shí)異步預(yù)?。?/li>
batch=1 實(shí)測(cè) A100 上 16 k token 上下文 TTFT 從 2.8 s → 90 ms。

五、實(shí)驗(yàn)驗(yàn)證與消融分析

5.1 主實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集：Arxiv、Book、PG19、Proof-pile + 16 項(xiàng) RAG 基準(zhǔn)（NQ、TQA、MMLU 等）基線：LLaMA-2-7B、LLaMA-32K、CEPE、REPLUG、LLaMAK（截?cái)嗥ヅ?token 數(shù)）指標(biāo)：perplexity、ExactMatch、F1、Accuracy、TTFT、Throughput

模型	平均困惑度↓	TTFT 加速比↑	顯存節(jié)省
LLaMA-Full	1.00×	1.0×	0 %
CEPE	+2.1 %	2.0×	50 %
REFRAG16	-1.2 %	16.5×	93.75 %
REFRAG32	+0.8 %	30.8×	96.9 %

結(jié)論：在相同或更低困惑度前提下，REFRAG 把首詞延遲壓到 CEPE 的 1/3.75，顯存僅用 3 %。

5.2 下游任務(wù)抽樣

RAG（強(qiáng)檢索器）：REFRAG8 與 LLaMA-FT 10-passage 相比，平均準(zhǔn)確率 +1.22 %，延遲僅 1/5.26。
RAG（弱檢索器）：REFRAG 因能裝 8× 更多文檔，在檢索質(zhì)量差時(shí)優(yōu)勢(shì)放大，平均 +1.93 %。
多輪對(duì)話：TopiOCQA 6 輪場(chǎng)景，REFRAG8 比 LLaMA-FT 提升 5.6 %，因無(wú)需截?cái)鄽v史。
長(zhǎng)文檔摘要：Arxiv/Pubmed Rouge-1 提升 3–5 點(diǎn)，同解碼 token 預(yù)算下顯著領(lǐng)先。

5.3 消融實(shí)驗(yàn)

無(wú)課程學(xué)習(xí)：重建任務(wù) perplexity 從 0.135 → 1.599，CPT 不收斂。
無(wú)重建預(yù)初始化：CPT 階段 perplexity 差 30 % 以上。
無(wú) RL 選擇：固定壓縮率 8 的 REFRAG8 被“REFRAG16+RL 選 50 %”全面超越，驗(yàn)證動(dòng)態(tài)解壓>靜態(tài)低壓縮。
編碼器大小：RoBERTa-Base→Large 僅降 0.2 % perplexity，解碼器 7B→13B 降 8 %，說(shuō)明瓶頸在解碼器容量而非編碼器。

六、REFRAG與其它方案對(duì)比

方法	壓縮粒度	是否復(fù)用檢索向量	支持任意位置	動(dòng)態(tài)壓縮	模型改動(dòng)
LLMLingua	token	否	是	預(yù)算驅(qū)動(dòng)	無(wú)
CEPE	token	否	否（僅前綴）	否	需改交叉注意
Compressive Transformer	segment	否	否	否	需從頭訓(xùn)練
REFRAG	chunk	是	是	是（RL）	零解碼器參數(shù)

七、RAG改進(jìn)的幾個(gè)方向

極端壓縮率（k≥64）下信息損失陡增，需探索非均勻分段或層次壓縮。
多模態(tài)擴(kuò)展：文本-圖像混合 RAG 時(shí)，chunk 定義與對(duì)齊策略待研究。
在線學(xué)習(xí)：隨著知識(shí)庫(kù)更新，如何增量更新 chunk 向量而避免全量重算。
端側(cè)落地：chunk 向量緩存仍占內(nèi)存，可結(jié)合量化+索引壓縮進(jìn)一步瘦身。

八、結(jié)論

REFRAG 重新審視了 RAG 的“長(zhǎng)上下文”假設(shè)，指出其注意力矩陣的塊對(duì)角稀疏性使得“token-level 全計(jì)算”成為巨大浪費(fèi)。

通過(guò)“先壓縮、再感知、后擴(kuò)展”，在零解碼器參數(shù)、零生成質(zhì)量損失的前提下，把首詞延遲壓到現(xiàn)有工作的 1/3.75，顯存節(jié)省 90 % 以上，并支持任意位置、動(dòng)態(tài)壓縮的復(fù)雜場(chǎng)景。

實(shí)驗(yàn)覆蓋 RAG、多輪對(duì)話、長(zhǎng)文摘要三大任務(wù)，加速比 6–30× 全面領(lǐng)先，為“大模型+知識(shí)庫(kù)”在 web-scale、Agent 等延遲敏感場(chǎng)景落地提供了可工程化、可擴(kuò)展的新范式。

??https://arxiv.org/pdf/2509.01092??
??https://github.com/simulanics/REFRAG??

本文轉(zhuǎn)載自???CourseAI???，作者：CourseAI

標(biāo)簽

已于2025-9-16 07:30:53修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 4227瀏覽 ? 0回復(fù)
3倍生成速度還降內(nèi)存成本，超越Medusa2的高效解碼框架終于來(lái)了

輕薄滴假象 ? 3247瀏覽 ? 0回復(fù)
MiniCache 和 PyramidInfer 等 6 種優(yōu)化 LLM KV Cache 的最新工作

amei2000go ? 1.3w瀏覽 ? 0回復(fù)
DR-RAG：理想汽車最新RAG研究成果，準(zhǔn)確率和響應(yīng)時(shí)間遠(yuǎn)超其他RAG框架

大語(yǔ)言模型論文跟蹤 ? 5370瀏覽 ? 0回復(fù)
成本降低90%！Anthropic 推出新 Claude 提示緩存！開(kāi)發(fā)人員將省去一大筆錢

51CTO技術(shù)棧 ? 3906瀏覽 ? 0回復(fù)
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 3022瀏覽 ? 0回復(fù)
這個(gè)引爆時(shí)尚圈的平臺(tái)上線了

angel ? 4325瀏覽 ? 0回復(fù)
15種典型RAG框架：卡內(nèi)基梅隆大學(xué)最新RAG綜述

大語(yǔ)言模型論文跟蹤 ? 7923瀏覽 ? 0回復(fù)
谷歌量子芯片Willow炸翻了科技圈：攻克30年量子難題，網(wǎng)友：谷歌又行了！

51CTO技術(shù)棧 ? 3006瀏覽 ? 0回復(fù)
CAG 通過(guò)鍵值緩存讓 RAG 輕松上手

凝固的雨_1 ? 5145瀏覽 ? 0回復(fù)
LLM合集：Meta推出PGraphRAG框架，異構(gòu)圖關(guān)系助力個(gè)性化RAG突破界限

AIPaperDaily ? 3718瀏覽 ? 0回復(fù)
Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

鴻煊的學(xué)習(xí)筆記 ? 4600瀏覽 ? 0回復(fù)
DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)

南夏的算法驛站 ? 7118瀏覽 ? 0回復(fù)
大模型前綴緩存技術(shù)，有望將服務(wù)成本降低90%

51CTO內(nèi)容精選 ? 4107瀏覽 ? 0回復(fù)
谷歌開(kāi)源Gemma-3：媲美DeepSeek，算力暴降10倍

Aceryt ? 4564瀏覽 ? 0回復(fù)
Anthropic CEO 訪談“暴論”：半年內(nèi)，AI能寫(xiě)90%的代碼，一年內(nèi)，AI接管編程工作！

51CTO技術(shù)棧 ? 2988瀏覽 ? 0回復(fù)
即插即控"，Tiamat AI重磅開(kāi)源EasyControl：任意比例出圖+推理速度狂飆

angel ? 3444瀏覽 ? 0回復(fù)
RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）

大模型自然語(yǔ)言處理 ? 1238瀏覽 ? 0回復(fù)
Meta 再出狠招：REFRAG，讓 RAG 長(zhǎng)上下文提速 31 倍，還能看 16 倍更多內(nèi)容

Halo咯咯 ? 719瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Manus：三大核心策略，破解AI Agent上下文膨脹難題 2025-10-23 07:52:56發(fā)布
文檔級(jí)知識(shí)圖譜: RAKG(95.91%) VS GraphRAG(89.71%) 2025-10-23 07:52:31發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

DeepSeek團(tuán)隊(duì)開(kāi)源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：最窒息的Bug：Agent循環(huán)搜索原地打轉(zhuǎn)？SGR Agent用「雙階段認(rèn)知」破局

下一篇：上交&清華開(kāi)源ST-Raptor：無(wú)需SQL、無(wú)需OCR，直接對(duì)話任意復(fù)雜表格

社區(qū)精華內(nèi)容

目錄