偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="q8yc7"><span id="q8yc7"><dd id="q8yc7"></dd></span></pre>

<abbr id="q8yc7"><center id="q8yc7"></center></abbr>

<code id="q8yc7"></code>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-9-9 09:44

瀏覽

0收藏

前文在??RAG常見13種分塊策略大總結(jié)（一覽表）???提到，分塊策略在RAG中至關(guān)重要，目的是提高效率、相關(guān)性和上下文保持。但也會(huì)帶來冗余。引發(fā)長(zhǎng)上下文 RAG 應(yīng)用的效率痛點(diǎn)：

在 RAG 等依賴外部知識(shí)的任務(wù)（如多輪對(duì)話、長(zhǎng)文檔總結(jié)）中，LLMs 需要將檢索到的大量段落拼接為長(zhǎng)上下文輸入，但這會(huì)引發(fā)兩大問題：

高延遲與高內(nèi)存消耗：長(zhǎng)上下文需占用大量鍵值緩存（KV Cache），且生成第一個(gè)token的時(shí)間（TTFT，Time-to-First-Token）隨上下文長(zhǎng)度呈二次方增長(zhǎng)，后續(xù)token生成時(shí)間（TTIT）呈線性增長(zhǎng)，導(dǎo)致系統(tǒng)吞吐量顯著下降，難以滿足Web級(jí)檢索等低延遲場(chǎng)景需求。
冗余計(jì)算嚴(yán)重：RAG 上下文由多個(gè)檢索段落拼接而成，但其中僅小部分與查詢直接相關(guān)；且檢索段落因多樣性或去重處理，語義相似度極低，形成“塊對(duì)角注意力模式”（即不同段落間的交叉注意力幾乎為零）?，F(xiàn)有 LLM 解碼時(shí)會(huì)對(duì)整個(gè)上下文進(jìn)行全量計(jì)算，而這些與查詢無關(guān)的段落計(jì)算大多是不必要的。

下面看下meta的解決思路/目標(biāo)：在不損失 RAG 任務(wù)性能（如回答準(zhǔn)確性、困惑度）的前提下，通過針對(duì)性優(yōu)化 RAG 解碼過程，大幅降低延遲（尤其是 TTFT）和內(nèi)存消耗，同時(shí)擴(kuò)展 LLM 的有效上下文窗口。

模型架構(gòu)

該模型由一個(gè)僅解碼器的LLM（LLaMA）和一個(gè)輕量級(jí)編碼器模型（Roberta ）組成。

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

REFRAG架構(gòu)：輸入上下文被分塊，并由輕量級(jí)編碼器處理以生成塊嵌入，這些嵌入可預(yù)先計(jì)算以實(shí)現(xiàn)高效重用。一個(gè)輕量級(jí)強(qiáng)化學(xué)習(xí)策略決定擴(kuò)展少數(shù)塊。這些塊嵌入與問題輸入的 token 嵌入一起送入解碼器。

REFRAG的解碼過程分為預(yù)處理（離線/在線） 和生成（在線） 兩個(gè)階段，完整流程如上。

階段1：上下文預(yù)處理

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

階段2：解碼器生成（帶動(dòng)態(tài)擴(kuò)展）

將“主輸入token嵌入（（用戶的核心輸入，如查詢q）） + 壓縮塊嵌入（RAG 檢索到的長(zhǎng)上下文）”作為解碼器輸入，生成答案；同時(shí)通過RL策略動(dòng)態(tài)擴(kuò)展關(guān)鍵塊，避免壓縮導(dǎo)致的信息丟失：

解碼器輸入構(gòu)造
解碼器接收兩類輸入的拼接序列：

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

RL動(dòng)態(tài)塊擴(kuò)展
并非所有塊都適合壓縮（如與查詢強(qiáng)相關(guān)的塊壓縮后可能丟失關(guān)鍵信息）。REFRAG通過輕量級(jí)RL策略，在解碼前或解碼中決定：

a.對(duì)低信息塊：保留壓縮嵌入e_i^cnk，減少計(jì)算；

b.對(duì)高信息塊：替換為原始?jí)K的token嵌入（即“擴(kuò)展”），確保信息完整。
RL策略以“下一段預(yù)測(cè)的困惑度（Perplexity）”為負(fù)獎(jiǎng)勵(lì)，學(xué)習(xí)選擇最優(yōu)擴(kuò)展塊，且擴(kuò)展不破壞解碼器的自回歸特性（可在上下文任意位置進(jìn)行）。

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

3.答案生成解碼器基于處理后的輸入序列生成答案： RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū) ，生成過程與原生LLM完全一致，無需修改解碼器架構(gòu)。

訓(xùn)練方法邏輯概述

REFRAG 不修改基礎(chǔ) LLM 解碼器架構(gòu)，通過 “預(yù)訓(xùn)練 + 微調(diào)” 讓解碼器學(xué)會(huì)理解和利用編碼器生成的壓縮塊嵌入。

對(duì)齊階段：通過 “重建任務(wù)” 讓編碼器生成的塊嵌入能準(zhǔn)確還原原始上下文，同時(shí)讓投影層將塊嵌入映射到解碼器兼容的維度（解決 “壓縮后信息丟失” 問題）。
優(yōu)化階段：通過 “課程學(xué)習(xí)” 降低訓(xùn)練難度，讓模型從單塊重建逐步過渡到多塊處理，避免直接訓(xùn)練長(zhǎng)序列導(dǎo)致的優(yōu)化困難（解決 “多塊壓縮難以收斂” 問題）。
適配階段：通過 “RL 選擇性壓縮” 動(dòng)態(tài)決定哪些塊保留原始 token（擴(kuò)展）、哪些用壓縮嵌入（壓縮），在保證性能的前提下最大化效率（解決 “全量壓縮可能損失關(guān)鍵信息” 問題）。

實(shí)驗(yàn)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）-AI.x社區(qū)

REFRAG: Rethinking RAG based Decoding,https://arxiv.org/pdf/2509.01092

本文轉(zhuǎn)載自???大模型自然語言處理???? 作者：llmnlp

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 4259瀏覽 ? 0回復(fù)
百萬上下文RAG，Agent還能這么玩

ermulong ? 4708瀏覽 ? 0回復(fù)
LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 4157瀏覽 ? 0回復(fù)
提升5.69倍，高效RAG上下文壓縮方法COCOM

Aceryt ? 3938瀏覽 ? 0回復(fù)
長(zhǎng)上下文 還是 RAG？ Google:我全都要！

探索AGI ? 3371瀏覽 ? 0回復(fù)
在長(zhǎng)上下文LLM的時(shí)代，RAG是否仍然必要？

sbf_2000 ? 3781瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長(zhǎng)上下文 LLMs：誰主沉??？

Baihai_IDP ? 3470瀏覽 ? 0回復(fù)
智能決策進(jìn)化之路：從長(zhǎng)上下文LLM到自主RAG系統(tǒng)

Halo咯咯 ? 4918瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：RAG的檢索增強(qiáng)之上下文重排和壓縮

一起AI技術(shù) ? 3688瀏覽 ? 0回復(fù)
HiQA：一種用于多文檔問答的層次化上下文增強(qiáng)RAG

大模型自然語言處理 ? 3599瀏覽 ? 0回復(fù)
長(zhǎng)上下文語言模型評(píng)估體系探析

Baihai_IDP ? 4436瀏覽 ? 0回復(fù)
大模型超長(zhǎng)窗口上下文與檢索增強(qiáng)生成——RAG

AI探索時(shí)代 ? 4032瀏覽 ? 0回復(fù)
RAG系統(tǒng)中的困境：上下文不是想加就能加的

芝士AI吃魚 ? 3439瀏覽 ? 0回復(fù)
為什么大語言模型難以處理長(zhǎng)上下文？從 Transformer 到 Mamba

Baihai_IDP ? 4538瀏覽 ? 0回復(fù)
基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)

AIRoobt ? 4538瀏覽 ? 0回復(fù)
RAG應(yīng)用要如何吃到大模型長(zhǎng)上下文的紅利？-LongRAG

NLP前沿1 ? 1542瀏覽 ? 0回復(fù)
REFRAG：基于塊壓縮的RAG解碼優(yōu)化

sbf_2000 ? 1341瀏覽 ? 0回復(fù)
Meta 再出狠招：REFRAG，讓 RAG 長(zhǎng)上下文提速 31 倍，還能看 16 倍更多內(nèi)容

Halo咯咯 ? 730瀏覽 ? 0回復(fù)
Glyph：文本轉(zhuǎn)圖片解決長(zhǎng)上下文困境，智譜把“DeepSeek-OCR”具像化了

Syrupup ? 625瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路 4天前發(fā)布
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路 6天前發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：如何讓多模態(tài)大模型學(xué)會(huì)“自動(dòng)思考”-R-4B訓(xùn)練框架核心設(shè)計(jì)與訓(xùn)練方法

下一篇：在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗

社區(qū)精華內(nèi)容

目錄

<abbr id="rlwtq"></abbr>