偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG) 原創(chuàng)

發(fā)布于 2025-9-9 09:44
瀏覽
0收藏

前文在??RAG常見13種分塊策略大總結(jié)(一覽表)???提到,分塊策略在RAG中至關(guān)重要,目的是提高效率、相關(guān)性和上下文保持。但也會(huì)帶來冗余。引發(fā)長(zhǎng)上下文 RAG 應(yīng)用的效率痛點(diǎn):

在 RAG 等依賴外部知識(shí)的任務(wù)(如多輪對(duì)話、長(zhǎng)文檔總結(jié))中,LLMs 需要將檢索到的大量段落拼接為長(zhǎng)上下文輸入,但這會(huì)引發(fā)兩大問題:

  • 高延遲與高內(nèi)存消耗:長(zhǎng)上下文需占用大量鍵值緩存(KV Cache),且生成第一個(gè)token的時(shí)間(TTFT,Time-to-First-Token)隨上下文長(zhǎng)度呈二次方增長(zhǎng),后續(xù)token生成時(shí)間(TTIT)呈線性增長(zhǎng),導(dǎo)致系統(tǒng)吞吐量顯著下降,難以滿足Web級(jí)檢索等低延遲場(chǎng)景需求。
  • 冗余計(jì)算嚴(yán)重:RAG 上下文由多個(gè)檢索段落拼接而成,但其中僅小部分與查詢直接相關(guān);且檢索段落因多樣性或去重處理,語義相似度極低,形成“塊對(duì)角注意力模式”(即不同段落間的交叉注意力幾乎為零)?,F(xiàn)有 LLM 解碼時(shí)會(huì)對(duì)整個(gè)上下文進(jìn)行全量計(jì)算,而這些與查詢無關(guān)的段落計(jì)算大多是不必要的。

下面看下meta的解決思路/目標(biāo):在不損失 RAG 任務(wù)性能(如回答準(zhǔn)確性、困惑度)的前提下,通過針對(duì)性優(yōu)化 RAG 解碼過程,大幅降低延遲(尤其是 TTFT)和內(nèi)存消耗,同時(shí)擴(kuò)展 LLM 的有效上下文窗口。

模型架構(gòu)

該模型由一個(gè)僅解碼器的LLM(LLaMA)和一個(gè)輕量級(jí)編碼器模型(Roberta )組成。

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

REFRAG架構(gòu):輸入上下文被分塊,并由輕量級(jí)編碼器處理以生成塊嵌入,這些嵌入可預(yù)先計(jì)算以實(shí)現(xiàn)高效重用。一個(gè)輕量級(jí)強(qiáng)化學(xué)習(xí)策略決定擴(kuò)展少數(shù)塊。這些塊嵌入與問題輸入的 token 嵌入一起送入解碼器。

REFRAG的解碼過程分為預(yù)處理(離線/在線) 和生成(在線) 兩個(gè)階段,完整流程如上。

階段1:上下文預(yù)處理

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

階段2:解碼器生成(帶動(dòng)態(tài)擴(kuò)展)

將“主輸入token嵌入((用戶的核心輸入,如查詢q)) + 壓縮塊嵌入(RAG 檢索到的長(zhǎng)上下文)”作為解碼器輸入,生成答案;同時(shí)通過RL策略動(dòng)態(tài)擴(kuò)展關(guān)鍵塊,避免壓縮導(dǎo)致的信息丟失:

  1. 解碼器輸入構(gòu)造
    解碼器接收兩類輸入的拼接序列:

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

  1. RL動(dòng)態(tài)塊擴(kuò)展
    并非所有塊都適合壓縮(如與查詢強(qiáng)相關(guān)的塊壓縮后可能丟失關(guān)鍵信息)。REFRAG通過輕量級(jí)RL策略,在解碼前或解碼中決定:

       a.對(duì)低信息塊:保留壓縮嵌入eicnk,減少計(jì)算;

       b.對(duì)高信息塊:替換為原始?jí)K的token嵌入(即“擴(kuò)展”),確保信息完整。
     RL策略以“下一段預(yù)測(cè)的困惑度(Perplexity)”為負(fù)獎(jiǎng)勵(lì),學(xué)習(xí)選擇最優(yōu)擴(kuò)展塊,且擴(kuò)展不破壞解碼器的自回歸特性(可在上下文任意位置進(jìn)行)。

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

  3.答案生成解碼器基于處理后的輸入序列生成答案:RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū),生成過程與原生LLM完全一致,無需修改解碼器架構(gòu)。

訓(xùn)練方法邏輯概述

REFRAG 不修改基礎(chǔ) LLM 解碼器架構(gòu),通過 “預(yù)訓(xùn)練 + 微調(diào)” 讓解碼器學(xué)會(huì)理解和利用編碼器生成的壓縮塊嵌入。

  • 對(duì)齊階段:通過 “重建任務(wù)” 讓編碼器生成的塊嵌入能準(zhǔn)確還原原始上下文,同時(shí)讓投影層將塊嵌入映射到解碼器兼容的維度(解決 “壓縮后信息丟失” 問題)。
  • 優(yōu)化階段:通過 “課程學(xué)習(xí)” 降低訓(xùn)練難度,讓模型從單塊重建逐步過渡到多塊處理,避免直接訓(xùn)練長(zhǎng)序列導(dǎo)致的優(yōu)化困難(解決 “多塊壓縮難以收斂” 問題)。
  • 適配階段:通過 “RL 選擇性壓縮” 動(dòng)態(tài)決定哪些塊保留原始 token(擴(kuò)展)、哪些用壓縮嵌入(壓縮),在保證性能的前提下最大化效率(解決 “全量壓縮可能損失關(guān)鍵信息” 問題)。

實(shí)驗(yàn)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

RAG長(zhǎng)上下文加速解碼策略-meta基于RAG的解決思路淺嘗(REFRAG)-AI.x社區(qū)

REFRAG: Rethinking RAG based Decoding,https://arxiv.org/pdf/2509.01092


本文轉(zhuǎn)載自???大模型自然語言處理????   作者:llmnlp

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦