偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

騰訊發(fā)布SpecExit算法,無損壓縮端到端加速2.5倍!解決大模型長思考效率難題

人工智能 新聞
為破解大模型長思維鏈的效率難題,并且為了更好的端到端加速落地,我們將思考早停與投機采樣無縫融合,提出了 SpecExit 方法,利用輕量級草稿模型預(yù)測 “退出信號”,在避免額外探測開銷的同時將思維鏈長度縮短 66%,vLLM 上推理端到端加速 2.5 倍。

以 DeepSeek-R1 等為代表的推理模型(Large Reasoning Models, LRMs),通過生成更長的思維鏈,在各類復(fù)雜任務(wù)中取得了更優(yōu)的表現(xiàn)。但長思維鏈是推理模型的 “雙刃劍”,雖能提升性能,但 “過度思考” 帶來的語義冗余會大幅推高推理成本。

為破解大模型長思維鏈的效率難題,并且為了更好的端到端加速落地,我們將思考早停與投機采樣無縫融合,提出了 SpecExit 方法,利用輕量級草稿模型預(yù)測 “退出信號”,在避免額外探測開銷的同時將思維鏈長度縮短 66%,vLLM 上推理端到端加速 2.5 倍。

  • 論文:https://arxiv.org/abs/2509.24248
  • 開源代碼:https://github.com/Tencent/AngelSlim

1.“思考早?!?的挑戰(zhàn)

目前對 LRMs 思維鏈壓縮的相關(guān)研究大致可以分為兩類,一類是基于訓(xùn)練的方法,另一類是 Training-Free 的方法,它們都有各自的局限性:

(1)基于訓(xùn)練的方法,通過標注數(shù)據(jù)進行有監(jiān)督微調(diào),或通過強化學(xué)習減少思維鏈長度。盡管壓縮效果顯著,但往往伴隨高昂的訓(xùn)練成本,并導(dǎo)致模型輸出分布被改變,引發(fā)模型可靠性及性能上的擔憂。

(2)Training-Free 的方法,無需高昂的訓(xùn)練開銷,通過介入模型的長思考過程,監(jiān)控模型的 Logits 或其他輸出信號,來判斷當前思考長度下,能否提前終止推理。這類方法表明,通過提前停止可以在不降低準確率的前提下縮短推理長度,但其依賴探測機制會帶來額外計算開銷,并且往往更關(guān)注詞元數(shù)量的減少,而非真正的端到端推理時延優(yōu)化。

圖 1 SpecExit 實現(xiàn)端到端加速   

 圖 2 從模型隱藏狀態(tài)中學(xué)習到的推理進度信號

針對以上的問題,我們發(fā)現(xiàn)了投機采樣的天然優(yōu)勢,既能保證模型輸出的一致性,又能從草稿模型隱藏狀態(tài)中提取推理進程信號,基于此思路我們提出了 SpecExit 框架。如圖 2 所示,模型的隱藏狀態(tài)中天然蘊含了例如置信度、推理進度和剩余推理長度等信號,SpecExit 通過將這些信號與投機采樣結(jié)合,在不引入額外探測開銷的前提下,實現(xiàn)動態(tài)、可靠的思考早停。并且如圖 1 所示,相比于基線和 DEER 等方法,SpecExit 在 vLLM 上端到端加速 2 倍以上,準確性和推理效率得到雙重保障。

2.SpecExit 方法創(chuàng)新

大模型中多詞元預(yù)測(Multi-Token Prediction, MTP)的隱藏狀態(tài)可以預(yù)測未來 N 個位置的詞元,這表明隱藏狀態(tài)中蘊含了豐富的信息。受 MTP 的啟發(fā),SpecExit 的目標是:同時從隱藏狀態(tài)中學(xué)習表征推理狀態(tài)的「信號」及未來 N 個詞元,在保留 MTP 原有加速能力的基礎(chǔ)上,引導(dǎo)思考過程提前終止,進一步提升推理效率。SpecExit 整體框架如圖 3 所示,僅需對 MTP 的隱藏層進行低成本的擴展,即可高效加速并壓縮推理模型的思維鏈。

圖 3 SpecExit 方法架構(gòu)總覽

2.1 SpecExit 訓(xùn)練流程

(1)數(shù)據(jù)構(gòu)建:我們首先獲取基礎(chǔ)模型生成的完整輸出,并提取位于 <think> 和 </think> 詞元之間的推理內(nèi)容。為了識別有效的推理軌跡,我們迭代嘗試在段落結(jié)束位置插入推理結(jié)束詞元 </think>,并驗證生成的最終答案是否與原始輸出匹配。如果答案保持一致,則后續(xù)的推理內(nèi)容被視為冗余。因此,僅保留產(chǎn)生正確答案所需的最小推理片段作為訓(xùn)練數(shù)據(jù)。

(2)信號標注:置信度 Confidence 定義為預(yù)測步驟中概率的幾何平均數(shù),反映生成的可靠性;剩余推理長度 Remain 定義為從當前詞元位置到最早有效 </think> 插入點的剩余詞元數(shù)量,量化推理的剩余工作量;推理進度 Progress 表示為從 0 到 1 的歸一化值,捕捉思維鏈的相對進度。

(3)信號回歸:我們提出了一種簡便高效的擴展方法,通過在 MTP 模塊的線性投影層中引入少量額外維度來回歸推理信號。這些維度與詞元分類權(quán)重正交,確保信號回歸不會干擾推測解碼訓(xùn)練的收斂。多任務(wù)學(xué)習(Multi-Task Learning, MTL)將詞元分類損失和信號回歸損失聯(lián)合優(yōu)化,整體訓(xùn)練目標如下:

其中,詞元分類預(yù)測使用標準交叉熵損失,置信度和推理進度使用均方誤差(Mean Squared Error, MSE),剩余推理長度使用均方對數(shù)誤差(Mean Squared Logarithmic Error, MSLE),λc、λp、λr 表示動態(tài)權(quán)重系數(shù)。置信度、推理進度、剩余推理長度三個信號量的損失函數(shù)公式如下:

由于信號回歸損失的收斂速度比詞元分類損失更快,我們采用基于梯度的動態(tài)權(quán)重策略來平衡不同任務(wù)的貢獻。該機制為梯度幅度較小的任務(wù)分配更高權(quán)重,防止梯度較大的任務(wù)主導(dǎo)學(xué)習過程,從而確保所有任務(wù)都能得到有效優(yōu)化,訓(xùn)練損失收斂曲線如圖 4 所示。

圖 4 訓(xùn)練 Loss 收斂曲線 

圖 5 信號引導(dǎo)的投機采樣思考早停 Inference 過程

2.2 SpecExit 在 vLLM 推理流程

我們基于投機采樣框架構(gòu)建了思考早停機制,其中草稿模型首先產(chǎn)出一系列候選詞元,隨后由目標模型并行驗證。特別的,在目標模型驗證流程中,除了計算下一個詞元的 Logits 外,還計算最后一個被接受詞元對應(yīng)的最終隱藏狀態(tài)。如圖 6 所示,該表征通過草稿模型的輕量級線性層處理后,額外生成置信度分數(shù)、推理進度以及剩余推理長度三個信號的預(yù)測值。

原始信號存在一定的波動性,可能導(dǎo)致過早或不穩(wěn)定的思考早停。因此 SpecExit 采用指數(shù)加權(quán)移動平均(Exponentially Weighted Moving Average, EWMA)方法對信號進行平滑處理。在每次 Decoding 中,平滑值更新為當前信號與先前平滑值的加權(quán)平均,確保了思考早停在持續(xù)解碼階段的高魯棒性。

圖 6 SpecExit 思維鏈壓縮示例

同時,為確保思考早停的決策發(fā)生在語義連貫的邊界處,我們引入了一類稱為步驟分割詞元的特殊標識符,用于指示生成文本中的自然分段點。具體而言,步驟分割詞元可分為兩類:

(1)段落分隔符(如.\n\n),標記段落或推理單元的結(jié)束;

(2)語義上的句子間邏輯連接詞(如 "But"、"So" 或 "Therefore"),常在推理過程中標示語義轉(zhuǎn)換或邏輯轉(zhuǎn)折。

由于基于段落分隔符的分割策略更具普適性,我們的實驗?zāi)J采用該策略。當采樣到的詞元屬于上述集合時,且預(yù)測的信號超過預(yù)設(shè)閾值,則判定推理過程已充分。此時,SpecExit 會在當前分割詞元位置截斷已接受的草稿詞元,并將目標模型的最新詞元替換為 </think>,從而確保終止點位于自然邊界的同時保持生成文本的連貫性。并且 SpecExit 在 vLLM 框架上已端到端支持,在實踐應(yīng)用上可以很便捷的集成。

3. 實驗結(jié)果

我們在數(shù)學(xué)、科學(xué)、編程和邏輯基準測試上對 SpecExit 方法進行了評估,如表 1 實驗結(jié)果顯示,SpecExit 顯著縮短了推理過程。在 Qwen3-4B-Thinking-2507 模型上,GSM8K 和 ARC-Challenge 的數(shù)據(jù)集推理長度分別減少了 54% 和 53%;在 DeepSeek-R1-Distill-Llama-8B 模型上,推理長度分別減少了 66% 和 64%。推理長度大幅縮短的同時,SpecExit 基本無額外探測開銷,所以 vLLM 上端到端加速提升顯著,例如在 GSM8K 數(shù)據(jù)集上,與投機采用基線 EAGLE3 相比,SpecExit 在兩個模型上分別實現(xiàn)了 1.9 倍和 2.5 倍的加速比。與此同時,SpecExit 在各基準測試上 Acc 基本無損。

表 1 SpecExit 評估與性能測試,Acc 表示精度,Tok 表示輸出詞元數(shù)量,Lat 表示端到端時延

與此相比,其他思考早停方法雖然也可以減少輸出長度,但延遲增益很有限,甚至在某些數(shù)據(jù)集上,額外的計算開銷反而導(dǎo)致推理速度變慢。而 SpecExit 不僅縮短思考長度,而且推理時延加速非常明顯,在實際應(yīng)用中更加實用。

對于思考停止信號的選擇,我們進行了融合信號與分別單獨使用置信度 Confidence、推理進度 Progress、剩余推理長度 Remain 的消融實驗。實驗結(jié)果如圖 7 所示,融合多種信號的策略能夠在減少輸出長度和維持精度表現(xiàn)之間做到更好的平衡。

圖 7 信號類型消融實驗

4. 總結(jié)

SpecExit 結(jié)合投機采樣,在不影響準確性的前提下在 vLLM 上實現(xiàn)最高達 2.5 倍的端到端推理速度提升,是 LRMs 實踐落地的非常有效的加速算法。正是利用了投機采樣的草稿模型,SpecExit 能在解碼過程中同時預(yù)測未來詞元和思考早停信號,不會增加額外的探測開銷,與其他方法相比有更多的性能優(yōu)勢,在實踐落地非常實用。

在多樣化任務(wù)和模型上的實驗表明,SpecExit 泛化能力非常好,并且該方法揭示了隱藏狀態(tài)作為高效推理信息信號的潛力,也將為繼續(xù)深入發(fā)掘隱藏狀態(tài)作用的后續(xù)研究工作提供很大的借鑒意義。歡迎關(guān)注我們的 SpecExit 方法。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-10-10 08:52:43

PNG類型Chinchilla

2025-07-11 08:54:00

2025-10-11 18:05:23

AI大模型工具

2025-06-30 08:42:00

模型訓(xùn)練AI

2022-06-15 16:06:29

LZ4 算法硬件加速

2025-05-26 09:41:26

2024-03-15 10:20:14

自動駕駛模型

2022-06-30 10:38:53

Lepton無損壓縮圖片圖片質(zhì)量

2015-08-31 10:10:48

Dropbox無損壓縮算法云存儲

2023-12-14 13:30:00

AI模型

2025-01-16 10:11:58

2025-10-27 09:06:00

2024-09-10 12:11:18

2022-06-08 16:29:45

無損壓縮方案分布式

2019-04-11 09:22:31

AI 數(shù)據(jù)人工智能

2018-02-27 16:48:16

華為
點贊
收藏

51CTO技術(shù)棧公眾號