DeepSeek推理最高提速6倍!開源研究:加裝「思維進(jìn)度條」,計(jì)算量減少30%
DeepSeek推理要詳細(xì)還是要迅速,現(xiàn)在可以自己選了?
來(lái)自特拉維夫大學(xué)的研究團(tuán)隊(duì)開發(fā)出了一種新方法,可以監(jiān)控和控制LLM中的思考路徑長(zhǎng)度。
給LLM的推理任務(wù)裝上進(jìn)度條,還能控制推理的深度、調(diào)整推理速度。
加速后的模型和原模型相比,使用的token數(shù)減少了近6倍,且都得出了正確答案。

LLMs在顯示結(jié)構(gòu)化推理時(shí),會(huì)隱式跟蹤其在思考階段的相對(duì)位置,并通過(guò)隱藏狀態(tài)編碼這一信息。
而論文提出了一種“思維進(jìn)度向量”(Thinking Progress Vector, TPV),可用于實(shí)時(shí)預(yù)測(cè)模型在推理階段的相對(duì)位置,并通過(guò)可視化進(jìn)度條展示模型的推理動(dòng)態(tài)。

通過(guò)干預(yù)TPV,可以加速或減速模型的推理過(guò)程,實(shí)現(xiàn)“超頻”(overclocking)和“降頻”(downclocking)。
超頻能夠減少不必要的推理步驟,使模型更快地得出結(jié)論,同時(shí)避免因過(guò)度推理導(dǎo)致的性能下降。

該模型已在gitHub上開源。
方法:實(shí)時(shí)監(jiān)控并控制推理深度
在有效推理學(xué)習(xí)過(guò)程中,模型必須隱式地學(xué)習(xí)跟蹤其思考階段進(jìn)度,并保持對(duì)例如距離最終答案有多近的估計(jì)。
由于進(jìn)度跟蹤依賴于輸入,這類信息不能存儲(chǔ)在模型的靜態(tài)權(quán)重中,而必須動(dòng)態(tài)編碼在層間傳遞的隱藏表示中。
為此,論文的研究團(tuán)隊(duì)選擇從最終隱藏層提取信息。
研究團(tuán)隊(duì)專注于執(zhí)行顯式結(jié)構(gòu)化推理的模型,這種模型的特點(diǎn)是具有一個(gè)由<think>和</think>標(biāo)記明確界定且連續(xù)的推理階段,如DeepSeek-R1。
由此可以通過(guò)根據(jù)每個(gè)標(biāo)記的相對(duì)位置精確地用介于零和一之間的插值值進(jìn)行標(biāo)記,來(lái)量化模型在推理階段的進(jìn)展。
形式上,通過(guò)以下方式構(gòu)建數(shù)據(jù)集??:

其中
是第k個(gè)思考軌跡中第j個(gè)詞的隱藏表示,
是該詞在其思考序列中的相對(duì)位置 。K表示采樣軌跡的數(shù)量,??中的總樣本數(shù)為
。
在此基礎(chǔ)上優(yōu)化一個(gè)進(jìn)度提取函數(shù)
,將隱藏表示映射為其相對(duì)位置,形式為一個(gè)回歸任務(wù)
。
使用參數(shù)為
的線性回歸器作為函數(shù)
來(lái)進(jìn)行擬合進(jìn)度屬性
,將參數(shù)向量??稱為稱為“思考進(jìn)度向量”(TPV)。
為了提高預(yù)測(cè)效果,利用模型的自回歸特性,并對(duì)預(yù)測(cè)歷史應(yīng)用指數(shù)平滑以減少噪聲。在Math-500測(cè)試集中進(jìn)行TPV預(yù)測(cè),結(jié)果如下圖所示:

其中圖(a)展示了多個(gè)思考軌跡的數(shù)據(jù)點(diǎn)的匯總視圖,圖 (b, c)則展示了Math-500測(cè)試集中單個(gè)問(wèn)題的思考軌跡上的TPV預(yù)測(cè)和平滑預(yù)測(cè)。
可以看到,兩種方法都成功預(yù)測(cè)了相對(duì)位置,而后者產(chǎn)生了更精確的結(jié)果,可用于創(chuàng)建更清晰、更易于解釋的進(jìn)度條。
受此啟發(fā),為了更好地利用進(jìn)度條預(yù)測(cè)任務(wù)的時(shí)序結(jié)構(gòu),使用可訓(xùn)練的序列模型替換指數(shù)平滑,即使用與??相同的訓(xùn)練樣本,只是將相對(duì)位置序列作為輸入,而不是進(jìn)行單步預(yù)測(cè):

通過(guò)這種方法,就可以實(shí)現(xiàn)推理進(jìn)度的可視化。
一個(gè)關(guān)鍵問(wèn)題是,TPVs是否反映了模型用來(lái)跟蹤其推理進(jìn)度的基本機(jī)制,或者它們是否僅僅是與進(jìn)度相關(guān)但不起因果作用計(jì)算的殘余物?
為解決這一疑惑,對(duì)TPY進(jìn)行干預(yù):通過(guò)投影向量??的方向?qū)㈦[藏表示??移動(dòng)量α,即
,修改后的表示具有新的預(yù)測(cè)值
。
通過(guò)在所有注意力層執(zhí)行此干預(yù),就可以干預(yù)下一個(gè)詞的預(yù)測(cè),并避免編輯在連續(xù)解碼步驟中緩存和使用的表示值。
在實(shí)驗(yàn)中,將α視為決定干預(yù)強(qiáng)度的超參數(shù)。設(shè)置α=0會(huì)導(dǎo)致沒有干預(yù),保留原始計(jì)算。 α的正值會(huì)導(dǎo)致超頻。
實(shí)驗(yàn)證明,超頻將加速模型的推理階段,使其更短、更果斷:

上圖比較了DeepSeek-R1-Distill-Qwen-32B模型生成的兩種思考序列——干預(yù)前和干預(yù)后。
原始序列表現(xiàn)出猶豫和冗長(zhǎng),而TPV加速版本則顯著更簡(jiǎn)潔,使用的token數(shù)量減少了近6倍。
并且,兩條軌跡最終都得到了正確的答案。
效果:最高提速近6倍,準(zhǔn)確率不降反升
在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上測(cè)量TPV的有效性,結(jié)果如下所示:

實(shí)驗(yàn)結(jié)果揭示了四個(gè)顯著趨勢(shì):
1、α 的影響:增加α從5到100,無(wú)論是否使用基于指令的加速,都會(huì)增加模型生成的完成、結(jié)束和正確答案的數(shù)量,證明TPV的干預(yù)方法影響了思考長(zhǎng)度。
2、將加速基線與基礎(chǔ)模型進(jìn)行比較:基線(ii)和(iii)通過(guò)提示響應(yīng)和基于溫度的集成來(lái)加速基礎(chǔ)模型。在大多數(shù)情況下,這兩種方法都提高了所有三個(gè)指標(biāo),證明它們是評(píng)估TPV超頻方法的強(qiáng)基線。
3、與基線方法的比較:盡管基線方法表現(xiàn)優(yōu)異,且基于溫度的基線方法需要大約五倍的計(jì)算資源,但TPV的方法通過(guò)產(chǎn)生更多正確答案和更明確的響應(yīng),在性能上超越了它們。
在計(jì)算預(yù)算較低(如256或512個(gè)token)的情況下,TPV的方法增加了80%的正確答案,并且這些正確答案的增加并未以增加錯(cuò)誤率為代價(jià),錯(cuò)誤率保持不變。這表明,TPV方法縮短了推理過(guò)程而不增加錯(cuò)誤,促進(jìn)了更明確的思考。
對(duì)于大于512的計(jì)算預(yù)算,通常遵循相同趨勢(shì),在大多數(shù)情況下正確答案數(shù)量有所提升,而錯(cuò)誤率并未增加。
4、互補(bǔ)性貢獻(xiàn):盡管實(shí)證研究結(jié)果證實(shí)TPV方法比基線方法更有效,但仍有該方法落后于基于提示的方法(記為“指令”)的情況。一個(gè)突出的例子是在 Math 500 上使用 2048個(gè)token 預(yù)算的機(jī)制,其中指令基線正確回答的比例比TPV方法高出10%。
這一觀察引發(fā)了這樣的問(wèn)題:這些改進(jìn)是正交的還是相互競(jìng)爭(zhēng)的?
將基于指令的提示技術(shù)與TPV的干預(yù)方法相結(jié)合,并與每種方法單獨(dú)進(jìn)行比較。結(jié)果如表中最后兩行所示:這種混合方法在大多數(shù)情況下始終表現(xiàn)出最佳性能,平均提高了66% ,最高提高了285% ;相對(duì)于基礎(chǔ)模型平均提高了223% ,最高提高了1416% 。
這些發(fā)現(xiàn)表明TPV方法與提示策略相輔相成,可以有效地與其他加速技術(shù)相結(jié)合。

對(duì)Math-500和GSM8K數(shù)據(jù)集進(jìn)行一系列干預(yù)實(shí)驗(yàn),通過(guò)改變干預(yù)參數(shù)α來(lái)超頻模型的思考階段。
結(jié)果顯示,增加α可以持續(xù)縮短思考階段的長(zhǎng)度,使推理過(guò)程更加高效。
這些發(fā)現(xiàn)支持TPV在模型內(nèi)部計(jì)算中充當(dāng)一種主動(dòng)控制的信號(hào),而不是被動(dòng)相關(guān)。
當(dāng)使用提示策略(基線 iii)在GSM8K數(shù)據(jù)集上對(duì) DeepSeek-R1 LLaMA模型應(yīng)用TPV方法時(shí),平均 token 數(shù)量從大約500減少到不到350,計(jì)算量減少了30%。
此外,所有α的正值都相對(duì)于基線( α=0 )持續(xù)加速思考階段,并提高了其有效性。

為進(jìn)一步評(píng)估TPVs在估計(jì)模型在其推理過(guò)程中位置時(shí)的可靠性,研究團(tuán)隊(duì)還在兩種附加條件下測(cè)試了它們的性能:
- (i) 不同的提示策略
- (ii) 不同的推理序列長(zhǎng)度
圖(a-d) 顯示TPVs在各種指令中仍然有效,這與訓(xùn)練期間使用的原始提示不同。
圖(e) 顯示在不同思考序列長(zhǎng)度分箱中測(cè)試損失始終較低,表明對(duì)推理深度的變化具有魯棒性。
更多內(nèi)容可見論文詳細(xì)。
參考鏈接:https://royeisen.github.io/OverclockingLLMReasoning-paper/
代碼:https://github.com/royeisen/reasoning_loading_bar
論文:https://arxiv.org/abs/2506.07240





























