偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<i id="jaswm"></i>

<pre id="jaswm"><fieldset id="jaswm"><input id="jaswm"></input></fieldset></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepSeek推理最高提速6倍！開源研究：加裝「思維進(jìn)度條」，計(jì)算量減少30%

2025-07-08 09:05:00

人工智能新聞

來(lái)自特拉維夫大學(xué)的研究團(tuán)隊(duì)開發(fā)出了一種新方法，可以監(jiān)控和控制LLM中的思考路徑長(zhǎng)度。

DeepSeek推理要詳細(xì)還是要迅速，現(xiàn)在可以自己選了？

來(lái)自特拉維夫大學(xué)的研究團(tuán)隊(duì)開發(fā)出了一種新方法，可以監(jiān)控和控制LLM中的思考路徑長(zhǎng)度。

給LLM的推理任務(wù)裝上進(jìn)度條，還能控制推理的深度、調(diào)整推理速度。

加速后的模型和原模型相比，使用的token數(shù)減少了近6倍，且都得出了正確答案。

LLMs在顯示結(jié)構(gòu)化推理時(shí)，會(huì)隱式跟蹤其在思考階段的相對(duì)位置，并通過(guò)隱藏狀態(tài)編碼這一信息。

而論文提出了一種“思維進(jìn)度向量”（Thinking Progress Vector, TPV），可用于實(shí)時(shí)預(yù)測(cè)模型在推理階段的相對(duì)位置，并通過(guò)可視化進(jìn)度條展示模型的推理動(dòng)態(tài)。

通過(guò)干預(yù)TPV，可以加速或減速模型的推理過(guò)程，實(shí)現(xiàn)“超頻”（overclocking）和“降頻”（downclocking）。

超頻能夠減少不必要的推理步驟，使模型更快地得出結(jié)論，同時(shí)避免因過(guò)度推理導(dǎo)致的性能下降。

該模型已在gitHub上開源。

方法：實(shí)時(shí)監(jiān)控并控制推理深度

在有效推理學(xué)習(xí)過(guò)程中，模型必須隱式地學(xué)習(xí)跟蹤其思考階段進(jìn)度，并保持對(duì)例如距離最終答案有多近的估計(jì)。

由于進(jìn)度跟蹤依賴于輸入，這類信息不能存儲(chǔ)在模型的靜態(tài)權(quán)重中，而必須動(dòng)態(tài)編碼在層間傳遞的隱藏表示中。

為此，論文的研究團(tuán)隊(duì)選擇從最終隱藏層提取信息。

研究團(tuán)隊(duì)專注于執(zhí)行顯式結(jié)構(gòu)化推理的模型，這種模型的特點(diǎn)是具有一個(gè)由<think>和</think>標(biāo)記明確界定且連續(xù)的推理階段，如DeepSeek-R1。

由此可以通過(guò)根據(jù)每個(gè)標(biāo)記的相對(duì)位置精確地用介于零和一之間的插值值進(jìn)行標(biāo)記，來(lái)量化模型在推理階段的進(jìn)展。

形式上，通過(guò)以下方式構(gòu)建數(shù)據(jù)集??：

其中是第k個(gè)思考軌跡中第j個(gè)詞的隱藏表示，是該詞在其思考序列中的相對(duì)位置。K表示采樣軌跡的數(shù)量，??中的總樣本數(shù)為。

在此基礎(chǔ)上優(yōu)化一個(gè)進(jìn)度提取函數(shù)，將隱藏表示映射為其相對(duì)位置，形式為一個(gè)回歸任務(wù)。

使用參數(shù)為的線性回歸器作為函數(shù)來(lái)進(jìn)行擬合進(jìn)度屬性，將參數(shù)向量??稱為稱為“思考進(jìn)度向量”（TPV）。

為了提高預(yù)測(cè)效果，利用模型的自回歸特性，并對(duì)預(yù)測(cè)歷史應(yīng)用指數(shù)平滑以減少噪聲。在Math-500測(cè)試集中進(jìn)行TPV預(yù)測(cè)，結(jié)果如下圖所示：

其中圖（a）展示了多個(gè)思考軌跡的數(shù)據(jù)點(diǎn)的匯總視圖，圖（b, c）則展示了Math-500測(cè)試集中單個(gè)問(wèn)題的思考軌跡上的TPV預(yù)測(cè)和平滑預(yù)測(cè)。

可以看到，兩種方法都成功預(yù)測(cè)了相對(duì)位置，而后者產(chǎn)生了更精確的結(jié)果，可用于創(chuàng)建更清晰、更易于解釋的進(jìn)度條。

受此啟發(fā)，為了更好地利用進(jìn)度條預(yù)測(cè)任務(wù)的時(shí)序結(jié)構(gòu)，使用可訓(xùn)練的序列模型替換指數(shù)平滑，即使用與??相同的訓(xùn)練樣本，只是將相對(duì)位置序列作為輸入，而不是進(jìn)行單步預(yù)測(cè)：

通過(guò)這種方法，就可以實(shí)現(xiàn)推理進(jìn)度的可視化。

一個(gè)關(guān)鍵問(wèn)題是，TPVs是否反映了模型用來(lái)跟蹤其推理進(jìn)度的基本機(jī)制，或者它們是否僅僅是與進(jìn)度相關(guān)但不起因果作用計(jì)算的殘余物？

為解決這一疑惑，對(duì)TPY進(jìn)行干預(yù)：通過(guò)投影向量??的方向?qū)㈦[藏表示??移動(dòng)量α，即，修改后的表示具有新的預(yù)測(cè)值。

通過(guò)在所有注意力層執(zhí)行此干預(yù)，就可以干預(yù)下一個(gè)詞的預(yù)測(cè)，并避免編輯在連續(xù)解碼步驟中緩存和使用的表示值。

在實(shí)驗(yàn)中，將α視為決定干預(yù)強(qiáng)度的超參數(shù)。設(shè)置α=0會(huì)導(dǎo)致沒有干預(yù)，保留原始計(jì)算。 α的正值會(huì)導(dǎo)致超頻。

實(shí)驗(yàn)證明，超頻將加速模型的推理階段，使其更短、更果斷：

上圖比較了DeepSeek-R1-Distill-Qwen-32B模型生成的兩種思考序列——干預(yù)前和干預(yù)后。

原始序列表現(xiàn)出猶豫和冗長(zhǎng)，而TPV加速版本則顯著更簡(jiǎn)潔，使用的token數(shù)量減少了近6倍。

并且，兩條軌跡最終都得到了正確的答案。

效果：最高提速近6倍，準(zhǔn)確率不降反升

在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上測(cè)量TPV的有效性，結(jié)果如下所示：

實(shí)驗(yàn)結(jié)果揭示了四個(gè)顯著趨勢(shì)：

1、α 的影響：增加α從5到100，無(wú)論是否使用基于指令的加速，都會(huì)增加模型生成的完成、結(jié)束和正確答案的數(shù)量，證明TPV的干預(yù)方法影響了思考長(zhǎng)度。

2、將加速基線與基礎(chǔ)模型進(jìn)行比較：基線（ii）和（iii）通過(guò)提示響應(yīng)和基于溫度的集成來(lái)加速基礎(chǔ)模型。在大多數(shù)情況下，這兩種方法都提高了所有三個(gè)指標(biāo)，證明它們是評(píng)估TPV超頻方法的強(qiáng)基線。

3、與基線方法的比較：盡管基線方法表現(xiàn)優(yōu)異，且基于溫度的基線方法需要大約五倍的計(jì)算資源，但TPV的方法通過(guò)產(chǎn)生更多正確答案和更明確的響應(yīng)，在性能上超越了它們。

在計(jì)算預(yù)算較低（如256或512個(gè)token）的情況下，TPV的方法增加了80%的正確答案，并且這些正確答案的增加并未以增加錯(cuò)誤率為代價(jià)，錯(cuò)誤率保持不變。這表明，TPV方法縮短了推理過(guò)程而不增加錯(cuò)誤，促進(jìn)了更明確的思考。

對(duì)于大于512的計(jì)算預(yù)算，通常遵循相同趨勢(shì)，在大多數(shù)情況下正確答案數(shù)量有所提升，而錯(cuò)誤率并未增加。

4、互補(bǔ)性貢獻(xiàn)：盡管實(shí)證研究結(jié)果證實(shí)TPV方法比基線方法更有效，但仍有該方法落后于基于提示的方法（記為“指令”）的情況。一個(gè)突出的例子是在 Math 500 上使用 2048個(gè)token 預(yù)算的機(jī)制，其中指令基線正確回答的比例比TPV方法高出10%。

這一觀察引發(fā)了這樣的問(wèn)題：這些改進(jìn)是正交的還是相互競(jìng)爭(zhēng)的？

將基于指令的提示技術(shù)與TPV的干預(yù)方法相結(jié)合，并與每種方法單獨(dú)進(jìn)行比較。結(jié)果如表中最后兩行所示：這種混合方法在大多數(shù)情況下始終表現(xiàn)出最佳性能，平均提高了66% ，最高提高了285% ；相對(duì)于基礎(chǔ)模型平均提高了223% ，最高提高了1416% 。

這些發(fā)現(xiàn)表明TPV方法與提示策略相輔相成，可以有效地與其他加速技術(shù)相結(jié)合。

對(duì)Math-500和GSM8K數(shù)據(jù)集進(jìn)行一系列干預(yù)實(shí)驗(yàn)，通過(guò)改變干預(yù)參數(shù)α來(lái)超頻模型的思考階段。

結(jié)果顯示，增加α可以持續(xù)縮短思考階段的長(zhǎng)度，使推理過(guò)程更加高效。

這些發(fā)現(xiàn)支持TPV在模型內(nèi)部計(jì)算中充當(dāng)一種主動(dòng)控制的信號(hào)，而不是被動(dòng)相關(guān)。

當(dāng)使用提示策略（基線 iii）在GSM8K數(shù)據(jù)集上對(duì) DeepSeek-R1 LLaMA模型應(yīng)用TPV方法時(shí)，平均 token 數(shù)量從大約500減少到不到350，計(jì)算量減少了30%。

此外，所有α的正值都相對(duì)于基線（ α=0 ）持續(xù)加速思考階段，并提高了其有效性。

為進(jìn)一步評(píng)估TPVs在估計(jì)模型在其推理過(guò)程中位置時(shí)的可靠性，研究團(tuán)隊(duì)還在兩種附加條件下測(cè)試了它們的性能：

(i) 不同的提示策略
(ii) 不同的推理序列長(zhǎng)度

圖(a-d) 顯示TPVs在各種指令中仍然有效，這與訓(xùn)練期間使用的原始提示不同。

圖(e) 顯示在不同思考序列長(zhǎng)度分箱中測(cè)試損失始終較低，表明對(duì)推理深度的變化具有魯棒性。

更多內(nèi)容可見論文詳細(xì)。

參考鏈接：https://royeisen.github.io/OverclockingLLMReasoning-paper/

代碼：https://github.com/royeisen/reasoning_loading_bar

論文：https://arxiv.org/abs/2506.07240

責(zé)任編輯：張燕妮來(lái)源：量子位

DeepSeek 推理模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="5mngo"><table id="5mngo"></table></abbr>