偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="drwxf"></style>

<pre id="drwxf"><dfn id="drwxf"></dfn></pre>

<var id="drwxf"></var>

<code id="drwxf"></code>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

算力成本大降！馬爾可夫思考機(jī)來了，LLM推理成本直接降為線性

2025-10-11 09:06:52

人工智能新聞

他們提出了一種新的范式，其中策略會(huì)在基于一個(gè)固定大小的狀態(tài)上進(jìn)行推理。他們將這樣的策略命名為馬爾可夫式思考機(jī)（Markovian Thinker)。

用強(qiáng)化學(xué)習(xí)讓 LLM 具備推理（reasoning）能力確實(shí)很有效，但耗費(fèi)頗高。

這類模型在回答問題前會(huì)生成一長串的思維鏈（LongCoT）；并且增加「思考 token」的數(shù)量能夠提升模型的能力。與任何強(qiáng)化學(xué)習(xí)問題一樣，它存在一個(gè)決定軌跡如何生成的環(huán)境。

對(duì)于推理 LLM 而言，這個(gè)環(huán)境相當(dāng)簡(jiǎn)單，以至于常常被忽略：狀態(tài)（state）是由提示詞（prompt）與截至目前已生成的推理 token 拼接而成，而動(dòng)作（action）則是從策略（即推理 LLM）中采樣的下一個(gè) token。

這種設(shè)計(jì)看似輕巧，但卻可能導(dǎo)致狀態(tài)的大小沒有邊界 —— 會(huì)隨著思考過程的加長而不斷增長。對(duì)于基于注意力機(jī)制的策略來說，這意味著整個(gè)過程中的計(jì)算量會(huì)面臨令人望而卻步的二次級(jí)增長。

為了降低推理 LLM 長思考的計(jì)算量，人們已經(jīng)提出了許多方法，包括使用帶有長度正則化的目標(biāo)函數(shù)、剪枝或早停方法等。

而近日，Mila 和微軟研究院等多家機(jī)構(gòu)的一個(gè)聯(lián)合研究團(tuán)隊(duì)卻另辟蹊徑，提出了一個(gè)不同的問題：如果環(huán)境從一開始就不會(huì)造成計(jì)算量的二次級(jí)增長呢？

他們提出了一種新的范式，其中策略會(huì)在基于一個(gè)固定大小的狀態(tài)上進(jìn)行推理。他們將這樣的策略命名為馬爾可夫式思考機(jī)（Markovian Thinker)。

論文標(biāo)題：The Markovian Thinker
論文地址：https://arxiv.org/abs/2510.06557v1
模型地址：https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
代碼倉庫：https://github.com/McGill-NLP/the-markovian-thinker

這項(xiàng)研究的三位共一作者之一的 Amirhossein Kazemnejad 在 ?? 上表示，Delethink 的有效性開啟了強(qiáng)化學(xué)習(xí)思維環(huán)境的創(chuàng)新。此外，馬爾可夫思維的程度及其有效性表明，推理 LLM 可以以不同的方式構(gòu)建，或許可以采用非二次架構(gòu)。

馬爾可夫式思考機(jī)

馬爾可夫式思考機(jī)的核心思想是重構(gòu)強(qiáng)化學(xué)習(xí)的構(gòu)成形式，使得無論總思考長度如何，策略讀取的有效狀態(tài)大小都是有界的。其直接效果是深遠(yuǎn)的：更長的思考過程僅需線性的計(jì)算量和恒定的內(nèi)存，這與思考長度有關(guān)，從而將「模型思考多久」與「它必須處理多少上下文」這兩個(gè)問題解耦。

他們通過 Delethink 這一范式對(duì)思想進(jìn)行了實(shí)例化。它是一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境，通過將推理過程組織成一系列固定大小的區(qū)塊（chunk）來引導(dǎo)馬爾可夫行為。

Delethink 將思維強(qiáng)化學(xué)習(xí)環(huán)境重新定義為一個(gè)分塊的、馬爾可夫式的過程：其生成過程以固定大小的區(qū)塊 (chunk) 進(jìn)行，在每個(gè)區(qū)塊的邊界處，環(huán)境會(huì)將上下文 (context) 重置為一個(gè)全新的提示詞，該提示詞包含原始查詢以及一小段來自前一個(gè)區(qū)塊的延續(xù)內(nèi)容。

這會(huì)迫使策略 (policy) 必須學(xué)會(huì)通過維持一個(gè)文本狀態(tài)來跨區(qū)塊推進(jìn)思考，從而創(chuàng)建一個(gè)「馬爾可夫式思考機(jī)」 (Markovian Thinker)。

相比之下，LongCoT 環(huán)境會(huì)無限制地拼接 token，因此其狀態(tài)（以及模型上下文）會(huì)隨著軌跡 (trace) 的延長而不斷增長。

算法 1 的偽代碼展示了對(duì)單個(gè)查詢的訓(xùn)練過程。

更多細(xì)節(jié)請(qǐng)?jiān)L問原論文?？傊?，經(jīng)過這樣的設(shè)計(jì)，在 Delethink 中的生成和用于更新策略的反向傳播兩個(gè)階段都是線性 scaling 的，而在 LongCoT 中則是二次級(jí)的。下圖展示了當(dāng)思考長度從 n token 增長到 nS token 時(shí)，LongCoT 和 Delethink 的 FLOP、內(nèi)存、反向傳播時(shí)間、生成時(shí)間的變化情況。

效果顯著

該團(tuán)隊(duì)進(jìn)行了實(shí)驗(yàn)：Delethink 的效果非常顯著。即便以 8K 大小的區(qū)塊進(jìn)行推理，使用 Delethink 訓(xùn)練的 DeepSeek R1-Distill 1.5B 模型依然可以思考長達(dá) 24K token，在相同的 24K 思考預(yù)算下，其在數(shù)學(xué)基準(zhǔn)測(cè)試上的表現(xiàn)能達(dá)到并超過 LongCoT-RL。

在測(cè)試時(shí)擴(kuò)展方面，Delethink 在 LongCoT-RL 性能飽和時(shí)仍能持續(xù)提升，帶來了額外的增益。

更進(jìn)一步，他們使用 Delethink 訓(xùn)練 R1-Distill 1.5B 模型進(jìn)行長達(dá) 96K token 的思考；僅需少量額外的訓(xùn)練步驟，它就在 AIME’24 上達(dá)到了 49% 的準(zhǔn)確度，其解題過程平均長度為 36K token。

線性計(jì)算帶來的效果是顯著的：他們根據(jù)實(shí)驗(yàn)數(shù)據(jù)估計(jì)，對(duì)于平均 94K 的思考長度，LongCoT-RL 訓(xùn)練需要 27 個(gè) H100 - 月，而使用 Delethink 則僅需 7 個(gè) H100 - 月。

為什么有效？

為了探究 Delethink 訓(xùn)練有效的原因，他們還分析了模型在強(qiáng)化學(xué)習(xí)初始化階段的表現(xiàn)。

他們觀察到，R1-Distill 系列模型（1.5B-14B) 在沒有任何額外訓(xùn)練或提示的情況下已經(jīng)能夠零樣本（zero-shot）地采樣出馬爾可夫式的軌跡，甚至恢復(fù)了大部分標(biāo)準(zhǔn) LongCoT 的性能。

這種強(qiáng)大的初始化（即大量符合期望行為的、分布內(nèi)的正向樣本）為強(qiáng)化學(xué)習(xí)提供了一個(gè)有利的起點(diǎn)。

他們進(jìn)一步在 Delethink 環(huán)境中研究了參數(shù)量高達(dá) 120B 的推理模型。例如，GPT-OSS 120B（Agarwal et al., 2025）在博士水平問題、編程任務(wù)、數(shù)學(xué)競(jìng)賽和填字游戲等多個(gè)領(lǐng)域都表現(xiàn)出穩(wěn)健的馬爾可夫式思考能力。

這些結(jié)果共同表明，Delethink 能與最先進(jìn)的模型兼容，并能隨之?dāng)U展。

結(jié)語

馬爾可夫式思考的成功表明，將思考長度與上下文大小解耦原則上可以讓下一代推理模型進(jìn)行數(shù)百萬 token 的思考。它凸顯了通常被視為固定不變的強(qiáng)化學(xué)習(xí)環(huán)境，實(shí)際上是推動(dòng)進(jìn)步的強(qiáng)大杠桿。

這也表明，非二次級(jí)復(fù)雜度的序列架構(gòu)可能會(huì)讓推理模型受益尤多，因?yàn)樗伎歼^程可以被有效地轉(zhuǎn)化為馬爾可夫式的。

責(zé)任編輯：張燕妮來源：機(jī)器之心

LLM 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="tdil1"><p id="tdil1"></p></sub>