偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

算力成本大降!馬爾可夫思考機(jī)來了,LLM推理成本直接降為線性

人工智能 新聞
他們提出了一種新的范式,其中策略會(huì)在基于一個(gè)固定大小的狀態(tài)上進(jìn)行推理。他們將這樣的策略命名為馬爾可夫式思考機(jī)(Markovian Thinker)。

用強(qiáng)化學(xué)習(xí)讓 LLM 具備推理(reasoning)能力確實(shí)很有效,但耗費(fèi)頗高。

這類模型在回答問題前會(huì)生成一長串的思維鏈(LongCoT);并且增加「思考 token」 的數(shù)量能夠提升模型的能力。與任何強(qiáng)化學(xué)習(xí)問題一樣,它存在一個(gè)決定軌跡如何生成的環(huán)境。

對(duì)于推理 LLM 而言,這個(gè)環(huán)境相當(dāng)簡(jiǎn)單,以至于常常被忽略:狀態(tài)(state)是由提示詞(prompt)與截至目前已生成的推理 token 拼接而成,而動(dòng)作(action)則是從策略(即推理 LLM)中采樣的下一個(gè) token。

這種設(shè)計(jì)看似輕巧,但卻可能導(dǎo)致狀態(tài)的大小沒有邊界 —— 會(huì)隨著思考過程的加長而不斷增長。對(duì)于基于注意力機(jī)制的策略來說,這意味著整個(gè)過程中的計(jì)算量會(huì)面臨令人望而卻步的二次級(jí)增長。

為了降低推理 LLM 長思考的計(jì)算量,人們已經(jīng)提出了許多方法,包括使用帶有長度正則化的目標(biāo)函數(shù)、剪枝或早停方法等。

而近日,Mila 和微軟研究院等多家機(jī)構(gòu)的一個(gè)聯(lián)合研究團(tuán)隊(duì)卻另辟蹊徑,提出了一個(gè)不同的問題:如果環(huán)境從一開始就不會(huì)造成計(jì)算量的二次級(jí)增長呢?

他們提出了一種新的范式,其中策略會(huì)在基于一個(gè)固定大小的狀態(tài)上進(jìn)行推理。他們將這樣的策略命名為馬爾可夫式思考機(jī)(Markovian Thinker)。

  • 論文標(biāo)題:The Markovian Thinker
  • 論文地址:https://arxiv.org/abs/2510.06557v1
  • 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
  • 代碼倉庫:https://github.com/McGill-NLP/the-markovian-thinker

這項(xiàng)研究的三位共一作者之一的 Amirhossein Kazemnejad 在 ?? 上表示,Delethink 的有效性開啟了強(qiáng)化學(xué)習(xí)思維環(huán)境的創(chuàng)新。此外,馬爾可夫思維的程度及其有效性表明,推理 LLM 可以以不同的方式構(gòu)建,或許可以采用非二次架構(gòu)。

馬爾可夫式思考機(jī)

馬爾可夫式思考機(jī)的核心思想是重構(gòu)強(qiáng)化學(xué)習(xí)的構(gòu)成形式,使得無論總思考長度如何,策略讀取的有效狀態(tài)大小都是有界的。其直接效果是深遠(yuǎn)的:更長的思考過程僅需線性的計(jì)算量和恒定的內(nèi)存,這與思考長度有關(guān),從而將「模型思考多久」與「它必須處理多少上下文」這兩個(gè)問題解耦。

他們通過 Delethink 這一范式對(duì)思想進(jìn)行了實(shí)例化。它是一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境,通過將推理過程組織成一系列固定大小的區(qū)塊(chunk)來引導(dǎo)馬爾可夫行為。

Delethink 將思維強(qiáng)化學(xué)習(xí)環(huán)境重新定義為一個(gè)分塊的、馬爾可夫式的過程:其生成過程以固定大小的區(qū)塊 (chunk) 進(jìn)行,在每個(gè)區(qū)塊的邊界處,環(huán)境會(huì)將上下文 (context) 重置為一個(gè)全新的提示詞,該提示詞包含原始查詢以及一小段來自前一個(gè)區(qū)塊的延續(xù)內(nèi)容。

這會(huì)迫使策略 (policy) 必須學(xué)會(huì)通過維持一個(gè)文本狀態(tài)來跨區(qū)塊推進(jìn)思考,從而創(chuàng)建一個(gè)「馬爾可夫式思考機(jī)」 (Markovian Thinker)。

相比之下,LongCoT 環(huán)境會(huì)無限制地拼接 token,因此其狀態(tài)(以及模型上下文)會(huì)隨著軌跡 (trace) 的延長而不斷增長。

算法 1 的偽代碼展示了對(duì)單個(gè)查詢的訓(xùn)練過程。

更多細(xì)節(jié)請(qǐng)?jiān)L問原論文??傊?,經(jīng)過這樣的設(shè)計(jì),在 Delethink 中的生成和用于更新策略的反向傳播兩個(gè)階段都是線性 scaling 的,而在 LongCoT 中則是二次級(jí)的。下圖展示了當(dāng)思考長度從 n token 增長到 nS token 時(shí),LongCoT 和 Delethink 的 FLOP、內(nèi)存、反向傳播時(shí)間、生成時(shí)間的變化情況。

效果顯著

該團(tuán)隊(duì)進(jìn)行了實(shí)驗(yàn):Delethink 的效果非常顯著。即便以 8K 大小的區(qū)塊進(jìn)行推理,使用 Delethink 訓(xùn)練的 DeepSeek R1-Distill 1.5B 模型依然可以思考長達(dá) 24K token,在相同的 24K 思考預(yù)算下,其在數(shù)學(xué)基準(zhǔn)測(cè)試上的表現(xiàn)能達(dá)到并超過 LongCoT-RL。

在測(cè)試時(shí)擴(kuò)展方面,Delethink 在 LongCoT-RL 性能飽和時(shí)仍能持續(xù)提升,帶來了額外的增益。

更進(jìn)一步,他們使用 Delethink 訓(xùn)練 R1-Distill 1.5B 模型進(jìn)行長達(dá) 96K token 的思考;僅需少量額外的訓(xùn)練步驟,它就在 AIME’24 上達(dá)到了 49% 的準(zhǔn)確度,其解題過程平均長度為 36K token。

線性計(jì)算帶來的效果是顯著的:他們根據(jù)實(shí)驗(yàn)數(shù)據(jù)估計(jì),對(duì)于平均 94K 的思考長度,LongCoT-RL 訓(xùn)練需要 27 個(gè) H100 - 月,而使用 Delethink 則僅需 7 個(gè) H100 - 月。

為什么有效?

為了探究 Delethink 訓(xùn)練有效的原因,他們還分析了模型在強(qiáng)化學(xué)習(xí)初始化階段的表現(xiàn)。

他們觀察到,R1-Distill 系列模型(1.5B-14B) 在沒有任何額外訓(xùn)練或提示的情況下已經(jīng)能夠零樣本(zero-shot)地采樣出馬爾可夫式的軌跡,甚至恢復(fù)了大部分標(biāo)準(zhǔn) LongCoT 的性能。

這種強(qiáng)大的初始化(即大量符合期望行為的、分布內(nèi)的正向樣本)為強(qiáng)化學(xué)習(xí)提供了一個(gè)有利的起點(diǎn)。

他們進(jìn)一步在 Delethink 環(huán)境中研究了參數(shù)量高達(dá) 120B 的推理模型。例如,GPT-OSS 120B(Agarwal et al., 2025)在博士水平問題、編程任務(wù)、數(shù)學(xué)競(jìng)賽和填字游戲等多個(gè)領(lǐng)域都表現(xiàn)出穩(wěn)健的馬爾可夫式思考能力。

這些結(jié)果共同表明,Delethink 能與最先進(jìn)的模型兼容,并能隨之?dāng)U展。

結(jié)語

馬爾可夫式思考的成功表明,將思考長度與上下文大小解耦原則上可以讓下一代推理模型進(jìn)行數(shù)百萬 token 的思考。它凸顯了通常被視為固定不變的強(qiáng)化學(xué)習(xí)環(huán)境,實(shí)際上是推動(dòng)進(jìn)步的強(qiáng)大杠桿。

這也表明,非二次級(jí)復(fù)雜度的序列架構(gòu)可能會(huì)讓推理模型受益尤多,因?yàn)樗伎歼^程可以被有效地轉(zhuǎn)化為馬爾可夫式的。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-19 15:17:24

2025-02-12 09:20:12

2024-01-26 13:18:00

AI訓(xùn)練

2023-11-23 18:19:15

騰訊騰訊混元Angel

2024-02-01 12:43:16

模型數(shù)據(jù)

2025-06-11 09:06:00

AI架構(gòu)算力

2025-03-10 11:55:10

2024-10-08 10:30:00

AI生成技術(shù)

2023-01-04 20:00:02

SparseGPT降低算力成本

2023-12-27 18:12:50

2024-03-20 11:07:57

AI計(jì)算CPUGPU

2021-08-10 15:37:45

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2009-02-06 08:23:46

英特爾工廠內(nèi)遷投資

2025-04-29 09:16:00

2025-03-14 11:56:52

2025-04-18 10:36:42

2024-01-18 11:54:39

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)