頓悟不是玄學(xué)!港科大清華等聯(lián)手:撕開推理黑箱,RL讓AI像人思考
眾所周知,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)能提升大語言模型LLM的推理能力。
但沒人說清楚:為什么會這樣?
最近,香港科技大學(xué)、滑鐵盧大學(xué)、清華大學(xué)等機(jī)構(gòu)的研究者在arXiv提交預(yù)印本,首次揭示:
大模型正在以類人的方式學(xué)會推理——通過將高層策略規(guī)劃與底層程序執(zhí)行相分離。

論文鏈接:https://arxiv.org/abs/2509.03646
DeepSeek究竟如何讓LLM學(xué)會推理?
強(qiáng)化學(xué)習(xí)(RL)雖已成為提升LLM復(fù)雜推理能力的顛覆性技術(shù),但其內(nèi)在機(jī)制始終不甚明朗。
年初,DeepSeek-R1一鳴驚人,讓開源AI首次直逼OpenAI的推理模型o1。
在論文中,DeepSeek研究團(tuán)隊強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)的重要性:
大模型與強(qiáng)化學(xué)習(xí)環(huán)境交互,自然涌現(xiàn)出反思和重新評估(reflection)之類的行為。
他們給出了兩條重要實(shí)驗線索:「長度縮放效應(yīng)」(length-scaling)和「頓悟時刻」(aha moment)。
在訓(xùn)練過程中,DeepSeek-R1-Zero的思考時長持續(xù)增長,自然而然地學(xué)會了用更多的思考時間來解決推理任務(wù),如下圖所示。

在強(qiáng)化學(xué)習(xí)(RL)過程中,DeepSeek-R1-Zero在訓(xùn)練集上的平均響應(yīng)長度
在DeepSeek-R1-Zero的某個中間版本中,AI出乎意料地進(jìn)入了「頓悟時刻」。他們認(rèn)為這是強(qiáng)化學(xué)習(xí)的「力與美」。

DeepSeek-R1-Zero的中間版本展現(xiàn)了一個有趣的「頓悟時刻」:該模型學(xué)會了采用擬人化的方式來表達(dá)思考過程
這些現(xiàn)象如此奇特,被多家實(shí)驗室復(fù)現(xiàn)。
為什么呢?為什么強(qiáng)化學(xué)習(xí)能提升LLM的推理能力?這些問題之前無人明確解釋。
這次的研究突破性地揭示:
像「頓悟時刻」這類令人困惑的現(xiàn)象并不是孤立的事件,而是新興推理層次結(jié)構(gòu)的標(biāo)志,類似于人類認(rèn)知中高層次策略規(guī)劃與低層次程序執(zhí)行的分隔。
這一次揭示了強(qiáng)化學(xué)習(xí)推動推理能力提升的核心機(jī)制:模型先固化基礎(chǔ)執(zhí)行能力,再自主發(fā)展出策略規(guī)劃能力。
階段1(底層技能鞏固):以執(zhí)行tokens(execution tokens)的熵值下降為標(biāo)志,模型專注于鞏固低級技能(如算術(shù)計算、格式規(guī)范)。
階段2(高層規(guī)劃探索):學(xué)習(xí)重心轉(zhuǎn)向高級規(guī)劃,以規(guī)劃tokens(planning tokens)的語義多樣性提升為特征,模型持續(xù)增強(qiáng)推理能力并出現(xiàn)長度縮放效應(yīng)(length scaling)。

圖1:(左圖)大語言模型的推理過程呈現(xiàn)出類人的層次化推理結(jié)構(gòu):高層策略規(guī)劃與底層程序執(zhí)行。(右圖)在強(qiáng)化學(xué)習(xí)訓(xùn)練中,層次化推理通過兩階段動態(tài)過程涌現(xiàn)
研究者通過區(qū)分兩類token驗證這種轉(zhuǎn)變:執(zhí)行token對應(yīng)具體操作步驟,規(guī)劃token則體現(xiàn)為「嘗試其他方法」等策略性表達(dá)。
他們發(fā)現(xiàn),當(dāng)模型掌握執(zhí)行token后,規(guī)劃token的多樣性顯著增加,這與推理能力提升及解決方案鏈條延長直接相關(guān)。
基于此,團(tuán)隊提出分層感知信用分配機(jī)制(HICRA)。
與傳統(tǒng)均勻分配學(xué)習(xí)權(quán)重不同,HICRA重點(diǎn)強(qiáng)化規(guī)劃token的學(xué)習(xí)權(quán)重,從而加速模型探索和鞏固策略的能力。
實(shí)驗表明,HICRA始終優(yōu)于主流GRPO方法,且在模型已具備扎實(shí)執(zhí)行技能時效果最佳——若執(zhí)行基礎(chǔ)薄弱,HICRA的優(yōu)勢則難以發(fā)揮。
這項研究的核心啟示在于:推理能力的真正突破源于規(guī)劃能力的提升,而非僅僅優(yōu)化執(zhí)行細(xì)節(jié)。
強(qiáng)化學(xué)習(xí)增強(qiáng)推理的兩階段動力學(xué)
實(shí)驗分析表明,經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的大語言模型并非整體性提升,而是遵循一種"性能瓶頸"隨時間轉(zhuǎn)移的兩階段學(xué)習(xí)動態(tài)。
第一階段:鍛造可靠程序引擎
初期,模型專注于掌握基礎(chǔ)能力。它學(xué)習(xí)可靠地執(zhí)行低級操作步驟,如格式規(guī)范、算術(shù)運(yùn)算和變量替換。
這一階段體現(xiàn)為「執(zhí)行token」的不確定性(困惑度及token熵)急劇下降。

RL訓(xùn)練動力學(xué):執(zhí)行token的熵(圖中灰色線)下降,而規(guī)劃token的語義熵(圖中紅色線)上升
研究者追蹤了代表性模型家族的訓(xùn)練動態(tài)曲線。
上圖前兩列顯示,模型初始聚焦于程序鞏固階段,表現(xiàn)為執(zhí)行token的模型困惑度(更高置信度)和token熵(更確定性)急劇下降。
隨后發(fā)生向策略規(guī)劃探索的轉(zhuǎn)變(第三列),規(guī)劃策略的多樣性(語義熵)在Qwen模型上持續(xù)增長,或在Llama模型上出現(xiàn)拐點(diǎn)后增長,這與準(zhǔn)確率持續(xù)提升及推理鏈延長(第四列)密切相關(guān)。
對于強(qiáng)模型或易學(xué)習(xí)數(shù)據(jù),此階段可能短暫甚至不存在,因為模型已具備可靠的基礎(chǔ)低級技能,通常僅需對格式token進(jìn)行最小調(diào)整。
第二階段:掌握高級策略規(guī)劃
當(dāng)模型在低級技能上奠定堅實(shí)基礎(chǔ)后,學(xué)習(xí)前沿發(fā)生轉(zhuǎn)移。性能提升轉(zhuǎn)為由探索和掌握高級策略驅(qū)動——例如選擇新方法、回溯或識別關(guān)鍵定理。
通過測量規(guī)劃token的語義熵,這次研究驗證了這一轉(zhuǎn)變。其中的語義熵用于反映模型高級策略計劃的多樣性。
規(guī)劃token的語義熵(紅線,第三列)從開始或拐點(diǎn)處持續(xù)上升,這種增長與推理準(zhǔn)確率提升和長度縮放效應(yīng)同步發(fā)生。
這表明策略正在主動擴(kuò)展其策略計劃庫,以實(shí)現(xiàn)推理能力的持續(xù)提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。
揭秘「神秘的現(xiàn)象」
這次的分層框架為強(qiáng)化學(xué)習(xí)訓(xùn)練中一些長期讓人困惑的現(xiàn)象,提供了統(tǒng)一而清晰的解釋:
1、「頓悟時刻」并非偶然靈光。
這類轉(zhuǎn)折并不是隨機(jī)爆發(fā)的才思,而是某種行為特征信號:模型在「發(fā)現(xiàn)—掌握—強(qiáng)化」某種強(qiáng)力的高層策略(如自我反思)
當(dāng)策略被納入并穩(wěn)定執(zhí)行時,模型的表現(xiàn)會出現(xiàn)突躍式改善。
2、「長度縮放」源于更好的規(guī)劃。
隨著模型探索到更豐富、更精細(xì)的策略(包括分類討論、預(yù)先規(guī)劃、回溯等),它自然會生成更長、更有結(jié)構(gòu)的推理鏈條;而這類更長的輸出,往往意味著更高的成功率與更好的表現(xiàn)。
換言之,「輸出越長越準(zhǔn)」的現(xiàn)象,本質(zhì)是高層規(guī)劃能力增強(qiáng)的外在體現(xiàn)。
3、復(fù)雜的「熵」變化,其實(shí)并不神秘。
整體的token級熵常見下降,并非模型「變笨」,而是因為數(shù)量龐大的執(zhí)行類詞元(格式、算術(shù)、替換等)在訓(xùn)練中變得高度可預(yù)測,把總體曲線往下拉。
真正反映策略探索進(jìn)展的,是高層規(guī)劃詞元的語義熵:它隨訓(xùn)練逐步上升,準(zhǔn)確刻畫出模型在發(fā)明與擴(kuò)充策略譜系方面的探索步伐。
歸結(jié)起來:第一階段通過降低執(zhí)行不確定性「打好基本功」,第二階段通過提升規(guī)劃多樣性「把思路打開」。這些看似各自為政的現(xiàn)象,其實(shí)都出自同一套分層學(xué)習(xí)動力學(xué)。
這一發(fā)現(xiàn)揭示了當(dāng)前RL方法(如GRPO)的核心低效問題:
它們對所有token施加無差別優(yōu)化壓力,稀釋了學(xué)習(xí)信號。
既然高級推理的關(guān)鍵在于掌握策略,為何還要在已掌握的程序性步驟上浪費(fèi)精力?
為解決此問題,研究者提出了一種新算法HICRA(Hierarchy-Aware Credit Assignment,分層感知信用分配),其核心設(shè)計理念是:
將模型的學(xué)習(xí)能力聚焦于稀疏但高價值的規(guī)劃token。
分層感知信用分配
聚焦關(guān)鍵要素
通過放大策略舉措的學(xué)習(xí)信號,HICRA加速了有效推理模式的發(fā)現(xiàn)與強(qiáng)化進(jìn)程。
實(shí)驗結(jié)果,效果驚人:定向優(yōu)化規(guī)劃全贏了!
在多個純文本及視覺語言模型中,HICRA不斷超越強(qiáng)大的GRPO基線方法,顯著驗證了定向優(yōu)化規(guī)劃token的有效性。

表1:在多項數(shù)學(xué)推理基準(zhǔn)測試中,HICRA、GRPO與基座模型的性能對比。

表2:在多模態(tài)推理基準(zhǔn)測試中,HICRA與GRPO的性能對比
為探究強(qiáng)化學(xué)習(xí)最有效的應(yīng)用方向,這次分析了失敗推演中錯誤類型的演變規(guī)律。
首先通過人工審查失敗案例,歸納出四種不同的錯誤成因。
隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應(yīng)成因,最后將這些分類解析為兩大范疇:「規(guī)劃與策略」(如邏輯缺陷、高層計劃錯誤)和「其他錯誤」(如計算失誤、事實(shí)檢索錯誤)。
分析表明,強(qiáng)化學(xué)習(xí)(RL)的主要優(yōu)勢在于修正高層策略失誤,而非細(xì)微的計算錯誤。

這也激發(fā)了HICRA的設(shè)計理念,即將學(xué)習(xí)重點(diǎn)集中在規(guī)劃token上。
如下圖5所示,HICRA的成功與其維持比GRPO更高的語義熵水平密切相關(guān)。
這種高層策略的更高多樣性,直接與更強(qiáng)且更穩(wěn)定的驗證準(zhǔn)確率相關(guān)聯(lián),證實(shí)了專注的策略探索是推理能力改進(jìn)的主要驅(qū)動力。

何種指標(biāo)能有效追蹤策略探索?
準(zhǔn)確衡量策略探索,對于診斷策略學(xué)習(xí)至關(guān)重要。
然而,這次發(fā)現(xiàn)諸如token級熵值等常用指標(biāo)可能產(chǎn)生誤導(dǎo)。
1、token級熵值的缺陷:該指標(biāo)有時會收斂至較低水平,被實(shí)踐者誤判為「崩潰」。但這是錯誤的。
大量低層執(zhí)行token主導(dǎo)了token級熵值,而這些token本身就會趨于可預(yù)測化(即低熵狀態(tài))。低層token的熵值下降,會拉低全局平均熵值,但這并不意味探索停止。相反,只要語義熵保持高位,就說明模型正在積極探索新高階策略,且性能持續(xù)提升。
2、Pass@K指標(biāo)的盲點(diǎn):該通過K次嘗試成功率衡量的指標(biāo),有時會飽和(例如所有查詢都可能被解決),導(dǎo)致無法區(qū)分方法優(yōu)劣或追蹤訓(xùn)練后期的持續(xù)學(xué)習(xí)動態(tài)。
語義熵有效規(guī)避了這些缺陷。它直接衡量有意義策略方案的多樣性。
如下圖所示,語義熵始終保持強(qiáng)大區(qū)分力:當(dāng)token熵值崩潰且Pass@8飽和時,仍能清晰顯示HICRA持續(xù)的策略探索優(yōu)勢。這使其成為追蹤真正推理發(fā)展的可靠指南。

token熵值(最右)崩潰且Pass@8(右二)飽和失效時,語義熵(最左)仍明確顯示HICRA的持續(xù)探索優(yōu)勢,該優(yōu)勢與最終準(zhǔn)確率提升正相關(guān)。
現(xiàn)有研究提出使用高熵的「分岔token」作為模型推理過程中決策點(diǎn)的代理指標(biāo)。

鏈接:https://arxiv.org/abs/2506.01939
這類基于熵的token與基于功能定義的規(guī)劃token之間,到底什么關(guān)系?
研究發(fā)現(xiàn)關(guān)鍵不對稱性:
雖然大部分規(guī)劃token確實(shí)呈現(xiàn)高熵特性(符合策略選擇的預(yù)期),但反向關(guān)系并不成立。
大多數(shù)高熵token并非規(guī)劃token,它們往往對應(yīng)表述方式的簡單變異或不影響整體策略的低層計算。
這揭示了僅依靠熵值識別具有精確語義功能token的局限性。
雖然功能定義的規(guī)劃token大多具有高熵特性(下圖左),但高熵token并非規(guī)劃token的有效代理指標(biāo),因其多數(shù)承擔(dān)其他功能(下圖右)。





































