Qwen&清華團隊顛覆常識:大模型強化學習僅用20%關(guān)鍵token,比用全部token訓(xùn)練還好
近期arxiv最熱門論文,Qwen&清華LeapLab團隊最新成果:
在強化學習訓(xùn)練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓(xùn)練效果,甚至比用全部token訓(xùn)練還要好。
團隊用這個發(fā)現(xiàn)在Qwen3-32B上創(chuàng)造了新的SOTA記錄:AIME’24上達到63.5分,AIME’25上達到56.7分,
這是600B參數(shù)以下直接從base模型訓(xùn)練的最高分。
最大響應(yīng)長度從20k延長到29k,AIME’24的分數(shù)更是飆升到了68.1分。
經(jīng)典的二八法則(或帕累托法則)指出,通常80%的結(jié)果由20%的關(guān)鍵因素驅(qū)動,但剩下80%也是不能輕易舍棄的。
但是在大模型強化學習這里,80%低熵token不僅可以舍棄,甚至還可能起副作用,所以這篇論文被命名為“超越二八法則”。
此外,團隊還從token熵的角度探究了RL對LLM的主要影響,并進一步討論了RL與SFT的區(qū)別、LLM RL的特殊性與clip-higher相較于entropy bonus的優(yōu)勢。
揭開Chain-of-Thought的熵分布密碼
要理解這項研究,需要先從一個有趣的觀察說起:
團隊發(fā)現(xiàn),當大模型進行鏈式思考(Chain-of-Thought)推理時,token的熵分布呈現(xiàn)出一個獨特的模式:大部分token的熵都很低,只有少數(shù)token表現(xiàn)出高熵特征。
具體來說,超過50%的token熵值低于0.01,而只有20%的token熵值大于0.672。
更有意思的是,這些高熵token和低熵token在功能上有著本質(zhì)區(qū)別。高熵token通常扮演著“邏輯連接器”的角色,比如“wait”、“however”、“thus”這些詞,它們在推理過程中起到轉(zhuǎn)折、遞進或因果連接的作用。
在數(shù)學推導(dǎo)中,“suppose”、“assume”、“given”這些引入假設(shè)或條件的詞也屬于高熵token。而低熵token則往往是詞綴、代碼片段或數(shù)學表達式的組成部分,這些內(nèi)容具有很高的確定性。
團隊形象地把這些高熵token稱為分叉token(forking tokens),如果將思維鏈比做走山路,高熵token就像分叉路口(fork),決定了接下來的方向;低熵token就像一面是山一面是懸崖的小路,只能沿著既定方向走下去。
為了驗證這些分叉token的重要性,團隊還設(shè)計了這樣的實驗:給不同的token設(shè)置不同的解碼溫度。
結(jié)果發(fā)現(xiàn),適度提高高熵token的溫度能改善推理性能,而降低它們的溫度則會導(dǎo)致性能下降。這進一步證實了保持這些關(guān)鍵位置的高熵對推理的重要性。
只用20%的token,效果反而更好
既然發(fā)現(xiàn)了這些分叉token的特殊性,那么如果在強化學習訓(xùn)練時只關(guān)注這些關(guān)鍵的少數(shù)token會怎樣?
在RLVR(Reinforcement Learning with Verifiable Rewards)訓(xùn)練中,只保留top 20%高熵token的策略梯度,把剩下80%的梯度全部屏蔽掉。
結(jié)果Qwen3-32B上,這種方法不僅沒有降低性能,反而帶來了顯著提升:AIME’24分數(shù)提升7.71分,AIME’25分數(shù)提升11.04分,平均響應(yīng)長度增加約1378個token。
在Qwen3-14B上也有類似的提升效果,而在較小的Qwen3-8B上,性能也保持穩(wěn)定。
更有趣的是反向?qū)嶒灥慕Y(jié)果:如果只用80%的低熵token訓(xùn)練,模型性能急劇下降。
這說明低熵token對推理能力的提升貢獻微乎其微,甚至可能起到負面作用。
團隊分析認為,這可能與路徑探索有關(guān)。高熵token由于其不確定性,能夠幫助模型探索不同的推理路徑。而低熵token過于確定,反而限制了模型的探索能力。
從訓(xùn)練過程中的整體熵變化也能看出端倪:使用20%高熵token訓(xùn)練時,模型保持了較高的整體熵水平,而使用全部token或只用低熵token時,整體熵水平都會下降。
另一個重要發(fā)現(xiàn)是這種方法存在明顯的規(guī)模效應(yīng):模型越大,只用高熵token訓(xùn)練的優(yōu)勢就越明顯。在32B模型上的提升最大,14B次之,8B模型提升最小。這可能是因為更大的模型有更強的能力利用增強的探索性。
更令人驚喜的是,這種方法訓(xùn)練出的模型在域外任務(wù)上也表現(xiàn)優(yōu)異。團隊在數(shù)學數(shù)據(jù)集上訓(xùn)練的模型,在編程任務(wù)LiveCodeBench上測試時,僅用20%高熵token訓(xùn)練的模型依然大幅超越了使用全部token訓(xùn)練的版本。
這暗示著高熵token可能與模型的泛化能力密切相關(guān)。通過聚焦這些關(guān)鍵的決策點,模型學到的可能是更本質(zhì)的推理模式,而不是死記硬背特定領(lǐng)域的知識。
重新理解大模型強化學習
這項研究的意義不止于提升訓(xùn)練效率,在深入研究RLVR(Reinforcement Learning with Verifiable Rewards)訓(xùn)練過程后,團隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象:RLVR并不是推倒重來,而是在base model的基礎(chǔ)上做精細調(diào)整。
通過追蹤訓(xùn)練過程中熵模式的演變,發(fā)現(xiàn)即使在訓(xùn)練收斂后(第1360步),模型與base model在高熵token位置上的重疊率仍然保持在86.67%以上。這意味著RLVR基本保留了預(yù)訓(xùn)練模型對”哪些地方該猶豫、哪些地方該確定”的判斷。
更有意思的是,RLVR的調(diào)整策略相當”偏心”。團隊計算了不同熵水平token在訓(xùn)練前后的變化,發(fā)現(xiàn)了一個清晰的規(guī)律:
初始熵越高的token,在RLVR訓(xùn)練后熵的增幅越大。而那些原本就很確定的低熵token,整個訓(xùn)練過程中幾乎紋絲不動。
從熵的百分位變化圖中可以看到,越是高熵的token(比如90%、95%分位),訓(xùn)練過程中的波動范圍越大;而低熵token(比如0%、5%分位)的變化微乎其微。
最后,基于以上所有這些發(fā)現(xiàn),團隊還提出了幾個有趣的討論:
討論1:高熵token可能是解釋為什么強化學習能泛化而監(jiān)督微調(diào)傾向于記憶而過擬合的關(guān)鍵。
強化學習傾向于保持甚至增加分叉token的熵,維持推理路徑的靈活性。而監(jiān)督微調(diào)會把輸出logits推向one-hot分布,導(dǎo)致分叉token熵降低,失去了推理路徑的靈活性。這種靈活性可能正是推理模型能夠有效泛化到未見任務(wù)的關(guān)鍵因素。
討論2: 與傳統(tǒng)強化學習不同,大模型推理需整合先驗知識,且必須生成可讀性輸出。因此,大模型思維鏈(CoT)包含低熵的多數(shù)標記與高熵的少數(shù)標記,而傳統(tǒng)強化學習可假設(shè)整個過程中動作熵是均勻分布的。
討論3:在強化學習與可驗證獎勵算法(RLVR)中,熵獎勵(entropy bonus)可能并非最優(yōu)選擇,因為它會增加低熵多數(shù)標記的熵值。相比之下,clip-higher方法能有效提升高熵少數(shù)標記的熵值。
論文
https://arxiv.org/abs/2506.01939
項目主頁
https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/