清華、快手提出AttnRL:讓大模型用「注意力」探索
從 AlphaGo 戰(zhàn)勝人類棋手,到 GPT 系列展現(xiàn)出驚人的推理與語(yǔ)言能力,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)一直是讓機(jī)器「學(xué)會(huì)思考」的關(guān)鍵驅(qū)動(dòng)力。
然而,在讓大模型真正掌握「推理能力」的道路上,探索效率仍是一道難以逾越的鴻溝。
當(dāng)下最前沿的強(qiáng)化學(xué)習(xí)范式之一——過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)(Process-Supervised RL, PSRL),讓模型不再只看「結(jié)果對(duì)不對(duì)」,而是學(xué)會(huì)在「推理過(guò)程」中不斷修正自己。
然而,傳統(tǒng)的過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)方法在探索效率和訓(xùn)練成本上仍存在明顯瓶頸。
為此,來(lái)自清華和快手的研究團(tuán)隊(duì)提出了一種新框架 AttnRL,通過(guò)引入注意力機(jī)制作為探索的「指南針」,顯著提升了過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)的效率與性能。

- 論文標(biāo)題:
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
- 論文鏈接:
https://arxiv.org/abs/2509.26628
- GitHub:
https://github.com/RyanLiu112/AttnRL
- HuggingFace:
https://huggingface.co/papers/2509.26628
過(guò)程監(jiān)督RL的現(xiàn)實(shí)困境
傳統(tǒng)的結(jié)果監(jiān)督強(qiáng)化學(xué)習(xí)方法對(duì)所有token賦予相同的獎(jiǎng)勵(lì)信號(hào),忽略了推理過(guò)程中的細(xì)粒度質(zhì)量。過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)方法雖然能提供更精細(xì)的獎(jiǎng)勵(lì),但在分支位置選擇和采樣策略上效率低下,導(dǎo)致訓(xùn)練成本高昂:
- 分支策略粗糙:往往按固定長(zhǎng)度或熵劃分,忽視語(yǔ)義和推理行為;
- 采樣效率低下:在簡(jiǎn)單和困難問(wèn)題間一視同仁,導(dǎo)致大量計(jì)算浪費(fèi)在簡(jiǎn)單問(wèn)題上;
- 訓(xùn)練流程冗余:每次訓(xùn)練需進(jìn)行兩次采樣,顯著增加了時(shí)間與計(jì)算成本。

為解決這些難題,研究者提出了全新的過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)框架——AttnRL,并將注意力機(jī)制首次引入推理探索過(guò)程,使「注意力」真正成為模型的推理「指南針」。如上圖所示,AttnRL 在注意力分?jǐn)?shù)高的步驟進(jìn)行分支,并在效果和效率上超過(guò)了基線方法。
研究核心:讓注意力引導(dǎo)探索
研究團(tuán)隊(duì)的關(guān)鍵洞察是:在大模型的推理過(guò)程中,那些注意力得分高的步驟,往往恰好對(duì)應(yīng)「真正的思考時(shí)刻」——模型在規(guī)劃、自我驗(yàn)證或轉(zhuǎn)折時(shí)的關(guān)鍵推理節(jié)點(diǎn)。

因此,AttnRL 提出了一種創(chuàng)新的探索方式:
不再隨機(jī)地從任意位置「分支探索」,而是讓模型從高注意力的關(guān)鍵步驟出發(fā),去探索新的推理路徑。
論文將這種策略稱為Attention-based Tree Branching(ATB),ATB會(huì)分析推理序列中的每個(gè)步驟,通過(guò)計(jì)算「前向上下文影響力(Forward Context Influence, FCI)」分?jǐn)?shù)來(lái)衡量其對(duì)后續(xù)推理的影響程度,然后只在FCI得分最高的幾個(gè)位置建立分支。這種機(jī)制讓模型能夠「少走彎路」,在推理樹中更快找到高質(zhì)量路徑。
具體來(lái)說(shuō),AttnRL首先對(duì)回答進(jìn)行分步,計(jì)算步驟-步驟之間的注意力分?jǐn)?shù)矩陣
,其中,
表示步驟j注意步驟k在第l層第h個(gè)注意力頭的分?jǐn)?shù)。計(jì)算步驟k后續(xù)所有步驟的注意力分?jǐn)?shù)之和:

取所有層和注意力頭的最大值,即為FCI分?jǐn)?shù):

實(shí)驗(yàn)結(jié)果表明,破壞這些高注意力步驟會(huì)顯著降低模型的解題準(zhǔn)確率,證明它們確實(shí)是推理過(guò)程的關(guān)鍵節(jié)點(diǎn)。

自適應(yīng)采樣:
讓模型在「最值得學(xué)」的地方學(xué)習(xí)
傳統(tǒng)的PSRL方法往往采用固定比例、均勻采樣的方式進(jìn)行探索,無(wú)論任務(wù)難易都同等對(duì)待,導(dǎo)致大量算力浪費(fèi)在「簡(jiǎn)單題」上。
AttnRL引入了兩種自適應(yīng)采樣機(jī)制:
- 難度感知探索:根據(jù)FCI分?jǐn)?shù)過(guò)濾掉那些在兩次采樣中大概率100%正確的「簡(jiǎn)單題」,對(duì)于困難問(wèn)題,模型會(huì)擴(kuò)展更多「推理樹」來(lái)探索解法;而對(duì)簡(jiǎn)單問(wèn)題,則自動(dòng)縮減計(jì)算量;
- 動(dòng)態(tài)批次調(diào)整:根據(jù)當(dāng)前有效樣本數(shù)動(dòng)態(tài)調(diào)整采樣批次大小,保證每次訓(xùn)練中,所有樣本的梯度都「有貢獻(xiàn)」(即非零advantage),大幅提升了訓(xùn)練效率。
高效訓(xùn)練:一步采樣,性能反超
在工程層面,AttnRL設(shè)計(jì)了一個(gè) One-Step Off-Policy 的訓(xùn)練流程:
以前的 PSRL 方法在每次更新都需要兩次生成(初始采樣+蒙特卡洛采樣),采樣成本高。而 AttnRL 在第 m 步訓(xùn)練時(shí)對(duì) m?1 批進(jìn)行蒙特卡羅采樣,對(duì)m+1批進(jìn)行初始采樣,將初始采樣與蒙特卡羅采樣交錯(cuò)執(zhí)行,每步只生成一次即可得到訓(xùn)練所需的兩類樣本。

實(shí)驗(yàn)結(jié)果:性能與效率雙贏
主要結(jié)果
- 在AIME24/25、AMC23、MATH-500、Minerva、Olympiad等六個(gè)數(shù)學(xué)推理基準(zhǔn)上,AttnRL對(duì)1.5B與7B兩個(gè)基座均穩(wěn)定提升,平均準(zhǔn)確率分別達(dá)到57.2%與68.7%,顯著高于GRPO、TreeRL及強(qiáng)RLVR基線方法;
- 相比DeepScaleR-Preview-1.5B(1750步,24K上下文),AttnRL僅需500步、8K上下文即實(shí)現(xiàn)更優(yōu)結(jié)果。

分支采樣更高效
基于注意力的分支方法相比于熵分支(TreeRL),在「全對(duì)比例」、「全錯(cuò)比例」、「有效比例」等統(tǒng)計(jì)上全面占優(yōu),AttnRL 在簡(jiǎn)單題采樣到更多錯(cuò)誤回答,在困難題采樣到更多正確回答,證明了 AttnRL 分支采樣更加高效。

采樣更「干凈」
自適應(yīng)采樣讓每個(gè)批次的每個(gè) token 都有非零優(yōu)勢(shì),訓(xùn)練信號(hào)密度顯著提高。相比于 GRPO 和 TreeRL,AttnRL 在更少的訓(xùn)練步數(shù)下達(dá)到更高性能,并且動(dòng)態(tài)批次機(jī)制確保每批次中所有樣本均有效,使 AttnRL 能夠訓(xùn)練更多有效token。

未來(lái)展望
AttnRL 將「注意力分?jǐn)?shù)」首次用于過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)的探索決策,把探索預(yù)算投向「影響后續(xù)最多」的關(guān)鍵推理步驟,為未來(lái)的大模型可解釋性與強(qiáng)化學(xué)習(xí)研究打開了新的方向。它啟示我們:在讓模型「思考得更好」的路上,效率與智能并非對(duì)立,而是可以通過(guò)更高效的探索實(shí)現(xiàn)共贏。



































