「重要性采樣」并不「重要」?快手清華ASPO攻克重要性采樣權(quán)重錯配
從ChatGPT到DeepSeek,強化學(xué)習(xí)(Reinforcement Learning, RL)已成為大語言模型(LLM)后訓(xùn)練的關(guān)鍵一環(huán)。
然而,隨著模型參數(shù)規(guī)模的不斷擴(kuò)大,一個長期被忽視的問題正悄然成為性能瓶頸:重要性采樣真的「重要」嗎?
近期,由快手與清華合作的研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有的結(jié)果監(jiān)督強化學(xué)習(xí)范式存在一種深層次的權(quán)重錯配現(xiàn)象,它不僅讓模型「過度自信」,甚至可能導(dǎo)致熵坍縮與訓(xùn)練早熟收斂。
為此,他們提出了一種簡單但有效的算法:ASPO(Asymmetric Importance Sampling Policy Optimization)。

「重要性采樣」其實并不重要
在強化學(xué)習(xí)中,重要性采樣(Importance Sampling, IS)用于修正舊策略與新策略之間的分布差異,從而讓模型能「重用舊數(shù)據(jù)」而不偏離目標(biāo)分布。
在小規(guī)模強化學(xué)習(xí)中,這個理論確實有效;然而,在大語言模型的結(jié)果監(jiān)督強化學(xué)習(xí)中,這一機(jī)制卻開始「失靈」。
研究團(tuán)隊通過實驗證明:
在GRPO類算法中,IS不僅沒有帶來分布修正的好處,反而成為引發(fā)訓(xùn)練不穩(wěn)定的元兇。
研究者在實驗中對比了兩種做法:
- 保留原始的IS權(quán)重;
- 完全移除IS權(quán)重,將其全部設(shè)置為1.0。
結(jié)果令人驚訝:
- 兩種方法在最終準(zhǔn)確率上幾乎沒有差異;
- 移除IS后的模型訓(xùn)練曲線反而更加平滑、穩(wěn)定;
- 熵值下降速度放緩,重復(fù)率降低,KL散度更穩(wěn)定。

為什么會出現(xiàn)這種現(xiàn)象?
其一,結(jié)果監(jiān)督強化學(xué)習(xí)中的優(yōu)勢值本身就是不準(zhǔn)確的:一方面,不同token對最終答案的貢獻(xiàn)是不同的,它們的優(yōu)勢值不應(yīng)該相同;另一方面,正確的回答中可能包含不正確的推理步驟,這些錯誤步驟的優(yōu)勢值甚至是相反的。
其二,如下圖所示,正優(yōu)勢token的平均IS權(quán)重高于負(fù)優(yōu)勢token,學(xué)習(xí)高概率正優(yōu)勢token導(dǎo)致熵下降。

上述分析說明,IS在結(jié)果監(jiān)督強化學(xué)習(xí)算法中不再是「校正項」,而是變成了token級的權(quán)重。
放大權(quán)重錯配的真相:被放大的「正樣本」
研究團(tuán)隊進(jìn)一步深入分析發(fā)現(xiàn),IS權(quán)重在LLM場景下出現(xiàn)了非對稱性錯誤:
- 對于負(fù)優(yōu)勢token,IS權(quán)重的變化符合預(yù)期:在舊策略概率一定時,當(dāng)前概率較高,其IS權(quán)重也較高,起到合理的抑制作用;
- 但對于正優(yōu)勢token,權(quán)重分布卻完全反了:在舊策略概率一定時,當(dāng)前概率越高的token權(quán)重越高,概率越低的token權(quán)重越低。
也就是說,模型在更新時,會進(jìn)一步強化那些已經(jīng)「高分」的token,而忽視那些仍然需要改進(jìn)的低概率token。這種偏差不斷積累,形成一種自我強化循環(huán)(self-reinforcing loop),最終導(dǎo)致模型陷入局部最優(yōu)、輸出重復(fù)、甚至熵崩塌。
上述權(quán)重錯配問題在三維空間下清晰可見:

在舊策略概率一定時,當(dāng)前高概率token的更新權(quán)重居高不下,而低概率token被壓制至幾乎無梯度更新。結(jié)果是模型的行為因此逐漸僵化——「越來越像自己」,但也越來越缺乏探索與多樣性。
核心思想:翻轉(zhuǎn)正樣本權(quán)重
ASPO的核心創(chuàng)新,正如其名所示,是一次「不對稱翻轉(zhuǎn)」(Asymmetric Importance Sampling,AIS)。
它將正優(yōu)勢token的重要性采樣權(quán)重取倒數(shù),讓低概率token得到更強的更新,而高概率token被適當(dāng)削弱:

其中,sg(·)表示停止梯度操作。
在此基礎(chǔ)上,ASPO還引入了一個Dual-Clipping(軟雙重裁剪)機(jī)制,用于裁剪掉翻轉(zhuǎn)正樣本權(quán)重后導(dǎo)致的極端值。在裁剪過程中,ASPO采用了類似CISPO中的軟裁剪方法,既限制了極端比率導(dǎo)致的不穩(wěn)定,又保留了正樣本梯度的有效流動。
此外,對于所有token,ASPO仍保留原有的硬裁剪機(jī)制,對IS比例大于1+ε的正樣本和IS比例小于1-ε的負(fù)樣本裁剪值和梯度。
通過梯度分析,研究者發(fā)現(xiàn):
ASPO在梯度上翻轉(zhuǎn)了IS權(quán)重項,使梯度與token概率的倒數(shù)成正比,即概率越低的token,更新的梯度越大,增大低概率token的學(xué)習(xí)力度。

實驗結(jié)果:更強、更穩(wěn)
在一系列數(shù)學(xué)推理(AIME24/25、AMC23、MATH-500、Minerva、Olympiad)和代碼生成(LiveCodeBench v5/v6)基準(zhǔn)測試中,ASPO展現(xiàn)出顯著優(yōu)勢:
- 相比于base model,數(shù)學(xué)任務(wù)平均性能提升 12.5%,代碼生成任務(wù)平均性能提升 17.0%;
- 訓(xùn)練過程更平滑,無明顯熵坍塌;
- 在代碼基準(zhǔn)LiveCodeBench v5上,ASPO達(dá)到了31.5 avg@8 / 47.0 pass@8的成績,領(lǐng)先主流RL方法(DAPO、DeepScaleR、Nemotron等)。


訓(xùn)練動力學(xué)分析
不僅如此,ASPO的訓(xùn)練曲線也展現(xiàn)出前所未有的穩(wěn)定性:
- 熵下降更平緩——避免了傳統(tǒng)算法中的「熵坍縮」問題;
- 重復(fù)率更低——輸出更加多樣;
- KL散度與Clip Ratio穩(wěn)定;
- 訓(xùn)練過程無明顯震蕩,表現(xiàn)出典型的「健康收斂」特征。

論文鏈接:
https://arxiv.org/abs/2510.06062
GitHub:
https://github.com/wizard-III/Archer2.0
HuggingFace:
https://huggingface.co/collections/Fate-Zero/archer20-68b945c878768a27941fd7b6





















