偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

「重要性采樣」并不「重要」?快手清華ASPO攻克重要性采樣權(quán)重錯配

人工智能 新聞
近期,由快手與清華合作的研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有的結(jié)果監(jiān)督強化學(xué)習(xí)范式存在一種深層次的權(quán)重錯配現(xiàn)象,它不僅讓模型「過度自信」,甚至可能導(dǎo)致熵坍縮與訓(xùn)練早熟收斂。

從ChatGPT到DeepSeek,強化學(xué)習(xí)(Reinforcement Learning, RL)已成為大語言模型(LLM)后訓(xùn)練的關(guān)鍵一環(huán)。

然而,隨著模型參數(shù)規(guī)模的不斷擴(kuò)大,一個長期被忽視的問題正悄然成為性能瓶頸:重要性采樣真的「重要」嗎?

近期,由快手與清華合作的研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有的結(jié)果監(jiān)督強化學(xué)習(xí)范式存在一種深層次的權(quán)重錯配現(xiàn)象,它不僅讓模型「過度自信」,甚至可能導(dǎo)致熵坍縮與訓(xùn)練早熟收斂。

為此,他們提出了一種簡單但有效的算法:ASPO(Asymmetric Importance Sampling Policy Optimization)。

「重要性采樣」其實并不重要

在強化學(xué)習(xí)中,重要性采樣(Importance Sampling, IS)用于修正舊策略與新策略之間的分布差異,從而讓模型能「重用舊數(shù)據(jù)」而不偏離目標(biāo)分布。

在小規(guī)模強化學(xué)習(xí)中,這個理論確實有效;然而,在大語言模型的結(jié)果監(jiān)督強化學(xué)習(xí)中,這一機(jī)制卻開始「失靈」。

研究團(tuán)隊通過實驗證明:

在GRPO類算法中,IS不僅沒有帶來分布修正的好處,反而成為引發(fā)訓(xùn)練不穩(wěn)定的元兇。

研究者在實驗中對比了兩種做法:

  • 保留原始的IS權(quán)重;
  • 完全移除IS權(quán)重,將其全部設(shè)置為1.0。

結(jié)果令人驚訝:

  • 兩種方法在最終準(zhǔn)確率上幾乎沒有差異;
  • 移除IS后的模型訓(xùn)練曲線反而更加平滑、穩(wěn)定;
  • 熵值下降速度放緩,重復(fù)率降低,KL散度更穩(wěn)定。

為什么會出現(xiàn)這種現(xiàn)象?

其一,結(jié)果監(jiān)督強化學(xué)習(xí)中的優(yōu)勢值本身就是不準(zhǔn)確的:一方面,不同token對最終答案的貢獻(xiàn)是不同的,它們的優(yōu)勢值不應(yīng)該相同;另一方面,正確的回答中可能包含不正確的推理步驟,這些錯誤步驟的優(yōu)勢值甚至是相反的。

其二,如下圖所示,正優(yōu)勢token的平均IS權(quán)重高于負(fù)優(yōu)勢token,學(xué)習(xí)高概率正優(yōu)勢token導(dǎo)致熵下降。

上述分析說明,IS在結(jié)果監(jiān)督強化學(xué)習(xí)算法中不再是「校正項」,而是變成了token級的權(quán)重。

放大權(quán)重錯配的真相:被放大的「正樣本」

研究團(tuán)隊進(jìn)一步深入分析發(fā)現(xiàn),IS權(quán)重在LLM場景下出現(xiàn)了非對稱性錯誤:

  • 對于負(fù)優(yōu)勢token,IS權(quán)重的變化符合預(yù)期:在舊策略概率一定時,當(dāng)前概率較高,其IS權(quán)重也較高,起到合理的抑制作用;
  • 但對于正優(yōu)勢token,權(quán)重分布卻完全反了:在舊策略概率一定時,當(dāng)前概率越高的token權(quán)重越高,概率越低的token權(quán)重越低

也就是說,模型在更新時,會進(jìn)一步強化那些已經(jīng)「高分」的token,而忽視那些仍然需要改進(jìn)的低概率token。這種偏差不斷積累,形成一種自我強化循環(huán)(self-reinforcing loop),最終導(dǎo)致模型陷入局部最優(yōu)、輸出重復(fù)、甚至熵崩塌。

上述權(quán)重錯配問題在三維空間下清晰可見:

在舊策略概率一定時,當(dāng)前高概率token的更新權(quán)重居高不下,而低概率token被壓制至幾乎無梯度更新。結(jié)果是模型的行為因此逐漸僵化——「越來越像自己」,但也越來越缺乏探索與多樣性。

核心思想:翻轉(zhuǎn)正樣本權(quán)重

ASPO的核心創(chuàng)新,正如其名所示,是一次「不對稱翻轉(zhuǎn)」(Asymmetric Importance Sampling,AIS)。

它將正優(yōu)勢token的重要性采樣權(quán)重取倒數(shù),讓低概率token得到更強的更新,而高概率token被適當(dāng)削弱:

其中,sg(·)表示停止梯度操作。

在此基礎(chǔ)上,ASPO還引入了一個Dual-Clipping(軟雙重裁剪)機(jī)制,用于裁剪掉翻轉(zhuǎn)正樣本權(quán)重后導(dǎo)致的極端值。在裁剪過程中,ASPO采用了類似CISPO中的軟裁剪方法,既限制了極端比率導(dǎo)致的不穩(wěn)定,又保留了正樣本梯度的有效流動。

此外,對于所有token,ASPO仍保留原有的硬裁剪機(jī)制,對IS比例大于1+ε的正樣本和IS比例小于1-ε的負(fù)樣本裁剪值和梯度。

通過梯度分析,研究者發(fā)現(xiàn):

ASPO在梯度上翻轉(zhuǎn)了IS權(quán)重項,使梯度與token概率的倒數(shù)成正比,即概率越低的token,更新的梯度越大,增大低概率token的學(xué)習(xí)力度。

實驗結(jié)果:更強、更穩(wěn)

在一系列數(shù)學(xué)推理(AIME24/25、AMC23、MATH-500、Minerva、Olympiad)和代碼生成(LiveCodeBench v5/v6)基準(zhǔn)測試中,ASPO展現(xiàn)出顯著優(yōu)勢:

  • 相比于base model,數(shù)學(xué)任務(wù)平均性能提升 12.5%,代碼生成任務(wù)平均性能提升 17.0%;
  • 訓(xùn)練過程更平滑,無明顯熵坍塌;
  • 在代碼基準(zhǔn)LiveCodeBench v5上,ASPO達(dá)到了31.5 avg@8 / 47.0 pass@8的成績,領(lǐng)先主流RL方法(DAPO、DeepScaleR、Nemotron等)。

訓(xùn)練動力學(xué)分析

不僅如此,ASPO的訓(xùn)練曲線也展現(xiàn)出前所未有的穩(wěn)定性:

  • 熵下降更平緩——避免了傳統(tǒng)算法中的「熵坍縮」問題;
  • 重復(fù)率更低——輸出更加多樣;
  • KL散度與Clip Ratio穩(wěn)定;
  • 訓(xùn)練過程無明顯震蕩,表現(xiàn)出典型的「健康收斂」特征。

論文鏈接:
https://arxiv.org/abs/2510.06062
GitHub:
https://github.com/wizard-III/Archer2.0
HuggingFace:
https://huggingface.co/collections/Fate-Zero/archer20-68b945c878768a27941fd7b6

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2009-12-25 15:00:48

WPF軟件

2010-07-30 16:28:06

2023-10-24 11:07:57

2013-08-08 10:10:06

備份策略全備份增量備份

2020-08-27 07:00:00

代碼軟件應(yīng)用程序

2017-12-29 10:14:48

IT項目

2009-12-23 15:57:40

WPF傳遞事件

2011-07-05 18:30:44

站內(nèi)優(yōu)化

2011-06-30 16:22:00

首選域

2016-08-29 20:31:17

2011-08-11 10:12:11

2010-01-20 18:45:44

VB.NET DoEv

2022-11-04 14:13:54

2009-11-25 17:36:38

PHP函數(shù)includ

2009-03-03 17:25:41

2014-04-23 11:36:29

運維日志

2009-09-28 13:23:00

CCNA學(xué)習(xí)方法CCNA

2010-07-05 14:27:30

UML各種圖形

2021-12-22 23:12:19

物聯(lián)網(wǎng)隱私安全

2015-05-12 15:31:53

點贊
收藏

51CTO技術(shù)棧公眾號