監(jiān)督學(xué)習(xí)也能從錯誤中學(xué)習(xí)反思?!清華英偉達(dá)聯(lián)合提出隱式負(fù)向策略爆炸提升數(shù)學(xué)能力
監(jiān)督學(xué)習(xí)也能像強化學(xué)習(xí)一樣進行“自我反思”了。
清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎(chǔ)上通過構(gòu)造一個“隱式負(fù)向模型” 來額外利用負(fù)向數(shù)據(jù)進行訓(xùn)練。
這并不意味著使用“差數(shù)據(jù)”進行訓(xùn)練,而是在已知的模型計算結(jié)果前提下,通過負(fù)向數(shù)據(jù)訓(xùn)練正向模型,即“隱式負(fù)向策略(Implicit Negative Policy)”。
這一策略彌合了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的差距,使得兩者性能基本持平。
△架構(gòu)圖語言模型在線強化算法光譜圖
更讓人驚訝的是,NFT損失函數(shù)梯度和GRPO在On-Policy條件下是等價的!這意味著,GRPO中人為經(jīng)驗設(shè)置的“Group Relative Normalization”方案,可以直接通過理論推導(dǎo)自然得出。
方法:負(fù)向策略計算出正向模型
NFT定義了一個在線強化過程:
1.數(shù)據(jù)采樣:語言模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個01獎勵函數(shù),把答案分為正確和錯誤兩類,并統(tǒng)計每個問題回答準(zhǔn)確率[數(shù)學(xué)公式]。
2.隱式策略建模:利用原始模型和待訓(xùn)練正向模型,構(gòu)造一個隱式負(fù)向策略來建模負(fù)向數(shù)據(jù)。
3.策略優(yōu)化:在正確數(shù)據(jù)上,直接監(jiān)督訓(xùn)練正向策略模型;在錯誤數(shù)據(jù)上,通過用隱式負(fù)向策略擬合建模,達(dá)到直接優(yōu)化正向策略模型的目的。
考慮這樣一個監(jiān)督學(xué)習(xí)基線:Rejection sampling Finetuning(RFT)。每一輪,研究團隊讓模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個01獎勵函數(shù),把所有模型產(chǎn)生的錯誤答案丟棄,僅在高質(zhì)量正向數(shù)據(jù)上進行監(jiān)督訓(xùn)練。RFT中,研究團隊每一輪的訓(xùn)練目標(biāo)是:
問題關(guān)鍵在于:能否在負(fù)向數(shù)據(jù)上監(jiān)督訓(xùn)練,也同樣得到上面的“正向策略”呢?
乍看上去是不可能的,在負(fù)向數(shù)據(jù)上訓(xùn)練只能得到?jīng)]有用的“負(fù)向策略”。
然而,問題的轉(zhuǎn)折點在于,數(shù)據(jù)是已知模型在線采樣的,也就是正負(fù)向數(shù)據(jù)分布的和是已知的。由貝葉斯公式可知以下線性關(guān)系:
這說明,假設(shè)真能在負(fù)向數(shù)據(jù)上學(xué)習(xí)到一個“負(fù)向策略”,可以把這個負(fù)向策略和原始生成策略結(jié)合,“計算”得出想要的正向模型。
在實際操作中,不是真的去學(xué)習(xí)一個“差模型”。研究團隊提出“隱式負(fù)向策略”(Implicit Negative Policy),可以直接在負(fù)向數(shù)據(jù)上訓(xùn)練正向策略??捎靡韵卤磉_(dá)式來參數(shù)化隱式負(fù)向模型:
其中rq 表示模型在回答問題q時的正確率,現(xiàn)實中由于模型對一個問題會產(chǎn)生多個回答,我們可以很容易地估計rq 。這里表明隱式負(fù)向策略不是一個靜態(tài)的模型,而是基于不同難度的問題動態(tài)構(gòu)造的。
因此,NFT損失函數(shù)就可以表達(dá)為:
對以上損失函數(shù)直接求導(dǎo),研究團隊在嚴(yán)格On-policy條件下得到和GRPO等價的梯度表達(dá)式。
這暗示了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)或許存在深層的聯(lián)系,也直接說明NFT是一個絕對可靠的算法,最差也是退回On-Policy訓(xùn)練和GRPO等價。
結(jié)果:監(jiān)督強化學(xué)習(xí)方案性能持平,負(fù)向反饋在大模型中優(yōu)勢更加明顯
NFT和當(dāng)下性能最優(yōu)的強化學(xué)習(xí)算法性能持平,部分場景下可能更有優(yōu)勢(可以在現(xiàn)有監(jiān)督學(xué)習(xí)框架基礎(chǔ)上簡單實現(xiàn))。
與主流RLHF算法對比,NFT7B性能超過GRPO、DAPO;32B性能和DAPO基本持平。研究團隊還觀察到,模型越大,NFT和RFT算法性能差異越明顯。這暗示了負(fù)向反饋在大模型中承擔(dān)更重要的作用。
和其他已有的基于Qwen-7B zero style訓(xùn)練模型相比,NFT達(dá)到最高的數(shù)學(xué)平均成績。
作為一個純監(jiān)督學(xué)習(xí)算法,NFT不依賴任何外界數(shù)據(jù),可實現(xiàn)數(shù)學(xué)能力的大幅提升。
△架構(gòu)圖NFT在Qwen-7B(左)和32B模型(右)上性能表現(xiàn)及對比
研究團隊還發(fā)現(xiàn)NFT算法在不損失性能條件下有利于模型熵增加,鼓勵模型充分探索。
NFT算法指出并彌合了強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的本質(zhì)差異,這暗示兩套機器學(xué)習(xí)理論存在深層聯(lián)系,可以幫助研究者重新定位、思考和放大強化訓(xùn)練的本質(zhì)優(yōu)勢。
項目網(wǎng)頁: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/
論文鏈接: https://arxiv.org/pdf/2505.18116
項目代碼: https://github.com/NVlabs/NFT