偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

監(jiān)督學(xué)習(xí)也能從錯誤中學(xué)習(xí)反思?!清華英偉達(dá)聯(lián)合提出隱式負(fù)向策略爆炸提升數(shù)學(xué)能力

人工智能 新聞
清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎(chǔ)上通過構(gòu)造一個“隱式負(fù)向模型” 來額外利用負(fù)向數(shù)據(jù)進行訓(xùn)練。

監(jiān)督學(xué)習(xí)也能像強化學(xué)習(xí)一樣進行“自我反思”了。

清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎(chǔ)上通過構(gòu)造一個“隱式負(fù)向模型” 來額外利用負(fù)向數(shù)據(jù)進行訓(xùn)練。

這并不意味著使用“差數(shù)據(jù)”進行訓(xùn)練,而是在已知的模型計算結(jié)果前提下,通過負(fù)向數(shù)據(jù)訓(xùn)練正向模型,即“隱式負(fù)向策略(Implicit Negative Policy)”。

這一策略彌合了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的差距,使得兩者性能基本持平。

圖片

△架構(gòu)圖語言模型在線強化算法光譜圖

更讓人驚訝的是,NFT損失函數(shù)梯度和GRPO在On-Policy條件下是等價的!這意味著,GRPO中人為經(jīng)驗設(shè)置的“Group Relative Normalization”方案,可以直接通過理論推導(dǎo)自然得出。

方法:負(fù)向策略計算出正向模型

NFT定義了一個在線強化過程:

1.數(shù)據(jù)采樣:語言模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個01獎勵函數(shù),把答案分為正確和錯誤兩類,并統(tǒng)計每個問題回答準(zhǔn)確率[數(shù)學(xué)公式]。

2.隱式策略建模:利用原始模型和待訓(xùn)練正向模型,構(gòu)造一個隱式負(fù)向策略來建模負(fù)向數(shù)據(jù)。

3.策略優(yōu)化:在正確數(shù)據(jù)上,直接監(jiān)督訓(xùn)練正向策略模型;在錯誤數(shù)據(jù)上,通過用隱式負(fù)向策略擬合建模,達(dá)到直接優(yōu)化正向策略模型的目的。

圖片

考慮這樣一個監(jiān)督學(xué)習(xí)基線:Rejection sampling Finetuning(RFT)。每一輪,研究團隊讓模型自己產(chǎn)生大量數(shù)學(xué)問題答案,通過一個01獎勵函數(shù),把所有模型產(chǎn)生的錯誤答案丟棄,僅在高質(zhì)量正向數(shù)據(jù)上進行監(jiān)督訓(xùn)練。RFT中,研究團隊每一輪的訓(xùn)練目標(biāo)是:

圖片

問題關(guān)鍵在于:能否在負(fù)向數(shù)據(jù)上監(jiān)督訓(xùn)練,也同樣得到上面的“正向策略”呢?

乍看上去是不可能的,在負(fù)向數(shù)據(jù)上訓(xùn)練只能得到?jīng)]有用的“負(fù)向策略”。

然而,問題的轉(zhuǎn)折點在于,數(shù)據(jù)是已知模型在線采樣的,也就是正負(fù)向數(shù)據(jù)分布的和是已知的。由貝葉斯公式可知以下線性關(guān)系:

圖片

這說明,假設(shè)真能在負(fù)向數(shù)據(jù)上學(xué)習(xí)到一個“負(fù)向策略”,可以把這個負(fù)向策略和原始生成策略結(jié)合,“計算”得出想要的正向模型。

在實際操作中,不是真的去學(xué)習(xí)一個“差模型”。研究團隊提出“隱式負(fù)向策略”(Implicit Negative Policy),可以直接在負(fù)向數(shù)據(jù)上訓(xùn)練正向策略??捎靡韵卤磉_(dá)式來參數(shù)化隱式負(fù)向模型:

圖片

其中r表示模型在回答問題q時的正確率,現(xiàn)實中由于模型對一個問題會產(chǎn)生多個回答,我們可以很容易地估計r。這里表明隱式負(fù)向策略不是一個靜態(tài)的模型,而是基于不同難度的問題動態(tài)構(gòu)造的。

因此,NFT損失函數(shù)就可以表達(dá)為:

圖片

對以上損失函數(shù)直接求導(dǎo),研究團隊在嚴(yán)格On-policy條件下得到和GRPO等價的梯度表達(dá)式。

這暗示了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)或許存在深層的聯(lián)系,也直接說明NFT是一個絕對可靠的算法,最差也是退回On-Policy訓(xùn)練和GRPO等價。

結(jié)果:監(jiān)督強化學(xué)習(xí)方案性能持平,負(fù)向反饋在大模型中優(yōu)勢更加明顯

NFT和當(dāng)下性能最優(yōu)的強化學(xué)習(xí)算法性能持平,部分場景下可能更有優(yōu)勢(可以在現(xiàn)有監(jiān)督學(xué)習(xí)框架基礎(chǔ)上簡單實現(xiàn))。

與主流RLHF算法對比,NFT7B性能超過GRPO、DAPO;32B性能和DAPO基本持平。研究團隊還觀察到,模型越大,NFT和RFT算法性能差異越明顯。這暗示了負(fù)向反饋在大模型中承擔(dān)更重要的作用。

圖片

和其他已有的基于Qwen-7B zero style訓(xùn)練模型相比,NFT達(dá)到最高的數(shù)學(xué)平均成績。

圖片

作為一個純監(jiān)督學(xué)習(xí)算法,NFT不依賴任何外界數(shù)據(jù),可實現(xiàn)數(shù)學(xué)能力的大幅提升。

圖片

△架構(gòu)圖NFT在Qwen-7B(左)和32B模型(右)上性能表現(xiàn)及對比

研究團隊還發(fā)現(xiàn)NFT算法在不損失性能條件下有利于模型熵增加,鼓勵模型充分探索。

圖片

NFT算法指出并彌合了強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的本質(zhì)差異,這暗示兩套機器學(xué)習(xí)理論存在深層聯(lián)系,可以幫助研究者重新定位、思考和放大強化訓(xùn)練的本質(zhì)優(yōu)勢。

項目網(wǎng)頁: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/

論文鏈接: https://arxiv.org/pdf/2505.18116

項目代碼: https://github.com/NVlabs/NFT

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機器學(xué)習(xí)

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2021-12-31 14:11:20

框架AI開發(fā)

2020-08-16 11:34:43

人工智能機器學(xué)習(xí)技術(shù)

2020-08-14 11:00:44

機器學(xué)習(xí)人工智能機器人

2022-10-21 15:02:36

DeepFake技術(shù)

2015-10-12 10:37:42

學(xué)習(xí)算法檢測

2019-10-14 10:40:03

機器學(xué)習(xí)人工智能非監(jiān)督學(xué)習(xí)

2023-12-01 16:27:05

機器學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2022-03-25 10:13:05

自動駕駛監(jiān)督學(xué)習(xí)數(shù)據(jù)集

2022-06-14 07:07:57

網(wǎng)絡(luò)威脅無監(jiān)督數(shù)據(jù)泄露

2023-11-15 18:40:27

半監(jiān)督學(xué)習(xí)人工智能

2022-02-15 09:04:44

機器學(xué)習(xí)人工智能監(jiān)督學(xué)習(xí)

2023-11-28 12:12:46

機器學(xué)習(xí)算法

2022-11-03 14:13:52

強化學(xué)習(xí)方法

2021-03-18 09:28:20

人工智能機器學(xué)習(xí)技術(shù)

2023-10-30 11:33:12

AIChatGPT

2021-07-07 17:19:07

人工智能代碼開源

2025-06-25 08:59:49

AI數(shù)據(jù)模型
點贊
收藏

51CTO技術(shù)棧公眾號