偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

監(jiān)督學(xué)習(xí)也能從錯誤中學(xué)習(xí)反思？！清華英偉達(dá)聯(lián)合提出隱式負(fù)向策略爆炸提升數(shù)學(xué)能力

2025-06-23 08:52:00

人工智能新聞

清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT（Negative-aware FineTuning），在RFT（Rejection FineTuning）算法基礎(chǔ)上通過構(gòu)造一個“隱式負(fù)向模型” 來額外利用負(fù)向數(shù)據(jù)進行訓(xùn)練。

監(jiān)督學(xué)習(xí)也能像強化學(xué)習(xí)一樣進行“自我反思”了。

清華大學(xué)與英偉達(dá)、斯坦福聯(lián)合提出新的監(jiān)督學(xué)習(xí)方案——NFT（Negative-aware FineTuning），在RFT（Rejection FineTuning）算法基礎(chǔ)上通過構(gòu)造一個“隱式負(fù)向模型” 來額外利用負(fù)向數(shù)據(jù)進行訓(xùn)練。

這并不意味著使用“差數(shù)據(jù)”進行訓(xùn)練，而是在已知的模型計算結(jié)果前提下，通過負(fù)向數(shù)據(jù)訓(xùn)練正向模型，即“隱式負(fù)向策略（Implicit Negative Policy）”。

這一策略彌合了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的差距，使得兩者性能基本持平。

△架構(gòu)圖語言模型在線強化算法光譜圖

更讓人驚訝的是，NFT損失函數(shù)梯度和GRPO在On-Policy條件下是等價的！這意味著，GRPO中人為經(jīng)驗設(shè)置的“Group Relative Normalization”方案，可以直接通過理論推導(dǎo)自然得出。

方法：負(fù)向策略計算出正向模型

NFT定義了一個在線強化過程：

1.數(shù)據(jù)采樣：語言模型自己產(chǎn)生大量數(shù)學(xué)問題答案，通過一個01獎勵函數(shù)，把答案分為正確和錯誤兩類，并統(tǒng)計每個問題回答準(zhǔn)確率[數(shù)學(xué)公式]。

2.隱式策略建模：利用原始模型和待訓(xùn)練正向模型，構(gòu)造一個隱式負(fù)向策略來建模負(fù)向數(shù)據(jù)。

3.策略優(yōu)化：在正確數(shù)據(jù)上，直接監(jiān)督訓(xùn)練正向策略模型；在錯誤數(shù)據(jù)上，通過用隱式負(fù)向策略擬合建模，達(dá)到直接優(yōu)化正向策略模型的目的。

考慮這樣一個監(jiān)督學(xué)習(xí)基線：Rejection sampling Finetuning（RFT）。每一輪，研究團隊讓模型自己產(chǎn)生大量數(shù)學(xué)問題答案，通過一個01獎勵函數(shù)，把所有模型產(chǎn)生的錯誤答案丟棄，僅在高質(zhì)量正向數(shù)據(jù)上進行監(jiān)督訓(xùn)練。RFT中，研究團隊每一輪的訓(xùn)練目標(biāo)是：

問題關(guān)鍵在于：能否在負(fù)向數(shù)據(jù)上監(jiān)督訓(xùn)練，也同樣得到上面的“正向策略”呢？

乍看上去是不可能的，在負(fù)向數(shù)據(jù)上訓(xùn)練只能得到?jīng)]有用的“負(fù)向策略”。

然而，問題的轉(zhuǎn)折點在于，數(shù)據(jù)是已知模型在線采樣的，也就是正負(fù)向數(shù)據(jù)分布的和是已知的。由貝葉斯公式可知以下線性關(guān)系：

這說明，假設(shè)真能在負(fù)向數(shù)據(jù)上學(xué)習(xí)到一個“負(fù)向策略”，可以把這個負(fù)向策略和原始生成策略結(jié)合，“計算”得出想要的正向模型。

在實際操作中，不是真的去學(xué)習(xí)一個“差模型”。研究團隊提出“隱式負(fù)向策略”（Implicit Negative Policy），可以直接在負(fù)向數(shù)據(jù)上訓(xùn)練正向策略?？捎靡韵卤磉_(dá)式來參數(shù)化隱式負(fù)向模型：

其中r_{q 表示模型在回答問題q時的正確率，現(xiàn)實中由于模型對一個問題會產(chǎn)生多個回答，我們可以很容易地估計rq 。這里表明隱式負(fù)向策略不是一個靜態(tài)的模型，而是基于不同難度的問題動態(tài)構(gòu)造的。}

因此，NFT損失函數(shù)就可以表達(dá)為：

對以上損失函數(shù)直接求導(dǎo)，研究團隊在嚴(yán)格On-policy條件下得到和GRPO等價的梯度表達(dá)式。

這暗示了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)或許存在深層的聯(lián)系，也直接說明NFT是一個絕對可靠的算法，最差也是退回On-Policy訓(xùn)練和GRPO等價。

結(jié)果：監(jiān)督強化學(xué)習(xí)方案性能持平，負(fù)向反饋在大模型中優(yōu)勢更加明顯

NFT和當(dāng)下性能最優(yōu)的強化學(xué)習(xí)算法性能持平，部分場景下可能更有優(yōu)勢（可以在現(xiàn)有監(jiān)督學(xué)習(xí)框架基礎(chǔ)上簡單實現(xiàn)）。

與主流RLHF算法對比，NFT7B性能超過GRPO、DAPO；32B性能和DAPO基本持平。研究團隊還觀察到，模型越大，NFT和RFT算法性能差異越明顯。這暗示了負(fù)向反饋在大模型中承擔(dān)更重要的作用。

和其他已有的基于Qwen-7B zero style訓(xùn)練模型相比，NFT達(dá)到最高的數(shù)學(xué)平均成績。

作為一個純監(jiān)督學(xué)習(xí)算法，NFT不依賴任何外界數(shù)據(jù)，可實現(xiàn)數(shù)學(xué)能力的大幅提升。

△架構(gòu)圖NFT在Qwen-7B（左）和32B模型（右）上性能表現(xiàn)及對比

研究團隊還發(fā)現(xiàn)NFT算法在不損失性能條件下有利于模型熵增加，鼓勵模型充分探索。

NFT算法指出并彌合了強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的本質(zhì)差異，這暗示兩套機器學(xué)習(xí)理論存在深層聯(lián)系，可以幫助研究者重新定位、思考和放大強化訓(xùn)練的本質(zhì)優(yōu)勢。

項目網(wǎng)頁: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/

論文鏈接: https://arxiv.org/pdf/2505.18116

項目代碼: https://github.com/NVlabs/NFT

責(zé)任編輯：張燕妮來源：量子位

AI 模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<del id="hcg9r"><b id="hcg9r"><small id="hcg9r"></small></b></del>

<ruby id="hcg9r"></ruby>

<thead id="hcg9r"></thead>

<dfn id="hcg9r"></dfn>