英偉達(dá)數(shù)學(xué)推理新突破:監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)的"1+1>2"效應(yīng) 精華
還記得OpenAI發(fā)布o(jì)1模型時(shí),那種"AI終于會思考了"的震撼嗎?現(xiàn)在,英偉達(dá)團(tuán)隊(duì)帶來了更深入的研究成果,揭示了如何讓7B參數(shù)的小模型在數(shù)學(xué)和編程推理上達(dá)到頂尖水平。他們的AceReason-Nemotron-1.1模型在AIME25數(shù)學(xué)競賽中取得了63.2%的準(zhǔn)確率,在編程基準(zhǔn)測試中也屢創(chuàng)新高。
這背后的秘密不是簡單的堆算力,而是監(jiān)督學(xué)習(xí)(SFT)和強(qiáng)化學(xué)習(xí)(RL)的巧妙配合。這項(xiàng)研究不僅給出了具體的訓(xùn)練配方,更重要的是回答了一個(gè)關(guān)鍵問題:為什么兩種訓(xùn)練方法結(jié)合使用會產(chǎn)生如此強(qiáng)大的效果?
圖片
數(shù)據(jù)規(guī)模化:不只是"多多益善"這么簡單
傳統(tǒng)觀念認(rèn)為,AI訓(xùn)練就是數(shù)據(jù)越多越好。但英偉達(dá)團(tuán)隊(duì)的研究發(fā)現(xiàn),擴(kuò)展數(shù)據(jù)的方式比數(shù)據(jù)量本身更關(guān)鍵。
他們設(shè)計(jì)了兩種數(shù)據(jù)擴(kuò)展策略:一是增加不同類型題目的數(shù)量,二是為每個(gè)題目生成更多解答方案。通過對比實(shí)驗(yàn)發(fā)現(xiàn),增加題目多樣性的效果明顯優(yōu)于增加每題的解答數(shù)量。用數(shù)學(xué)公式表達(dá)就是:題目多樣性的影響系數(shù)是4.831,而解答數(shù)量的影響系數(shù)僅為2.635。
這個(gè)發(fā)現(xiàn)頗為反直覺。按常理,同一道題的多種解法應(yīng)該能讓AI學(xué)到更豐富的推理路徑。但實(shí)際情況是,接觸更多不同類型的問題,比深入鉆研少數(shù)幾道題的效果更好。這就像學(xué)數(shù)學(xué),做100道不同類型的題比把同一道題用10種方法反復(fù)練習(xí)更有效。
更有趣的是訓(xùn)練輪數(shù)的發(fā)現(xiàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),即使在第5-6輪訓(xùn)練時(shí)模型已經(jīng)開始"過擬合"(在訓(xùn)練集上表現(xiàn)很好但可能泛化能力下降),但測試準(zhǔn)確率依然在提升。這說明對于長鏈推理任務(wù),適度的過擬合實(shí)際上是有益的,這挑戰(zhàn)了傳統(tǒng)機(jī)器學(xué)習(xí)的常識。
強(qiáng)化學(xué)習(xí)的"接力棒"效應(yīng):弱者也能逆襲
最令人驚訝的發(fā)現(xiàn)是強(qiáng)化學(xué)習(xí)階段的表現(xiàn)。研究團(tuán)隊(duì)用不同質(zhì)量的監(jiān)督學(xué)習(xí)模型作為起點(diǎn)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,結(jié)果發(fā)現(xiàn):即使起始模型存在顯著性能差距,經(jīng)過強(qiáng)化學(xué)習(xí)后這些差距會大幅縮小。
具體來說,兩個(gè)在AIME24數(shù)學(xué)競賽上相差6.6%的模型,經(jīng)過強(qiáng)化學(xué)習(xí)后差距縮小到僅1.6%。這個(gè)現(xiàn)象就像賽跑中的"接力棒效應(yīng)"——前半程落后的選手在后半程完全有機(jī)會追上甚至超越領(lǐng)先者。
這個(gè)發(fā)現(xiàn)的實(shí)際意義重大:即使你的初始模型不夠強(qiáng),也不要放棄強(qiáng)化學(xué)習(xí)這個(gè)提升的機(jī)會。同時(shí)也說明,強(qiáng)化學(xué)習(xí)具有某種"均衡化"的作用,能夠挖掘出不同模型的共同潛力。
圖片
溫度調(diào)節(jié)的藝術(shù):探索與利用的微妙平衡
在強(qiáng)化學(xué)習(xí)過程中,有一個(gè)關(guān)鍵參數(shù)叫"溫度",它控制著AI在生成答案時(shí)的隨機(jī)性程度。溫度高,AI更愿意嘗試新奇的解法(探索);溫度低,AI傾向于使用已知的可靠方法(利用)。
英偉達(dá)團(tuán)隊(duì)經(jīng)過大量實(shí)驗(yàn)總結(jié)出了一個(gè)"黃金法則":調(diào)整溫度使得溫度調(diào)整熵保持在0.3左右,這樣能在探索和利用之間達(dá)到最佳平衡。
這就像調(diào)節(jié)水溫洗澡——太熱會燙傷,太冷沒效果,只有恰到好處才最舒適。溫度設(shè)置過低(0.6),AI過于保守,不敢嘗試新方法;設(shè)置過高(1.0),AI過于激進(jìn),經(jīng)常得到錯(cuò)誤答案而學(xué)習(xí)效果差;而中等溫度(0.85)正好讓AI既保持足夠的探索精神,又不至于胡亂嘗試。
圖片
圖片
圖片
深層思考
這項(xiàng)研究的價(jià)值不僅在于技術(shù)層面的突破,更在于它揭示了AI訓(xùn)練的一些深層規(guī)律。
首先,AI能力提升不是線性的。不同訓(xùn)練方法的組合會產(chǎn)生協(xié)同效應(yīng),1+1確實(shí)可以大于2。監(jiān)督學(xué)習(xí)讓AI學(xué)會基礎(chǔ)推理模式,強(qiáng)化學(xué)習(xí)則讓AI學(xué)會在復(fù)雜情況下靈活應(yīng)用這些模式。
其次,質(zhì)量比數(shù)量更重要。研究發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)階段數(shù)據(jù)質(zhì)量的影響遠(yuǎn)超數(shù)據(jù)數(shù)量。這提醒我們,AI發(fā)展的關(guān)鍵不在于盲目擴(kuò)大數(shù)據(jù)集,而在于精心設(shè)計(jì)訓(xùn)練策略。
最后,這項(xiàng)研究證明了小模型也能達(dá)到驚人的性能。AceReason-Nemotron-1.1只有7B參數(shù),卻在多項(xiàng)任務(wù)上超越了更大的模型。這給資源有限的研究者和開發(fā)者帶來了希望——通過精巧的訓(xùn)練方法,小模型也能發(fā)揮大作用。
從更宏觀的角度看,這項(xiàng)研究為AI推理能力的提升指明了一條清晰的路徑。它不依賴于簡單的模型規(guī)模擴(kuò)張,而是通過深入理解訓(xùn)練過程的內(nèi)在機(jī)制,找到了一種更高效、更可持續(xù)的AI能力提升方案。這種方法論的意義,或許比單純的性能數(shù)字更加深遠(yuǎn)。
論文標(biāo)題:AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
論文鏈接:???https://arxiv.org/abs/2506.13284??
本文轉(zhuǎn)載自???AI帝國???,作者:無影寺
