大模型刷數(shù)學(xué)題竟有害?CMU評估20+模型指出訓(xùn)練陷阱
學(xué)好數(shù)理化,走遍天下都不怕!
這一點(diǎn)這在大語言模型身上也不例外。
大家普遍認(rèn)同:具備更強(qiáng)數(shù)學(xué)能力的模型往往也更智能。
但,常識就是用來打破的。
最近,來自CMU的團(tuán)隊(duì)發(fā)現(xiàn),一些數(shù)學(xué)好的模型并沒有將它們的“天賦”帶到其他更加通用的領(lǐng)域。
研究發(fā)現(xiàn),只有用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型才能將數(shù)學(xué)推理技能廣泛遷移到其他任務(wù)上。而用監(jiān)督微調(diào)(SFT)訓(xùn)練的模型則表現(xiàn)出有限的遷移甚至沒有遷移。

網(wǎng)友直呼:又一個苦澀的教訓(xùn)(bitter lesson)。
這數(shù)學(xué)題,不做也罷?
很明顯,人們訓(xùn)練大模型并不只是讓它來做數(shù)學(xué)題的。
研究者之所以熱衷于提高模型的數(shù)學(xué)表現(xiàn),是因?yàn)橄M軌虬褦?shù)學(xué)那里學(xué)到的嚴(yán)密邏輯應(yīng)用到其他更廣泛的領(lǐng)域。
但在此之前,我們有必要知道,對于一個大模型,專門優(yōu)化數(shù)學(xué)推理(math reasoning),它在其他任務(wù)(推理任務(wù)、非推理任務(wù))上會變得更好,還是更差?
換句話說:做數(shù)學(xué)推理訓(xùn)練,會不會幫助或者損害模型在其他領(lǐng)域的能力?
為了解決這一疑問,研究評估了20多個模型在數(shù)學(xué)推理、其他推理任務(wù)(包含醫(yī)學(xué)推理、醫(yī)學(xué)推理、智能體規(guī)劃)和非推理任務(wù)(包含常識對話和遵循指令)上的表現(xiàn)。

實(shí)驗(yàn)先計算模型在每個benchmark任務(wù)上相比基線模型(Qwen3-14B-Base)的性能提升幅度,再將這個提升除以基線模型在該任務(wù)上的分?jǐn)?shù),以此得到相對提升的百分比,最后對同一組內(nèi)所有任務(wù)的相對提升求均值,得到該任務(wù)組整體的相對增益。
為了更好地定量評估這個“遷移能力”,研究還提出了遷移能力指標(biāo)(Transferability Index,TI)。

通過“其他推理”或“非推理”任務(wù)組的相對增益,分別除以數(shù)學(xué)任務(wù)組的相對增益。這樣,TI就清晰反映了數(shù)學(xué)能力的提升在多大程度上能遷移到其他領(lǐng)域。
如果TI大于0,說明對其他任務(wù)有正遷移效應(yīng),若小于0,則意味著負(fù)遷移。

實(shí)驗(yàn)結(jié)果表明,模型的遷移能力與微調(diào)方法、模型規(guī)模以及架構(gòu)有關(guān),但其中微調(diào)方法是最關(guān)鍵的因素。
具體而言,采用RL微調(diào)的模型,在其他推理任務(wù)和非推理任務(wù)上都能持續(xù)獲得更高的遷移能力指標(biāo),而使用SFT的模型則往往在非推理任務(wù)上出現(xiàn)負(fù)遷移。
再進(jìn)一步的對照實(shí)驗(yàn)中,研究采用相同數(shù)據(jù)集和基線模型驗(yàn)證了在其他條件完全一致的情況下,純粹因?yàn)槲⒄{(diào)方式的不同,才產(chǎn)生了性能和遷移能力的顯著差異。
RL的又一次勝利
為了理解不同微調(diào)方法在遷移能力上產(chǎn)生差異的原因,研究進(jìn)一步探索了模型內(nèi)部的表征,將特定領(lǐng)域的查詢和答案分別輸入到基礎(chǔ)模型和微調(diào)模型中,并對隱藏層表示(hidden representations)進(jìn)行PCA偏移分析。
通俗來說,通過PCA偏移分析,就能夠得知模型在后訓(xùn)練階段,究竟是既保留了原有的知識,又在具體領(lǐng)域變得更強(qiáng)了,還是學(xué)了新的就忘了舊的。

PAC分析表明,RL微調(diào)模型在表征空間上的偏移最小。這就意味著,相較于SFT,采用RL進(jìn)行微調(diào)的模型在提升專門領(lǐng)域表現(xiàn)的同時,還保留了之前學(xué)習(xí)到的能力。

同樣的,Token分布偏移分析表明RL訓(xùn)練選擇性地調(diào)整了邏輯結(jié)構(gòu)詞條。而SFT會同時擾亂邏輯和不相關(guān)的詞條,從而可能損害泛化能力。

此外,RL模型在推理和非推理任務(wù)上的KL散度均顯著低于SFT模型(KL散度越高,偏移越大)。
這表明,在Token概率分布層面,RL相比SFT發(fā)生的分布偏移更小。同時,RL還表現(xiàn)出更低的Token排名偏移(tokenrankshift)。
由此,相較于SFT,RL夠帶來更具體、更穩(wěn)定、更精準(zhǔn)的表征更新,從而實(shí)現(xiàn)更強(qiáng)的遷移能力與泛化性。
RL實(shí)現(xiàn)了它在LLM的又一次勝利,也預(yù)示著強(qiáng)化學(xué)習(xí)似乎是真正實(shí)現(xiàn)可遷移推理發(fā)展的關(guān)鍵。
論文地址:
https://arxiv.org/abs/2507.00432





































