數(shù)學(xué)訓(xùn)練讓AI變笨?強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異
當(dāng)數(shù)學(xué)天才遇上現(xiàn)實(shí)問(wèn)題
想象一下,你身邊有個(gè)數(shù)學(xué)天才,能輕松解決高考數(shù)學(xué)壓軸題,甚至在數(shù)學(xué)競(jìng)賽中屢獲佳績(jī)。但當(dāng)你讓他幫忙寫(xiě)個(gè)郵件、回答生活常識(shí)問(wèn)題時(shí),他卻表現(xiàn)得像個(gè)"書(shū)呆子"——要么答非所問(wèn),要么干脆說(shuō)不會(huì)。
這聽(tīng)起來(lái)很熟悉嗎?在AI大模型的世界里,這種現(xiàn)象正在真實(shí)上演。
最近,研究人員發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:那些在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色的AI模型,在處理其他類型問(wèn)題時(shí)卻頻頻"翻車"。更讓人驚訝的是,不同的訓(xùn)練方法竟然會(huì)導(dǎo)致截然不同的結(jié)果——同樣是數(shù)學(xué)訓(xùn)練,強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的模型能夠"舉一反三",而監(jiān)督學(xué)習(xí)訓(xùn)練的模型卻容易"一根筋"。
圖片
1、問(wèn)題的核心:數(shù)學(xué)能力能否遷移?
數(shù)學(xué)推理的"虛假繁榮"
近年來(lái),AI在數(shù)學(xué)推理任務(wù)上的表現(xiàn)可謂突飛猛進(jìn)。各種模型在MATH、AIME等數(shù)學(xué)競(jìng)賽基準(zhǔn)測(cè)試上的分?jǐn)?shù)周周刷新,有些甚至超越了人類專家的平均水平。
圖片
但這里有個(gè)關(guān)鍵問(wèn)題:這些數(shù)學(xué)上的進(jìn)步,真的代表了AI推理能力的全面提升嗎?
研究團(tuán)隊(duì)決定給這些"數(shù)學(xué)天才"們來(lái)一場(chǎng)全面體檢,測(cè)試內(nèi)容包括:
?數(shù)學(xué)推理:傳統(tǒng)的數(shù)學(xué)競(jìng)賽題目
?其他推理:科學(xué)問(wèn)答、代碼生成、智能體規(guī)劃等
?非推理任務(wù):日常對(duì)話、指令遵循、常識(shí)問(wèn)答等
令人意外的發(fā)現(xiàn)
結(jié)果讓人大跌眼鏡:大多數(shù)在數(shù)學(xué)上表現(xiàn)優(yōu)異的模型,在其他任務(wù)上的表現(xiàn)都很糟糕。
為了量化這種現(xiàn)象,研究者提出了"可遷移性指數(shù)"的概念。簡(jiǎn)單來(lái)說(shuō),就是看一個(gè)模型在數(shù)學(xué)上的進(jìn)步,能否帶動(dòng)其他能力的提升。
關(guān)鍵發(fā)現(xiàn)來(lái)了:使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型普遍具有更好的遷移性,而使用監(jiān)督學(xué)習(xí)(SFT)訓(xùn)練的模型往往出現(xiàn)"災(zāi)難性遺忘"——數(shù)學(xué)能力提升了,但其他能力卻大幅下降。
2、深度實(shí)驗(yàn):同樣的數(shù)據(jù),不同的命運(yùn)
嚴(yán)格的對(duì)照實(shí)驗(yàn)
為了確保這個(gè)發(fā)現(xiàn)的可靠性,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嚴(yán)格的對(duì)照實(shí)驗(yàn):
實(shí)驗(yàn)設(shè)置:
?使用相同的數(shù)學(xué)數(shù)據(jù)集
?采用相同的基礎(chǔ)模型(Qwen3-14B)
?分別用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種方法訓(xùn)練
監(jiān)督學(xué)習(xí)方法:讓模型學(xué)習(xí)"標(biāo)準(zhǔn)答案",就像傳統(tǒng)的師傅帶徒弟,手把手教每一步怎么做。
強(qiáng)化學(xué)習(xí)方法:只告訴模型最終答案對(duì)錯(cuò),讓它自己探索解題路徑,就像讓學(xué)生自己摸索,答對(duì)了給獎(jiǎng)勵(lì),答錯(cuò)了給懲罰。
圖片
結(jié)果對(duì)比一目了然
數(shù)學(xué)任務(wù)表現(xiàn):
?強(qiáng)化學(xué)習(xí)模型:AIME24達(dá)到55.7%,MATH500達(dá)到87.8%
?監(jiān)督學(xué)習(xí)模型:表現(xiàn)稍遜,但差距不大
其他推理任務(wù):
?強(qiáng)化學(xué)習(xí)模型:在代碼生成上比監(jiān)督學(xué)習(xí)模型高出17.1%
?監(jiān)督學(xué)習(xí)模型:進(jìn)步不均勻,有些任務(wù)甚至退步
非推理任務(wù):
?強(qiáng)化學(xué)習(xí)模型:不僅沒(méi)有下降,反而有所提升
?監(jiān)督學(xué)習(xí)模型:普遍出現(xiàn)性能下降
這個(gè)結(jié)果太有趣了:同樣的數(shù)據(jù),不同的訓(xùn)練方法,竟然造就了完全不同的"AI人格"。
3、技術(shù)揭秘:為什么會(huì)有這種差異?
從"大腦內(nèi)部"找答案
研究團(tuán)隊(duì)深入模型內(nèi)部,用兩種方法分析了訓(xùn)練對(duì)模型造成的影響:
1. 潛在空間分析(PCA分析) 這就像給模型的"大腦"做核磁共振,看看訓(xùn)練前后神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)發(fā)生了什么變化。
發(fā)現(xiàn):
?強(qiáng)化學(xué)習(xí)模型:內(nèi)部表示變化很小,就像在原有知識(shí)基礎(chǔ)上精細(xì)調(diào)整
?監(jiān)督學(xué)習(xí)模型:內(nèi)部表示發(fā)生大幅漂移,就像把原來(lái)的知識(shí)體系推倒重建
2. 輸出分布分析 這相當(dāng)于分析模型在回答問(wèn)題時(shí)的"思維模式"變化。
發(fā)現(xiàn):
?強(qiáng)化學(xué)習(xí)模型:只有少數(shù)幾個(gè)關(guān)鍵詞的使用頻率發(fā)生變化,比如"定義"、"添加"、"數(shù)字"等任務(wù)相關(guān)詞匯
?監(jiān)督學(xué)習(xí)模型:大量不相關(guān)詞匯的使用都發(fā)生了變化,甚至在不需要推理的問(wèn)題上也會(huì)啟動(dòng)復(fù)雜的推理過(guò)程
一個(gè)生動(dòng)的類比
想象你要訓(xùn)練一個(gè)廚師:
監(jiān)督學(xué)習(xí)就像:給他一本詳細(xì)的食譜,每道菜都有標(biāo)準(zhǔn)做法,他嚴(yán)格按照食譜執(zhí)行。結(jié)果是:做食譜上的菜很棒,但遇到新菜品或者需要靈活應(yīng)變時(shí)就抓瞎了。
強(qiáng)化學(xué)習(xí)就像:只告訴他做出來(lái)的菜好不好吃,讓他自己摸索。結(jié)果是:他不僅學(xué)會(huì)了做菜,還培養(yǎng)了味覺(jué)直覺(jué),能夠舉一反三,處理各種情況。
論文標(biāo)題:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
論文鏈接:???https://arxiv.org/abs/2507.00432??
本文轉(zhuǎn)載自??????AI帝國(guó)??????,作者:無(wú)影寺
