偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)學(xué)訓(xùn)練讓AI變笨?強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異

發(fā)布于 2025-7-11 06:51
瀏覽
0收藏

當(dāng)數(shù)學(xué)天才遇上現(xiàn)實(shí)問(wèn)題

想象一下,你身邊有個(gè)數(shù)學(xué)天才,能輕松解決高考數(shù)學(xué)壓軸題,甚至在數(shù)學(xué)競(jìng)賽中屢獲佳績(jī)。但當(dāng)你讓他幫忙寫(xiě)個(gè)郵件、回答生活常識(shí)問(wèn)題時(shí),他卻表現(xiàn)得像個(gè)"書(shū)呆子"——要么答非所問(wèn),要么干脆說(shuō)不會(huì)。

這聽(tīng)起來(lái)很熟悉嗎?在AI大模型的世界里,這種現(xiàn)象正在真實(shí)上演。

最近,研究人員發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:那些在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色的AI模型,在處理其他類型問(wèn)題時(shí)卻頻頻"翻車"。更讓人驚訝的是,不同的訓(xùn)練方法竟然會(huì)導(dǎo)致截然不同的結(jié)果——同樣是數(shù)學(xué)訓(xùn)練,強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的模型能夠"舉一反三",而監(jiān)督學(xué)習(xí)訓(xùn)練的模型卻容易"一根筋"。


數(shù)學(xué)訓(xùn)練讓AI變笨?強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異-AI.x社區(qū)圖片

1、問(wèn)題的核心:數(shù)學(xué)能力能否遷移?

數(shù)學(xué)推理的"虛假繁榮"

近年來(lái),AI在數(shù)學(xué)推理任務(wù)上的表現(xiàn)可謂突飛猛進(jìn)。各種模型在MATH、AIME等數(shù)學(xué)競(jìng)賽基準(zhǔn)測(cè)試上的分?jǐn)?shù)周周刷新,有些甚至超越了人類專家的平均水平。


數(shù)學(xué)訓(xùn)練讓AI變笨?強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異-AI.x社區(qū)圖片

但這里有個(gè)關(guān)鍵問(wèn)題:這些數(shù)學(xué)上的進(jìn)步,真的代表了AI推理能力的全面提升嗎?

研究團(tuán)隊(duì)決定給這些"數(shù)學(xué)天才"們來(lái)一場(chǎng)全面體檢,測(cè)試內(nèi)容包括:

?數(shù)學(xué)推理:傳統(tǒng)的數(shù)學(xué)競(jìng)賽題目

?其他推理:科學(xué)問(wèn)答、代碼生成、智能體規(guī)劃等

?非推理任務(wù):日常對(duì)話、指令遵循、常識(shí)問(wèn)答等

令人意外的發(fā)現(xiàn)

結(jié)果讓人大跌眼鏡:大多數(shù)在數(shù)學(xué)上表現(xiàn)優(yōu)異的模型,在其他任務(wù)上的表現(xiàn)都很糟糕。

為了量化這種現(xiàn)象,研究者提出了"可遷移性指數(shù)"的概念。簡(jiǎn)單來(lái)說(shuō),就是看一個(gè)模型在數(shù)學(xué)上的進(jìn)步,能否帶動(dòng)其他能力的提升。

關(guān)鍵發(fā)現(xiàn)來(lái)了:使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型普遍具有更好的遷移性,而使用監(jiān)督學(xué)習(xí)(SFT)訓(xùn)練的模型往往出現(xiàn)"災(zāi)難性遺忘"——數(shù)學(xué)能力提升了,但其他能力卻大幅下降。

2、深度實(shí)驗(yàn):同樣的數(shù)據(jù),不同的命運(yùn)

嚴(yán)格的對(duì)照實(shí)驗(yàn)

為了確保這個(gè)發(fā)現(xiàn)的可靠性,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嚴(yán)格的對(duì)照實(shí)驗(yàn):

實(shí)驗(yàn)設(shè)置:

?使用相同的數(shù)學(xué)數(shù)據(jù)集

?采用相同的基礎(chǔ)模型(Qwen3-14B)

?分別用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種方法訓(xùn)練

監(jiān)督學(xué)習(xí)方法:讓模型學(xué)習(xí)"標(biāo)準(zhǔn)答案",就像傳統(tǒng)的師傅帶徒弟,手把手教每一步怎么做。

強(qiáng)化學(xué)習(xí)方法:只告訴模型最終答案對(duì)錯(cuò),讓它自己探索解題路徑,就像讓學(xué)生自己摸索,答對(duì)了給獎(jiǎng)勵(lì),答錯(cuò)了給懲罰。


數(shù)學(xué)訓(xùn)練讓AI變笨?強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異-AI.x社區(qū)圖片

結(jié)果對(duì)比一目了然

數(shù)學(xué)任務(wù)表現(xiàn):

?強(qiáng)化學(xué)習(xí)模型:AIME24達(dá)到55.7%,MATH500達(dá)到87.8%

?監(jiān)督學(xué)習(xí)模型:表現(xiàn)稍遜,但差距不大

其他推理任務(wù):

?強(qiáng)化學(xué)習(xí)模型:在代碼生成上比監(jiān)督學(xué)習(xí)模型高出17.1%

?監(jiān)督學(xué)習(xí)模型:進(jìn)步不均勻,有些任務(wù)甚至退步

非推理任務(wù):

?強(qiáng)化學(xué)習(xí)模型:不僅沒(méi)有下降,反而有所提升

?監(jiān)督學(xué)習(xí)模型:普遍出現(xiàn)性能下降

這個(gè)結(jié)果太有趣了:同樣的數(shù)據(jù),不同的訓(xùn)練方法,竟然造就了完全不同的"AI人格"。

3、技術(shù)揭秘:為什么會(huì)有這種差異?

從"大腦內(nèi)部"找答案

研究團(tuán)隊(duì)深入模型內(nèi)部,用兩種方法分析了訓(xùn)練對(duì)模型造成的影響:

1. 潛在空間分析(PCA分析) 這就像給模型的"大腦"做核磁共振,看看訓(xùn)練前后神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)發(fā)生了什么變化。

發(fā)現(xiàn):

?強(qiáng)化學(xué)習(xí)模型:內(nèi)部表示變化很小,就像在原有知識(shí)基礎(chǔ)上精細(xì)調(diào)整

?監(jiān)督學(xué)習(xí)模型:內(nèi)部表示發(fā)生大幅漂移,就像把原來(lái)的知識(shí)體系推倒重建

2. 輸出分布分析 這相當(dāng)于分析模型在回答問(wèn)題時(shí)的"思維模式"變化。

發(fā)現(xiàn):

?強(qiáng)化學(xué)習(xí)模型:只有少數(shù)幾個(gè)關(guān)鍵詞的使用頻率發(fā)生變化,比如"定義"、"添加"、"數(shù)字"等任務(wù)相關(guān)詞匯

?監(jiān)督學(xué)習(xí)模型:大量不相關(guān)詞匯的使用都發(fā)生了變化,甚至在不需要推理的問(wèn)題上也會(huì)啟動(dòng)復(fù)雜的推理過(guò)程

一個(gè)生動(dòng)的類比

想象你要訓(xùn)練一個(gè)廚師:

監(jiān)督學(xué)習(xí)就像:給他一本詳細(xì)的食譜,每道菜都有標(biāo)準(zhǔn)做法,他嚴(yán)格按照食譜執(zhí)行。結(jié)果是:做食譜上的菜很棒,但遇到新菜品或者需要靈活應(yīng)變時(shí)就抓瞎了。

強(qiáng)化學(xué)習(xí)就像:只告訴他做出來(lái)的菜好不好吃,讓他自己摸索。結(jié)果是:他不僅學(xué)會(huì)了做菜,還培養(yǎng)了味覺(jué)直覺(jué),能夠舉一反三,處理各種情況。

論文標(biāo)題:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning 

論文鏈接:???https://arxiv.org/abs/2507.00432??

本文轉(zhuǎn)載自??????AI帝國(guó)??????,作者:無(wú)影寺

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦