偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="h41t2"></blockquote>

<abbr id="h41t2"><label id="h41t2"></label></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

數(shù)學(xué)訓(xùn)練讓AI變笨？強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異

發(fā)布于 2025-7-11 06:51

瀏覽

0收藏

當(dāng)數(shù)學(xué)天才遇上現(xiàn)實(shí)問(wèn)題

想象一下，你身邊有個(gè)數(shù)學(xué)天才，能輕松解決高考數(shù)學(xué)壓軸題，甚至在數(shù)學(xué)競(jìng)賽中屢獲佳績(jī)。但當(dāng)你讓他幫忙寫(xiě)個(gè)郵件、回答生活常識(shí)問(wèn)題時(shí)，他卻表現(xiàn)得像個(gè)"書(shū)呆子"——要么答非所問(wèn)，要么干脆說(shuō)不會(huì)。

這聽(tīng)起來(lái)很熟悉嗎？在AI大模型的世界里，這種現(xiàn)象正在真實(shí)上演。

最近，研究人員發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象：那些在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色的AI模型，在處理其他類型問(wèn)題時(shí)卻頻頻"翻車"。更讓人驚訝的是，不同的訓(xùn)練方法竟然會(huì)導(dǎo)致截然不同的結(jié)果——同樣是數(shù)學(xué)訓(xùn)練，強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的模型能夠"舉一反三"，而監(jiān)督學(xué)習(xí)訓(xùn)練的模型卻容易"一根筋"。

數(shù)學(xué)訓(xùn)練讓AI變笨？強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異-AI.x社區(qū) 圖片

1、問(wèn)題的核心：數(shù)學(xué)能力能否遷移？

數(shù)學(xué)推理的"虛假繁榮"

近年來(lái)，AI在數(shù)學(xué)推理任務(wù)上的表現(xiàn)可謂突飛猛進(jìn)。各種模型在MATH、AIME等數(shù)學(xué)競(jìng)賽基準(zhǔn)測(cè)試上的分?jǐn)?shù)周周刷新，有些甚至超越了人類專家的平均水平。

數(shù)學(xué)訓(xùn)練讓AI變笨？強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異-AI.x社區(qū) 圖片

但這里有個(gè)關(guān)鍵問(wèn)題：這些數(shù)學(xué)上的進(jìn)步，真的代表了AI推理能力的全面提升嗎？

研究團(tuán)隊(duì)決定給這些"數(shù)學(xué)天才"們來(lái)一場(chǎng)全面體檢，測(cè)試內(nèi)容包括：

?數(shù)學(xué)推理：傳統(tǒng)的數(shù)學(xué)競(jìng)賽題目

?其他推理：科學(xué)問(wèn)答、代碼生成、智能體規(guī)劃等

?非推理任務(wù)：日常對(duì)話、指令遵循、常識(shí)問(wèn)答等

令人意外的發(fā)現(xiàn)

結(jié)果讓人大跌眼鏡：大多數(shù)在數(shù)學(xué)上表現(xiàn)優(yōu)異的模型，在其他任務(wù)上的表現(xiàn)都很糟糕。

為了量化這種現(xiàn)象，研究者提出了"可遷移性指數(shù)"的概念。簡(jiǎn)單來(lái)說(shuō)，就是看一個(gè)模型在數(shù)學(xué)上的進(jìn)步，能否帶動(dòng)其他能力的提升。

關(guān)鍵發(fā)現(xiàn)來(lái)了：使用強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練的模型普遍具有更好的遷移性，而使用監(jiān)督學(xué)習(xí)（SFT）訓(xùn)練的模型往往出現(xiàn)"災(zāi)難性遺忘"——數(shù)學(xué)能力提升了，但其他能力卻大幅下降。

2、深度實(shí)驗(yàn)：同樣的數(shù)據(jù)，不同的命運(yùn)

嚴(yán)格的對(duì)照實(shí)驗(yàn)

為了確保這個(gè)發(fā)現(xiàn)的可靠性，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嚴(yán)格的對(duì)照實(shí)驗(yàn)：

實(shí)驗(yàn)設(shè)置：

?使用相同的數(shù)學(xué)數(shù)據(jù)集

?采用相同的基礎(chǔ)模型（Qwen3-14B）

?分別用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種方法訓(xùn)練

監(jiān)督學(xué)習(xí)方法：讓模型學(xué)習(xí)"標(biāo)準(zhǔn)答案"，就像傳統(tǒng)的師傅帶徒弟，手把手教每一步怎么做。

強(qiáng)化學(xué)習(xí)方法：只告訴模型最終答案對(duì)錯(cuò)，讓它自己探索解題路徑，就像讓學(xué)生自己摸索，答對(duì)了給獎(jiǎng)勵(lì)，答錯(cuò)了給懲罰。

數(shù)學(xué)訓(xùn)練讓AI變笨？強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異-AI.x社區(qū) 圖片

結(jié)果對(duì)比一目了然

數(shù)學(xué)任務(wù)表現(xiàn)：

?強(qiáng)化學(xué)習(xí)模型：AIME24達(dá)到55.7%，MATH500達(dá)到87.8%

?監(jiān)督學(xué)習(xí)模型：表現(xiàn)稍遜，但差距不大

其他推理任務(wù)：

?強(qiáng)化學(xué)習(xí)模型：在代碼生成上比監(jiān)督學(xué)習(xí)模型高出17.1%

?監(jiān)督學(xué)習(xí)模型：進(jìn)步不均勻，有些任務(wù)甚至退步

非推理任務(wù)：

?強(qiáng)化學(xué)習(xí)模型：不僅沒(méi)有下降，反而有所提升

?監(jiān)督學(xué)習(xí)模型：普遍出現(xiàn)性能下降

這個(gè)結(jié)果太有趣了：同樣的數(shù)據(jù)，不同的訓(xùn)練方法，竟然造就了完全不同的"AI人格"。

3、技術(shù)揭秘：為什么會(huì)有這種差異？

從"大腦內(nèi)部"找答案

研究團(tuán)隊(duì)深入模型內(nèi)部，用兩種方法分析了訓(xùn)練對(duì)模型造成的影響：

1. 潛在空間分析（PCA分析）這就像給模型的"大腦"做核磁共振，看看訓(xùn)練前后神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)發(fā)生了什么變化。

發(fā)現(xiàn)：

?強(qiáng)化學(xué)習(xí)模型：內(nèi)部表示變化很小，就像在原有知識(shí)基礎(chǔ)上精細(xì)調(diào)整

?監(jiān)督學(xué)習(xí)模型：內(nèi)部表示發(fā)生大幅漂移，就像把原來(lái)的知識(shí)體系推倒重建

2. 輸出分布分析這相當(dāng)于分析模型在回答問(wèn)題時(shí)的"思維模式"變化。

發(fā)現(xiàn)：

?強(qiáng)化學(xué)習(xí)模型：只有少數(shù)幾個(gè)關(guān)鍵詞的使用頻率發(fā)生變化，比如"定義"、"添加"、"數(shù)字"等任務(wù)相關(guān)詞匯

?監(jiān)督學(xué)習(xí)模型：大量不相關(guān)詞匯的使用都發(fā)生了變化，甚至在不需要推理的問(wèn)題上也會(huì)啟動(dòng)復(fù)雜的推理過(guò)程

一個(gè)生動(dòng)的類比

想象你要訓(xùn)練一個(gè)廚師：

監(jiān)督學(xué)習(xí)就像：給他一本詳細(xì)的食譜，每道菜都有標(biāo)準(zhǔn)做法，他嚴(yán)格按照食譜執(zhí)行。結(jié)果是：做食譜上的菜很棒，但遇到新菜品或者需要靈活應(yīng)變時(shí)就抓瞎了。

強(qiáng)化學(xué)習(xí)就像：只告訴他做出來(lái)的菜好不好吃，讓他自己摸索。結(jié)果是：他不僅學(xué)會(huì)了做菜，還培養(yǎng)了味覺(jué)直覺(jué)，能夠舉一反三，處理各種情況。

論文標(biāo)題：Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

論文鏈接：???https://arxiv.org/abs/2507.00432??

本文轉(zhuǎn)載自??????AI帝國(guó)??????，作者：無(wú)影寺

標(biāo)簽

數(shù)學(xué)訓(xùn)練

強(qiáng)化學(xué)習(xí)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Nature：最大擴(kuò)散強(qiáng)化學(xué)習(xí)

ceesoft ? 4266瀏覽 ? 0回復(fù)
Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法

AIGC最前線 ? 2879瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)有哪些類型？ 監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等等！

parson2000 ? 4221瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)有哪些類型？ 監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等等

parson2000 ? 4911瀏覽 ? 0回復(fù)
什么監(jiān)督學(xué)習(xí)，無(wú)監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)？它們之間有什么區(qū)別和聯(lián)系？

AI探索時(shí)代 ? 1.1w瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 8602瀏覽 ? 0回復(fù)
半監(jiān)督學(xué)習(xí)：如何克服數(shù)據(jù)標(biāo)簽缺乏問(wèn)題

51CTO內(nèi)容精選 ? 4549瀏覽 ? 0回復(fù)
訓(xùn)練模擬人形機(jī)器人的五種強(qiáng)化學(xué)習(xí)技術(shù)大PK

51CTO內(nèi)容精選 ? 4192瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 9335瀏覽 ? 0回復(fù)
從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景

AI探索時(shí)代 ? 3477瀏覽 ? 0回復(fù)
為什么預(yù)訓(xùn)練大模型要使用無(wú)監(jiān)督學(xué)習(xí)的方式？

AI探索時(shí)代 ? 3172瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)四大范式：監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

智駐未來(lái) ? 1.6w瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理

Aceryt ? 2818瀏覽 ? 0回復(fù)
用強(qiáng)化學(xué)習(xí)重塑多模態(tài)AI：解讀Kimi k1.5的突破與創(chuàng)新

Halo咯咯 ? 3120瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 5084瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 2363瀏覽 ? 0回復(fù)
多智能體強(qiáng)化學(xué)習(xí)如何讓AI回答更精準(zhǔn)？MMOA-RAG的突破性進(jìn)展

Halo咯咯 ? 3639瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)強(qiáng)在哪里？基礎(chǔ)探索

柏企閱文 ? 1742瀏覽 ? 0回復(fù)
英偉達(dá)數(shù)學(xué)推理新突破：監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)的"1+1>2"效應(yīng)

sbf_2000 ? 678瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google發(fā)布MoR架構(gòu)：兩倍推理速度，節(jié)省50%內(nèi)存 19h前發(fā)布
Voxtral：Mistral開(kāi)源的語(yǔ)音識(shí)別模型！ 1天前發(fā)布

熱門(mén)推薦

重磅！英偉達(dá)宣布H20芯片即將恢復(fù)對(duì)華銷售，并計(jì)劃推出全新GPU 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

RAG：7個(gè)檢索增強(qiáng)生成技術(shù)的解析（含實(shí)現(xiàn)代碼） 0回復(fù)

將智能植根于運(yùn)動(dòng)之中——從AI模型到具身智能的下一個(gè)躍遷 0回復(fù)

實(shí)測(cè)AntV Chart MCP 和DataV Atlas GIS MCP 1回復(fù)

上一篇： SmolLM3：小型、多語(yǔ)言、長(zhǎng)上下文推理模型

下一篇：微軟發(fā)布了 Phi-4-mini-flash-reasoning 模型

社區(qū)精華內(nèi)容

目錄

<abbr id="de2ha"></abbr>