偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

鏈?zhǔn)剿季S是幻象嗎?從數(shù)據(jù)分布視角重新審視大模型推理,馬斯克回復(fù),Grok破防

人工智能 新聞
通過數(shù)據(jù)分布的視角,這項(xiàng)研究揭示了 CoT 推理的本質(zhì):它更像是對(duì)訓(xùn)練中出現(xiàn)過的模式的結(jié)構(gòu)化復(fù)現(xiàn),而不是真正的邏輯推理。一旦任務(wù)結(jié)構(gòu)、推理鏈長(zhǎng)度或輸入格式超出了訓(xùn)練分布的范圍,模型的表現(xiàn)便會(huì)迅速崩潰。

思維鏈 (CoT) 提示技術(shù)常被認(rèn)為是讓大模型分步思考的關(guān)鍵手段,通過在輸入中加入「Let’s think step by step」等提示,模型會(huì)生成類似人類的中間推理步驟,顯著提升復(fù)雜任務(wù)的表現(xiàn)。然而,這些流暢的推理鏈條是否真的反映了模型的推理能力?

亞利桑那州立大學(xué)的一項(xiàng)最新研究卻發(fā)現(xiàn),CoT 推理可能并不是真正的推理,而更像是對(duì)訓(xùn)練數(shù)據(jù)分布內(nèi)模式的復(fù)現(xiàn)。一旦輸入任務(wù)與訓(xùn)練數(shù)據(jù)分布存在差異,這種看似穩(wěn)固的推理鏈條就會(huì)迅速失效,呈現(xiàn)出類似「海市蜃樓」的脆弱性。

  • 論文標(biāo)題:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens 
  • 論文鏈接:https://arxiv.org/pdf/2508.01191
  • 項(xiàng)目開源:https://github.com/ChengshuaiZhao0/DataAlchemy
  • 推特討論:https://x.com/ChengshuaiZhao/status/1953291261999497258
  • 領(lǐng)英推廣:https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/

在這篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 問題,馬斯克看當(dāng)場(chǎng)測(cè)試 Grok 是否會(huì)生成 OOD 的內(nèi)容,直接「強(qiáng)迫」Grok 生成粗俗的臟話銳評(píng),節(jié)目效果拉滿!

推理的「幻象」

研究團(tuán)隊(duì)在論文開頭給出了一個(gè)典型的例子:?jiǎn)栴}是:「美國(guó)建國(guó)年是閏年還是平年?」,模型的回答是:「美國(guó)建于 1776 年,1776 能被 4 整除,又不是世紀(jì)年,所以是閏年。因此,美國(guó)建國(guó)那一年是平年。」這一回答中的推理步驟和知識(shí)點(diǎn)看似正確,但結(jié)論卻與前提自相矛盾。這表明模型雖然會(huì)復(fù)述邏輯規(guī)則,卻未必真的用這些規(guī)則來推導(dǎo)答案。

事實(shí)上,已有相關(guān)研究表明,CoT 的性能提升往往源于表層語義匹配。一旦問題稍作改寫,或者引入與結(jié)論無關(guān)的內(nèi)容,模型的表現(xiàn)便會(huì)顯著下降。

數(shù)據(jù)分布視角下的 CoT 假設(shè)

在這項(xiàng)研究中,作者提出了一個(gè)新的解釋框架,即從數(shù)據(jù)分布的角度來理解 CoT。他們認(rèn)為,CoT 的有效性主要來源于模型在訓(xùn)練分布內(nèi)學(xué)到的「結(jié)構(gòu)性歸納偏差」(structured inductive bias)。

換句話說,所謂的推理鏈只是對(duì)訓(xùn)練數(shù)據(jù)中常見模式的復(fù)現(xiàn),而非真正的邏輯推演。當(dāng)測(cè)試任務(wù)與訓(xùn)練數(shù)據(jù)之間的分布差異增大時(shí),這種「推理」表現(xiàn)會(huì)迅速崩塌。

研究團(tuán)隊(duì)還用理論公式刻畫了這種關(guān)系,并引入了一個(gè)可計(jì)算的分布差異指標(biāo),從而能夠在實(shí)驗(yàn)中估計(jì)分布偏移對(duì)推理性能的影響。

可控實(shí)驗(yàn)平臺(tái):數(shù)據(jù)煉金術(shù)

為了避免大規(guī)模預(yù)訓(xùn)練模型中復(fù)雜因素的干擾,團(tuán)隊(duì)選擇從零訓(xùn)練語言模型,并搭建了一個(gè)名為數(shù)據(jù)煉金術(shù) (DataAlchemy) 的可控實(shí)驗(yàn)環(huán)境。

在該框架中,作者將廣泛意義上的各種 NLP 下游任務(wù)抽象成不同「元素」和「變換」的組合?;尽冈亍故怯?26 個(gè)字母原子組成的固定長(zhǎng)度序列。作者設(shè)計(jì)了兩種基本「變換」:一種是 ROT 變換,即將字母表循環(huán)位移若干位;另一種是循環(huán)位置平移,將序列整體向右移動(dòng)指定位置。

在此基礎(chǔ)上,他們構(gòu)造了各種組合變換,通過將不同變換按順序和參數(shù)串聯(lián),形成推理鏈。每個(gè)任務(wù)的正確推理鏈可以被精確生成,這使得模型輸出與標(biāo)準(zhǔn)答案之間的差異能夠被逐步對(duì)照評(píng)估。

三類泛化實(shí)驗(yàn)的發(fā)現(xiàn)

首先在「任務(wù)泛化」方面,作者分別考察了「變換泛化」和「元素泛化」兩種情形?!缸儞Q泛化」測(cè)試了模型在面對(duì)新的變換組合,甚至完全陌生的變換類型時(shí)的表現(xiàn);「元素泛化」則涉及模型遇到新的字母組合,或者訓(xùn)練過程中從未見過的字母。

在分布內(nèi)的情況下,模型的準(zhǔn)確率接近 100%。然而,只要分布稍有偏移,例如變換順序被重新組合,準(zhǔn)確率便會(huì)驟降至 0.01%;當(dāng)測(cè)試中出現(xiàn)全新「變換」時(shí),性能更是幾乎完全喪失。

作者還發(fā)現(xiàn),雖然在少量新數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào) (SFT) 可以迅速恢復(fù)性能,但這只是在原有分布邊界上做了擴(kuò)展,并未真正提升模型的抽象泛化能力。

在「長(zhǎng)度泛化」方面,研究團(tuán)隊(duì)分別考察了「文本長(zhǎng)度」變化和「推理步數(shù)」變化的影響。實(shí)驗(yàn)結(jié)果表明,即使輸入序列長(zhǎng)度僅比訓(xùn)練時(shí)多或少一個(gè)單位,模型的表現(xiàn)也會(huì)顯著下降。它往往會(huì)生成與訓(xùn)練長(zhǎng)度一致的推理鏈,并通過添加或刪除詞元來「湊長(zhǎng)度」。當(dāng)推理步數(shù)與訓(xùn)練設(shè)置不一致時(shí),模型幾乎完全無法泛化,除非它在訓(xùn)練中顯式地見過相應(yīng)步數(shù)的樣例。

在「格式泛化」方面,作者通過插入、刪除、替換等方式擾動(dòng)輸入提示,以模擬現(xiàn)實(shí)場(chǎng)景中的多樣的格式。他們發(fā)現(xiàn),模型對(duì)格式的變化極為敏感,尤其是當(dāng)變化發(fā)生在「元素」或「變換」部分時(shí),即使邏輯內(nèi)容不變,僅僅提示形式不同,也可能導(dǎo)致推理徹底失敗。

溫度、規(guī)模與泛化脆弱性的普遍性

作者進(jìn)一步測(cè)試了不同采樣溫度和模型規(guī)模下的表現(xiàn)。在合理的溫度范圍內(nèi),CoT 的脆弱性模式保持一致。模型規(guī)模的變化同樣不影響這一趨勢(shì)。這表明,這種對(duì)分布偏移的敏感性并非個(gè)別模型的特性,而是一種普遍現(xiàn)象。

研究的現(xiàn)實(shí)意義

這項(xiàng)研究對(duì)實(shí)際應(yīng)用提出了多項(xiàng)警示。

首先,在醫(yī)療、金融和法律等高風(fēng)險(xiǎn)領(lǐng)域,不能盲目依賴 CoT 作為穩(wěn)健推理的保證。流暢但邏輯有誤的推理鏈可能比直接給出錯(cuò)誤答案更具誤導(dǎo)性。

其次,現(xiàn)有的評(píng)測(cè)方法往往依賴與訓(xùn)練分布高度一致的驗(yàn)證集,這會(huì)嚴(yán)重高估模型的魯棒性。為了更準(zhǔn)確地評(píng)估系統(tǒng)性能,必須引入嚴(yán)格的分布外測(cè)試。

最后,雖然在少量新數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)可以迅速提升特定任務(wù)下的表現(xiàn),但這種方法只是對(duì)原有分布的局部擴(kuò)展,不能賦予模型真正的抽象推理能力。

結(jié)論

通過數(shù)據(jù)分布的視角,這項(xiàng)研究揭示了 CoT 推理的本質(zhì):它更像是對(duì)訓(xùn)練中出現(xiàn)過的模式的結(jié)構(gòu)化復(fù)現(xiàn),而不是真正的邏輯推理。一旦任務(wù)結(jié)構(gòu)、推理鏈長(zhǎng)度或輸入格式超出了訓(xùn)練分布的范圍,模型的表現(xiàn)便會(huì)迅速崩潰。

在未來的發(fā)展中,研究者和工程師需要在充分利用 CoT 在分布內(nèi)的優(yōu)勢(shì)的同時(shí),正視其在泛化能力上的瓶頸,并在評(píng)測(cè)和部署中保持足夠的謹(jǐn)慎。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-03-18 14:17:06

大模型開源人工智能

2025-02-11 09:20:00

LLM模型AI

2024-04-07 11:25:54

2023-12-08 12:58:26

2024-03-29 14:04:00

模型訓(xùn)練

2025-09-19 09:10:00

2023-12-13 08:46:33

人工智能ChatGPT機(jī)器人

2023-11-06 13:44:34

2024-01-15 08:16:00

AI模型

2024-03-29 12:48:00

數(shù)據(jù)訓(xùn)練

2025-09-16 09:02:00

AI馬斯克模型

2024-03-18 13:21:13

2024-03-12 13:14:40

2023-03-03 21:25:28

馬斯克特斯拉

2024-03-18 15:00:48

Grok現(xiàn)已開源Grok-1混合專家模型

2024-03-18 08:47:34

馬斯克GrokOpenAI

2025-02-19 10:28:22

2023-11-06 12:34:14

模型訓(xùn)練

2025-09-17 16:49:42

2025-09-22 11:36:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)