蘋果拆解AI大腦,推理模型全是「裝」的?Bengio兄弟合著
AI「思考」只是假象?
剛剛,一項(xiàng)來(lái)自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對(duì)稍復(fù)雜點(diǎn)的題目時(shí),準(zhǔn)確率居然會(huì)全面崩潰!
隨著問(wèn)題變難,推理模型初始會(huì)延長(zhǎng)思考,但隨后思考深度反而下降,盡管仍有充足token預(yù)算——它們恰在最需要深入思考時(shí)選擇了放棄!
這太違背直覺(jué)了,似乎Scaling Law在推理時(shí)完全失效了。
值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。
論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
LRM模型因能「寫出思考過(guò)程」而備受期待,被認(rèn)為是AI推理能力躍升的關(guān)鍵。
DeepSeek-R1 <think>模式的開(kāi)源開(kāi)啟了LLM進(jìn)化到LRM的進(jìn)程
但研究人員通過(guò)可控游戲環(huán)境的系統(tǒng)實(shí)驗(yàn)證明:現(xiàn)有LRMs不僅在高復(fù)雜度任務(wù)上力不從心,甚至還展現(xiàn)出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。
研究還通過(guò)在相同計(jì)算token預(yù)算下對(duì)比思考模型與普通模型,發(fā)現(xiàn):
- 簡(jiǎn)單題目,反而是傳統(tǒng)大模型(LLMs)更強(qiáng);
- 中等復(fù)雜度,LRMs憑借「思考路徑」勝出;
- 一旦太復(fù)雜,兩類模型準(zhǔn)確率同時(shí)坍塌至0%
不同于大多數(shù)僅衡量最終性能的研究,這項(xiàng)最新研究分析了它們實(shí)際的推理軌跡——深入觀察其冗長(zhǎng)的「思考」過(guò)程。
三種不同的性能區(qū)間
與以往主要依賴數(shù)學(xué)問(wèn)題來(lái)評(píng)估語(yǔ)言模型推理能力的研究不同,本研究引入了可控的解謎環(huán)境。
這種環(huán)境可以精確調(diào)節(jié)問(wèn)題的復(fù)雜度,同時(shí)保持邏輯過(guò)程的一致性,從而更嚴(yán)謹(jǐn)?shù)胤治瞿P偷耐评砟J胶途窒扌浴?/span>
頂部的「LLM Response」部分表示研究設(shè)置了可以驗(yàn)證模型的最終答案和中間推理過(guò)程,從而能夠更細(xì)致地分析模型的思維行為。
左下準(zhǔn)確率和中間的回答長(zhǎng)度表示:在任務(wù)復(fù)雜度較低時(shí),不進(jìn)行推理的模型表現(xiàn)得更準(zhǔn)確,也更節(jié)省Token。
隨著復(fù)雜度提升,具備推理能力的模型開(kāi)始表現(xiàn)更好,但也消耗更多Token——直到復(fù)雜度超過(guò)某個(gè)臨界點(diǎn)后,兩類模型的表現(xiàn)都會(huì)迅速下降,同時(shí)推理過(guò)程變得更簡(jiǎn)短。
右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會(huì)在任務(wù)復(fù)雜度低時(shí)較早找到正確答案,而在復(fù)雜度高時(shí)則更晚得出答案。
而在失敗案例中,它往往會(huì)在一開(kāi)始就陷入錯(cuò)誤答案,之后繼續(xù)浪費(fèi)剩余的 Token 預(yù)算。這兩種情況都暴露了推理過(guò)程中存在的效率問(wèn)題。
數(shù)學(xué)和謎題環(huán)境
對(duì)思考型與非思考型模型在數(shù)學(xué)基準(zhǔn)測(cè)試中的對(duì)比分析顯示出模型的性能表現(xiàn)并不一致。
在MATH-500數(shù)據(jù)集上,兩類模型的表現(xiàn)相近;但在AIME24和AIME25基準(zhǔn)上,思考模型的表現(xiàn)明顯更優(yōu)。
此外,從AIME24到AIME25的性能下降也揭示出這些基準(zhǔn)數(shù)據(jù)易受到數(shù)據(jù)污染問(wèn)題的影響。
研究設(shè)置了四種謎題環(huán)境。
每列展示一個(gè)謎題從初始狀態(tài)(頂部)、中間狀態(tài)(中部)到目標(biāo)狀態(tài)(底部)的變化過(guò)程。
四個(gè)謎題分別是:漢諾塔(將圓盤在柱子間移動(dòng))、跳跳棋(交換不同顏色棋子的位置信息)、過(guò)河(將多個(gè)對(duì)象安全運(yùn)送過(guò)河)、積木世界(重新排列積木的堆疊結(jié)構(gòu))。
在所有謎題環(huán)境中,不同復(fù)雜度問(wèn)題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對(duì)應(yīng)模型(Claude 3.7 Sonnet、DeepSeek-V3)的準(zhǔn)確率對(duì)比。
最明顯的依然是,當(dāng)問(wèn)題復(fù)雜度突破一定閾值后,所有模型的準(zhǔn)確率同時(shí)坍塌至0%!
實(shí)驗(yàn)和結(jié)果
上圖為在tokens預(yù)算相同的情況下,思考型模型與非思考型模型在低、中、高三種復(fù)雜度謎題環(huán)境中的 pass@k表現(xiàn)對(duì)比。
結(jié)果顯示:
- 非思考型模型在簡(jiǎn)單問(wèn)題上表現(xiàn)更佳;
- 思考型模型在中等復(fù)雜度問(wèn)題中展現(xiàn)出優(yōu)勢(shì);
- 而在高復(fù)雜度問(wèn)題中,無(wú)論計(jì)算資源分配如何,兩個(gè)模型的表現(xiàn)都未能取得明顯突破。
推理模型的崩潰
上圖表示推理模型在不同謎題環(huán)境中,準(zhǔn)確率與思考token使用量隨問(wèn)題復(fù)雜度變化的趨勢(shì)圖。
隨著復(fù)雜度上升,模型在一開(kāi)始會(huì)投入更多思考token,準(zhǔn)確率則逐漸下降;
但當(dāng)復(fù)雜度達(dá)到某個(gè)臨界點(diǎn)時(shí),模型的推理能力開(kāi)始崩潰——表現(xiàn)急劇下降,同時(shí)思考token的使用量也隨之減少。
深入「思考模型內(nèi)部」
左圖與中圖展示了在不同復(fù)雜度下,四種謎題中推理過(guò)程中間解的出現(xiàn)位置及其正確性。? 表示中間解正確,? 表示錯(cuò)誤,陰影表示分布密度。
右圖則顯示了在不同復(fù)雜度下,漢諾塔謎題中解決方案的準(zhǔn)確率隨思考過(guò)程位置的變化情況。
結(jié)果顯示:
- 對(duì)于簡(jiǎn)單問(wèn)題(N=1-3),準(zhǔn)確率在思考初期較高,但隨著推理繼續(xù)反而下降,出現(xiàn)「過(guò)度思考」的現(xiàn)象;
- 對(duì)于中等難度問(wèn)題(N=4-7),推理的持續(xù)略微提升了準(zhǔn)確率;
- 對(duì)于復(fù)雜問(wèn)題(N≥8),準(zhǔn)確率始終接近于零,表明模型在這類問(wèn)題上推理完全失敗。
未解之謎:推理模型的異常行為
如上圖a和b所示,在漢諾塔游戲環(huán)境中,即便在提示中直接提供了解法算法,讓模型只需按步驟執(zhí)行,模型的表現(xiàn)仍未改善,推理崩潰的現(xiàn)象依然出現(xiàn)在大致相同的位置。
這一點(diǎn)非常值得注意,因?yàn)樵O(shè)計(jì)并找到一個(gè)解法通常比僅僅執(zhí)行一個(gè)已知算法需要更多的計(jì)算(比如搜索與驗(yàn)證)。這一現(xiàn)象進(jìn)一步突顯了推理模型在「驗(yàn)證」以及按邏輯步驟解決問(wèn)題方面的能力局限。
如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環(huán)境中表現(xiàn)出明顯不同的行為。
在漢諾塔環(huán)境中,當(dāng)N=10時(shí),模型通常直到大約第100步才會(huì)出現(xiàn)第一處錯(cuò)誤;
而在過(guò)河環(huán)境中,同一個(gè)模型卻只能正確地完成前4步,之后便無(wú)法繼續(xù)生成有效解。
這種差異非常顯著。
值得注意的是,當(dāng) N=5(即需要31步解)時(shí),模型幾乎可以完美解決漢諾塔問(wèn)題;但在 N=3(僅需11步解)的過(guò)河謎題中,模型卻完全失敗。
這一現(xiàn)象很可能說(shuō)明:在網(wǎng)絡(luò)數(shù)據(jù)中,N>2 的過(guò)河問(wèn)題案例非常稀少,因此大語(yǔ)言模型(LRMs)在訓(xùn)練中幾乎沒(méi)有見(jiàn)過(guò)或記住這類實(shí)例。
這項(xiàng)研究系統(tǒng)性地評(píng)估了大推理模型(LRMs),低復(fù)雜度下,標(biāo)準(zhǔn)LLM反而更穩(wěn);中等復(fù)雜度時(shí),LRM暫時(shí)領(lǐng)先;可一旦問(wèn)題變得復(fù)雜到一定程度——兩者雙雙崩盤。
分析推理軌跡后,研究者發(fā)現(xiàn)模型在簡(jiǎn)單問(wèn)題上「過(guò)度思考」,在復(fù)雜問(wèn)題上則徹底罷工。
甚至連直接提供解題算法都救不了它們——比如漢諾塔問(wèn)題,算法提示給到位了,模型卻依然原地打轉(zhuǎn)。
模型在漢諾塔中可連續(xù)操作100步不出錯(cuò),到了過(guò)河問(wèn)題里,卻五步都撐不過(guò)去!
這背后的原因成謎,但無(wú)疑為后續(xù)探索AI推理極限打開(kāi)了一個(gè)新的突破口。
眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。