編譯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
近日,蘋果被爆出了兩個(gè)大事:一篇極具爭議的論文,一場(chǎng)頗受質(zhì)疑的新發(fā)布。最吊詭的是,iOS26新發(fā)布的熱度還沒有一篇論文引起的反響更強(qiáng)烈!
這篇研究論文名為《The Illusion of Thinking》,意在“討伐”當(dāng)前AI領(lǐng)域流行的一些“假象”,從題目就能看出火藥味十足:大模型根本不會(huì)推理,那只是幻覺!
不過,很快就有一位大牛Gregorio站出來反駁——
雖然這篇論文戳中了不少痛點(diǎn),但卻因笨拙的表達(dá)方式而落人口舌。
Gregorio在自己的文章《Apple’s Viral AI Paper. Reality or Fraud?》,用客觀且犀利的筆鋒論證了這篇蘋果刷屏的AI論文:是突破,還是欺詐?
為此,作者拆解以下幾個(gè)關(guān)鍵問題:
- 蘋果到底想說什么?他們并非全錯(cuò),只是表達(dá)太生硬;
- 當(dāng)前AI模型到底有哪些真正的局限?
- 對(duì)于一個(gè)急需“AI殺手锏”的三萬億美元公司來說,這一切意味著什么?
「前沿SOTA的AI模型到底有多聰明」、「蘋果AI戰(zhàn)略的真實(shí)圖景到底是什么樣子」,「推理只是記憶的偽裝嗎」,這些問題都被作者在文章中一一揭露。篇幅較長,大家自行摘取金句。
一、思考的幻覺
蘋果在《The Illusion of Thinking》的論文中指出:即便是當(dāng)下最先進(jìn)的推理類大模型,如 OpenAI 的 o3、Google 的 Gemini 2.5 Pro,它們展現(xiàn)出來的“思考能力”其實(shí)是一種假象。
圖片
這些模型的共性是:通過生成更多的 token 來提升表現(xiàn),也就是我們熟知的「思維鏈」(Chain of Thought)技術(shù)——讓AI一步步地“拆解”問題,模仿人類的推理過程。
圖片
蘋果的核心觀點(diǎn)是:這些模型看起來是在“推理”,但它們并沒有真的理解,更談不上「通用推理能力」。
他們甚至聲稱,他們有證據(jù)表明,這一切幾乎只是表演。
但他們究竟是如何證明的呢?
二、蘋果的研究方法:從基準(zhǔn)測(cè)試到“益智游戲”
蘋果首先批評(píng)了現(xiàn)有的評(píng)估機(jī)制:目前評(píng)判AI能力的方法主要靠一堆標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試,涵蓋數(shù)學(xué)、編程、常識(shí)等領(lǐng)域。
圖片
這些是 Google 用來比較其最新 Gemini 2.5 Pro 型號(hào)的一組基準(zhǔn)
蘋果公司一針見血地指出,問題在于大多數(shù)基準(zhǔn)測(cè)試都受到了污染,這些模型之前已經(jīng)見過大多數(shù)問題的答案。
誠然,這些測(cè)試的初衷是好的,能讓我們橫向比較不同模型。但問題是:大部分測(cè)試題,AI模型早就見過了,這根本無法區(qū)分實(shí)際表現(xiàn)和記憶力。就像學(xué)生提前看到了考卷,那考試成績當(dāng)然不能說明真實(shí)水平。
蘋果提出的替代方案是:用益智類難題來測(cè)試模型真正的“推理”能力,因?yàn)檫@些題目極少出現(xiàn)在訓(xùn)練數(shù)據(jù)中,更能考驗(yàn)?zāi)P偷姆夯芰Α?/p>
他們選用了四種經(jīng)典的推理謎題:
- 漢諾塔(Tower of Hanoi):一個(gè)遞歸性極強(qiáng)的難題,考驗(yàn)規(guī)劃和記憶。
- 跳棋換位(Checker Jumping):一個(gè)一維空間內(nèi)顏色交換的邏輯題。
- 過河難題(River Crossing):約束條件豐富的角色過河規(guī)劃問題。
- 積木世界(Blocks World):早期AI界著名的“世界建模”問題。
圖片
每一個(gè)謎題都有確定的目標(biāo)狀態(tài)和解法步驟,能清楚地區(qū)分“解對(duì)了”還是“沒解出來”。
(這里,來一波回憶殺~)例如,以漢諾塔謎題為例,該謎題經(jīng)過了最廣泛的評(píng)估,其目標(biāo)是在以下約束條件下將位于第一根柱子的所有圓盤移動(dòng)到最后一根柱子:一次只能移動(dòng)一個(gè)磁盤較大的磁盤永遠(yuǎn)不能位于較小磁盤的頂部(直徑)目標(biāo)是在盡可能少的移動(dòng)下完成,由公式 (2^n - 1) 定義,其中“n”是磁盤的數(shù)量。
圖片
n = 5 的漢諾塔(很經(jīng)典的算法面試題)
其他謎題與之類似,因?yàn)樗鼈兌x了模型必須遵守的一小部分約束,并且解決方案有一個(gè)特定的、確定性的答案,這使得評(píng)估具有客觀性;模型要么解決它,要么沒有。
至關(guān)重要的是,它們是可解釋的,這樣人們可以查看模型的推理痕跡,了解它們?nèi)绾巍八伎肌保〞呵疫@么說吧,的確也沒有更好的詞兒)。
三、結(jié)果如何?所有SOTA模型“智商瞬間崩盤”
蘋果研究者最后發(fā)現(xiàn):天塌了!DeepSeek R1、Claude-3.7-Sonnet、o3-mini等這些前沿的模型雖然有復(fù)雜的反思機(jī)制,但卻無法發(fā)展出可泛化的解決問題的能力,甚至?xí)诿總€(gè)謎題的某個(gè)階段,性能會(huì)急劇下降為零。
圖片
總結(jié)起來有如下幾個(gè)結(jié)論——
1. 推理模型無法突破復(fù)雜度閾值
即便有“自我反思”的能力,這些模型一旦遇到更復(fù)雜的問題(比如漢諾塔的盤子變多),準(zhǔn)確率幾乎瞬間歸零。它們無法“遷移”解決復(fù)雜任務(wù),只能停留在簡單套路中。
2. 三種推理“狀態(tài)”
蘋果指出,模型的表現(xiàn)大致分為三個(gè)階段:
- 簡單任務(wù):普通大模型反而表現(xiàn)更好,因?yàn)橥评砟P汀跋胩唷狈炊瑁ǖ湫汀霸较朐藉e(cuò)”)。
- 中等復(fù)雜度任務(wù):推理模型展現(xiàn)優(yōu)勢(shì),思維鏈幫助其逼近答案。
- 高復(fù)雜度任務(wù):無論是普通模型還是推理模型,統(tǒng)統(tǒng)崩盤,準(zhǔn)確率接近零。
3. 思考力的“反直覺衰減”
最驚人的是:隨著問題變復(fù)雜,模型的思考輸出(即生成的 token 數(shù))居然減少了。模型就像“知道自己搞不定”,索性提前放棄。
研究者稱這是一種“推理計(jì)算資源的極限”:模型自我判斷“撐不到解完”,干脆停下來。
這就類似于我們?nèi)祟愒诿鎸?duì)本能任務(wù)時(shí),如果試圖靠“刻意思考”來完成,而不是憑本能反應(yīng),反而會(huì)表現(xiàn)得更差。
一個(gè)很直觀的例子是打字。如果你已經(jīng)習(xí)慣了盲打,你可以毫不猶豫地按下任何一個(gè)鍵。但如果你刻意去想“字母?‘u’?在哪兒”,你反而會(huì)慢下來,甚至可能一時(shí)想不起來,盡管你的肌肉記憶非常清楚地知道?‘u’?的位置。
再舉一個(gè)更簡單的例子:你如果去“思考”?1 + 1 等于幾,而不是本能地回答“2”,那其實(shí)是在用更低效的方式處理一個(gè)幾乎可以秒答的問題——因?yàn)槟惆言究梢运查g解決的事,花了更多的認(rèn)知資源。
四、推理模型“裝聰明”?計(jì)算≠思考
哪怕提示中直接給出了解題算法,比如“漢諾塔怎么搬盤子”,這些模型依舊做不到長期正確執(zhí)行。
更嚴(yán)重的是,它們?cè)诓煌}型上的表現(xiàn)非常不一致。比如 Claude 3.7 在漢諾塔上表現(xiàn)不錯(cuò),但在理論上更簡單的“過河”問題中卻表現(xiàn)糟糕。
蘋果認(rèn)為這說明了一個(gè)殘酷現(xiàn)實(shí):
當(dāng)前模型的“聰明”多數(shù)是靠“背題庫”來的,泛化能力極差。我們以為是一個(gè)12歲天才少年,其實(shí)他只是個(gè)“背書機(jī)器”。
乍一看,有強(qiáng)有力的證據(jù)表明:推理模型實(shí)際上并不推理,并且其大部分可信性能可以用“基準(zhǔn)記憶”來解釋。然而,如果你仔細(xì)觀察,事情就會(huì)變得模糊不清。
五、蘋果的研究方法很值得質(zhì)疑
說實(shí)話,我贊成蘋果揭露“偽智能”的動(dòng)機(jī),但我對(duì)他們的研究方法保留意見。
但這個(gè)問題,可能是可以靠更大模型、更好訓(xùn)練繼續(xù)優(yōu)化的,并不能直接證明“AI不會(huì)思考”。
他們沒有測(cè)試最強(qiáng)的模型,比如 o3 或 o4-mini,這些可能根本不會(huì)出現(xiàn)類似“過度思考”的問題。你會(huì)懷疑他們是不是“刻意繞過”了這些模型?
其次,關(guān)于“自動(dòng)認(rèn)輸”的問題。模型面對(duì)復(fù)雜任務(wù)(如 15 層漢諾塔)不但做不出來,甚至都“不太想試”。蘋果覺得這是“思維能力不足”的鐵證。但他們忽略了幾個(gè)重要事實(shí):
- 大模型訓(xùn)練時(shí),就被鼓勵(lì)別亂試錯(cuò),這能減少計(jì)算浪費(fèi),優(yōu)化用戶體驗(yàn)。
- 這些模型有 token 上限,它們“知道自己撐不到結(jié)尾”,所以選擇中途放棄。
比如,o3-mini 的 token 上限是 10 萬左右,扣除提示詞后大概能推 10,000 步。
根據(jù)漢諾塔解法公式 2n?12^n - 1,它最多也就能算出13層以內(nèi)的解,超過就力不從心了。
蘋果卻沒有考慮這個(gè)計(jì)算極限,還以此推斷“AI根本不會(huì)按步驟執(zhí)行”。
其實(shí)模型可能是在說:
“我知道該怎么做,但我沒足夠 token 做完,只能告訴你我會(huì)怎么做?!?/p>
六、蘋果沒錯(cuò),但還不夠深刻
蘋果這篇論文,有刺刀的凌厲之處,但也有盲區(qū)。它敲響了AI神話的警鐘,卻也可能低估了模型正在發(fā)生的真實(shí)進(jìn)化。
說它“搬起石頭打自己的腳”太重,說它“突破”也言過其實(shí)。更像是蘋果用技術(shù)語言講了個(gè)直白的警示故事:
“今天的AI,看起來會(huì)思考,實(shí)際上大部分時(shí)候只是記得答案?!?/p>
1.并不是所有謎題都“等價(jià)”
蘋果研究者在解讀結(jié)果時(shí),還有一個(gè)頗具爭議的地方——他們以為所有謎題的“步驟數(shù)”可以直接比較,并據(jù)此判斷模型是不是在靠記憶作答。
比如,他們發(fā)現(xiàn) Claude 3.7 Sonnet 在漢諾塔問題上可以完成將近 100 步的解題(10層),而在“過河難題”中,第4步就崩了,于是就得出結(jié)論:AI 模型沒有推理力,只是在背題庫。
論文中是這樣寫的:
“Claude 3.7 Sonnet 在漢諾塔任務(wù)中,常常要到第100步才出錯(cuò)(N=10),而在過河問題中,通常在第4步就無法生成合理動(dòng)作。更令人驚訝的是,它幾乎可以完美解決需要31步的 N=5 漢諾塔,但在只需11步的 N=3 過河問題中卻完全失敗。這可能意味著,訓(xùn)練數(shù)據(jù)中幾乎沒有 N>2 的過河問題樣本,導(dǎo)致模型缺乏記憶,因此也就不會(huì)解?!?/p>
翻譯成通俗白話,就是:
“Claude 模型能搞定上百步的漢諾塔,卻搞不定十幾步的過河問題,所以我們認(rèn)為,它只是在靠記憶刷題,對(duì)‘推理能力’根本沒掌握。”
這公平嗎?我覺得完全不公平。
2.邏輯直覺沒錯(cuò),卻論證邏輯太薄弱
這正好說明了我之前的觀點(diǎn):這篇論文的直覺很敏銳,但論證能力很差。
對(duì)比謎題步驟數(shù)是一種極其粗糙的分析方式。
“過河問題”本質(zhì)上就比“漢諾塔”復(fù)雜。雖然表面上只有11步,但涉及到約束條件(比如“狼不能和羊單獨(dú)待一起”)更多,狀態(tài)空間也更不可預(yù)判。
反觀漢諾塔,其實(shí)是一個(gè)可規(guī)劃性極強(qiáng)的問題,步驟雖多,但解法是高度規(guī)則化的。
所以你不能因?yàn)橐粋€(gè)題“短”,就說它“簡單”;也不能說模型做得好,就是“記住了”。
我本人也同意他們對(duì)AI推理的懷疑論傾向。我早就多次說過:很多“推理”其實(shí)就是“記憶偽裝出來的”。
但蘋果在方法論上選錯(cuò)了靶子。真正體現(xiàn) AI 推理能力的基準(zhǔn),是像 ARC AGI 這樣的測(cè)試集——它專門設(shè)計(jì)來規(guī)避“訓(xùn)練數(shù)據(jù)污染”,確保模型真的沒有見過類似題。
結(jié)果呢?模型一旦離開記憶舒適區(qū),成績立刻“撲街”:
下圖展示了 ARC AGI v2 最新測(cè)試結(jié)果,圖中用三角形標(biāo)示不同模型,表現(xiàn)最好的 Opus 4 得分也只有 8.9%。
圖片
ARC AGI v2 測(cè)試結(jié)果:模型一旦無法“背題”,推理就崩潰
這才是真正說明問題的數(shù)據(jù)。它表明:大部分模型嚴(yán)重依賴記憶,而不是邏輯。這比蘋果在論文里“比誰走得多”靠譜多了。
3.AI的真正極限:不是“不會(huì)推理”,而是“無法泛化”
這里要澄清一件事:當(dāng)我說 AI 過度依賴記憶,不代表我認(rèn)為它們只會(huì)記憶。這顯然是錯(cuò)的。
如果你以為大模型只是個(gè)大數(shù)據(jù)庫,那你就錯(cuò)了。Anthropic 的“歸因電路”研究就證明,大模型內(nèi)部確實(shí)構(gòu)建了可泛化的邏輯電路,用來處理“美國首都在哪”這類任務(wù)。
圖片
如果全靠死記硬背,那就得為每一個(gè)問題建一個(gè)電路,這在架構(gòu)上是不可行的。
所以,問題不在于“AI 不會(huì)推理”,而是:
AI只能在“已知領(lǐng)域”推理,而人類可以在“未知領(lǐng)域”做出合理推斷。
這是人機(jī)差異的本質(zhì)。
七、如果蘋果真想挑事,就應(yīng)該盯住這三個(gè)“硬傷”
蘋果這篇論文,如果真的想撼動(dòng)主流AI敘事,應(yīng)該聚焦于那些大家都公認(rèn)的AI硬傷:
1. 學(xué)習(xí)樣本效率極低
人類看幾遍就能學(xué)會(huì)的知識(shí),AI 需要幾百萬條數(shù)據(jù)。這是目前AI完全無法比擬人類的地方,也是衡量“智能”的重要指標(biāo)。
2. 無法持續(xù)學(xué)習(xí)
人類不斷更新世界觀,但大模型“上線之后就停止學(xué)習(xí)”,要重新訓(xùn)練一遍,代價(jià)巨大。更重要的是,我們還沒搞懂如何讓AI進(jìn)行真正的貝葉斯式持續(xù)學(xué)習(xí)。
3. 適應(yīng)力幾乎為零
人類面對(duì)陌生環(huán)境可以快速“現(xiàn)學(xué)現(xiàn)賣”,AI不行。模型只能“對(duì)已知做出最優(yōu)反應(yīng)”,而不能像人類一樣對(duì)未知建模。
這三點(diǎn),才是AI與人類之間最本質(zhì)的智能鴻溝。也是為什么說“AI像博士一樣聰明”根本不成立。模型可以擁有比人類更全面的知識(shí),但那不等于更聰明。
如果連井字棋都下不好,你知識(shí)再多也沒用。
八、蘋果真正的問題:不是論文寫得刺耳,而是產(chǎn)品太難看
最后說說蘋果自己。
他們其實(shí)不是第一次批評(píng)AI了,甚至已經(jīng)讓人覺得他們對(duì)現(xiàn)代AI始終抱有戒心。這不是壞事,畢竟 Meta 的 Yann LeCun 批評(píng)得更狠,但 Meta 依然在全力投入AI模型研發(fā)。
蘋果的問題是,他們自己交出的答卷——尤其是產(chǎn)品層面——實(shí)在太差了。
昨天 WWDC 剛剛發(fā)布的 Apple Intelligence,遠(yuǎn)不及預(yù)期。一堆“炫技功能”背后,實(shí)用性、開放度、迭代力統(tǒng)統(tǒng)缺失。Siri 仍然是地表最爛的語音助手,而我居然還因?yàn)檫@個(gè)更新?lián)Q了 iPhone。真的……很氣。
對(duì)一個(gè)市值三萬億的科技巨頭來說,這是難以原諒的頹廢。
蘋果研究論文說:“AIs 還解不了 14 層的漢諾塔?!?/p>
但問題是:你們自己連“4 層的 Siri”都做不好,這誰能信服呢?
好了文章到這里結(jié)束了,歡迎大家評(píng)論區(qū)拍磚:大家如何看蘋果的這篇的論文,大模型真的會(huì)思考嗎?
參考鏈接:
https://medium.com/@ignacio.de.gregorio.noblejas/apples-viral-ai-paper-reality-or-fraud-9627a6de385a
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf