偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="vyaiz"></tt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

反轉(zhuǎn)！AI 推理能力遭蘋果質(zhì)疑后，Claude 合著論文反擊：不是不會(huì)推理，是輸給 Token

2025-06-17 17:19:31

研究者們指出，OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”，本質(zhì)上并沒有從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到可泛化的第一性原理。

近日，Apple 機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)發(fā)布了一篇名為《思考的幻覺（The Illusion of Thinking）》的論文。

圖片

這篇 53 頁的技術(shù)報(bào)告并非普通評(píng)測，而是一記質(zhì)疑當(dāng)下主流 LLM 推理能力的重錘。

研究者們指出，OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”，本質(zhì)上并沒有從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到可泛化的第一性原理。

他們用了四個(gè)經(jīng)典問題來證明這一觀點(diǎn)：漢諾塔（Tower of Hanoi）、積木世界（Blocks World）、過河問題（River Crossing）和跳棋（Checkers Jumping）。

圖注：四類經(jīng)典問題的示意圖。

這些任務(wù)的特點(diǎn)是，可以通過增加步驟和限制條件，讓難度指數(shù)級(jí)飆升，極其考驗(yàn)?zāi)Ｐ偷拈L鏈條邏輯規(guī)劃能力。

蘋果的要求也很苛刻：不僅要給出正確答案，還得用“思維鏈”的方式，把解題的每一步都寫出來。

結(jié)果呢？

正如蘋果所料，隨著謎題越來越難，所有頂尖推理模型的準(zhǔn)確率都直線下滑。在最復(fù)雜的任務(wù)面前，性能直接崩盤，準(zhǔn)確率歸零。

圖片

圖注：在所有謎題環(huán)境和不同難度級(jí)別下，思維模型（Claude 3.7 Sonnet with thinking、DeepSeek-R1）與其非思維對(duì)應(yīng)模型（Claude 3.7 Sonnet、DeepSeek-V3）在準(zhǔn)確率方面的對(duì)比。

更有意思的，是蘋果研究員發(fā)現(xiàn)的一個(gè)現(xiàn)象：模型用于“思考”的篇幅（也就是輸出的token數(shù)量）也開始縮水。

作者將此視為模型主動(dòng)減少推理嘗試的跡象。

也就是說：推理，是幻象。

圖片

這篇論文在X（推特）上被瘋狂轉(zhuǎn)發(fā)，很多人上來就直接宣判：“蘋果已經(jīng)證明了，像Claude、DeepSeek這類模型根本不會(huì)推理，它們只是記性特別好的復(fù)讀機(jī)罷了！”

反轉(zhuǎn)來了：“思考幻覺”本身的幻覺

圖片

爭議的火苗很快被一篇名為《The Illusion of The Illusion of Thinking》的反駁論文點(diǎn)燃，作者是一位名叫Alex Lawsen的獨(dú)立研究員——以及，他的合作伙伴：大語言模型Claude Opus 4。

是的，一篇論文，合著者是AI。

他們認(rèn)為，蘋果所謂的“推理崩潰”，根本不是AI能力的上限到了，而是實(shí)驗(yàn)設(shè)計(jì)本身存在致命缺陷。

槽點(diǎn)一：混淆了“推理失敗”和“作文本不夠長”

這是最核心的一個(gè)反駁點(diǎn)。

批評(píng)者指出，像漢諾塔這類問題，解決步驟是隨著盤子數(shù)量指數(shù)級(jí)增長的。比如，要解開15個(gè)盤子的漢諾塔，需要輸出超過32000個(gè)步驟。

而大模型的上下文窗口和單次輸出Token都是有上限的。

模型很可能在內(nèi)部已經(jīng)得出了正確的算法和策略，但因?yàn)檩敵銎南拗疲瑢?dǎo)致答案被截?cái)?，結(jié)果被蘋果的評(píng)估腳本直接判了零分。

也就是說，這不是邏輯的極限，這是Token的極限。

槽點(diǎn)二：“考卷”本身就有問題

這是對(duì)蘋果研究嚴(yán)謹(jǐn)性的最后一擊。反駁論文指出，不僅僅是評(píng)估方法有問題，蘋果用來測試的“考卷”本身，都存在設(shè)計(jì)缺陷。

論文作者發(fā)現(xiàn)，在蘋果使用的基準(zhǔn)測試中，一些“過河問題”的題目，根據(jù)其給出的限制條件，在數(shù)學(xué)上是根本無解的。

一個(gè)無解的題，AI當(dāng)然給不出“正確答案”。

但最離譜的是，蘋果的評(píng)估系統(tǒng)，依然對(duì)模型在這些無解題上的輸出進(jìn)行了評(píng)分，并以此作為模型“失敗”的證據(jù)。

槽點(diǎn)三：換個(gè)“考法”，AI原地復(fù)活

他們做了一個(gè)簡單的實(shí)驗(yàn)：他們不再要求模型一步一步地寫出漢諾塔的完整解法，而是讓模型直接輸出一個(gè)能解決這個(gè)問題的“程序代碼”（比如一個(gè)Lua函數(shù)）。

結(jié)果如何？

模型在之前被判定為“徹底失敗”的、更復(fù)雜的任務(wù)上，輕松給出了正確的程序。

這個(gè)反轉(zhuǎn)極具說服力。它證明了AI不是不懂解題的邏輯，它只是無法遵循那種“默寫全文”式的、極其冗長又低效的輸出要求。

AI 的腦子里已經(jīng)有了算法，但你非要它把每一步計(jì)算都口述出來。

此外，還有其他研究者在推特（X）指出了第四個(gè)槽點(diǎn)：缺乏人類基準(zhǔn)的“單方面宣布”。即，蘋果在整個(gè)實(shí)驗(yàn)中，從未將模型的表現(xiàn)與人類在相同任務(wù)下的表現(xiàn)進(jìn)行對(duì)比。

別說AI了，就是一個(gè)正常人，在沒有任何紙筆輔助的情況下，去心算一個(gè)需要幾百步規(guī)劃的邏輯謎題，大腦一樣會(huì)“宕機(jī)”。

沒有這個(gè)最基本的參照系，怎么能斷言AI的“性能衰減”是一種根本性的“思考缺陷”，而不是所有智能體（包括人類）面對(duì)超限復(fù)雜任務(wù)時(shí)的正常表現(xiàn)呢？

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

AI OpenAI Google

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="ec3xa"><button id="ec3xa"></button></pre>

<strong id="ec3xa"></strong>

<abbr id="ec3xa"></abbr>

<wbr id="ec3xa"></wbr>