偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果炮轟推理模型全是假思考!4個(gè)游戲戳破神話,o3/DeepSeek高難度全崩潰

人工智能 新聞
這篇論文稱推理模型全都沒(méi)在真正思考,無(wú)論DeepSeek、o3-mini還是Claude 3.7都只是另一種形式的“模式匹配”,所謂思考只是一種假象。

蘋果最新大模型論文,在AI圈炸開(kāi)了鍋。

有人總結(jié)到:蘋果剛剛當(dāng)了一回馬庫(kù)斯,否定了所有大模型的推理能力。

圖片

這篇論文稱推理模型全都沒(méi)在真正思考,無(wú)論DeepSeek、o3-mini還是Claude 3.7都只是另一種形式的“模式匹配”,所謂思考只是一種假象。

再遇到真正高復(fù)雜度的任務(wù)時(shí)所有模型都會(huì)崩潰,即使給他們足夠的時(shí)間和計(jì)算資源也無(wú)濟(jì)于事。

作者中包括谷歌大腦創(chuàng)始人之一Samy Bengio(圖靈獎(jiǎng)得主Yoshua Bengio的弟弟)。

圖片

有網(wǎng)友諷刺縱使蘋果擁有最多的資金,2年了也沒(méi)有拿出像樣的成果,現(xiàn)在自己落后了,卻來(lái)否定別人的成果。

圖片

還有人建議蘋果要不直接買下Claude背后的公司Anthropic算了,每拖一天都在變貴。

圖片

不過(guò)也有人指出,這篇論文沒(méi)有看上去那么消極,而是呼吁設(shè)立更好的推理機(jī)制和評(píng)估辦法。

圖片

那么,這篇論文究竟說(shuō)了什么?

推理模型真的在“思考”嗎?

蘋果團(tuán)隊(duì)認(rèn)為現(xiàn)有評(píng)估主要集中在既定的數(shù)學(xué)和編碼基準(zhǔn)上,看模型最終答案是否正確,但可能存在數(shù)據(jù)污染(模型訓(xùn)練時(shí)見(jiàn)過(guò)類似題目)。并且,這些評(píng)估大都缺乏對(duì)“思考過(guò)程質(zhì)量”的分析,比如中間步驟是否邏輯一致、是否繞彎路等。

為了克服這些限制,更客觀測(cè)試推理模型的推理能力,他們?cè)O(shè)計(jì)了4類謎題環(huán)境。

巧妙之處在于,四類謎題的難度可以精確控制,同時(shí)保持邏輯結(jié)構(gòu)的一致性,研究者能夠系統(tǒng)觀察模型在不同復(fù)雜度下的行為變化,比如生成的每一步移動(dòng)是否正確、是否重復(fù)試錯(cuò)。

4類謎題環(huán)境分別是:

漢諾塔(Tower of Hanoi)

漢諾塔是一個(gè)包含三根柱子和n個(gè)不同大小圓盤的謎題,圓盤按大小順序(最大的在底部)堆疊在第一根柱子上。目標(biāo)是將所有圓盤從第一根柱子移到第三根柱子。有效移動(dòng)包括每次只能移動(dòng)一個(gè)圓盤,只能從柱子頂部取圓盤,并且永遠(yuǎn)不能將較大的圓盤放在較小的圓盤上。

此任務(wù)的難度可以通過(guò)初始圓盤的數(shù)量來(lái)控制,n個(gè)初始圓盤所需的最少移動(dòng)次數(shù)為2n-1

跳棋交換(Checker Jumping)

玩法是將紅色跳棋、藍(lán)色跳棋和一個(gè)空格排成一行。目標(biāo)是交換所有紅色和藍(lán)色跳棋的位置,也就是將初始配置鏡像反轉(zhuǎn)。

有效移動(dòng)包括將跳棋移動(dòng)到相鄰的空格中,或跳過(guò)恰好一個(gè)相反顏色的跳棋落到空格中。過(guò)程中,任何跳棋都不能向后移動(dòng)。

此任務(wù)的復(fù)雜度可以通過(guò)跳棋的數(shù)量來(lái)控制,對(duì)于2n個(gè)跳棋,所需的最少移動(dòng)次數(shù)為(n+1)2-1。

圖片

過(guò)河問(wèn)題(River Crossing)

該謎題涉及n個(gè)角色及其對(duì)應(yīng)的n個(gè)代理,他們必須使用一艘船過(guò)河。目標(biāo)是將所有2n個(gè)人從左岸運(yùn)到右岸。船最多可載k個(gè)人,且不能空駛。

每個(gè)代理必須保護(hù)自己的客戶免受競(jìng)爭(zhēng)代理的傷害,當(dāng)一個(gè)角色在沒(méi)有自己代理在場(chǎng)的情況下與另一個(gè)代理在一起時(shí),就會(huì)出現(xiàn)無(wú)效情況。

此任務(wù)的復(fù)雜度也可以通過(guò)調(diào)整角色/代理對(duì)的數(shù)量來(lái)控制。對(duì)于n=2、n=3對(duì),使用k=2的船容量;對(duì)于更多對(duì),使用k=3的船容量。

積木世界(Blocks World)

該謎題要求將積木從初始配置重新排列為指定的目標(biāo)配置,目標(biāo)是找出完成這一轉(zhuǎn)換所需的最少移動(dòng)次數(shù)。

其有效移動(dòng)規(guī)則為:僅能移動(dòng)任意堆疊中的最頂層積木,且可將其放置于空堆疊之上或另一塊積木的頂部。任務(wù)復(fù)雜度可通過(guò)積木數(shù)量進(jìn)行調(diào)控。

圖片

團(tuán)隊(duì)在這些可控環(huán)境中進(jìn)行了大量實(shí)驗(yàn),對(duì)比“會(huì)思考”和“不思考”的模型組合,主要針對(duì)Claude-3.7-Sonnet模型(帶思考機(jī)制 vs 不帶思考機(jī)制)和DeepSeek模型(R1 vs V3),這些模型允許訪問(wèn)thinking tokens。

而后團(tuán)隊(duì)驚奇發(fā)現(xiàn),隨著復(fù)雜度增加,模型表現(xiàn)呈現(xiàn)出三個(gè)截然不同的區(qū)間。

圖片

在低復(fù)雜度任務(wù)中,那些沒(méi)有“思考”功能的標(biāo)準(zhǔn)語(yǔ)言模型實(shí)際上表現(xiàn)得更好,它們不僅更準(zhǔn)確,而且更加高效,不會(huì)浪費(fèi)計(jì)算資源在不必要的思考上。

這一發(fā)現(xiàn)直接挑戰(zhàn)了“更多思考總是更好”的直覺(jué)假設(shè)。

隨著任務(wù)難度進(jìn)入中等水平,能夠生成長(zhǎng)思維鏈的推理模型開(kāi)始顯現(xiàn)優(yōu)勢(shì),額外的思考過(guò)程確實(shí)能夠幫助模型找到更好的解決方案。

然而,當(dāng)問(wèn)題復(fù)雜度繼續(xù)增加并超過(guò)某個(gè)臨界點(diǎn)時(shí),無(wú)論是推理模型還是標(biāo)準(zhǔn)模型都會(huì)經(jīng)歷完全的性能崩潰,準(zhǔn)確率直線下降至零。

以下是在低、中、高復(fù)雜度的謎題環(huán)境中,思考模型與非思考模型在同等計(jì)算預(yù)算下的pass@k性能表現(xiàn):

圖片

更令人困惑的是,蘋果團(tuán)隊(duì)觀察到“推理努力反向縮放”現(xiàn)象。

他們測(cè)試了5個(gè)會(huì)“思考”的推理模型,包括o3-mini (medium、high兩種配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B,、Claude-3.7-Sonnet (thinking)。

所有模型在任務(wù)復(fù)雜度提升后呈現(xiàn)出相似的模式:隨著問(wèn)題復(fù)雜度的增加,準(zhǔn)確率逐漸下降,直到超過(guò)特定于模型的復(fù)雜度閾值后完全崩潰,準(zhǔn)確率為零。

關(guān)鍵在于,一開(kāi)始,模型會(huì)隨著問(wèn)題變難而加大思考量,使用更多token,但接近崩潰臨界閾值時(shí),模型卻反直覺(jué)地開(kāi)始“主動(dòng)減少思考”,即使它們的token預(yù)算還遠(yuǎn)未耗盡。

也就是說(shuō),問(wèn)題并非出在計(jì)算資源的限制上,而是模型本身存在某種內(nèi)在的計(jì)算擴(kuò)展限制。

這種現(xiàn)象在o3-mini變體中最為明顯,在Claude-3.7-Sonnet (thinking)表現(xiàn)稍好一些。

圖片

為了深入理解這種現(xiàn)象,團(tuán)隊(duì)又針對(duì)Claude-3.7-Sonnet (thinking)詳細(xì)分析了模型的內(nèi)部推理軌跡。

他們發(fā)現(xiàn),在處理簡(jiǎn)單問(wèn)題時(shí),推理模型經(jīng)常會(huì)在早期就找到正確的解決方案,但隨后卻繼續(xù)探索各種錯(cuò)誤的替代方案,“過(guò)度思考”浪費(fèi)計(jì)算資源。

圖片

隨著問(wèn)題復(fù)雜度適度增加,這一趨勢(shì)發(fā)生逆轉(zhuǎn),模型首先探索錯(cuò)誤的解決方案,正確解決方案大多出現(xiàn)在思維的后期。

最后,對(duì)于更高復(fù)雜度的問(wèn)題,會(huì)出現(xiàn)崩潰現(xiàn)象,即模型無(wú)法在思維中生成任何正確的解決方案。

除此之外,團(tuán)隊(duì)還發(fā)了一個(gè)模型的迷惑行為。

如下圖(a)和(b)所示,團(tuán)隊(duì)在提示中向模型提供了完整的解決算法,理論上模型只需要按部就班地執(zhí)行這些步驟即可。

然而,實(shí)驗(yàn)結(jié)果顯示,模型的失敗點(diǎn)幾乎沒(méi)有改變,它們?nèi)匀粺o(wú)法突破任務(wù)復(fù)雜性限制,性能沒(méi)有提升,且觀察到的崩潰仍發(fā)生在大致相同的臨界點(diǎn)。

圖片

團(tuán)隊(duì)認(rèn)為這一點(diǎn)非常值得注意,因?yàn)閷ふ液驮O(shè)計(jì)解決方案本應(yīng)比單純執(zhí)行給定算法需要更多的計(jì)算。這進(jìn)一步凸顯了推理模型在驗(yàn)證和遵循邏輯步驟解決問(wèn)題方面的局限性,表明需要進(jìn)一步研究以理解此類模型的符號(hào)操作能力。

而(c)和(d)又揭示,Claude 3.7 Sonnet在不同謎題中的表現(xiàn)差異很大。

在漢諾塔問(wèn)題里,模型給出的解決方案中第一次出錯(cuò)的步驟很晚才出現(xiàn),在N=10的復(fù)雜度下,錯(cuò)誤通常出現(xiàn)在第 100步左右。然鵝,在過(guò)河問(wèn)題中,模型只能在第4步之前給出有效移動(dòng)步驟。

在解決需要31步完成、N=5復(fù)雜度的漢諾塔問(wèn)題時(shí),模型達(dá)到了近乎完美的準(zhǔn)確率,但在解決僅需11步就能完成的N=3的過(guò)河謎題時(shí)卻失敗了。

團(tuán)隊(duì)認(rèn)為這很可能表明,網(wǎng)絡(luò)上N>2的過(guò)河問(wèn)題實(shí)例較少,推理模型在訓(xùn)練過(guò)程中可能不常遇到或記住此類情況。

換句話說(shuō),這種不一致性強(qiáng)烈暗示,這些所謂的“推理”模型可能更多地依賴于對(duì)特定問(wèn)題模式的記憶和識(shí)別,盡管具備復(fù)雜的自我反思機(jī)制,但在超過(guò)特定復(fù)雜度閾值后,模型仍無(wú)法發(fā)展出可泛化的推理能力。

最后,團(tuán)隊(duì)提出僅用最終答案評(píng)估推理能力存在誤導(dǎo)性,還需關(guān)注中間步驟的質(zhì)量(如邏輯一致性、步驟效率)。

并建議未來(lái)如何設(shè)計(jì)更魯棒的推理機(jī)制,突破長(zhǎng)程依賴和復(fù)雜規(guī)劃的瓶頸,是當(dāng)前AI研究的關(guān)鍵方向。

蘋果在大模型落后了嗎?

暫時(shí)放下學(xué)術(shù)上的爭(zhēng)議,蘋果在大模型上的進(jìn)展確實(shí)不盡人意。

剛好一年前,Apple Intelligence在2024年WWDC正式亮相,但宣傳中的許多功能都經(jīng)歷延期、不夠完善甚至被下架:

圖片

  • 個(gè)性化生成表情包的Genmojis功能,實(shí)裝后發(fā)現(xiàn)會(huì)導(dǎo)致iPhone過(guò)熱并耗盡電池壽命。
  • 新聞?wù)δ茉谏梢幌盗屑傩侣剺?biāo)題后被關(guān)閉。
  • 最重磅的新版Siri甚至無(wú)法趕上即將舉辦的2025 WWDC

圖片

就在今年3月份,蘋果撤下了所有涉及新版Siri的電視廣告與網(wǎng)絡(luò)廣告。

高級(jí)總監(jiān)Robby Walker對(duì)員工表示,他不確定這些升級(jí)何時(shí)真正發(fā)布,因?yàn)樯?jí)有三分之一的時(shí)間無(wú)法正常運(yùn)行,部分原因是其他功能的優(yōu)先級(jí)更高。

這些功能還沒(méi)有完全準(zhǔn)備好向公眾發(fā)布,盡管我們的競(jìng)爭(zhēng)對(duì)手可能已經(jīng)以這種狀態(tài)甚至更糟的狀態(tài)發(fā)布了它們。

圖片

根據(jù)彭博社5月份的一篇爆料文章,蘋果在AI上的連續(xù)失敗可能受如下因素影響:

蘋果軟件工程主管Craig Federighi在ChatGPT之前一直不愿在人工智能領(lǐng)域進(jìn)行大規(guī)模投資,導(dǎo)致蘋果內(nèi)部致力于AI的員工,以及購(gòu)買的算力資源都明顯少于競(jìng)爭(zhēng)對(duì)手。

等到他發(fā)現(xiàn)AI大模型的潛力,其他科技巨頭已經(jīng)在上面組建團(tuán)隊(duì)并投入好幾年了。

圖片

另一位資深高管認(rèn)為:在AI領(lǐng)域,直到開(kāi)發(fā)完成,團(tuán)隊(duì)都無(wú)法知道產(chǎn)品會(huì)是什么樣子,這不是蘋果的思維方式。當(dāng)蘋果坐下來(lái)開(kāi)發(fā)產(chǎn)品時(shí),就已經(jīng)知道最終目標(biāo)是什么了

除了歷史原因之外,蘋果AI負(fù)責(zé)人John Giannandrea也被曝難融入蘋果核心管理層圈子,他沒(méi)有為團(tuán)隊(duì)爭(zhēng)取到所需的資源,個(gè)人性格上也比較佛系,不會(huì)嚴(yán)格督促員工交付工作成果。

圖片

最后,對(duì)蘋果來(lái)說(shuō),動(dòng)作慢一點(diǎn)不代表徹底失敗。歷史上他們經(jīng)常等一個(gè)新技術(shù)出現(xiàn)了再打磨發(fā)布自己精心設(shè)計(jì)、易用性強(qiáng)的版本。

MP3播放器、智能手機(jī)、平板電腦、手表和耳機(jī)都是如此。

論文地址:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-06-03 08:26:00

2013-05-06 09:48:38

數(shù)據(jù)遷移

2025-06-06 14:13:46

蘋果AI模型

2025-09-15 14:42:55

o3視覺(jué)推理開(kāi)源

2014-06-13 11:25:41

WiFi華為

2025-05-30 00:00:00

2025-04-17 09:02:00

2024-09-24 11:01:03

2025-05-13 08:24:14

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-03-10 08:10:00

AI研究安全

2025-08-04 08:40:00

2025-06-11 08:56:54

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-06-13 14:15:57

2025-06-11 09:19:46

2015-05-13 16:30:02

混合云云部署

2025-04-22 09:12:00

AI模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)