偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果一口咬死AI不會思考!OpenAI前高管直接開懟:AGI已來,別再酸了

人工智能 新聞
最近,蘋果的一篇論文掀起波瀾,挑戰(zhàn)了當(dāng)下AI推理能力的基本假設(shè)。而OpenAI的前研究主管則斷言:AGI時代已近在眼前。誰是誰非?AGI還有多遠?

最近,蘋果發(fā)布了一篇論文,引發(fā)了關(guān)于AI是否真正在推理的激烈討論。

它提出了一個尖銳問題:當(dāng)前的推理模型,是否已經(jīng)觸及能力的天花板?

與此同時,OpenAI前研究主管Bob McGrew則持完全不同的態(tài)度。他在播客《訓(xùn)練數(shù)據(jù)》中表示:通用人工智能(AGI)所需的關(guān)鍵突破已經(jīng)實現(xiàn),2025年將是AI推理的元年。

這樣的討論是必要的反思,還是技術(shù)焦慮下的「酸葡萄心理」?蘋果是點破幻象,還是真的「酸蘋果」?

AI推理遇到瓶頸了嗎?

AI正站在重要的十字路口。

這幾年,語言模型一路狂飆,到了現(xiàn)在,新一代「推理模型」紛紛登場,比如OpenAI的o1、DeepSeek-R1,還有 Claude 3.7 Sonnet Thinking。

它們不再只是堆規(guī)模,而是號稱加入了更復(fù)雜的「思維機制」:在推理環(huán)節(jié)計算方式更靈活,目標(biāo)是突破傳統(tǒng)模型的天花板。

聽起來很厲害,但不少嚴(yán)謹(jǐn)?shù)难芯恳仓赋觯篈I可能已經(jīng)碰到了能力上的瓶頸。

這不僅對它們目前的效果提出了質(zhì)疑,也讓人開始擔(dān)心:推理模型還能不能繼續(xù)進化?

圖片

推理模型的承諾

與之前的語言模型相比,大型推理模型(Large Reasoning Models,簡稱 LRMs)已經(jīng)完全不一樣了。

過去,模型主要靠預(yù)測下一個詞,而推理模型學(xué)會了三項「超能力」:

(1)思維鏈:能像人類一樣一步步推導(dǎo)(比如解數(shù)學(xué)題會寫步驟)

(2)自我反?。簳z查自己的答案對不對

(3)智能分配算力:遇到難題自動「多想想」

關(guān)鍵想法很簡單,也很有說服力:

人類解決復(fù)雜問題,不就是靠一步步地思考和推理嗎?

那讓AI也學(xué)學(xué)這招,不就變得更聰明、更會解決問題了嗎?

事實證明,的確如此!OpenAI的o1模型一出手,刷新了數(shù)學(xué)基準(zhǔn)紀(jì)錄,把前輩們遠遠甩在后面。在寫代碼、搞科研這些任務(wù)上,其他推理模型也進步神速。

整個AI圈都沸騰了,大家覺得「新范式」來了:

以后不用光靠砸錢、堆數(shù)據(jù)做訓(xùn)練了。在AI「思考」的時候多給它點時間,就能解鎖全新的能力!

這些令人振奮的進展,也引出了一個現(xiàn)實問題:它們真的有我們期待的那么強嗎?

現(xiàn)實檢驗

推理模型到底行不行?

雖然推理模型看起來前景不錯,但來自三個獨立研究團隊的測試也給我們潑了點冷水——

在嚴(yán)格條件下,這些模型的真實表現(xiàn)暴露出了不少問題,但也確實展現(xiàn)了它們的進步。

這三項測試分別為:

(1)蘋果的可控實驗;

(2)亞利桑那州立大學(xué)對AI規(guī)劃能力的測試;

(3)ARC測試對「模型越大就越強」的部分否定。

蘋果的可控實驗

目前,蘋果論文《思考的錯覺》最具爭議。

他們重點集中在游戲一樣的謎題,比如漢諾塔、跳棋過關(guān)、渡河難題等。

這樣做的好處是,可以隨意調(diào)整難度,還能防止AI靠「背題庫」來作弊。

他們發(fā)現(xiàn)了三種截然不同的狀態(tài),對理解推理模型大有啟發(fā):

  • 低復(fù)雜度任務(wù):傳統(tǒng)語言模型反而表現(xiàn)更好,且更節(jié)省token,說明推理機制并不總是有益;
  • 中等復(fù)雜度任務(wù):推理模型優(yōu)勢明顯,證明其確實具備了超越模板匹配的真實能力;
  • 高復(fù)雜度任務(wù):所有模型性能全面崩潰,可能不是「算力不夠」,而是結(jié)構(gòu)性瓶頸。

圖片

論文鏈接:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

更奇怪的是,研究人員還發(fā)現(xiàn)了讓人想不通的現(xiàn)象:

問題越難,這些推理模型反而越「躺平」,投入的「腦力」不增反降。

這就像一個學(xué)生,碰到難題不想著多算幾遍,反而直接把筆一扔。

當(dāng)然,這也不全是壞消息:

至少在中等難度的任務(wù)上,推理模型確實能在一定程度上,突破LLM「死記硬背」的舊模式。

規(guī)劃能力的證據(jù)

早在去年,亞利桑那州立大學(xué)Subbarao Kambhampati教授等人對推理模型的「規(guī)劃能力」做了深入研究。

圖片

Subbarao Kambhampati,目前任亞利桑那州立大學(xué)計算與增強智能學(xué)院教授

他用PlanBench工具測試了o1-preview,結(jié)果顯示:

在簡單的Blocksworld任務(wù)中,模型準(zhǔn)確率高達97.8%,進步非常顯著

圖片

OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld域的600個實例上的性能和平均耗時

相比早期模型幾乎「死傷過半」的表現(xiàn),這堪稱質(zhì)的飛躍。

但他也指出一個令人意外的現(xiàn)象:哪怕明確告訴模型該怎么做、給出算法步驟,它的表現(xiàn)也不會更好。

這說明,雖然這些模型的推理方式更復(fù)雜了,但跟人類基于邏輯的推理,可能仍然不是一回事。

換句話說,它們是在「推理」,但推得方式和人很不一樣。

圖片

論文鏈接:https://www.arxiv.org/abs/2409.13373

ARC基準(zhǔn):AI推理試金石

為了突出了「人類易行」和「AI難懂」之間的關(guān)鍵差距,Keras之父Fran?ois Chollet聯(lián)手Mike Knoop發(fā)起了抽象與推理語料庫(Abstract and Reasoning Corpus,ARC)。

圖片

ARC-AGI-1測試示例:左側(cè)會顯示輸入/輸出對,用于理解任務(wù)的性質(zhì)。 中間是當(dāng)前的測試輸入網(wǎng)格。 右側(cè)是可以用來構(gòu)建相應(yīng)輸出網(wǎng)格的控件

這項任務(wù)非常難,2020年只能完成大約20%,到2024年提高到了55.5%,背后離不開推理模型和技術(shù)演進。

圖片

ARC-AGI-1隨時間推移的最高分

在ARC Prize的推動下,很多重要技術(shù)應(yīng)運而生,比如測試時微調(diào)(test-time fine-tuning)和深度學(xué)習(xí)驅(qū)動的程序合成。

但也有一個信號值得警惕:ARC測試對「模型越大就越強」這件事非常不買賬。

換句話說,「無腦」堆算力、堆參數(shù)已經(jīng)難以進一步提高成績了。

這說明,雖然推理模型確實帶來了突破,但要實現(xiàn)類似人類的通用智能,僅靠現(xiàn)在這套架構(gòu)還遠遠不夠。

未來的進步,可能需要從根本上換種思路,甚至重構(gòu)模型結(jié)構(gòu)。

Scaling,不再是唯一答案。

趨同的批評

理論與實證不謀而合

這些研究之所以特別值得關(guān)注,是因為它們恰好印證了Gary Marcus等學(xué)者多年來一直堅持的觀點。

早在1998年,Marcus就指出:神經(jīng)網(wǎng)絡(luò)擅長在「訓(xùn)練過的范圍內(nèi)」表現(xiàn),但一旦遇到全新的問題,性能就會暴跌。

如今,一系列實證研究為他的理論提供了有力支持。

Marcus甚至用「給大語言模型致命一擊」這樣的說法,回應(yīng)了蘋果的那篇論文。

圖片

聽起來激烈,但其實并不是情緒化發(fā)言,而是他多年觀點的現(xiàn)實驗證。

他指出了關(guān)鍵:哪怕在訓(xùn)練中模型見過成千上萬個漢諾塔解法,一旦換個設(shè)定,它依然無法穩(wěn)定應(yīng)對。

這就揭示出一個本質(zhì)問題:記憶≠推理

背下了答案,不代表你真的理解了問題。

進步的「幻象」?

越來越多的跡象表明,當(dāng)前的推理模型可能更像是一種高級模板匹配

它們看似在「推理」,但實際上是調(diào)用記憶中類似問題的解法模板,一旦問題稍有變化,性能便迅速崩塌。

圖片

這種解釋能合理說明一系列令人費解的現(xiàn)象:

  • 為什么提供明確的算法步驟,反而不能提升模型表現(xiàn);
  • 為什么面對更復(fù)雜問題時,模型反而減少「思考」;
  • 為什么傳統(tǒng)算法始終優(yōu)于這些耗費巨大算力的推理模型。

但別急著下結(jié)論:推理模型的進步是真的,只是復(fù)雜得多。

雖然推理模型暴露了不少問題,但這并不代表它們「沒用」或「失敗」。

相反,它們在很多方面確實取得了實質(zhì)性突破:

  • 確實有進步:像規(guī)劃類任務(wù),以前根本做不了,現(xiàn)在模型已經(jīng)能給出高質(zhì)量解答,數(shù)學(xué)和邏輯推理也刷新了不少新紀(jì)錄;
  • 表現(xiàn)因領(lǐng)域而異:只要訓(xùn)練中見過類似的推理邏輯,模型表現(xiàn)就會好很多,比如數(shù)學(xué)證明、代碼生成這類結(jié)構(gòu)化任務(wù)
  • 暴露了架構(gòu)問題:在嚴(yán)格測試中的「反常行為」,其實很寶貴,為優(yōu)化下一代模型提供了清晰方向。

這些發(fā)現(xiàn)說明,推理模型確實邁出了一大步,但它們的能力是有邊界的,但這些邊界要看出來并不容易。

想真正搞清楚它們到底強在哪、弱在哪,需要更科學(xué)的方式去評估它們的行為。

另辟蹊徑,別有洞天

那走出瓶頸,還能有別的路嗎?

好消息是,研究已經(jīng)給出了幾個可能的新方向,也許能幫助我們跳出當(dāng)前架構(gòu)的局限:

  • 混合架構(gòu)(Hybrid Architectures):結(jié)合神經(jīng)網(wǎng)絡(luò)的靈活性和傳統(tǒng)算法的可靠性;
  • 專用推理系統(tǒng)(Specialized Reasoning Systems):聚焦具體領(lǐng)域,針對性更強、穩(wěn)定性更高的推理系統(tǒng)。

混合架構(gòu),比如Kambhampati提出的LLM-Modulo框架,可以讓模型在「學(xué)得會」的同時也「講規(guī)則」。這種組合,可能更適合真正需要嚴(yán)謹(jǐn)推理的任務(wù)。

圖片

LLM-Modulo框架:大語言模型(LLMs)充當(dāng)思想生成器,而各種專門針對不同方面的外部評論員則對候選計劃進行評審

與其追求「啥都能做」的萬能AI,不如聚焦具體領(lǐng)域比如數(shù)學(xué)、物理、法律這類任務(wù),專用模型可能比「通用大模型」更靠譜、更好用。

下一階段的突破,也許就藏在這些「混搭」與「專精」的路徑里。

推理模型的問題,可能是評估的問題

Open Philanthropy高級項目專員Alex Lawsen對蘋果論文的研究方法提出了質(zhì)疑。

圖片

論文標(biāo)題叫《思考的錯覺的錯覺》,雖然聽起來像個段子,但里面指出的問題卻挺認真,尤其是方法上的漏洞。

他的核心觀點很清楚:很多被判定為「推理失敗」的案例,其實不是模型不行,而是評估方式出了問題。比如:

  • 模型能判斷出題目在數(shù)學(xué)上根本無法解,但卻被打了個「不會做」的低分;
  • 模型因為token限制被迫中斷,卻被認為「能力不行」;
  • 模型生成的是算法,而不是一步步列出所有動作,結(jié)果也被判失敗。

這些情況如果不分青紅皂白全算「推理能力不足」,其實就是誤解模型了。

圖片

論文鏈接:https://arxiv.org/abs/2506.09250v2

模型沒撞墻,是評估方式變難了。

所以現(xiàn)在的問題,不是AI推理到底能不能行,而是:我們有沒有辦法準(zhǔn)確評估它到底行不行。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-09-12 11:07:01

2025-05-26 09:06:00

2024-12-16 10:30:00

OpenAI馬斯克AGI

2011-09-14 09:49:43

蘋果中國開發(fā)者iOS

2025-06-12 04:00:00

SCMMRM內(nèi)存

2012-11-20 09:25:34

Windows 8

2010-01-07 09:21:52

蘋果信息泄密

2024-03-25 06:53:34

OpenAIAI 復(fù)活親人

2025-01-17 11:27:12

2025-05-28 18:41:37

AILlamaAGI

2011-11-14 10:25:42

蘋果三星谷歌

2021-03-29 12:22:25

微信iOS蘋果

2022-11-11 10:01:35

代碼Copilot函數(shù)

2010-02-06 09:22:57

微軟創(chuàng)新

2019-02-25 10:25:29

深度學(xué)習(xí)編程人工智能

2024-01-29 07:05:00

自動駕駛技術(shù)

2017-12-12 10:36:39

網(wǎng)口無線上網(wǎng)

2024-04-01 14:04:19

AGI蘋果百度

2022-09-15 10:44:42

SidecarIstioeBPFizer

2023-02-06 07:37:29

Java編程語言
點贊
收藏

51CTO技術(shù)棧公眾號