偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果一口咬死AI不會(huì)思考!OpenAI前高管直接開懟:AGI已來(lái),別再酸了

人工智能 新聞
最近,蘋果的一篇論文掀起波瀾,挑戰(zhàn)了當(dāng)下AI推理能力的基本假設(shè)。而OpenAI的前研究主管則斷言:AGI時(shí)代已近在眼前。誰(shuí)是誰(shuí)非?AGI還有多遠(yuǎn)?

最近,蘋果發(fā)布了一篇論文,引發(fā)了關(guān)于AI是否真正在推理的激烈討論。

它提出了一個(gè)尖銳問(wèn)題:當(dāng)前的推理模型,是否已經(jīng)觸及能力的天花板?

與此同時(shí),OpenAI前研究主管Bob McGrew則持完全不同的態(tài)度。他在播客《訓(xùn)練數(shù)據(jù)》中表示:通用人工智能(AGI)所需的關(guān)鍵突破已經(jīng)實(shí)現(xiàn),2025年將是AI推理的元年。

這樣的討論是必要的反思,還是技術(shù)焦慮下的「酸葡萄心理」?蘋果是點(diǎn)破幻象,還是真的「酸蘋果」?

AI推理遇到瓶頸了嗎?

AI正站在重要的十字路口。

這幾年,語(yǔ)言模型一路狂飆,到了現(xiàn)在,新一代「推理模型」紛紛登場(chǎng),比如OpenAI的o1、DeepSeek-R1,還有 Claude 3.7 Sonnet Thinking。

它們不再只是堆規(guī)模,而是號(hào)稱加入了更復(fù)雜的「思維機(jī)制」:在推理環(huán)節(jié)計(jì)算方式更靈活,目標(biāo)是突破傳統(tǒng)模型的天花板。

聽起來(lái)很厲害,但不少嚴(yán)謹(jǐn)?shù)难芯恳仓赋觯篈I可能已經(jīng)碰到了能力上的瓶頸。

這不僅對(duì)它們目前的效果提出了質(zhì)疑,也讓人開始擔(dān)心:推理模型還能不能繼續(xù)進(jìn)化?

圖片

推理模型的承諾

與之前的語(yǔ)言模型相比,大型推理模型(Large Reasoning Models,簡(jiǎn)稱 LRMs)已經(jīng)完全不一樣了。

過(guò)去,模型主要靠預(yù)測(cè)下一個(gè)詞,而推理模型學(xué)會(huì)了三項(xiàng)「超能力」:

(1)思維鏈:能像人類一樣一步步推導(dǎo)(比如解數(shù)學(xué)題會(huì)寫步驟)

(2)自我反?。簳?huì)檢查自己的答案對(duì)不對(duì)

(3)智能分配算力:遇到難題自動(dòng)「多想想」

關(guān)鍵想法很簡(jiǎn)單,也很有說(shuō)服力:

人類解決復(fù)雜問(wèn)題,不就是靠一步步地思考和推理嗎?

那讓AI也學(xué)學(xué)這招,不就變得更聰明、更會(huì)解決問(wèn)題了嗎?

事實(shí)證明,的確如此!OpenAI的o1模型一出手,刷新了數(shù)學(xué)基準(zhǔn)紀(jì)錄,把前輩們遠(yuǎn)遠(yuǎn)甩在后面。在寫代碼、搞科研這些任務(wù)上,其他推理模型也進(jìn)步神速。

整個(gè)AI圈都沸騰了,大家覺(jué)得「新范式」來(lái)了:

以后不用光靠砸錢、堆數(shù)據(jù)做訓(xùn)練了。在AI「思考」的時(shí)候多給它點(diǎn)時(shí)間,就能解鎖全新的能力!

這些令人振奮的進(jìn)展,也引出了一個(gè)現(xiàn)實(shí)問(wèn)題:它們真的有我們期待的那么強(qiáng)嗎?

現(xiàn)實(shí)檢驗(yàn)

推理模型到底行不行?

雖然推理模型看起來(lái)前景不錯(cuò),但來(lái)自三個(gè)獨(dú)立研究團(tuán)隊(duì)的測(cè)試也給我們潑了點(diǎn)冷水——

在嚴(yán)格條件下,這些模型的真實(shí)表現(xiàn)暴露出了不少問(wèn)題,但也確實(shí)展現(xiàn)了它們的進(jìn)步。

這三項(xiàng)測(cè)試分別為:

(1)蘋果的可控實(shí)驗(yàn);

(2)亞利桑那州立大學(xué)對(duì)AI規(guī)劃能力的測(cè)試;

(3)ARC測(cè)試對(duì)「模型越大就越強(qiáng)」的部分否定。

蘋果的可控實(shí)驗(yàn)

目前,蘋果論文《思考的錯(cuò)覺(jué)》最具爭(zhēng)議。

他們重點(diǎn)集中在游戲一樣的謎題,比如漢諾塔、跳棋過(guò)關(guān)、渡河難題等。

這樣做的好處是,可以隨意調(diào)整難度,還能防止AI靠「背題庫(kù)」來(lái)作弊

他們發(fā)現(xiàn)了三種截然不同的狀態(tài),對(duì)理解推理模型大有啟發(fā):

  • 低復(fù)雜度任務(wù):傳統(tǒng)語(yǔ)言模型反而表現(xiàn)更好,且更節(jié)省token,說(shuō)明推理機(jī)制并不總是有益;
  • 中等復(fù)雜度任務(wù):推理模型優(yōu)勢(shì)明顯,證明其確實(shí)具備了超越模板匹配的真實(shí)能力;
  • 高復(fù)雜度任務(wù):所有模型性能全面崩潰,可能不是「算力不夠」,而是結(jié)構(gòu)性瓶頸。

圖片

論文鏈接:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

更奇怪的是,研究人員還發(fā)現(xiàn)了讓人想不通的現(xiàn)象:

問(wèn)題越難,這些推理模型反而越「躺平」,投入的「腦力」不增反降。

這就像一個(gè)學(xué)生,碰到難題不想著多算幾遍,反而直接把筆一扔。

當(dāng)然,這也不全是壞消息:

至少在中等難度的任務(wù)上,推理模型確實(shí)能在一定程度上,突破LLM「死記硬背」的舊模式。

規(guī)劃能力的證據(jù)

早在去年,亞利桑那州立大學(xué)Subbarao Kambhampati教授等人對(duì)推理模型的「規(guī)劃能力」做了深入研究。

圖片

Subbarao Kambhampati,目前任亞利桑那州立大學(xué)計(jì)算與增強(qiáng)智能學(xué)院教授

他用PlanBench工具測(cè)試了o1-preview,結(jié)果顯示:

在簡(jiǎn)單的Blocksworld任務(wù)中,模型準(zhǔn)確率高達(dá)97.8%,進(jìn)步非常顯著。

圖片

OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld域的600個(gè)實(shí)例上的性能和平均耗時(shí)

相比早期模型幾乎「死傷過(guò)半」的表現(xiàn),這堪稱質(zhì)的飛躍。

但他也指出一個(gè)令人意外的現(xiàn)象:哪怕明確告訴模型該怎么做、給出算法步驟,它的表現(xiàn)也不會(huì)更好。

這說(shuō)明,雖然這些模型的推理方式更復(fù)雜了,但跟人類基于邏輯的推理,可能仍然不是一回事。

換句話說(shuō),它們是在「推理」,但推得方式和人很不一樣。

圖片

論文鏈接:https://www.arxiv.org/abs/2409.13373

ARC基準(zhǔn):AI推理試金石

為了突出了「人類易行」和「AI難懂」之間的關(guān)鍵差距,Keras之父Fran?ois Chollet聯(lián)手Mike Knoop發(fā)起了抽象與推理語(yǔ)料庫(kù)(Abstract and Reasoning Corpus,ARC)。

圖片

ARC-AGI-1測(cè)試示例:左側(cè)會(huì)顯示輸入/輸出對(duì),用于理解任務(wù)的性質(zhì)。 中間是當(dāng)前的測(cè)試輸入網(wǎng)格。 右側(cè)是可以用來(lái)構(gòu)建相應(yīng)輸出網(wǎng)格的控件

這項(xiàng)任務(wù)非常難,2020年只能完成大約20%,到2024年提高到了55.5%,背后離不開推理模型和技術(shù)演進(jìn)。

圖片

ARC-AGI-1隨時(shí)間推移的最高分

在ARC Prize的推動(dòng)下,很多重要技術(shù)應(yīng)運(yùn)而生,比如測(cè)試時(shí)微調(diào)(test-time fine-tuning)和深度學(xué)習(xí)驅(qū)動(dòng)的程序合成。

但也有一個(gè)信號(hào)值得警惕:ARC測(cè)試對(duì)「模型越大就越強(qiáng)」這件事非常不買賬。

換句話說(shuō),「無(wú)腦」堆算力、堆參數(shù)已經(jīng)難以進(jìn)一步提高成績(jī)了。

這說(shuō)明,雖然推理模型確實(shí)帶來(lái)了突破,但要實(shí)現(xiàn)類似人類的通用智能,僅靠現(xiàn)在這套架構(gòu)還遠(yuǎn)遠(yuǎn)不夠。

未來(lái)的進(jìn)步,可能需要從根本上換種思路,甚至重構(gòu)模型結(jié)構(gòu)。

Scaling,不再是唯一答案。

趨同的批評(píng)

理論與實(shí)證不謀而合

這些研究之所以特別值得關(guān)注,是因?yàn)樗鼈兦『糜∽C了Gary Marcus等學(xué)者多年來(lái)一直堅(jiān)持的觀點(diǎn)。

早在1998年,Marcus就指出:神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)在「訓(xùn)練過(guò)的范圍內(nèi)」表現(xiàn),但一旦遇到全新的問(wèn)題,性能就會(huì)暴跌。

如今,一系列實(shí)證研究為他的理論提供了有力支持。

Marcus甚至用「給大語(yǔ)言模型致命一擊」這樣的說(shuō)法,回應(yīng)了蘋果的那篇論文。

圖片

聽起來(lái)激烈,但其實(shí)并不是情緒化發(fā)言,而是他多年觀點(diǎn)的現(xiàn)實(shí)驗(yàn)證。

他指出了關(guān)鍵:哪怕在訓(xùn)練中模型見過(guò)成千上萬(wàn)個(gè)漢諾塔解法,一旦換個(gè)設(shè)定,它依然無(wú)法穩(wěn)定應(yīng)對(duì)。

這就揭示出一個(gè)本質(zhì)問(wèn)題:記憶≠推理。

背下了答案,不代表你真的理解了問(wèn)題。

進(jìn)步的「幻象」?

越來(lái)越多的跡象表明,當(dāng)前的推理模型可能更像是一種高級(jí)模板匹配

它們看似在「推理」,但實(shí)際上是調(diào)用記憶中類似問(wèn)題的解法模板,一旦問(wèn)題稍有變化,性能便迅速崩塌。

圖片

這種解釋能合理說(shuō)明一系列令人費(fèi)解的現(xiàn)象:

  • 為什么提供明確的算法步驟,反而不能提升模型表現(xiàn);
  • 為什么面對(duì)更復(fù)雜問(wèn)題時(shí),模型反而減少「思考」;
  • 為什么傳統(tǒng)算法始終優(yōu)于這些耗費(fèi)巨大算力的推理模型。

但別急著下結(jié)論:推理模型的進(jìn)步是真的,只是復(fù)雜得多。

雖然推理模型暴露了不少問(wèn)題,但這并不代表它們「沒(méi)用」或「失敗」。

相反,它們?cè)诤芏喾矫娲_實(shí)取得了實(shí)質(zhì)性突破:

  • 確實(shí)有進(jìn)步:像規(guī)劃類任務(wù),以前根本做不了,現(xiàn)在模型已經(jīng)能給出高質(zhì)量解答,數(shù)學(xué)和邏輯推理也刷新了不少新紀(jì)錄;
  • 表現(xiàn)因領(lǐng)域而異:只要訓(xùn)練中見過(guò)類似的推理邏輯,模型表現(xiàn)就會(huì)好很多,比如數(shù)學(xué)證明、代碼生成這類結(jié)構(gòu)化任務(wù);
  • 暴露了架構(gòu)問(wèn)題:在嚴(yán)格測(cè)試中的「反常行為」,其實(shí)很寶貴,為優(yōu)化下一代模型提供了清晰方向。

這些發(fā)現(xiàn)說(shuō)明,推理模型確實(shí)邁出了一大步,但它們的能力是有邊界的,但這些邊界要看出來(lái)并不容易。

想真正搞清楚它們到底強(qiáng)在哪、弱在哪,需要更科學(xué)的方式去評(píng)估它們的行為。

另辟蹊徑,別有洞天

那走出瓶頸,還能有別的路嗎?

好消息是,研究已經(jīng)給出了幾個(gè)可能的新方向,也許能幫助我們跳出當(dāng)前架構(gòu)的局限:

  • 混合架構(gòu)(Hybrid Architectures):結(jié)合神經(jīng)網(wǎng)絡(luò)的靈活性和傳統(tǒng)算法的可靠性;
  • 專用推理系統(tǒng)(Specialized Reasoning Systems):聚焦具體領(lǐng)域,針對(duì)性更強(qiáng)、穩(wěn)定性更高的推理系統(tǒng)。

混合架構(gòu),比如Kambhampati提出的LLM-Modulo框架,可以讓模型在「學(xué)得會(huì)」的同時(shí)也「講規(guī)則」。這種組合,可能更適合真正需要嚴(yán)謹(jǐn)推理的任務(wù)。

圖片

LLM-Modulo框架:大語(yǔ)言模型(LLMs)充當(dāng)思想生成器,而各種專門針對(duì)不同方面的外部評(píng)論員則對(duì)候選計(jì)劃進(jìn)行評(píng)審

與其追求「啥都能做」的萬(wàn)能AI,不如聚焦具體領(lǐng)域比如數(shù)學(xué)、物理、法律這類任務(wù),專用模型可能比「通用大模型」更靠譜、更好用。

下一階段的突破,也許就藏在這些「混搭」與「專精」的路徑里。

推理模型的問(wèn)題,可能是評(píng)估的問(wèn)題

Open Philanthropy高級(jí)項(xiàng)目專員Alex Lawsen對(duì)蘋果論文的研究方法提出了質(zhì)疑。

圖片

論文標(biāo)題叫《思考的錯(cuò)覺(jué)的錯(cuò)覺(jué)》,雖然聽起來(lái)像個(gè)段子,但里面指出的問(wèn)題卻挺認(rèn)真,尤其是方法上的漏洞。

他的核心觀點(diǎn)很清楚:很多被判定為「推理失敗」的案例,其實(shí)不是模型不行,而是評(píng)估方式出了問(wèn)題。比如:

  • 模型能判斷出題目在數(shù)學(xué)上根本無(wú)法解,但卻被打了個(gè)「不會(huì)做」的低分;
  • 模型因?yàn)閠oken限制被迫中斷,卻被認(rèn)為「能力不行」;
  • 模型生成的是算法,而不是一步步列出所有動(dòng)作,結(jié)果也被判失敗。

這些情況如果不分青紅皂白全算「推理能力不足」,其實(shí)就是誤解模型了。

圖片

論文鏈接:https://arxiv.org/abs/2506.09250v2

模型沒(méi)撞墻,是評(píng)估方式變難了。

所以現(xiàn)在的問(wèn)題,不是AI推理到底能不能行,而是:我們有沒(méi)有辦法準(zhǔn)確評(píng)估它到底行不行

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2013-09-12 11:07:01

2025-05-26 09:06:00

2024-12-16 10:30:00

OpenAI馬斯克AGI

2011-09-14 09:49:43

蘋果中國(guó)開發(fā)者iOS

2025-06-12 04:00:00

SCMMRM內(nèi)存

2012-11-20 09:25:34

Windows 8

2010-01-07 09:21:52

蘋果信息泄密

2024-03-25 06:53:34

OpenAIAI 復(fù)活親人

2025-01-17 11:27:12

2025-05-28 18:41:37

AILlamaAGI

2011-11-14 10:25:42

蘋果三星谷歌

2021-03-29 12:22:25

微信iOS蘋果

2022-11-11 10:01:35

代碼Copilot函數(shù)

2010-02-06 09:22:57

微軟創(chuàng)新

2019-02-25 10:25:29

深度學(xué)習(xí)編程人工智能

2024-01-29 07:05:00

自動(dòng)駕駛技術(shù)

2017-12-12 10:36:39

網(wǎng)口無(wú)線上網(wǎng)

2024-04-01 14:04:19

AGI蘋果百度

2022-09-15 10:44:42

SidecarIstioeBPFizer

2023-02-06 07:37:29

Java編程語(yǔ)言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)