偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<label id="qiil9"></label>

<blockquote id="qiil9"></blockquote>

<em id="qiil9"><ul id="qiil9"></ul></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

蘋果一口咬死AI不會(huì)思考！OpenAI前高管直接開懟：AGI已來(lái)，別再酸了

2025-06-30 09:05:00

人工智能新聞

最近，蘋果的一篇論文掀起波瀾，挑戰(zhàn)了當(dāng)下AI推理能力的基本假設(shè)。而OpenAI的前研究主管則斷言：AGI時(shí)代已近在眼前。誰(shuí)是誰(shuí)非？AGI還有多遠(yuǎn)？

最近，蘋果發(fā)布了一篇論文，引發(fā)了關(guān)于AI是否真正在推理的激烈討論。

它提出了一個(gè)尖銳問(wèn)題：當(dāng)前的推理模型，是否已經(jīng)觸及能力的天花板？

與此同時(shí)，OpenAI前研究主管Bob McGrew則持完全不同的態(tài)度。他在播客《訓(xùn)練數(shù)據(jù)》中表示：通用人工智能（AGI）所需的關(guān)鍵突破已經(jīng)實(shí)現(xiàn)，2025年將是AI推理的元年。

這樣的討論是必要的反思，還是技術(shù)焦慮下的「酸葡萄心理」？蘋果是點(diǎn)破幻象，還是真的「酸蘋果」？

AI推理遇到瓶頸了嗎？

AI正站在重要的十字路口。

這幾年，語(yǔ)言模型一路狂飆，到了現(xiàn)在，新一代「推理模型」紛紛登場(chǎng)，比如OpenAI的o1、DeepSeek-R1，還有 Claude 3.7 Sonnet Thinking。

它們不再只是堆規(guī)模，而是號(hào)稱加入了更復(fù)雜的「思維機(jī)制」：在推理環(huán)節(jié)計(jì)算方式更靈活，目標(biāo)是突破傳統(tǒng)模型的天花板。

聽起來(lái)很厲害，但不少嚴(yán)謹(jǐn)?shù)难芯恳仓赋觯篈I可能已經(jīng)碰到了能力上的瓶頸。

這不僅對(duì)它們目前的效果提出了質(zhì)疑，也讓人開始擔(dān)心：推理模型還能不能繼續(xù)進(jìn)化？

推理模型的承諾

與之前的語(yǔ)言模型相比，大型推理模型（Large Reasoning Models，簡(jiǎn)稱 LRMs）已經(jīng)完全不一樣了。

過(guò)去，模型主要靠預(yù)測(cè)下一個(gè)詞，而推理模型學(xué)會(huì)了三項(xiàng)「超能力」：

（1）思維鏈：能像人類一樣一步步推導(dǎo)（比如解數(shù)學(xué)題會(huì)寫步驟）

（2）自我反?。簳?huì)檢查自己的答案對(duì)不對(duì)

（3）智能分配算力：遇到難題自動(dòng)「多想想」

關(guān)鍵想法很簡(jiǎn)單，也很有說(shuō)服力：

人類解決復(fù)雜問(wèn)題，不就是靠一步步地思考和推理嗎？

那讓AI也學(xué)學(xué)這招，不就變得更聰明、更會(huì)解決問(wèn)題了嗎？

事實(shí)證明，的確如此！OpenAI的o1模型一出手，刷新了數(shù)學(xué)基準(zhǔn)紀(jì)錄，把前輩們遠(yuǎn)遠(yuǎn)甩在后面。在寫代碼、搞科研這些任務(wù)上，其他推理模型也進(jìn)步神速。

整個(gè)AI圈都沸騰了，大家覺(jué)得「新范式」來(lái)了：

以后不用光靠砸錢、堆數(shù)據(jù)做訓(xùn)練了。在AI「思考」的時(shí)候多給它點(diǎn)時(shí)間，就能解鎖全新的能力！

這些令人振奮的進(jìn)展，也引出了一個(gè)現(xiàn)實(shí)問(wèn)題：它們真的有我們期待的那么強(qiáng)嗎？

現(xiàn)實(shí)檢驗(yàn)

推理模型到底行不行？

雖然推理模型看起來(lái)前景不錯(cuò)，但來(lái)自三個(gè)獨(dú)立研究團(tuán)隊(duì)的測(cè)試也給我們潑了點(diǎn)冷水——

在嚴(yán)格條件下，這些模型的真實(shí)表現(xiàn)暴露出了不少問(wèn)題，但也確實(shí)展現(xiàn)了它們的進(jìn)步。

這三項(xiàng)測(cè)試分別為：

（1）蘋果的可控實(shí)驗(yàn)；

（2）亞利桑那州立大學(xué)對(duì)AI規(guī)劃能力的測(cè)試；

（3）ARC測(cè)試對(duì)「模型越大就越強(qiáng)」的部分否定。

蘋果的可控實(shí)驗(yàn)

目前，蘋果論文《思考的錯(cuò)覺(jué)》最具爭(zhēng)議。

他們重點(diǎn)集中在游戲一樣的謎題，比如漢諾塔、跳棋過(guò)關(guān)、渡河難題等。

這樣做的好處是，可以隨意調(diào)整難度，還能防止AI靠「背題庫(kù)」來(lái)作弊。

他們發(fā)現(xiàn)了三種截然不同的狀態(tài)，對(duì)理解推理模型大有啟發(fā)：

低復(fù)雜度任務(wù)：傳統(tǒng)語(yǔ)言模型反而表現(xiàn)更好，且更節(jié)省token，說(shuō)明推理機(jī)制并不總是有益；
中等復(fù)雜度任務(wù)：推理模型優(yōu)勢(shì)明顯，證明其確實(shí)具備了超越模板匹配的真實(shí)能力；
高復(fù)雜度任務(wù)：所有模型性能全面崩潰，可能不是「算力不夠」，而是結(jié)構(gòu)性瓶頸。

論文鏈接：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

更奇怪的是，研究人員還發(fā)現(xiàn)了讓人想不通的現(xiàn)象：

問(wèn)題越難，這些推理模型反而越「躺平」，投入的「腦力」不增反降。

這就像一個(gè)學(xué)生，碰到難題不想著多算幾遍，反而直接把筆一扔。

當(dāng)然，這也不全是壞消息：

至少在中等難度的任務(wù)上，推理模型確實(shí)能在一定程度上，突破LLM「死記硬背」的舊模式。

規(guī)劃能力的證據(jù)

早在去年，亞利桑那州立大學(xué)Subbarao Kambhampati教授等人對(duì)推理模型的「規(guī)劃能力」做了深入研究。

Subbarao Kambhampati，目前任亞利桑那州立大學(xué)計(jì)算與增強(qiáng)智能學(xué)院教授

他用PlanBench工具測(cè)試了o1-preview，結(jié)果顯示：

在簡(jiǎn)單的Blocksworld任務(wù)中，模型準(zhǔn)確率高達(dá)97.8%，進(jìn)步非常顯著。

OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld域的600個(gè)實(shí)例上的性能和平均耗時(shí)

相比早期模型幾乎「死傷過(guò)半」的表現(xiàn)，這堪稱質(zhì)的飛躍。

但他也指出一個(gè)令人意外的現(xiàn)象：哪怕明確告訴模型該怎么做、給出算法步驟，它的表現(xiàn)也不會(huì)更好。

這說(shuō)明，雖然這些模型的推理方式更復(fù)雜了，但跟人類基于邏輯的推理，可能仍然不是一回事。

換句話說(shuō)，它們是在「推理」，但推得方式和人很不一樣。

論文鏈接:https://www.arxiv.org/abs/2409.13373

ARC基準(zhǔn)：AI推理試金石

為了突出了「人類易行」和「AI難懂」之間的關(guān)鍵差距，Keras之父Fran?ois Chollet聯(lián)手Mike Knoop發(fā)起了抽象與推理語(yǔ)料庫(kù)（Abstract and Reasoning Corpus，ARC）。

ARC-AGI-1測(cè)試示例：左側(cè)會(huì)顯示輸入/輸出對(duì)，用于理解任務(wù)的性質(zhì)。中間是當(dāng)前的測(cè)試輸入網(wǎng)格。右側(cè)是可以用來(lái)構(gòu)建相應(yīng)輸出網(wǎng)格的控件

這項(xiàng)任務(wù)非常難，2020年只能完成大約20%，到2024年提高到了55.5%，背后離不開推理模型和技術(shù)演進(jìn)。

ARC-AGI-1隨時(shí)間推移的最高分

在ARC Prize的推動(dòng)下，很多重要技術(shù)應(yīng)運(yùn)而生，比如測(cè)試時(shí)微調(diào)（test-time fine-tuning）和深度學(xué)習(xí)驅(qū)動(dòng)的程序合成。

但也有一個(gè)信號(hào)值得警惕：ARC測(cè)試對(duì)「模型越大就越強(qiáng)」這件事非常不買賬。

換句話說(shuō)，「無(wú)腦」堆算力、堆參數(shù)已經(jīng)難以進(jìn)一步提高成績(jī)了。

這說(shuō)明，雖然推理模型確實(shí)帶來(lái)了突破，但要實(shí)現(xiàn)類似人類的通用智能，僅靠現(xiàn)在這套架構(gòu)還遠(yuǎn)遠(yuǎn)不夠。

未來(lái)的進(jìn)步，可能需要從根本上換種思路，甚至重構(gòu)模型結(jié)構(gòu)。

Scaling，不再是唯一答案。

趨同的批評(píng)

理論與實(shí)證不謀而合

這些研究之所以特別值得關(guān)注，是因?yàn)樗鼈兦『糜∽C了Gary Marcus等學(xué)者多年來(lái)一直堅(jiān)持的觀點(diǎn)。

早在1998年，Marcus就指出：神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)在「訓(xùn)練過(guò)的范圍內(nèi)」表現(xiàn)，但一旦遇到全新的問(wèn)題，性能就會(huì)暴跌。

如今，一系列實(shí)證研究為他的理論提供了有力支持。

Marcus甚至用「給大語(yǔ)言模型致命一擊」這樣的說(shuō)法，回應(yīng)了蘋果的那篇論文。

聽起來(lái)激烈，但其實(shí)并不是情緒化發(fā)言，而是他多年觀點(diǎn)的現(xiàn)實(shí)驗(yàn)證。

他指出了關(guān)鍵：哪怕在訓(xùn)練中模型見過(guò)成千上萬(wàn)個(gè)漢諾塔解法，一旦換個(gè)設(shè)定，它依然無(wú)法穩(wěn)定應(yīng)對(duì)。

這就揭示出一個(gè)本質(zhì)問(wèn)題：記憶≠推理。

背下了答案，不代表你真的理解了問(wèn)題。

進(jìn)步的「幻象」？

越來(lái)越多的跡象表明，當(dāng)前的推理模型可能更像是一種高級(jí)模板匹配：

它們看似在「推理」，但實(shí)際上是調(diào)用記憶中類似問(wèn)題的解法模板，一旦問(wèn)題稍有變化，性能便迅速崩塌。

這種解釋能合理說(shuō)明一系列令人費(fèi)解的現(xiàn)象：

為什么提供明確的算法步驟，反而不能提升模型表現(xiàn)；
為什么面對(duì)更復(fù)雜問(wèn)題時(shí)，模型反而減少「思考」；
為什么傳統(tǒng)算法始終優(yōu)于這些耗費(fèi)巨大算力的推理模型。

但別急著下結(jié)論：推理模型的進(jìn)步是真的，只是復(fù)雜得多。

雖然推理模型暴露了不少問(wèn)題，但這并不代表它們「沒(méi)用」或「失敗」。

相反，它們?cè)诤芏喾矫娲_實(shí)取得了實(shí)質(zhì)性突破：

確實(shí)有進(jìn)步：像規(guī)劃類任務(wù)，以前根本做不了，現(xiàn)在模型已經(jīng)能給出高質(zhì)量解答，數(shù)學(xué)和邏輯推理也刷新了不少新紀(jì)錄；
表現(xiàn)因領(lǐng)域而異：只要訓(xùn)練中見過(guò)類似的推理邏輯，模型表現(xiàn)就會(huì)好很多，比如數(shù)學(xué)證明、代碼生成這類結(jié)構(gòu)化任務(wù)；
暴露了架構(gòu)問(wèn)題：在嚴(yán)格測(cè)試中的「反常行為」，其實(shí)很寶貴，為優(yōu)化下一代模型提供了清晰方向。

這些發(fā)現(xiàn)說(shuō)明，推理模型確實(shí)邁出了一大步，但它們的能力是有邊界的，但這些邊界要看出來(lái)并不容易。

想真正搞清楚它們到底強(qiáng)在哪、弱在哪，需要更科學(xué)的方式去評(píng)估它們的行為。

另辟蹊徑，別有洞天

那走出瓶頸，還能有別的路嗎？

好消息是，研究已經(jīng)給出了幾個(gè)可能的新方向，也許能幫助我們跳出當(dāng)前架構(gòu)的局限：

混合架構(gòu)（Hybrid Architectures）：結(jié)合神經(jīng)網(wǎng)絡(luò)的靈活性和傳統(tǒng)算法的可靠性；
專用推理系統(tǒng)（Specialized Reasoning Systems）：聚焦具體領(lǐng)域，針對(duì)性更強(qiáng)、穩(wěn)定性更高的推理系統(tǒng)。

混合架構(gòu)，比如Kambhampati提出的LLM-Modulo框架，可以讓模型在「學(xué)得會(huì)」的同時(shí)也「講規(guī)則」。這種組合，可能更適合真正需要嚴(yán)謹(jǐn)推理的任務(wù)。

LLM-Modulo框架：大語(yǔ)言模型（LLMs）充當(dāng)思想生成器，而各種專門針對(duì)不同方面的外部評(píng)論員則對(duì)候選計(jì)劃進(jìn)行評(píng)審

與其追求「啥都能做」的萬(wàn)能AI，不如聚焦具體領(lǐng)域比如數(shù)學(xué)、物理、法律這類任務(wù)，專用模型可能比「通用大模型」更靠譜、更好用。

下一階段的突破，也許就藏在這些「混搭」與「專精」的路徑里。

推理模型的問(wèn)題，可能是評(píng)估的問(wèn)題

Open Philanthropy高級(jí)項(xiàng)目專員Alex Lawsen對(duì)蘋果論文的研究方法提出了質(zhì)疑。

論文標(biāo)題叫《思考的錯(cuò)覺(jué)的錯(cuò)覺(jué)》，雖然聽起來(lái)像個(gè)段子，但里面指出的問(wèn)題卻挺認(rèn)真，尤其是方法上的漏洞。

他的核心觀點(diǎn)很清楚：很多被判定為「推理失敗」的案例，其實(shí)不是模型不行，而是評(píng)估方式出了問(wèn)題。比如：

模型能判斷出題目在數(shù)學(xué)上根本無(wú)法解，但卻被打了個(gè)「不會(huì)做」的低分；
模型因?yàn)閠oken限制被迫中斷，卻被認(rèn)為「能力不行」；
模型生成的是算法，而不是一步步列出所有動(dòng)作，結(jié)果也被判失敗。

這些情況如果不分青紅皂白全算「推理能力不足」，其實(shí)就是誤解模型了。

論文鏈接:https://arxiv.org/abs/2506.09250v2

模型沒(méi)撞墻，是評(píng)估方式變難了。

所以現(xiàn)在的問(wèn)題，不是AI推理到底能不能行，而是：我們有沒(méi)有辦法準(zhǔn)確評(píng)估它到底行不行。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)