偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

當(dāng)人工智能推理遭遇瓶頸:大型推理模型的崩潰

人工智能
OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢(shì)浩大地問(wèn)世,有望在機(jī)器解決復(fù)雜問(wèn)題方面取得突破。與之前那些僅僅通過(guò)模式匹配完成任務(wù)的模型不同,這些系統(tǒng)顯然能夠進(jìn)行“真正的”推理,甚至擁有與人類(lèi)思維相符的內(nèi)心獨(dú)白。

最近,我們聽(tīng)說(shuō)人工智能已經(jīng)學(xué)會(huì)了思考。OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢(shì)浩大地問(wèn)世,有望在機(jī)器解決復(fù)雜問(wèn)題方面取得突破。與之前那些僅僅通過(guò)模式匹配完成任務(wù)的模型不同,這些系統(tǒng)顯然能夠進(jìn)行“真正的”推理,甚至擁有與人類(lèi)思維相符的內(nèi)心獨(dú)白。它們會(huì)停頓、思考、再三思量,最終通過(guò)看似真實(shí)的沉思得出答案。

對(duì)于我們這些構(gòu)建智能代理人工智能系統(tǒng)的人來(lái)說(shuō),推理能力是真正自主的基石。在 Craine,我們將推理能力定位為遵循腳本的簡(jiǎn)單自動(dòng)化與能夠適應(yīng)、制定戰(zhàn)略并協(xié)調(diào)復(fù)雜操作的真正人工智能代理之間的關(guān)鍵區(qū)別。例如,當(dāng)我們談?wù)撟灾骰A(chǔ)設(shè)施時(shí),我們本質(zhì)上依賴(lài)于這些系統(tǒng)推理新情況、權(quán)衡相互競(jìng)爭(zhēng)的優(yōu)先級(jí)并在壓力下做出合理決策的能力。推理革命有望提供這些能力——人工智能系統(tǒng)能夠像熟練的人類(lèi)操作員一樣思考問(wèn)題,但速度更快、更一致。這一承諾支撐了自主代理管理一切(從云基礎(chǔ)設(shè)施到業(yè)務(wù)運(yùn)營(yíng))而無(wú)需持續(xù)人工監(jiān)督的整個(gè)愿景。

但革命性的主張有一點(diǎn)需要革命性的證據(jù)。蘋(píng)果研究團(tuán)隊(duì)的一項(xiàng)新研究《思考的幻覺(jué)》提供了這方面的證據(jù),而這并不是我們所期望的。研究人員使用精心控制的謎題環(huán)境而不是通常的數(shù)學(xué)基準(zhǔn),系統(tǒng)地測(cè)試了這些推理模型是否真的能夠推理,或者它們是否只是非常復(fù)雜的模仿。他們的發(fā)現(xiàn)挑戰(zhàn)了我們所知的關(guān)于推理革命的一切。這些模型不僅會(huì)在問(wèn)題變得越來(lái)越難時(shí)遇到性能瓶頸;它們還會(huì)做出一些更奇怪、更令人不安的事情:它們完全放棄思考,在應(yīng)該最努力的時(shí)候減少推理努力。看著馬拉松運(yùn)動(dòng)員在接近比賽最陡峭的山坡時(shí)放棄并放棄,這真是一場(chǎng)悲劇。

為什么謎題比數(shù)學(xué)考試更勝一籌

蘋(píng)果的研究人員沒(méi)有向這些模型拋出更多 MATH-500 問(wèn)題(這些基準(zhǔn)問(wèn)題可能會(huì)被訓(xùn)練數(shù)據(jù)污染),而是構(gòu)建了更好的東西:可控的謎題環(huán)境。我認(rèn)為這就像在無(wú)法控制交通的公共道路上測(cè)試汽車(chē)性能,與在可以精確調(diào)整每個(gè)變量的封閉測(cè)試跑道上測(cè)試汽車(chē)性能之間的區(qū)別。研究人員需要干凈的實(shí)驗(yàn)環(huán)境,他們可以像調(diào)節(jié)音量旋鈕一樣調(diào)節(jié)復(fù)雜性,同時(shí)保持底層邏輯的一致性。

他們使用了四個(gè)看似簡(jiǎn)單的謎題:漢諾塔、西洋跳棋、渡河和積木世界。每個(gè)謎題都允許研究人員通過(guò)調(diào)整一個(gè)參數(shù)來(lái)控制復(fù)雜性:更多圓盤(pán)、更多西洋跳棋、更多人、更多積木。至關(guān)重要的是,這些謎題內(nèi)置模擬器,不僅可以驗(yàn)證最終答案,還可以驗(yàn)證過(guò)程中的每一步。與要么正確要么錯(cuò)誤的數(shù)學(xué)題不同,這些環(huán)境讓研究人員可以窺視推理過(guò)程本身,精確觀察模型在何處以及如何出錯(cuò)。這基本上就像是批改期末考試和坐在學(xué)生旁邊看著他們解答每個(gè)試題之間的區(qū)別。

令人驚訝的表現(xiàn)前景

蘋(píng)果研究人員還發(fā)現(xiàn)了一些意料之外的發(fā)現(xiàn):推理模型并不會(huì)隨著問(wèn)題難度的增加而逐漸變差。相反,研究人員發(fā)現(xiàn)了三種截然不同的性能機(jī)制,顛覆了傳統(tǒng)觀念。在低復(fù)雜度水平下——你期望任何優(yōu)秀的人工智能都能處理這類(lèi)問(wèn)題——標(biāo)準(zhǔn)大語(yǔ)言模型(LLM) 實(shí)際上表現(xiàn)優(yōu)于那些所謂的高級(jí)推理模型。我們指的是更高的準(zhǔn)確率和更高的效率。這就像發(fā)現(xiàn)福特??怂贡忍m博基尼能更快更便宜地帶你去雜貨店一樣。推理模型對(duì)簡(jiǎn)單問(wèn)題進(jìn)行了過(guò)度思考,將計(jì)算資源浪費(fèi)在了那些需要直接執(zhí)行的任務(wù)的復(fù)雜內(nèi)部思考上。

在中等復(fù)雜度范圍內(nèi),推理模型終于證明了其存在的合理性。所有額外的思考時(shí)間都在這里得到了回報(bào),推理模型展現(xiàn)出比標(biāo)準(zhǔn)模型明顯的優(yōu)勢(shì)。這是大多數(shù)基準(zhǔn)測(cè)試和演示所關(guān)注的最佳點(diǎn)——復(fù)雜程度足以需要真正的問(wèn)題解決,但又不會(huì)復(fù)雜到完全失效。這是一個(gè)“金發(fā)姑娘區(qū)”,推理模型看起來(lái)確實(shí)令人印象深刻,似乎也驗(yàn)證了所有關(guān)于其功能的炒作。

但接下來(lái)是第三種情況,事情才真正令人不安。超過(guò)一定的復(fù)雜度閾值后,兩種模型都會(huì)經(jīng)歷研究人員所說(shuō)的“徹底崩潰”——不是逐漸退化,而是徹底失效。準(zhǔn)確率降至零。這就像觸及事件視界,推理功能完全失效。尤其令人不安的是,無(wú)論模型有多少可用的計(jì)算預(yù)算,這種崩潰都會(huì)發(fā)生。它們并非耗盡了令牌,也不是達(dá)到了上下文限制;而是觸及了更根本的問(wèn)題——在復(fù)雜性增加的情況下,維持連貫推理的能力受到了阻礙。

違反直覺(jué)的崩潰:解決更難的問(wèn)題需要更少的思考

隨著謎題復(fù)雜度的增加,推理模型不僅性能下降,反而減少了思考的投入。盡管擁有充足的令牌預(yù)算和計(jì)算資源,但當(dāng)問(wèn)題需要更仔細(xì)的思考時(shí),這些模型的推理軌跡卻開(kāi)始縮短。這就像一位外科醫(yī)生在復(fù)雜的手術(shù)中途因?yàn)榍闆r變得過(guò)于復(fù)雜而放下手術(shù)刀一樣。

研究人員在多個(gè)前沿模型(o3-mini、DeepSeek-R1、Claude-3.7-Sonnet with thinking)中追蹤了這一“擴(kuò)展限制”,發(fā)現(xiàn)其規(guī)律始終如一。隨著問(wèn)題變得越來(lái)越復(fù)雜,模型最初會(huì)增加推理工作量,這與人們預(yù)期的直觀模式一致。但隨后,當(dāng)接近研究人員設(shè)定的各模型的臨界復(fù)雜性閾值時(shí),發(fā)生了一些奇怪的事情:即使問(wèn)題客觀上變得更加困難,推理工作量也開(kāi)始下降。這些模型并沒(méi)有達(dá)到技術(shù)極限——它們的運(yùn)行速度遠(yuǎn)低于其代數(shù)限制,并且剩余充足的推理預(yù)算。

就像之前討論過(guò)的“對(duì)齊偽造”一樣,這種違反直覺(jué)的行為引發(fā)了人們對(duì)自主系統(tǒng)信任的深刻質(zhì)疑。如果我們最先進(jìn)的推理模型在面對(duì)真正的復(fù)雜性時(shí)都能系統(tǒng)地減少工作量,那么當(dāng)我們將它們部署到現(xiàn)實(shí)世界中,而問(wèn)題并沒(méi)有明確的難度標(biāo)簽時(shí),會(huì)發(fā)生什么?在關(guān)鍵任務(wù)應(yīng)用中——無(wú)論是管理云基礎(chǔ)設(shè)施、協(xié)調(diào)應(yīng)急響應(yīng),還是做出財(cái)務(wù)決策——我們需要的是能夠在情況艱難時(shí)挺身而出的系統(tǒng),而不是在推理能力最關(guān)鍵的時(shí)候默默放棄的系統(tǒng)。其影響遠(yuǎn)超學(xué)術(shù)基準(zhǔn),涉及到我們?nèi)找嬉蕾?lài)的人工智能系統(tǒng)的基本可靠性。

深入探究:“思想”內(nèi)部發(fā)生了什么

蘋(píng)果的研究人員做了大多數(shù)人工智能評(píng)估完全忽略的事情——他們打開(kāi)了黑匣子,探究這些模型推理過(guò)程中究竟發(fā)生了什么。通過(guò)分析模型在“思考”過(guò)程中生成的中間解,他們揭示了我們剛才討論的那些性能模式背后的機(jī)制。簡(jiǎn)單問(wèn)題中的過(guò)度思考行為?事實(shí)證明,模型通常會(huì)在早期識(shí)別出正確的解決方案,但隨后仍會(huì)繼續(xù)探索錯(cuò)誤的路徑,將剩余的計(jì)算資源浪費(fèi)在無(wú)用的思考上。與此同時(shí),對(duì)于模型完全崩潰的復(fù)雜問(wèn)題,推理軌跡顯示出更令人不安的情況——它們?cè)谡麄€(gè)思考過(guò)程中根本無(wú)法生成任何正確的解決方案。

研究人員進(jìn)行了一項(xiàng)實(shí)驗(yàn),這本應(yīng)是推理模型的一次突破:他們提供了解決漢諾塔難題的完整、循序漸進(jìn)的算法。想象一下食譜式的說(shuō)明,模型只需遵循菜譜,而無(wú)需發(fā)明一道新菜。然而,這些模型在與從頭開(kāi)始解決問(wèn)題時(shí)完全相同的復(fù)雜度閾值下失敗了。這種限制比創(chuàng)造力或策略更深,指向了更根本的東西。即使解決了問(wèn)題,這些模型也無(wú)法在更長(zhǎng)的序列中保持邏輯一致性。當(dāng)數(shù)字填色和抽象推理在同樣的點(diǎn)上失敗時(shí),我們看到的是架構(gòu)限制,而不是問(wèn)題解決的限制。

這對(duì)人工智能機(jī)構(gòu)意味著什么

這些發(fā)現(xiàn)對(duì)我來(lái)說(shuō)尤其令人震驚,尤其是考慮到我們邁向人工智能代理(AI Agency)的軌跡——能夠自我修復(fù)、自我維持、無(wú)需人工干預(yù)即可適應(yīng)和響應(yīng)的系統(tǒng)。在最近發(fā)表的關(guān)于 AgentOps 的論文中,預(yù)測(cè)距離自主代理成為從云基礎(chǔ)設(shè)施到業(yè)務(wù)運(yùn)營(yíng)等所有領(lǐng)域管理的主流還需要 24-36 個(gè)月的時(shí)間。但蘋(píng)果的研究揭示了這一基礎(chǔ)中的一個(gè)根本性漏洞:如果我們最先進(jìn)的推理系統(tǒng)在面對(duì)真正的復(fù)雜性時(shí)能夠系統(tǒng)地減少工作量,我們又如何能相信它們能夠協(xié)調(diào)運(yùn)行我們關(guān)鍵系統(tǒng)的自主代理呢?

我們必須思考這對(duì)我們正在構(gòu)建的代理未來(lái)意味著什么。當(dāng)您的工程機(jī)構(gòu)需要排除跨多個(gè)微服務(wù)的級(jí)聯(lián)故障時(shí),或者當(dāng)您的安全機(jī)構(gòu)必須應(yīng)對(duì)復(fù)雜的攻擊媒介時(shí),這些都不是簡(jiǎn)單且有解決方案的問(wèn)題。它們正是蘋(píng)果研究表明推理模型會(huì)完全崩潰的那種高復(fù)雜性場(chǎng)景。當(dāng)您依賴(lài)自治系統(tǒng)來(lái)維持正常運(yùn)行時(shí)間、保護(hù)數(shù)據(jù)或協(xié)調(diào)應(yīng)急響應(yīng)時(shí),隨著問(wèn)題變得越來(lái)越困難,推理工作量的減少變得令人恐懼。其影響遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)基準(zhǔn),還涉及到我們?cè)絹?lái)越信任的關(guān)鍵業(yè)務(wù)運(yùn)營(yíng)自治系統(tǒng)的可靠性。如果驅(qū)動(dòng)這些自治機(jī)構(gòu)的推理引擎在最需要仔細(xì)思考的時(shí)候放棄思考,那么整個(gè) AgentOps 愿景將面臨一個(gè)根本性的瓶頸,無(wú)論框架多么復(fù)雜都無(wú)法克服。

重新調(diào)整預(yù)期

蘋(píng)果的研究迫使我們直面一個(gè)令人不安的事實(shí):當(dāng)前的推理模型不僅僅是遇到了性能瓶頸——它們還表現(xiàn)出根本性的擴(kuò)展限制,這表明它們處理復(fù)雜問(wèn)題的方式存在缺陷。我們面臨的并非我們可以通過(guò)工程手段規(guī)避的逐漸退化,而是隨著挑戰(zhàn)的加劇,推理工作實(shí)際上會(huì)減少,這是一個(gè)硬性上限。當(dāng)我們最復(fù)雜的人工智能系統(tǒng)在思考最關(guān)鍵的時(shí)候系統(tǒng)性地放棄思考時(shí),這并非軟件缺陷或訓(xùn)練數(shù)據(jù)問(wèn)題。我們面臨的是架構(gòu)約束,它挑戰(zhàn)了當(dāng)前設(shè)計(jì)的整個(gè)推理模型的前提。

其更廣泛的影響遠(yuǎn)不止學(xué)術(shù)難題,而是我們正在關(guān)鍵基礎(chǔ)設(shè)施中快速部署的自主系統(tǒng)的基礎(chǔ)。如果推理模型無(wú)法在復(fù)雜場(chǎng)景中保持邏輯一致性——即使提供了明確的算法——這對(duì)我們通往真正自主人工智能的道路意味著什么?或許,推理革命并非我們所想的突破,而是一個(gè)代價(jià)高昂的彎路,它讓我們看到當(dāng)前方法的根本缺陷。問(wèn)題不在于我們能否突破這些限制,而在于我們是否建立在正確的基礎(chǔ)上。當(dāng)最先進(jìn)的推理系統(tǒng)隨著復(fù)雜性的增加而減少工作量時(shí),我們或許需要重新思考的不僅僅是如何構(gòu)建人工智能,還有我們期望它能夠可靠地實(shí)現(xiàn)什么。

責(zé)任編輯:龐桂玉 來(lái)源: 數(shù)據(jù)驅(qū)動(dòng)智能
相關(guān)推薦

2025-04-10 08:23:11

2021-01-27 17:41:11

人工智能AI邊緣人工智能

2025-03-05 00:22:00

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-06-10 03:30:00

2025-02-07 16:45:21

無(wú)服務(wù)器AI推理

2025-06-17 08:40:44

2025-06-27 08:40:00

模型推理AI

2022-07-31 23:46:57

人工智能語(yǔ)言模型感知力

2024-09-24 11:01:03

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2025-06-11 14:39:50

AILLMMistral

2025-05-28 10:10:20

2018-03-23 09:14:46

人工智能云計(jì)算機(jī)器學(xué)習(xí)

2022-01-06 22:29:35

人工智能機(jī)器人自動(dòng)化

2025-06-10 02:30:00

智能體ARTIST強(qiáng)化學(xué)習(xí)

2020-05-11 19:43:21

AI人工智能存儲(chǔ)性能

2025-05-13 05:11:00

推理模型微調(diào)

2025-04-14 00:10:00

人工智能AIAI 模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)