偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

劍橋揭開(kāi)大模型翻車(chē)黑箱!別再怪它不懂推理,是行動(dòng)出錯(cuò)了

人工智能 新聞
為什么大模型,在執(zhí)行長(zhǎng)時(shí)任務(wù)時(shí)容易翻車(chē)?這讓一些專(zhuān)家,開(kāi)始質(zhì)疑大模型的推理能力,認(rèn)為它們是否只是提供了「思考的幻覺(jué)」。近日,劍橋大學(xué)等機(jī)構(gòu)的一項(xiàng)研究證明:?jiǎn)栴}不是出現(xiàn)在推理上,而是出在大模型的執(zhí)行能力上。

大模型也有「EMO」時(shí)刻。

比如,Gemini在Cursor里調(diào)試編譯錯(cuò)誤后,打開(kāi)了自責(zé)「循環(huán)模式」,把「I am a disgrace(我很丟臉)」重復(fù)了86次。

盡管大模型在復(fù)雜推理能力上已有了巨大進(jìn)步,但上述現(xiàn)象仍使一部分專(zhuān)家認(rèn)為:

思考模型,只提供了「思考的幻覺(jué)」,因?yàn)楫?dāng)任務(wù)被拉長(zhǎng)時(shí)它們最終會(huì)失敗。

近日,劍橋大學(xué)等機(jī)構(gòu)的一項(xiàng)研究對(duì)這些「翻車(chē)」現(xiàn)象作出解釋?zhuān)芯空哒J(rèn)為:

問(wèn)題不在于大模型的推理能力,而在于其執(zhí)行計(jì)劃的能力。

邊際收益遞減的錯(cuò)覺(jué):衡量大語(yǔ)言模型的長(zhǎng)時(shí)程任務(wù)執(zhí)行能力https://arxiv.org/pdf/2509.09677 

也就是說(shuō),大模型出現(xiàn)問(wèn)題未必是源于「思考的幻覺(jué)」,而更可能是執(zhí)行階段「打滑」了。

研究人員發(fā)現(xiàn),單步準(zhǔn)確率的小幅提升,會(huì)復(fù)利式地放大你能完成的總步驟數(shù),使任務(wù)「里程」指數(shù)級(jí)變長(zhǎng)。

隨著步驟數(shù)量增加,模型的每步準(zhǔn)確率會(huì)下降——不僅僅是「上下文太長(zhǎng)」,還有一個(gè)更「詭異」的現(xiàn)象:自條件化效應(yīng)(self-conditioning)。

所謂「自條件化」,當(dāng)上下文里包含模型先前犯過(guò)的錯(cuò),將導(dǎo)致它在后續(xù)過(guò)程中會(huì)更容易再犯錯(cuò)。

任務(wù)變長(zhǎng)就失敗

只因模型不會(huì)推理?

業(yè)界正競(jìng)相打造能夠處理整個(gè)項(xiàng)目而非孤立問(wèn)題的智能體,隨之而來(lái)的一個(gè)根本問(wèn)題是:

如何度量大模型能可靠執(zhí)行的步驟數(shù)量?

任務(wù)一變長(zhǎng),就失敗。是因?yàn)榇竽P汀覆粫?huì)推理」嗎?

研究人員認(rèn)為,大模型在早期多步中能正確遵循指令,說(shuō)明其具備按計(jì)劃執(zhí)行的能力。

這也證明,大模型不是失敗在了推理上,而是在執(zhí)行上:

隨著任務(wù)變長(zhǎng),模型在執(zhí)行計(jì)劃時(shí)更可能出錯(cuò)。

目前,大量研究聚焦于大模型的推理能力,而對(duì)執(zhí)行穩(wěn)定性關(guān)注不足

這一點(diǎn),隨著大模型被用于長(zhǎng)推理與智能體任務(wù),重要性也正日益上升。

單步穩(wěn)一點(diǎn),長(zhǎng)跑多一截

長(zhǎng)視界任務(wù)需要大量步驟,其中任務(wù)長(zhǎng)度,即為完成任務(wù)所需的步驟數(shù)。

研究人員通過(guò)下面幾個(gè)指標(biāo)來(lái)評(píng)估性能:

  • 步驟準(zhǔn)確率(Step Accuracy):度量在第i-1步到第i步的狀態(tài)更新是否正確的樣本占比,而不考慮模型在第i-1步的狀態(tài)是否正確;
  • 輪次準(zhǔn)確率(Turn Accuracy):一輪是與模型的一次交互,可能需要執(zhí)行多個(gè)步驟。輪次準(zhǔn)確率度量在第t-1輪到第t輪的狀態(tài)更新是否正確的樣本占比,而不考慮模型在第t-1輪的狀態(tài)是否正確;
  • 輪次復(fù)雜度(K)(Turn Complexity):定義為模型每輪必須執(zhí)行的步驟數(shù);
  • 任務(wù)準(zhǔn)確率(Task Accuracy):度量模型在執(zhí)行i個(gè)步驟的過(guò)程中不犯任何錯(cuò)誤、從而完成任務(wù)的樣本占比;
  • 視界長(zhǎng)度(Hs)(Horizon Length):給定成功率閾值0 ≤ s ≤ 1。將模型的視界長(zhǎng)度定義為模型在第i個(gè)步驟處的平均任務(wù)準(zhǔn)確率降到低于概率s的位置。

如圖2所示,模型在超過(guò)50%準(zhǔn)確率下可執(zhí)行的任務(wù)長(zhǎng)度,在單步準(zhǔn)確率超過(guò)70%后,隨單步準(zhǔn)確率增加,而呈現(xiàn)快于指數(shù)的增長(zhǎng)。

圖3顯示了如何把「長(zhǎng)視界任務(wù)」,抽象為一串可控的小步驟,以及如何只測(cè)「執(zhí)行力」,而不摻雜「規(guī)劃力」。

左圖中,該框架將長(zhǎng)視界任務(wù)建模為一系列「先檢索、再合成」的步驟。

右圖中,研究人員設(shè)計(jì)了一個(gè)簡(jiǎn)單任務(wù),用以將規(guī)劃與執(zhí)行解耦:

每一輪以鍵(key)給出計(jì)劃,要求模型檢索對(duì)應(yīng)值(value),并計(jì)算累計(jì)和。

該推導(dǎo)表明,即便在問(wèn)答類(lèi)任務(wù)上準(zhǔn)確率的提升似乎在放緩,仍然可以在更長(zhǎng)的任務(wù)上預(yù)期得到巨大的收益。

例如,在軟件工程任務(wù)上,前沿模型在s=0.5時(shí)的視界長(zhǎng)度呈指數(shù)增長(zhǎng),每7個(gè)月翻一番。

研究人員認(rèn)為,單輪或短任務(wù)基準(zhǔn),在評(píng)估進(jìn)一步投資LLM算力收益時(shí),可能制造出「進(jìn)展放緩」的錯(cuò)覺(jué),而模型可完成的任務(wù)長(zhǎng)度,是更能指示經(jīng)濟(jì)價(jià)值的指標(biāo),它們卻可能在快速增長(zhǎng)。

只考「執(zhí)行力」

把規(guī)劃和知識(shí)先拿掉

研究人員把「要做什么」(規(guī)劃)和「知道什么」(知識(shí))都喂給模型,只考它能不能穩(wěn)定地把步驟一口氣做完。

這樣就能純粹度量LLM的長(zhǎng)視界執(zhí)行能力。

以訂機(jī)票為例。

現(xiàn)實(shí)中,訂機(jī)票不是一句「幫我訂」就完了,它是一串流程:

  • 打開(kāi)某個(gè)航班詳情;
  • 核對(duì)起降時(shí)間、行李額度、轉(zhuǎn)機(jī)時(shí)長(zhǎng)、準(zhǔn)點(diǎn)率、口碑;
  • 套用里程、會(huì)員、優(yōu)惠券;
  • 在「價(jià)格×?xí)r長(zhǎng)×偏好」的權(quán)衡里做選擇。

其中的每一步,都要先「檢索」信息/調(diào)用工具,再把新信息與當(dāng)前判斷融合。

評(píng)完一個(gè)航班是一次執(zhí)行;評(píng)完多條備選航班直到下單,是一段長(zhǎng)視界執(zhí)行。

經(jīng)常會(huì)有人將執(zhí)行失敗歸因到「不會(huì)推理/不會(huì)規(guī)劃」。

研究人員則認(rèn)為,就算推理、規(guī)劃和世界知識(shí)都完美,LLM在長(zhǎng)鏈條上仍可能因?yàn)椤笀?zhí)行不穩(wěn)」而失誤。

因此,他們將執(zhí)行單獨(dú)拎出來(lái)測(cè)——把計(jì)劃和知識(shí)都顯式提供,只讓模型照做。

研究人員首先驗(yàn)證這樣的假設(shè):

即便在不需要世界知識(shí)與規(guī)劃的任務(wù)上,長(zhǎng)視界執(zhí)行也會(huì)很難。隨后,再研究擴(kuò)大模型規(guī)模對(duì)長(zhǎng)視界執(zhí)行的益處。

研究人員評(píng)估了Qwen3、Gemma3模型家族。

在實(shí)驗(yàn)中,研究人員將輪次復(fù)雜度設(shè)置為最簡(jiǎn)單形式(K=1),每輪僅提供一個(gè)鍵,并改變輪次數(shù)量。

結(jié)果1:長(zhǎng)視界執(zhí)行仍然很具挑戰(zhàn)性。

如圖4所示,除了Gemma3-4B與Qwen3-4B外,所有模型在第一步的準(zhǔn)確率均達(dá)到了100%,表明它們具備完成我們?nèi)蝿?wù)單步所需的知識(shí)與推理能力。

然而,任務(wù)準(zhǔn)確率在后續(xù)輪次迅速下滑。

即便是表現(xiàn)最好的Qwen3-32B,其準(zhǔn)確率也會(huì)在15輪內(nèi)跌到50%以下。

這證實(shí)了研究人員的假設(shè):

即便移除了規(guī)劃和知識(shí)需求,長(zhǎng)視界執(zhí)行依然很難。

如圖4,研究人員改變模型規(guī)模,并研究隨著輪次數(shù)增加的完整任務(wù)準(zhǔn)確率(a)與逐輪準(zhǔn)確率(b)。

粗體線(xiàn)是5輪的滑動(dòng)平均。

虛線(xiàn)(b)中的逐輪準(zhǔn)確率顯示除了最小的模型外,任務(wù)的單步準(zhǔn)確率都是100%。

然而,隨著輪次數(shù)增加,小模型與大模型的性能差距拉大(a),后者擁有顯著更長(zhǎng)的視界長(zhǎng)度(c)。

結(jié)果2:擴(kuò)大模型規(guī)模的收益并不遞減。

如圖4(a)所示,更大的模型能在更多輪次上保持更高的任務(wù)準(zhǔn)確率,從而帶來(lái)清晰的視界長(zhǎng)度縮放趨勢(shì)(圖4(c))。

這驗(yàn)證了兩點(diǎn)重要結(jié)論:

長(zhǎng)視界執(zhí)行是困難的;

擴(kuò)大模型規(guī)模,能顯著增加模型可正確執(zhí)行的輪次數(shù)。

自條件化效應(yīng)

為什么輪次準(zhǔn)確率會(huì)退化?

人們可能會(huì)期望,模型會(huì)在逐輪中保持恒定。

然而,圖4(b)顯示,隨著輪次數(shù)增加,各輪的準(zhǔn)確率穩(wěn)步下降。

研究人員考察兩個(gè)相互競(jìng)爭(zhēng)的假設(shè):

無(wú)論上下文內(nèi)容如何,模型的性能僅僅由于上下文變長(zhǎng)而退化。

模型會(huì)基于其過(guò)去的錯(cuò)誤自條件化:看到前幾輪的錯(cuò)誤之后,它更可能在后續(xù)輪中犯錯(cuò)。

為解開(kāi)這兩個(gè)因素,研究人員通過(guò)操控模型的聊天歷史,進(jìn)行反事實(shí)實(shí)驗(yàn)。

他們用所選錯(cuò)誤率注入人工輸出歷史,來(lái)控制錯(cuò)誤率,格式保持一致。

如果完全「治愈」歷史(誘導(dǎo)錯(cuò)誤率為0%),那么模型在第1輪,與較后某一輪之間的準(zhǔn)確率退化,就可歸因于長(zhǎng)上下文問(wèn)題。

如果在保持「較后某一輪」固定的情況下,隨著先前輪次錯(cuò)誤率的上升,模型的準(zhǔn)確率持續(xù)變差,這將表明模型會(huì)基于自己的過(guò)往錯(cuò)誤進(jìn)行條件化,從而提高未來(lái)錯(cuò)誤的可能性。

結(jié)果3:自條件化,會(huì)在長(zhǎng)上下文之外進(jìn)一步導(dǎo)致逐輪準(zhǔn)確率退化。

圖5(a)中的結(jié)果顯示,長(zhǎng)上下文與自條件化都會(huì)導(dǎo)致退化。

研究人員發(fā)現(xiàn),當(dāng)基于無(wú)錯(cuò)歷史進(jìn)行條件化(誘導(dǎo)錯(cuò)誤率=0.00)時(shí),第100輪的逐輪準(zhǔn)確率低于初始值,與先前關(guān)于長(zhǎng)上下文退化的觀(guān)察一致。

更有意思的是,當(dāng)研究人員提高注入到上下文中的錯(cuò)誤率時(shí),第100輪的準(zhǔn)確率會(huì)持續(xù)下降。

這表明了自條件化效應(yīng):當(dāng)模型犯錯(cuò)時(shí),它更可能繼續(xù)犯錯(cuò),導(dǎo)致如圖5(b)所示的逐輪準(zhǔn)確率在輸出軌跡中持續(xù)退化。

結(jié)果4:與長(zhǎng)上下文不同,擴(kuò)大模型規(guī)模不能緩解自條件化。

注意在誘導(dǎo)錯(cuò)誤率為0的情況下,第100輪的準(zhǔn)確率會(huì)隨著模型變大而穩(wěn)定提升。

如圖5(c)所示,把規(guī)模擴(kuò)展到前沿(200B+參數(shù))的模型,如Kimi-K2、DeepSeek-V3以及Qwen3-235B-Instruct-2507,基本解決了在100輪以?xún)?nèi)的長(zhǎng)上下文退化問(wèn)題,在「治愈」歷史下實(shí)現(xiàn)了近乎完美的準(zhǔn)確率。

然而,即便這樣,這些大模型仍然容易受到自條件化的影響,當(dāng)其歷史中的誘導(dǎo)錯(cuò)誤率上升時(shí),性能仍會(huì)持續(xù)退化。

這或許與近期結(jié)果相似:

更大的模型在多輪對(duì)話(huà)中會(huì)出現(xiàn)人格漂移。在該項(xiàng)研究中,漂移的方向是「更容易犯錯(cuò)」的人格。

此外,模型會(huì)基于其過(guò)去的錯(cuò)誤進(jìn)行自條件化,導(dǎo)致每步準(zhǔn)確率的退化。僅擴(kuò)大模型規(guī)模不足以緩解這一點(diǎn)。

結(jié)果5:思考修復(fù)了自條件化。

圖6中,研究人員清楚看到Qwen3的思考模型不會(huì)自條件化。

無(wú)論上下文中的錯(cuò)誤率如何,模型在第100輪的準(zhǔn)確率都保持穩(wěn)定。

研究人員將之歸結(jié)為兩個(gè)原因:

其一,RL訓(xùn)練可能降低了語(yǔ)言模型「續(xù)寫(xiě)最可能下一個(gè)Token」的行為,使其更面向任務(wù)成功而非延續(xù)上下文。

其二,去除先前輪的思考軌跡,可能降低先前輪對(duì)模型輸出的影響,因?yàn)槟P蜁?huì)獨(dú)立地思考新的這一輪。

啟用思考的Qwen3模型不再發(fā)生自條件化,即便整個(gè)先前歷史都是錯(cuò)誤答案;這與非思考設(shè)置的結(jié)果形成對(duì)比。

研究人員以單輪可執(zhí)行的任務(wù)長(zhǎng)度為指標(biāo),對(duì)近期的「思考/Thinking」類(lèi)模型,進(jìn)行了基準(zhǔn)評(píng)測(cè),發(fā)現(xiàn)它們「抗翻車(chē)能力」更強(qiáng):

它們不太會(huì)被先前錯(cuò)誤帶偏(自條件化被顯著修復(fù));

在單輪里就能把更長(zhǎng)的任務(wù)跑完。

這證實(shí)了「先推理,后行動(dòng)」的重要性,比如:

DeepSeek-V3不加思維鏈跑2步都難,但其思考版R1卻能跑到200步;  

GPT-5 Thinking單輪可執(zhí)行1000+步,Claude-4-Sonnet約432步。

作者簡(jiǎn)介

Akshit Sinha,劍橋大學(xué)機(jī)器學(xué)習(xí)與機(jī)器智能MPhil(MLMI)研究生。研究方向?yàn)榇竽P湍芰υu(píng)估與提升、圖神經(jīng)網(wǎng)絡(luò)(GNN)解釋性與「遺忘/反學(xué)習(xí)」、多智能體等。

在此之前,Akshit Sinha在IIIT Hyderabad計(jì)算機(jī)科學(xué)與工程學(xué)院獲得榮譽(yù)學(xué)士學(xué)位。他在Ponnurangam Kumaraguru的指導(dǎo)下,在Precog實(shí)驗(yàn)室從事基于圖的機(jī)器學(xué)習(xí)研究。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2019-03-04 10:32:41

2022-05-27 21:56:55

索引存儲(chǔ)MySQL 存儲(chǔ)引擎

2025-06-03 08:44:00

2024-11-20 15:43:27

2012-05-18 13:23:02

iPhone 4S

2025-05-28 11:44:24

AI模型研究

2014-07-03 14:04:55

Bug報(bào)告Bug

2025-10-28 09:16:38

2024-04-22 14:19:08

大型語(yǔ)言模型人工智能

2022-08-31 10:40:40

MySQL數(shù)據(jù)庫(kù)

2025-05-21 13:56:37

模型圖像AI

2024-05-29 13:00:19

2022-02-14 17:15:00

情人節(jié)禮物程序員

2024-02-19 14:07:00

數(shù)據(jù)模型

2024-07-15 08:45:00

2020-06-18 10:48:44

Linux 系統(tǒng) 數(shù)據(jù)

2018-08-15 08:24:08

2015-12-07 14:11:01

2024-01-04 08:12:12

IDE代碼出錯(cuò)ChatGPT

2021-10-17 23:04:41

Nature論文科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)