收益遞減的假象:大語(yǔ)言模型長(zhǎng)視野執(zhí)行能力的真相
論文(The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs)發(fā)現(xiàn):擴(kuò)大模型規(guī)模不僅讓模型在知識(shí)方面更聰明,還讓它們?cè)诙嗖襟E任務(wù)中持續(xù)更久,這才是agent真正需要的。研究顯示,小模型通常能完美完成單個(gè)步驟,但當(dāng)要求它們持續(xù)執(zhí)行多個(gè)步驟時(shí),就會(huì)迅速崩潰。即使它們?cè)诘谝徊綇牟怀鲥e(cuò),隨著任務(wù)變長(zhǎng),準(zhǔn)確率也會(huì)快速下降。相反,大模型在更多步驟中保持可靠,盡管基本任務(wù)本身并不需要額外的知識(shí)或推理。
圖片
論文指出這不是因?yàn)榇竽P?知道更多",而是因?yàn)樗鼈兏瞄L(zhǎng)持續(xù)執(zhí)行而不偏離錯(cuò)誤。論文命名了一種名為自條件化的失敗模式,即看到早期錯(cuò)誤會(huì)導(dǎo)致更多錯(cuò)誤,并顯示通過(guò)思維步驟,GPT-5能一次運(yùn)行1000+步,而其他模型遠(yuǎn)低于此。
論文將規(guī)劃與執(zhí)行分離,然后顯示即使將計(jì)劃和所需知識(shí)提供給模型,隨著任務(wù)變長(zhǎng),可靠性仍會(huì)下降,這使得小的準(zhǔn)確率提升突然變得非常重要。
即使在單步水平上的微小準(zhǔn)確率提升,也會(huì)導(dǎo)致模型能可靠執(zhí)行完整任務(wù)的時(shí)長(zhǎng)呈指數(shù)級(jí)增長(zhǎng)。這就是為什么擴(kuò)大模型規(guī)模仍然值得,即使短基準(zhǔn)測(cè)試看起來(lái)進(jìn)展停滯。左側(cè)可以看到,步驟準(zhǔn)確率(模型每個(gè)小步驟正確的頻率)幾乎持平,在新模型中幾乎沒(méi)有改善。這看起來(lái)像收益遞減,因?yàn)槊看伟l(fā)布在單個(gè)步驟上只是略有改善。但在右側(cè),當(dāng)你將這個(gè)微小的步驟改善擴(kuò)展到連續(xù)的多個(gè)步驟時(shí),收益爆發(fā)了。任務(wù)長(zhǎng)度(模型能持續(xù)運(yùn)行而不失敗的時(shí)間)從幾乎為零躍升到數(shù)千步。
為什么模型運(yùn)行時(shí)間越長(zhǎng)表現(xiàn)越差。如果模型犯小的隨機(jī)錯(cuò)誤,那么準(zhǔn)確率應(yīng)該隨時(shí)間保持平穩(wěn)。隨著任務(wù)變長(zhǎng),準(zhǔn)確率持續(xù)下降。原因稱為自條件化。一旦模型犯錯(cuò),該錯(cuò)誤就會(huì)反饋到其自身歷史中。下次查看過(guò)去答案時(shí),它看到了錯(cuò)誤的答案,這使它更可能再次出錯(cuò)。如果歷史是干凈的,模型會(huì)持續(xù)正確回答。如果歷史已有錯(cuò)誤,就會(huì)螺旋式地犯更嚴(yán)重的錯(cuò)誤。LLM不僅因隨機(jī)錯(cuò)誤而失敗——它們失敗是因?yàn)樽约旱腻e(cuò)誤污染了上下文,導(dǎo)致后續(xù)更多錯(cuò)誤。
當(dāng)早期錯(cuò)誤出現(xiàn)在歷史中時(shí),大模型的表現(xiàn)如何。綠色條是上下文干凈(0%錯(cuò)誤)的情況。在這種情況下,較大的模型(如14B和32B)在第100步時(shí)比小模型保持更高的準(zhǔn)確率。所以,如果一切進(jìn)行順利,擴(kuò)展顯然有幫助。粉色條是歷史中一半已有錯(cuò)誤的情況。在這里,準(zhǔn)確率急劇下降,模型越大,崩潰越嚴(yán)重。32B模型從干凈情況下的最佳變成錯(cuò)誤存在時(shí)的低得多。信息是:大模型在歷史干凈時(shí)更強(qiáng)大地執(zhí)行長(zhǎng)任務(wù),但它們也更容易受到自條件化影響,意味著一旦看到自己早期的錯(cuò)誤,它們會(huì)更嚴(yán)重地螺旋下降。
圖片
論文如何以非常受控的方式測(cè)試執(zhí)行。論文將長(zhǎng)任務(wù)轉(zhuǎn)化為簡(jiǎn)單循環(huán),每輪說(shuō)明從字典中讀取哪些鍵,并要求模型更新運(yùn)行總和,所以任何失敗都是關(guān)于執(zhí)行的,而不是缺少知識(shí)或規(guī)劃。論文通過(guò)剝離規(guī)劃和知識(shí)來(lái)隔離執(zhí)行,測(cè)試模型是否能在多輪中保持簡(jiǎn)單運(yùn)行總和的正確。左側(cè)解釋了長(zhǎng)任務(wù)可以分解為重復(fù)步驟:首先檢索正確信息,然后將其組合到運(yùn)行結(jié)果中,最后存儲(chǔ)更新的狀態(tài)。規(guī)劃部分(要做什么步驟)已經(jīng)給出,所以測(cè)試只衡量模型是否能在多步驟中持續(xù)正確執(zhí)行。右側(cè)顯示了他們使用的測(cè)試任務(wù)?;旧鲜且粋€(gè)字典,每個(gè)單詞都附有一個(gè)數(shù)字。告訴模型選擇哪些鍵(如"Apple"和"Grape"),它檢索它們的數(shù)字,然后加到運(yùn)行總計(jì)中。這種設(shè)置確保任務(wù)不依賴外部知識(shí)或創(chuàng)造性規(guī)劃,只依賴輪輪正確執(zhí)行。
圖片
為什么小收益會(huì)爆炸式擴(kuò)展視野:在沒(méi)有自我糾正的簡(jiǎn)單恒定準(zhǔn)確率模型下,一旦單步準(zhǔn)確率超過(guò)約70%,微小提升就會(huì)在保持50%成功目標(biāo)的任務(wù)長(zhǎng)度上產(chǎn)生超指數(shù)級(jí)跳躍,所以短任務(wù)上的收益遞減隱藏了長(zhǎng)任務(wù)上的巨大現(xiàn)實(shí)收益。
圖片
即使沒(méi)有新知識(shí),擴(kuò)展也能帶來(lái)什么:大模型在更多輪中保持運(yùn)行總和正確,即使小模型已有100%單步準(zhǔn)確率,這說(shuō)明這里規(guī)模的好處是更可靠的長(zhǎng)期執(zhí)行,而不是更好的事實(shí)。
自條件化效應(yīng):一旦上下文顯示早期錯(cuò)誤,模型就更可能再次出錯(cuò),所以每輪準(zhǔn)確率隨長(zhǎng)度持續(xù)漂移,這獨(dú)立于長(zhǎng)上下文限制,不能僅通過(guò)使用更大模型來(lái)修復(fù)。
思維修復(fù)漂移:當(dāng)模型設(shè)置為用順序測(cè)試時(shí)間計(jì)算進(jìn)行思考時(shí),即使歷史充滿錯(cuò)誤答案,固定后期輪次的準(zhǔn)確率也保持穩(wěn)定,這顯示深思熟慮的推理步驟打破了負(fù)反饋循環(huán)。
單輪能力:沒(méi)有思維鏈時(shí),即使很大的指令調(diào)優(yōu)模型也難以在一輪中鏈接2步,但有了思維,GPT-5執(zhí)行1000+步,Claude 4 Sonnet約432步,Grok-4是384步,Gemini 2.5 Pro和DeepSeek R1徘徊在120步左右**。
并行采樣不能替代思維:運(yùn)行多個(gè)并行樣本并投票只帶來(lái)小收益,相比順序推理,所以對(duì)于長(zhǎng)視野執(zhí)行,關(guān)鍵是順序測(cè)試時(shí)間計(jì)算,而不是更多并行猜測(cè)。
通過(guò)修剪歷史的實(shí)用緩解:刪除舊輪次的滑動(dòng)窗口通過(guò)隱藏累積錯(cuò)誤改善可靠性,這減少了像這種任務(wù)的簡(jiǎn)單馬爾可夫設(shè)置中的自條件化。
錯(cuò)誤實(shí)際來(lái)源:查找和加法本身長(zhǎng)時(shí)間保持近乎完美,但將它們與可靠狀態(tài)跟蹤結(jié)合會(huì)使錯(cuò)誤增長(zhǎng),所以薄弱環(huán)節(jié)是在組合小操作時(shí)對(duì)狀態(tài)的持續(xù)管理。
作為agent構(gòu)建者該做什么:直接測(cè)量視野長(zhǎng)度,使用思維進(jìn)行多步執(zhí)行,優(yōu)先選擇順序計(jì)算而非純并行采樣,管理上下文以避免向模型反饋其自身早期錯(cuò)誤。






































