斯坦福最新研究:AI 的上下文比參數(shù)重要,無(wú)需重訓(xùn)、不再微調(diào)
大數(shù)據(jù)文摘出品
近日,斯坦福大學(xué)與 SambaNova Systems 合作發(fā)表了論文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。
該論文提出了一個(gè)名為ACE(Agentic Context Engineering)的框架,可以讓AI在不重新訓(xùn)練權(quán)重的前提下,實(shí)現(xiàn)自我改進(jìn)。
圖片
論文鏈接:http://arxiv.org/abs/2510.04618v1
論文的核心思想是,大模型的能力,并非僅由參數(shù)決定,更取決于“上下文的質(zhì)量”。換句話(huà)說(shuō),誰(shuí)能構(gòu)建出最優(yōu)的上下文,誰(shuí)就能讓模型更聰明。
ACE的核心思想,是讓模型不再依賴(lài)“靜態(tài)提示(prompt)”,而轉(zhuǎn)向一種動(dòng)態(tài)、結(jié)構(gòu)化、可進(jìn)化的“知識(shí)劇本”(playbook)。
這些劇本記錄了模型在任務(wù)執(zhí)行中積累的策略、規(guī)則、模板和修正規(guī)則。每一次失敗或成功,都會(huì)被轉(zhuǎn)化為一條“增量更新”(delta)。
與傳統(tǒng)的“重寫(xiě)提示”不同,ACE通過(guò)小步安全更新不斷改進(jìn)劇本,而不是一次性推倒重來(lái)。
這種機(jī)制意味著,AI可以在運(yùn)行中學(xué)習(xí)、記憶、改進(jìn),而不需任何參數(shù)微調(diào)。
ACE框架
研究者指出,這一機(jī)制能避免兩種致命問(wèn)題:一是簡(jiǎn)化偏差(brevity bias),即在追求簡(jiǎn)潔的優(yōu)化中丟失關(guān)鍵細(xì)節(jié);二是上下文崩塌(context collapse),即重寫(xiě)導(dǎo)致的知識(shí)損毀。

論文舉例稱(chēng),在實(shí)驗(yàn)中,一個(gè)AI代理積累了1.8萬(wàn)token的上下文,表現(xiàn)良好。但當(dāng)模型試圖“總結(jié)壓縮”它時(shí),劇本被削減至僅122個(gè)token,性能瞬間跌至57.1%。
研究者直言:“模型擅長(zhǎng)使用知識(shí),但不擅長(zhǎng)整理知識(shí)。一次錯(cuò)誤的重寫(xiě),就可能摧毀全部積累?!?/span>
論文稱(chēng)ACE解決了這種“自毀式學(xué)習(xí)”的結(jié)構(gòu)性風(fēng)險(xiǎn)。
圖片
圖注:ACE 框架在三類(lèi)任務(wù)(智能體操作、領(lǐng)域知識(shí)、數(shù)值推理)上都顯著優(yōu)于其他方法,準(zhǔn)確率提升最明顯。
三角色協(xié)作:生成、反思、策展
ACE體系建立在一個(gè)極簡(jiǎn)哲學(xué)上:不要重寫(xiě)知識(shí),要管理知識(shí)。
整個(gè)系統(tǒng)被拆解為三個(gè)互補(bǔ)的角色。
第一個(gè)是生成器(Generator)。它負(fù)責(zé)執(zhí)行任務(wù),與環(huán)境交互,生成推理過(guò)程、代碼或操作序列。
第二個(gè)是反思器(Reflector)。它分析生成器的行動(dòng)軌跡,識(shí)別成功與失敗的原因,提取“可操作的教訓(xùn)”。這些反饋信號(hào)可能來(lái)自代碼錯(cuò)誤、執(zhí)行結(jié)果或外部標(biāo)簽。
第三個(gè)是策展器(Curator)。它將這些經(jīng)驗(yàn)提煉為結(jié)構(gòu)化條目(delta context),并通過(guò)確定性規(guī)則(非語(yǔ)言模型決策)整合進(jìn)主劇本。
這樣的三層循環(huán)——行動(dòng)、反思、整合構(gòu)成了ACE的學(xué)習(xí)閉環(huán)。
每次更新都只影響局部條目,不觸碰整體文本。這種局部增量機(jī)制,讓知識(shí)庫(kù)既能不斷擴(kuò)展,又不會(huì)坍塌。
劇本本身被設(shè)計(jì)為項(xiàng)目化結(jié)構(gòu):包含策略規(guī)則、API調(diào)用模板、調(diào)試經(jīng)驗(yàn)、常見(jiàn)錯(cuò)誤解決方案等。每條條目附帶使用計(jì)數(shù)與正負(fù)反饋元數(shù)據(jù)。
反思器會(huì)根據(jù)這些記錄判斷哪些規(guī)則有效、哪些無(wú)用。策展器再據(jù)此修改或刪除。
論文稱(chēng),這種方式讓AI的知識(shí)“像Git倉(cāng)庫(kù)一樣演化”,能安全地生長(zhǎng)、細(xì)致地修剪、透明地追溯。
研究者強(qiáng)調(diào),ACE的復(fù)雜度并非負(fù)擔(dān),而是一種結(jié)構(gòu)化的安全機(jī)制,以微小的系統(tǒng)開(kāi)銷(xiāo)換取知識(shí)的穩(wěn)定積累。
小模型“越級(jí)打怪”:DeepSeek擊敗GPT-4.1
在復(fù)雜的AppWorld代理任務(wù)中,ACE框架帶來(lái)了+10.6%的平均性能提升,并將適應(yīng)延遲降低86.9%。
研究團(tuán)隊(duì)特別提到,這一提升并非依賴(lài)更大的模型,而是源于更好的上下文管理。
一個(gè)典型例子是:DeepSeek V3.1,參數(shù)量低于GPT-4.1。但在ACE框架下,它在AppWorld基準(zhǔn)測(cè)試中,竟能與GPT-4.1代理(IBM CUGA)持平,甚至在更復(fù)雜的測(cè)試集上反超。
研究者指出,這一結(jié)果說(shuō)明,“上下文工程”已成為新的算力平權(quán)器。
更重要的是,ACE的效率優(yōu)勢(shì)驚人。在多輪任務(wù)學(xué)習(xí)中,它的更新延遲減少82%~91%,token成本下降83.6%。
圖片
圖注:在金融分析任務(wù)中,ACE 框架顯著提升模型表現(xiàn)(平均提升約 8.6%),即使沒(méi)有真實(shí)標(biāo)簽也能保持穩(wěn)定表現(xiàn)。
論文認(rèn)為,這讓“在線持續(xù)學(xué)習(xí)”從概念變?yōu)楝F(xiàn)實(shí)。AI不再需要頻繁微調(diào),而可以在運(yùn)行中自我優(yōu)化。
同時(shí),ACE的結(jié)構(gòu)化劇本讓學(xué)習(xí)過(guò)程可解釋、可審計(jì)、可撤回。
如果某條規(guī)則被發(fā)現(xiàn)過(guò)時(shí)、偏頗或違規(guī),系統(tǒng)可以精準(zhǔn)刪除對(duì)應(yīng)條目,實(shí)現(xiàn)“選擇性遺忘”。



































