ACE代理上下文工程:構建自我改進的大語言模型新范式
摘要
在人工智能快速發(fā)展的今天,大語言模型(LLM)的應用場景日益復雜,從簡單的文本生成擴展到復雜的代理系統(tǒng)和領域專業(yè)推理。傳統(tǒng)的模型優(yōu)化方法主要依賴于權重更新,但這種方式在實際部署中面臨著成本高、靈活性差等挑戰(zhàn)。斯坦福大學、SambaNova Systems和加州大學伯克利分校的研究團隊提出了一種革命性的解決方案——ACE(Agentic Context Engineering,代理上下文工程)框架,該框架通過動態(tài)構建和優(yōu)化輸入上下文而非更新模型參數(shù)來提升LLM性能。
本文深入分析了ACE框架的核心技術原理、創(chuàng)新設計理念以及在實際應用中的顯著效果。研究結果表明,ACE在AppWorld代理任務中實現(xiàn)了10.6%的性能提升,在金融分析任務中取得了8.6%的改進,同時將適應延遲降低了86.9%。更令人矚目的是,使用較小開源模型的ACE系統(tǒng)在AppWorld排行榜上與使用GPT-4.1的頂級生產(chǎn)系統(tǒng)IBM CUGA相匹敵,展現(xiàn)了上下文工程在構建高效、可擴展AI系統(tǒng)方面的巨大潛力。
研究背景與動機
上下文適應的興起
現(xiàn)代基于大語言模型的AI應用,如LLM代理和復合AI系統(tǒng),越來越依賴于上下文適應(Context Adaptation)技術。與傳統(tǒng)的模型權重更新不同,上下文適應通過在模型輸入中直接整合澄清指令、結構化推理步驟或領域特定格式來提升模型訓練后的性能。這種方法具有多重優(yōu)勢:首先,上下文對用戶和開發(fā)者而言具有良好的可解釋性和可解釋性;其次,它允許在運行時快速集成新知識;最后,上下文可以在復合系統(tǒng)的不同模塊間共享使用。
隨著長上下文LLM技術的進步和KV緩存重用等上下文高效推理技術的發(fā)展,基于上下文的方法在實際部署中變得越來越實用。因此,上下文適應正在成為構建功能強大、可擴展和自我改進AI系統(tǒng)的核心范式。
現(xiàn)有方法的局限性
盡管上下文適應技術取得了顯著進展,但現(xiàn)有方法仍面臨兩個關鍵限制。第一個是簡潔偏差(Brevity Bias)問題。許多提示優(yōu)化器優(yōu)先考慮簡潔、廣泛適用的指令,而非全面的知識積累。例如,GEPA等方法雖然強調簡潔性的優(yōu)勢,但這種抽象往往會遺漏在實踐中至關重要的領域特定啟發(fā)式方法、工具使用指南或常見故障模式。
第二個限制是上下文崩潰(Context Collapse)現(xiàn)象。依賴LLM進行整體重寫的方法往往會隨時間推移退化為更短、信息量更少的摘要,導致性能急劇下降。研究團隊在AppWorld基準測試中觀察到,在第60步時上下文包含18,282個令牌并達到66.7%的準確率,但在下一步就崩潰至僅122個令牌,準確率下降到57.1%,甚至低于無適應的基線準確率63.7%。

ACE框架核心技術
整體架構設計
ACE框架采用了一種創(chuàng)新的代理架構,將上下文視為不斷演進的"劇本"(Playbook),通過生成、反思和策展的模塊化過程來積累、完善和組織策略。該框架建立在Dynamic Cheatsheet的代理設計基礎上,引入了三個專門化組件的分工協(xié)作機制。

生成器(Generator)負責為新查詢產(chǎn)生推理軌跡,這些軌跡既展現(xiàn)了有效策略,也暴露了反復出現(xiàn)的陷阱。
反思器(Reflector)對這些軌跡進行批判性分析以提取經(jīng)驗教訓,可選擇性地在多次迭代中進行精煉。
策展器(Curator)將這些經(jīng)驗教訓綜合為緊湊的增量條目,通過輕量級的非LLM邏輯確定性地合并到現(xiàn)有上下文中。
增量更新機制
ACE的核心設計原則是將上下文表示為結構化、條目化要點的集合,而非單一的整體提示。每個要點包含兩個主要組成部分:元數(shù)據(jù)(包括唯一標識符和跟蹤其被標記為有用或有害頻次的計數(shù)器)和內容(捕獲可重用策略、領域概念或常見故障模式等小單元)。
這種條目化設計實現(xiàn)了三個關鍵特性:局部化更新(僅相關要點被更新)、細粒度檢索(生成器可專注于最相關的知識)和增量適應(允許在推理過程中進行高效的合并、修剪和去重)。
與完全重新生成上下文不同,ACE增量產(chǎn)生緊湊的增量上下文:由反思器提煉并由策展器集成的候選要點小集合。這避免了完全重寫的計算成本和延遲,同時確保過去的知識得到保留,新見解得到穩(wěn)步追加。
增長與精煉策略
除了增量增長,ACE還通過周期性或懶惰精煉確保上下文保持緊湊和相關。在增長與精煉機制中,具有新標識符的要點被追加,而現(xiàn)有要點被就地更新(如遞增計數(shù)器)。隨后的去重步驟通過語義嵌入比較要點來修剪冗余。
這種精煉可以主動執(zhí)行(每次增量后)或懶惰執(zhí)行(僅當超出上下文窗口時),具體取決于應用對延遲和準確性的要求。增量更新和增長精煉的結合維護了適應性擴展、保持可解釋性并避免整體上下文重寫引入的潛在方差的上下文。
實驗設計與評估方法
基準數(shù)據(jù)集選擇
研究團隊選擇了兩類最能從全面、演進上下文中受益的LLM應用進行評估。第一類是代理基準,需要多輪推理、工具使用和環(huán)境交互,積累的策略可以跨情節(jié)重用。研究選擇了AppWorld作為主要測試平臺,這是一個包含API理解、代碼生成和環(huán)境交互的自主代理任務套件,提供了包含常見應用和API的真實執(zhí)行環(huán)境。
第二類是領域特定基準,需要專門的策略和知識掌握。研究團隊專注于金融分析作為案例研究,選擇了FiNER和Formula兩個測試LLM在依賴可擴展商業(yè)報告語言(XBRL)的金融推理任務上的表現(xiàn)的數(shù)據(jù)集。
基線方法比較
為了全面評估ACE的性能,研究團隊設計了多個強基線進行比較?;ALLM直接在每個基準上進行評估,使用數(shù)據(jù)集作者提供的默認提示。上下文學習(ICL)在輸入提示中提供任務演示,允許模型在不進行權重更新的情況下推斷任務格式和期望輸出。
MIPROv2作為流行的LLM應用提示優(yōu)化器,通過貝葉斯優(yōu)化聯(lián)合優(yōu)化系統(tǒng)指令和上下文演示。GEPA基于反思提示演進的樣本高效提示優(yōu)化器,收集執(zhí)行軌跡并應用自然語言反思來診斷錯誤、分配信用和提出提示更新。Dynamic Cheatsheet作為測試時學習方法,引入了可重用策略和代碼片段的自適應外部記憶。
實驗結果與性能分析
代理基準測試結果
在AppWorld基準測試中,ACE展現(xiàn)了令人矚目的性能提升。在離線設置中,ReAct + ACE相比ReAct + ICL和ReAct + GEPA分別實現(xiàn)了12.3%和11.9%的顯著改進,證明了結構化、演進和詳細的上下文比固定演示或單一優(yōu)化指令提示能夠實現(xiàn)更有效的代理學習。

這些收益延續(xù)到在線設置,ACE繼續(xù)超越Dynamic Cheatsheet等先前自適應方法平均7.6%。值得注意的是,即使在適應過程中無法訪問真實標簽的情況下,ACE仍保持有效性:在此設置下,ReAct + ACE相比ReAct基線實現(xiàn)了平均14.8%的改進。
在2025年9月20日的AppWorld排行榜上,ReAct + ACE(59.4%)與排名第一的IBM CUGA(60.3%)相匹敵,后者是基于GPT-4.1的生產(chǎn)級代理,而ACE使用的是較小的開源模型DeepSeek-V3.1。通過在線適應,ReAct + ACE在更困難的測試挑戰(zhàn)分割上甚至超越IBM CUGA,在TGC上超出8.4%,在SGC上超出0.7%。
領域特定基準表現(xiàn)
在金融分析基準測試中,ACE同樣表現(xiàn)出色。在離線設置中,當提供來自訓練分割的真實答案時,ACE相比ICL、MIPROv2和GEPA平均超出10.9%,顯示結構化和演進上下文在需要精確領域知識的任務中特別有效。
在在線設置中,ACE繼續(xù)超越Dynamic Cheatsheet等先前自適應方法平均6.2%,進一步確認了代理上下文工程在跨專業(yè)領域積累可重用見解方面的優(yōu)勢。
成本與延遲分析
ACE的增量更新和非LLM合并機制顯著降低了適應開銷。在AppWorld的離線適應中,相比GEPA,ACE實現(xiàn)了82.3%的適應延遲減少和75.1%的推出次數(shù)減少。在FiNER的在線適應中,相比Dynamic Cheatsheet,ACE實現(xiàn)了91.5%的適應延遲減少和83.6%的令牌成本減少。
消融研究與設計驗證
研究團隊進行了詳細的消融研究來分析ACE各個設計選擇的貢獻。研究檢驗了三個因素:帶有迭代精煉的反思器(我們在Dynamic Cheatsheet之外對代理框架的補充)、多輪適應(在訓練樣本上多次精煉上下文)和離線預熱(在在線適應開始前通過離線適應初始化上下文)。
結果顯示,反思器組件對性能提升至關重要,將平均性能從55.1%提升到56.8%。多輪適應進一步將性能提升到59.4%,證明了迭代精煉的價值。離線預熱在在線適應中也顯示出明顯的改進效果。
技術創(chuàng)新與突破
結構化上下文表示
ACE的一個重要創(chuàng)新是將上下文結構化為條目化要點集合,每個要點包含元數(shù)據(jù)和內容兩部分。這種設計不僅支持細粒度的更新和檢索,還使得上下文的演進過程變得可追蹤和可控制。與傳統(tǒng)的整體式提示相比,這種結構化表示為大規(guī)模上下文管理提供了更好的可擴展性。
三角色協(xié)作機制
生成器、反思器和策展器的三角色分工體現(xiàn)了軟件工程中關注點分離的設計原則。生成器專注于任務執(zhí)行和軌跡生成,反思器負責從執(zhí)行結果中提取有價值的見解,策展器則確保這些見解以結構化方式集成到上下文中。這種分工不僅提高了系統(tǒng)的可維護性,還使得每個組件可以獨立優(yōu)化。
增量學習范式
ACE實現(xiàn)了真正的增量學習,避免了傳統(tǒng)方法中的"災難性遺忘"問題。通過增量更新機制,系統(tǒng)能夠在學習新知識的同時保留已有的有用信息。這種設計對于需要長期運行和持續(xù)學習的AI系統(tǒng)具有重要意義。
實際應用場景分析
企業(yè)級AI代理部署
ACE框架特別適合企業(yè)級AI代理的部署場景。在這些環(huán)境中,代理需要處理復雜的業(yè)務流程,與多種系統(tǒng)和API交互,并且需要從每次交互中學習和改進。傳統(tǒng)的模型微調方法在這種場景下成本高昂且不夠靈活,而ACE通過上下文工程提供了一種更加經(jīng)濟和高效的解決方案。
金融服務自動化
在金融服務領域,ACE展現(xiàn)了處理復雜監(jiān)管要求和專業(yè)知識的能力。通過在XBRL文檔處理和金融分析任務中的優(yōu)異表現(xiàn),ACE證明了其在高度專業(yè)化領域的應用潛力。金融機構可以利用ACE構建能夠持續(xù)學習和適應新法規(guī)要求的智能系統(tǒng)。
多模態(tài)代理系統(tǒng)
雖然當前研究主要集中在文本處理上,但ACE的架構設計為多模態(tài)代理系統(tǒng)的發(fā)展奠定了基礎。生成器可以擴展為處理圖像、音頻等多種模態(tài)輸入,反思器可以從多模態(tài)交互中提取見解,策展器則負責維護跨模態(tài)的知識庫。
技術挑戰(zhàn)與解決方案
上下文長度管理
隨著系統(tǒng)運行時間的增長,上下文長度可能會超出模型的處理能力。ACE通過增長與精煉機制解決了這個問題,系統(tǒng)可以智能地刪除冗余信息,保留最有價值的知識點。此外,現(xiàn)代長上下文模型和KV緩存優(yōu)化技術的發(fā)展也為處理大規(guī)模上下文提供了技術支持。
知識質量控制
在無監(jiān)督學習場景中,如何確保提取的知識質量是一個重要挑戰(zhàn)。ACE通過反思器的多輪精煉機制和策展器的結構化集成過程來提高知識質量。同時,系統(tǒng)還維護了有用性和有害性計數(shù)器,為知識質量評估提供了量化指標。
計算資源優(yōu)化
雖然ACE避免了模型權重更新的高昂成本,但三個組件的協(xié)作仍需要一定的計算資源。研究團隊通過使用相同的基礎模型(非思考模式的DeepSeek-V3.1)來控制計算成本,并通過增量更新機制顯著降低了適應延遲。
與現(xiàn)有技術的比較分析
相對于傳統(tǒng)微調的優(yōu)勢
傳統(tǒng)的模型微調方法需要大量的標注數(shù)據(jù)和計算資源,且難以快速適應新的任務需求。ACE通過上下文工程避免了這些限制,可以在運行時快速集成新知識,且不需要重新訓練模型。這種方法特別適合需要快速部署和頻繁更新的應用場景。
相對于提示工程的改進
傳統(tǒng)的提示工程方法往往依賴人工設計和調優(yōu),難以實現(xiàn)自動化和規(guī)模化。ACE通過代理架構實現(xiàn)了提示的自動生成和優(yōu)化,且能夠從執(zhí)行反饋中持續(xù)學習和改進。這種自動化能力大大降低了系統(tǒng)維護的人工成本。
相對于檢索增強生成的互補性
檢索增強生成(RAG)技術通過外部知識庫增強模型能力,但通常是靜態(tài)的知識檢索。ACE的動態(tài)上下文構建與RAG形成了很好的互補關系,可以將檢索到的知識動態(tài)整合到演進的上下文中,實現(xiàn)更加智能的知識管理。
未來發(fā)展方向與展望
多代理協(xié)作框架
未來的發(fā)展方向之一是將ACE擴展到多代理協(xié)作場景。在這種框架下,多個代理可以共享和交換上下文知識,形成分布式的學習網(wǎng)絡。每個代理的專業(yè)知識可以通過上下文共享機制傳播到整個網(wǎng)絡,實現(xiàn)集體智能的涌現(xiàn)。
具體實現(xiàn)可以考慮建立代理間的上下文同步機制,允許代理選擇性地共享有價值的上下文條目。同時,需要設計沖突解決機制來處理不同代理間可能存在的知識沖突。這種多代理協(xié)作框架將為構建大規(guī)模、分布式的AI系統(tǒng)提供新的可能性。
領域自適應優(yōu)化
針對不同應用領域的特殊需求,ACE框架可以進一步優(yōu)化其組件設計。例如,在醫(yī)療領域,反思器需要更加嚴格的證據(jù)驗證機制;在法律領域,策展器需要考慮法條的層次結構和優(yōu)先級關系。
未來可以開發(fā)領域特定的ACE變體,每個變體都針對特定領域的知識結構和推理模式進行優(yōu)化。這種領域自適應能力將使ACE在專業(yè)應用中發(fā)揮更大的價值。
持續(xù)學習與知識蒸餾
ACE框架為實現(xiàn)真正的持續(xù)學習提供了新的途徑。未來可以探索將上下文中積累的知識定期蒸餾到模型參數(shù)中,實現(xiàn)顯式知識(上下文)和隱式知識(參數(shù))的有機結合。
這種混合學習模式可以在保持快速適應能力的同時,逐步提升模型的基礎能力。具體實現(xiàn)可以考慮設計知識蒸餾觸發(fā)機制,當上下文中的某些知識模式足夠穩(wěn)定和重要時,自動觸發(fā)蒸餾過程。
可解釋性與可控性增強
ACE的結構化上下文設計為提升AI系統(tǒng)的可解釋性提供了良好基礎。未來可以開發(fā)更加豐富的可視化工具,幫助用戶理解系統(tǒng)的學習過程和決策依據(jù)。
同時,可以引入用戶干預機制,允許領域專家直接編輯和調整上下文內容,實現(xiàn)人機協(xié)作的知識管理。這種可控性將使ACE在需要高度可信的應用場景中更加實用。
跨模態(tài)知識整合
隨著多模態(tài)大模型的發(fā)展,ACE框架可以擴展到處理圖像、音頻、視頻等多種模態(tài)的信息。未來的研究可以探索如何在統(tǒng)一的上下文框架中表示和管理跨模態(tài)知識。
這種擴展需要設計新的知識表示格式和相似性度量方法,以支持不同模態(tài)信息的有效整合和檢索??缒B(tài)的ACE系統(tǒng)將為構建更加智能和全面的AI助手提供技術基礎。
產(chǎn)業(yè)影響與商業(yè)價值
降低AI部署成本
ACE框架通過避免頻繁的模型重訓練,顯著降低了AI系統(tǒng)的部署和維護成本。企業(yè)可以使用相對較小的開源模型,通過上下文工程達到與大型專有模型相當?shù)男阅芩健_@種成本優(yōu)勢將加速AI技術在中小企業(yè)中的普及應用。
提升系統(tǒng)響應速度
傳統(tǒng)的模型更新需要較長的訓練時間,而ACE的上下文更新可以在幾秒鐘內完成。這種快速響應能力對于需要實時適應環(huán)境變化的應用場景具有重要價值,如金融交易、在線客服、智能制造等領域。
促進AI民主化
ACE框架降低了構建高性能AI系統(tǒng)的技術門檻。企業(yè)不再需要擁有大規(guī)模的機器學習團隊和計算資源,就可以構建適合自身業(yè)務需求的智能系統(tǒng)。這種技術民主化將推動AI在更多行業(yè)和場景中的創(chuàng)新應用。
結論與啟示
ACE(代理上下文工程)框架代表了大語言模型優(yōu)化領域的一個重要突破。通過將優(yōu)化重點從模型參數(shù)轉移到輸入上下文,ACE不僅實現(xiàn)了顯著的性能提升,還大幅降低了系統(tǒng)的部署和維護成本。
這項研究的核心啟示在于,AI系統(tǒng)的智能不僅來源于模型本身的能力,更來源于如何有效地組織和利用外部知識。ACE框架通過生成器、反思器和策展器的協(xié)作機制,實現(xiàn)了知識的自動發(fā)現(xiàn)、提煉和組織,為構建真正自主學習的AI系統(tǒng)提供了新的范式。
從技術發(fā)展趨勢來看,ACE框架的成功預示著上下文工程將成為AI系統(tǒng)設計的重要組成部分。未來的AI系統(tǒng)將更加注重知識的動態(tài)管理和持續(xù)學習能力,而不僅僅是靜態(tài)的模型性能。
對于產(chǎn)業(yè)界而言,ACE框架提供了一種更加經(jīng)濟和靈活的AI部署方案。企業(yè)可以基于開源模型和ACE框架構建滿足自身需求的專業(yè)AI系統(tǒng),而無需投入大量資源進行模型訓練。這種技術路徑將加速AI技術的產(chǎn)業(yè)化應用,推動更多創(chuàng)新解決方案的涌現(xiàn)。
相關資源
- 論文原文:https://arxiv.org/abs/2510.04618
- AppWorld基準測試:https://appworld.dev/leaderboard
- Dynamic Cheatsheet項目:https://github.com/suzgunmirac/dynamic-cheatsheet


































