大模型如何像人類一樣"做筆記"并自我提升?
想象一下,你正在準(zhǔn)備一場重要考試。你不會只記住"好好學(xué)習(xí)"這種籠統(tǒng)的話,而是會在筆記本上詳細(xì)記錄:哪些題型容易出錯、解題的具體步驟、老師強(qiáng)調(diào)的重點……這本筆記會隨著學(xué)習(xí)不斷補充和完善,最終成為你的"通關(guān)秘籍"。
現(xiàn)在,大模型也學(xué)會了這種學(xué)習(xí)方法。
當(dāng)前大模型系統(tǒng)面臨的困境:大模型的應(yīng)用越來越依賴上下文適應(yīng)——通過調(diào)整輸入的指令、策略和證據(jù)來改進(jìn)性能,而不是修改模型本身的參數(shù)。這就像給大模型提供一份"使用說明書",告訴它該如何更好地完成任務(wù)。
但現(xiàn)有方法存在三個致命問題:
- 簡潔偏見:許多優(yōu)化方法過分追求簡短的指令,比如只告訴大模型"創(chuàng)建單元測試以確保方法按預(yù)期運行"。這聽起來清晰明了,但實際上丟失了大量領(lǐng)域特定的技巧、工具使用指南和常見錯誤模式。
圖片
- 上下文崩潰:當(dāng)大模型被要求重寫整個上下文時,往往會將其壓縮成更短的摘要。研究發(fā)現(xiàn),在某個測試中,上下文從18,282個詞壓縮到僅122個詞后,準(zhǔn)確率從66.7%驟降至57.1%——比不做任何優(yōu)化還要差。
圖片
ACE:讓大模型擁有"進(jìn)化的筆記本":為了解決這些問題,研究者提出了ACE(Agentic Context Engineering)框架。ACE不是把知識壓縮成簡短摘要,而是將其視為**持續(xù)演化的策略手冊——詳細(xì)、全面、富含領(lǐng)域洞察。
圖片
三個角色的協(xié)作:ACE采用了類似人類學(xué)習(xí)的方式,分為三個角色:
1.生成者(Generator):負(fù)責(zé)執(zhí)行任務(wù),產(chǎn)生推理過程
2.反思者(Reflector):從成功和失敗中提煉具體經(jīng)驗
3.策展者(Curator):將經(jīng)驗整合到結(jié)構(gòu)化的上下文更新中
這就像一個學(xué)習(xí)小組:有人做題(生成者),有人分析錯誤原因(反思者),有人整理筆記(策展者)。分工明確,各司其職。
增量更新:只改需要改的地方:ACE的核心創(chuàng)新是增量更新機(jī)制。它不會每次都重寫整本"筆記",而是采用"條目"式管理:
?每條策略都有唯一標(biāo)識和使用統(tǒng)計
?只更新相關(guān)的條目,而不是重寫全部
?新知識被追加,舊知識被保留
這避免了昂貴的全量重寫成本,也防止了知識的意外丟失。
增長與精煉:保持筆記本整潔:隨著時間推移,ACE通過增長與精煉機(jī)制保持上下文的緊湊和相關(guān)性:新條目不斷追加,重復(fù)內(nèi)容定期去除,就像定期整理筆記本一樣。
實測效果:ACE在多個任務(wù)上的表現(xiàn)令人印象深刻:
圖片
agent任務(wù):在AppWorld基準(zhǔn)測試中,ACE使準(zhǔn)確率提升了10.6%。更令人驚訝的是,使用開源小模型的ACE系統(tǒng),在排行榜上與IBM的GPT-4.1驅(qū)動的頂級系統(tǒng)打成平手,在更難的測試集上甚至反超8.4%。
金融分析任務(wù):在需要專業(yè)知識的金融推理測試中,ACE帶來了8.6%的平均性能提升。
無需標(biāo)注數(shù)據(jù):ACE能夠僅通過執(zhí)行反饋(比如代碼是否運行成功)來學(xué)習(xí)和改進(jìn),不需要人工標(biāo)注的"正確答案"。這意味著它可以真正實現(xiàn)自我提升。
更快更?。篈CE將適應(yīng)延遲降低了86.9%,同時需要更少的計算資源和成本。
圖片
ACE的成功揭示了一個重要原則:對大模型來說,詳細(xì)的長上下文比簡潔的總結(jié)更有效。與人類不同,大模型擅長從海量詳細(xì)信息中自主提取相關(guān)內(nèi)容。
這為在線學(xué)習(xí)和持續(xù)學(xué)習(xí)開辟了新方向。因為上下文是人類可解釋的,我們可以輕松審查、修改甚至刪除特定知識——這在隱私保護(hù)和糾正錯誤信息方面有重要意義。
更重要的是,ACE展示了自我改進(jìn)大模型系統(tǒng)的可能性:系統(tǒng)可以從執(zhí)行反饋中學(xué)習(xí),不斷積累經(jīng)驗,逐步提升能力,而這一切只需要較低的計算開銷。
論文標(biāo)題:Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models




























