偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型如何像人類一樣"做筆記"并自我提升?

人工智能
許多優(yōu)化方法過分追求簡短的指令,比如只告訴大模型"創(chuàng)建單元測試以確保方法按預(yù)期運行"。這聽起來清晰明了,但實際上丟失了大量領(lǐng)域特定的技巧、工具使用指南和常見錯誤模式。

想象一下,你正在準(zhǔn)備一場重要考試。你不會只記住"好好學(xué)習(xí)"這種籠統(tǒng)的話,而是會在筆記本上詳細(xì)記錄:哪些題型容易出錯、解題的具體步驟、老師強(qiáng)調(diào)的重點……這本筆記會隨著學(xué)習(xí)不斷補充和完善,最終成為你的"通關(guān)秘籍"。

現(xiàn)在,大模型也學(xué)會了這種學(xué)習(xí)方法。

當(dāng)前大模型系統(tǒng)面臨的困境:大模型的應(yīng)用越來越依賴上下文適應(yīng)——通過調(diào)整輸入的指令、策略和證據(jù)來改進(jìn)性能,而不是修改模型本身的參數(shù)。這就像給大模型提供一份"使用說明書",告訴它該如何更好地完成任務(wù)。

但現(xiàn)有方法存在三個致命問題:

  • 簡潔偏見:許多優(yōu)化方法過分追求簡短的指令,比如只告訴大模型"創(chuàng)建單元測試以確保方法按預(yù)期運行"。這聽起來清晰明了,但實際上丟失了大量領(lǐng)域特定的技巧、工具使用指南和常見錯誤模式。

圖片圖片

  • 上下文崩潰:當(dāng)大模型被要求重寫整個上下文時,往往會將其壓縮成更短的摘要。研究發(fā)現(xiàn),在某個測試中,上下文從18,282個詞壓縮到僅122個詞后,準(zhǔn)確率從66.7%驟降至57.1%——比不做任何優(yōu)化還要差。

圖片圖片

ACE:讓大模型擁有"進(jìn)化的筆記本":為了解決這些問題,研究者提出了ACE(Agentic Context Engineering)框架。ACE不是把知識壓縮成簡短摘要,而是將其視為**持續(xù)演化的策略手冊——詳細(xì)、全面、富含領(lǐng)域洞察。

圖片圖片

三個角色的協(xié)作:ACE采用了類似人類學(xué)習(xí)的方式,分為三個角色:

1.生成者(Generator):負(fù)責(zé)執(zhí)行任務(wù),產(chǎn)生推理過程

2.反思者(Reflector):從成功和失敗中提煉具體經(jīng)驗

3.策展者(Curator):將經(jīng)驗整合到結(jié)構(gòu)化的上下文更新中

這就像一個學(xué)習(xí)小組:有人做題(生成者),有人分析錯誤原因(反思者),有人整理筆記(策展者)。分工明確,各司其職。

增量更新:只改需要改的地方:ACE的核心創(chuàng)新是增量更新機(jī)制。它不會每次都重寫整本"筆記",而是采用"條目"式管理:

?每條策略都有唯一標(biāo)識和使用統(tǒng)計

?只更新相關(guān)的條目,而不是重寫全部

?新知識被追加,舊知識被保留

這避免了昂貴的全量重寫成本,也防止了知識的意外丟失。

增長與精煉:保持筆記本整潔:隨著時間推移,ACE通過增長與精煉機(jī)制保持上下文的緊湊和相關(guān)性:新條目不斷追加,重復(fù)內(nèi)容定期去除,就像定期整理筆記本一樣。

實測效果:ACE在多個任務(wù)上的表現(xiàn)令人印象深刻:

圖片圖片

agent任務(wù):在AppWorld基準(zhǔn)測試中,ACE使準(zhǔn)確率提升了10.6%。更令人驚訝的是,使用開源小模型的ACE系統(tǒng),在排行榜上與IBM的GPT-4.1驅(qū)動的頂級系統(tǒng)打成平手,在更難的測試集上甚至反超8.4%。

金融分析任務(wù):在需要專業(yè)知識的金融推理測試中,ACE帶來了8.6%的平均性能提升。

無需標(biāo)注數(shù)據(jù):ACE能夠僅通過執(zhí)行反饋(比如代碼是否運行成功)來學(xué)習(xí)和改進(jìn),不需要人工標(biāo)注的"正確答案"。這意味著它可以真正實現(xiàn)自我提升。

更快更?。篈CE將適應(yīng)延遲降低了86.9%,同時需要更少的計算資源和成本。

圖片圖片

ACE的成功揭示了一個重要原則:對大模型來說,詳細(xì)的長上下文比簡潔的總結(jié)更有效。與人類不同,大模型擅長從海量詳細(xì)信息中自主提取相關(guān)內(nèi)容。

這為在線學(xué)習(xí)和持續(xù)學(xué)習(xí)開辟了新方向。因為上下文是人類可解釋的,我們可以輕松審查、修改甚至刪除特定知識——這在隱私保護(hù)和糾正錯誤信息方面有重要意義。

更重要的是,ACE展示了自我改進(jìn)大模型系統(tǒng)的可能性:系統(tǒng)可以從執(zhí)行反饋中學(xué)習(xí),不斷積累經(jīng)驗,逐步提升能力,而這一切只需要較低的計算開銷。

論文標(biāo)題:Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

論文鏈接:https://arxiv.org/abs/2510.04618

責(zé)任編輯:武曉燕 來源: AI帝國
相關(guān)推薦

2023-09-22 11:56:57

模型駕駛

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2015-02-05 13:27:02

移動開發(fā)模塊SDK

2020-01-09 17:03:29

人工智能技術(shù)算法

2022-07-28 14:46:01

人工智能機(jī)器人計算機(jī)科學(xué)

2013-12-26 14:09:17

周鴻祎激勵

2025-07-10 15:29:10

2015-03-16 12:50:44

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務(wù)價值

2025-06-23 09:04:00

2023-04-05 14:19:07

FlinkRedisNoSQL

2018-10-25 22:34:34

機(jī)器人人工智能系統(tǒng)

2021-09-07 10:29:11

JavaScript模塊CSS

2017-05-22 10:33:14

PythonJuliaCython

2024-08-14 14:43:00

2024-04-03 13:50:00

開源模型

2024-01-05 07:36:54

人工智能創(chuàng)造力模型

2022-12-21 15:56:23

代碼文檔工具

2013-12-31 09:19:23

Python調(diào)試
點贊
收藏

51CTO技術(shù)棧公眾號