偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

斯坦福最新研究:AI 的上下文比參數(shù)重要,無(wú)需重訓(xùn)、不再微調(diào)

人工智能
近日,斯坦福大學(xué)與 SambaNova Systems 合作發(fā)表了論文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。

大數(shù)據(jù)文摘出品

近日,斯坦福大學(xué)與 SambaNova Systems 合作發(fā)表了論文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。

該論文提出了一個(gè)名為ACE(Agentic Context Engineering)的框架,可以讓AI在不重新訓(xùn)練權(quán)重的前提下,實(shí)現(xiàn)自我改進(jìn)。

圖片圖片

論文鏈接:http://arxiv.org/abs/2510.04618v1

論文的核心思想是,大模型的能力,并非僅由參數(shù)決定,更取決于“上下文的質(zhì)量”。換句話(huà)說(shuō),誰(shuí)能構(gòu)建出最優(yōu)的上下文,誰(shuí)就能讓模型更聰明。

ACE的核心思想,是讓模型不再依賴(lài)“靜態(tài)提示(prompt)”,而轉(zhuǎn)向一種動(dòng)態(tài)、結(jié)構(gòu)化、可進(jìn)化的“知識(shí)劇本”(playbook)

這些劇本記錄了模型在任務(wù)執(zhí)行中積累的策略、規(guī)則、模板和修正規(guī)則。每一次失敗或成功,都會(huì)被轉(zhuǎn)化為一條“增量更新”(delta)。

與傳統(tǒng)的“重寫(xiě)提示”不同,ACE通過(guò)小步安全更新不斷改進(jìn)劇本,而不是一次性推倒重來(lái)。

這種機(jī)制意味著,AI可以在運(yùn)行中學(xué)習(xí)、記憶、改進(jìn),而不需任何參數(shù)微調(diào)。

ACE框架ACE框架

研究者指出,這一機(jī)制能避免兩種致命問(wèn)題:一是簡(jiǎn)化偏差(brevity bias),即在追求簡(jiǎn)潔的優(yōu)化中丟失關(guān)鍵細(xì)節(jié);二是上下文崩塌(context collapse),即重寫(xiě)導(dǎo)致的知識(shí)損毀。

圖片

論文舉例稱(chēng),在實(shí)驗(yàn)中,一個(gè)AI代理積累了1.8萬(wàn)token的上下文,表現(xiàn)良好。但當(dāng)模型試圖“總結(jié)壓縮”它時(shí),劇本被削減至僅122個(gè)token,性能瞬間跌至57.1%。

研究者直言:“模型擅長(zhǎng)使用知識(shí),但不擅長(zhǎng)整理知識(shí)。一次錯(cuò)誤的重寫(xiě),就可能摧毀全部積累?!?/span>

論文稱(chēng)ACE解決了這種“自毀式學(xué)習(xí)”的結(jié)構(gòu)性風(fēng)險(xiǎn)。

圖片圖片

圖注:ACE 框架在三類(lèi)任務(wù)(智能體操作、領(lǐng)域知識(shí)、數(shù)值推理)上都顯著優(yōu)于其他方法,準(zhǔn)確率提升最明顯。

三角色協(xié)作:生成、反思、策展

ACE體系建立在一個(gè)極簡(jiǎn)哲學(xué)上:不要重寫(xiě)知識(shí),要管理知識(shí)。

整個(gè)系統(tǒng)被拆解為三個(gè)互補(bǔ)的角色。

第一個(gè)是生成器(Generator)。它負(fù)責(zé)執(zhí)行任務(wù),與環(huán)境交互,生成推理過(guò)程、代碼或操作序列。

第二個(gè)是反思器(Reflector)。它分析生成器的行動(dòng)軌跡,識(shí)別成功與失敗的原因,提取“可操作的教訓(xùn)”。這些反饋信號(hào)可能來(lái)自代碼錯(cuò)誤、執(zhí)行結(jié)果或外部標(biāo)簽。

第三個(gè)是策展器(Curator)。它將這些經(jīng)驗(yàn)提煉為結(jié)構(gòu)化條目(delta context),并通過(guò)確定性規(guī)則(非語(yǔ)言模型決策)整合進(jìn)主劇本。

這樣的三層循環(huán)——行動(dòng)、反思、整合構(gòu)成了ACE的學(xué)習(xí)閉環(huán)。

每次更新都只影響局部條目,不觸碰整體文本。這種局部增量機(jī)制,讓知識(shí)庫(kù)既能不斷擴(kuò)展,又不會(huì)坍塌。

劇本本身被設(shè)計(jì)為項(xiàng)目化結(jié)構(gòu):包含策略規(guī)則、API調(diào)用模板、調(diào)試經(jīng)驗(yàn)、常見(jiàn)錯(cuò)誤解決方案等。每條條目附帶使用計(jì)數(shù)與正負(fù)反饋元數(shù)據(jù)

反思器會(huì)根據(jù)這些記錄判斷哪些規(guī)則有效、哪些無(wú)用。策展器再據(jù)此修改或刪除。

論文稱(chēng),這種方式讓AI的知識(shí)“像Git倉(cāng)庫(kù)一樣演化”,能安全地生長(zhǎng)、細(xì)致地修剪、透明地追溯

研究者強(qiáng)調(diào),ACE的復(fù)雜度并非負(fù)擔(dān),而是一種結(jié)構(gòu)化的安全機(jī)制,以微小的系統(tǒng)開(kāi)銷(xiāo)換取知識(shí)的穩(wěn)定積累。

小模型“越級(jí)打怪”:DeepSeek擊敗GPT-4.1

在復(fù)雜的AppWorld代理任務(wù)中,ACE框架帶來(lái)了+10.6%的平均性能提升,并將適應(yīng)延遲降低86.9%。

研究團(tuán)隊(duì)特別提到,這一提升并非依賴(lài)更大的模型,而是源于更好的上下文管理。

一個(gè)典型例子是:DeepSeek V3.1,參數(shù)量低于GPT-4.1。但在ACE框架下,它在AppWorld基準(zhǔn)測(cè)試中,竟能與GPT-4.1代理(IBM CUGA)持平,甚至在更復(fù)雜的測(cè)試集上反超

研究者指出,這一結(jié)果說(shuō)明,“上下文工程”已成為新的算力平權(quán)器

更重要的是,ACE的效率優(yōu)勢(shì)驚人。在多輪任務(wù)學(xué)習(xí)中,它的更新延遲減少82%~91%,token成本下降83.6%。

圖片圖片

圖注:在金融分析任務(wù)中,ACE 框架顯著提升模型表現(xiàn)(平均提升約 8.6%),即使沒(méi)有真實(shí)標(biāo)簽也能保持穩(wěn)定表現(xiàn)。

論文認(rèn)為,這讓“在線持續(xù)學(xué)習(xí)”從概念變?yōu)楝F(xiàn)實(shí)。AI不再需要頻繁微調(diào),而可以在運(yùn)行中自我優(yōu)化。

同時(shí),ACE的結(jié)構(gòu)化劇本讓學(xué)習(xí)過(guò)程可解釋、可審計(jì)、可撤回。

如果某條規(guī)則被發(fā)現(xiàn)過(guò)時(shí)、偏頗或違規(guī),系統(tǒng)可以精準(zhǔn)刪除對(duì)應(yīng)條目,實(shí)現(xiàn)“選擇性遺忘”。

責(zé)任編輯:武曉燕 來(lái)源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-10-11 08:52:06

2025-10-11 18:05:23

AI智能體模型

2023-10-18 09:25:08

模型推理

2017-11-28 14:18:29

2023-07-21 14:47:24

AI訓(xùn)練

2022-07-20 16:39:37

AI數(shù)據(jù)

2019-12-16 14:33:01

AI人工智能斯坦福

2023-06-15 15:45:42

自然語(yǔ)言語(yǔ)言模型

2025-10-14 09:54:28

2025-10-13 09:03:00

2025-10-14 10:03:11

CompLLMLLMRAG

2025-01-17 10:26:19

模型開(kāi)發(fā)ChatGPT

2023-07-18 14:18:00

Attention模型圖像

2024-04-29 13:09:10

LLM架構(gòu)性能

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2023-05-04 12:32:28

模型研究

2023-12-08 13:22:00

數(shù)據(jù)模型

2023-07-28 12:13:28

模型語(yǔ)言性能

2025-07-08 08:34:04

2023-06-30 09:49:23

模型Meta
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)