偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

「微調(diào)已死」再添籌碼,谷歌擴展AI自我進化范式,成功經(jīng)驗與失敗教訓(xùn)雙向?qū)W習(xí)

人工智能 新聞
一篇來自斯坦福大學(xué)、SambaNova、UC 伯克利的論文提出了一種名為???Agentic Context Engineering?(智能體 / 主動式上下文工程)的技術(shù),讓語言模型無需微調(diào)也能實現(xiàn)自我提升!

這幾天,關(guān)于「微調(diào)已死」的言論吸引了學(xué)術(shù)圈的廣泛關(guān)注。

一篇來自斯坦福大學(xué)、SambaNova、UC 伯克利的論文提出了一種名為 Agentic Context Engineering(智能體 / 主動式上下文工程)的技術(shù),讓語言模型無需微調(diào)也能實現(xiàn)自我提升!

其實,在更早的時候,谷歌一篇名為《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的論文提出了一個與 Agentic Context Engineering 類似的概念 ——ReasoningBank,用于智能體系統(tǒng)的創(chuàng)新記憶框架,從智能體自身判斷的成功和失敗經(jīng)驗中提煉并組織記憶項,無需真實標(biāo)簽。

如圖 1 所示,利用 ReasoningBank 不僅可以捕捉成功中的有效策略,還能從失敗中提取重要的預(yù)防教訓(xùn),將這些內(nèi)容抽象成一系列可操作的原則。這個過程在一個閉環(huán)中運行:當(dāng)面對新任務(wù)時,智能體從 ReasoningBank 中檢索相關(guān)記憶來指導(dǎo)其行動。隨后,新的經(jīng)驗被分析、提煉并重新整合回 ReasoningBank,使得智能體能夠不斷進化并提升其戰(zhàn)略能力。

通過將 ReasoningBank 作為強大的經(jīng)驗學(xué)習(xí)者,谷歌研究了經(jīng)驗擴展,以建立記憶與測試時擴展之間的強大協(xié)同效應(yīng)。谷歌并不通過增加更多任務(wù)來擴展經(jīng)驗的廣度,而是通過深入探索每個單一任務(wù)來擴展經(jīng)驗的深度。

此外,谷歌引入了記憶感知的測試時擴展(MaTTS),在并行和順序設(shè)置下都進行了應(yīng)用,通過生成多樣的探索來提供對比信號,使 ReasoningBank 能夠合成更具普遍性的記憶。

最終,在記憶與測試時擴展之間實現(xiàn)了協(xié)同效應(yīng):高質(zhì)量的記憶將擴展引導(dǎo)到更有前景的路徑,而豐富的經(jīng)驗則進一步錘煉出更強的記憶。這種正反饋循環(huán)使得基于記憶的經(jīng)驗擴展成為智能體的一個新擴展維度。

論文地址:https://arxiv.org/pdf/2509.25140

對于谷歌開發(fā)的這種能實時從自身錯誤中學(xué)習(xí)的 AI,網(wǎng)友紛紛看好。

方法概覽

下圖為 ReasoningBank 整體框架,其中經(jīng)驗被提煉成結(jié)構(gòu)化的記憶項,包含標(biāo)題、描述和內(nèi)容。對于每個新任務(wù),智能體從中檢索相關(guān)項與環(huán)境進行互動,并從成功和失敗的軌跡中構(gòu)建新的記憶項。這些記憶項隨后被整合到 ReasoningBank 中,形成一個閉環(huán)的記憶過程。

其中,ReasoningBank 包含了以下幾個關(guān)鍵組件:

記憶結(jié)構(gòu)。ReasoningBank 中的記憶項是從過去的經(jīng)驗中設(shè)計和提煉出的結(jié)構(gòu)化知識單元,它們抽象了低級執(zhí)行細(xì)節(jié),同時保留了可轉(zhuǎn)移的推理模式和策略。每個記憶項包含三個部分:(i) 標(biāo)題,作為簡潔的標(biāo)識符,總結(jié)核心策略或推理模式;(ii) 描述,提供記憶項的簡短一句話總結(jié);(iii) 內(nèi)容,記錄從過去經(jīng)驗中提煉出的推理步驟、決策理由或操作見解。提取出的記憶項既具有人類可理解性,又具備機器可用性,有助于高效使用和與智能體的集成。

ReasoningBank 與智能體的集成。配備 ReasoningBank 的智能體可以從一個精心挑選的可轉(zhuǎn)移策略池中汲取經(jīng)驗來指導(dǎo)決策。這使得智能體能夠回憶有效的見解,避免以前觀察到的陷阱,并更穩(wěn)健地適應(yīng)未見過的查詢。集成過程分為三個步驟:(i) 記憶檢索,(ii) 記憶構(gòu)建,(iii) 記憶整合。

MaTTS:記憶感知的測試時擴展。ReasoningBank 與測試時擴展的直接結(jié)合如圖 3 (a) 所示,其中更多的軌跡被獨立地轉(zhuǎn)換為更多的記憶項。不過,這種基礎(chǔ)方法并不理想,因為它沒有利用來自同一問題上冗余探索所產(chǎn)生的對比信號,這限制了測試時擴展所帶來的性能優(yōu)勢。為此,谷歌提出了 MaTTS,它是測試時擴展與 ReasoningBank 的全新集成。與基礎(chǔ)方法不同,MaTTS 刻意從擴展過程中生成的大量成功和失敗軌跡中學(xué)習(xí),以便更有效地策劃記憶。谷歌為 MaTTS 設(shè)計了兩種互補的實現(xiàn)方式:并行擴展和順序擴展,如圖 3 (b) 和 3 (c) 所示。

并行擴展。在并行設(shè)置中,谷歌在檢索到的記憶項的指導(dǎo)下,為同一查詢生成多個軌跡。通過對不同軌跡進行比較,智能體可以識別一致的推理模式,同時過濾掉虛假的解決方案。這個過程通過單一查詢的多次試驗促使多樣化的探索,從而實現(xiàn)更可靠的記憶策劃。

順序擴展。在順序擴展中,谷歌在初步完成后,迭代地在單一軌跡內(nèi)完善推理,遵循自我精煉的原則。在這個過程中,自我精煉中生成的中間筆記也被用作寶貴的記憶信號,因為它們捕捉了推理嘗試、修正和見解,這些內(nèi)容可能不會出現(xiàn)在最終的解決方案中。

實驗結(jié)果

谷歌在具有挑戰(zhàn)性的基準(zhǔn)測試上進行了廣泛的實驗,包括了網(wǎng)頁瀏覽(WebArena、Mind2Web)和軟件工程(SWE-Bench-Verified)任務(wù)。

表 1、2、3 分別展示了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的評估結(jié)果,表明了在有效性(相對提高高達 34.2%)和效率(減少 16.0% 的交互步驟)上均優(yōu)于基準(zhǔn)方法。

特別地,ReasoningBank 與 MaTTS 的協(xié)同效果最好,使其成為基于記憶的經(jīng)驗擴展的關(guān)鍵組成部分。谷歌在 Webarena-Shopping 子集上實驗了 MaTTS 與 Gemini-2.5-flash 的結(jié)合。默認(rèn)下,MaTTS 集成了 ReasoningBank,但它也可以使用其他記憶機制。

為了研究整體的擴展效果,谷歌進行了以下基準(zhǔn)測試:(i) 沒有記憶機制的 MaTTS(MaTTS w/o memory),這代表了沒有記憶機制的擴展設(shè)置;(ii) 沒有聚合的 MaTTS(MaTTS w/o aggregation);(iii) MaTTS,用于展示與擴展因子 k 相關(guān)的效果。值得注意的是,k = 1 是沒有擴展的設(shè)置。

結(jié)果如圖 4 所示,表明并行擴展和順序擴展都能提升性能。

更多實驗結(jié)果請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2018-04-26 10:37:08

公共云經(jīng)驗教訓(xùn)混合云

2025-10-11 18:05:23

AI智能體模型

2024-12-10 09:07:17

2024-12-17 12:53:45

AI自我進化谷歌

2018-03-16 10:41:26

公有云多云CIO

2017-12-29 09:18:35

公共云成功經(jīng)驗

2013-05-20 09:31:38

公有云谷歌微軟

2013-09-12 11:07:01

2013-05-13 16:45:37

創(chuàng)業(yè)LinkedIn創(chuàng)始人

2009-05-21 08:53:08

軟件商店JavaSun

2022-07-13 11:31:43

量子計算英偉達

2025-02-18 11:15:12

2011-08-10 10:01:00

迭代開發(fā)游戲

2018-09-10 17:41:15

智造數(shù)字化轉(zhuǎn)型智能工廠

2010-08-11 17:11:34

802.11n無線建設(shè)H3C

2011-07-14 16:58:19

CIO虛擬化私有云

2009-12-15 17:55:57

Linux操作系統(tǒng)

2017-11-22 09:22:00

AI智能機器學(xué)習(xí)

2025-08-28 01:44:00

DateJava可變性
點贊
收藏

51CTO技術(shù)棧公眾號