偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM記憶管理終于不用“手把手教”了,新框架讓智能體自主管理記憶系統(tǒng)

人工智能 新聞
來自來自加州大學(xué)圣地亞哥分校、斯坦福大學(xué)的研究人員提出了一個創(chuàng)新的強(qiáng)化學(xué)習(xí)框架。

不再依賴人工設(shè)計,讓模型真正學(xué)會管理記憶。

來自來自加州大學(xué)圣地亞哥分校、斯坦福大學(xué)的研究人員提出了一個創(chuàng)新的強(qiáng)化學(xué)習(xí)框架——

Mem-α,用于訓(xùn)練LLM智能體自主管理復(fù)雜的記憶系統(tǒng)。

在實際應(yīng)用中,僅僅依靠prompts和instructions往往不足以覆蓋所有場景:模型經(jīng)常會遇到不知道如何更新記憶的情況,尤其是當(dāng)記憶系統(tǒng)像MIRIX那樣變得復(fù)雜時。

不同于MIRIX、MemGPT等依賴prompts和instructions的傳統(tǒng)方案,Mem-α采用數(shù)據(jù)驅(qū)動的強(qiáng)化學(xué)習(xí)方法,讓模型在交互中自主學(xué)習(xí)最優(yōu)記憶管理策略。

如何做到的呢?

讓模型真正學(xué)會如何管理記憶

上下文窗口限制&現(xiàn)有記憶系統(tǒng)的缺陷

大語言模型(LLM)智能體受限于有限的上下文窗口,這使得外部記憶系統(tǒng)對于長期信息理解變得至關(guān)重要。

即使像GPT-4.1這樣支持100萬tokens的模型,在長期交互中也會隨著窗口增長而導(dǎo)致成本激增和延遲增加。

當(dāng)前的記憶增強(qiáng)智能體通常依賴預(yù)定義的指令和工具來進(jìn)行記憶更新。

然而,語言模型往往缺乏決定存儲哪些信息、如何結(jié)構(gòu)化組織以及何時更新的能力——尤其是當(dāng)記憶系統(tǒng)變得更加復(fù)雜時。

這種局限性導(dǎo)致了次優(yōu)的記憶構(gòu)建和信息丟失,嚴(yán)重影響了智能體在長期交互中的表現(xiàn)。

如上圖所示,在沒有強(qiáng)化學(xué)習(xí)的情況下,模型在管理記憶系統(tǒng)時會出現(xiàn)明顯的錯誤:核心記憶沒有更新導(dǎo)致重要信息丟失,語義記憶中只保存了單一條目造成信息損失。

而經(jīng)過Mem-α訓(xùn)練后的模型能夠正確地在核心記憶、情景記憶和語義記憶中存儲相應(yīng)信息,實現(xiàn)全面的記憶管理。

Mem-α 強(qiáng)化學(xué)習(xí)框架

Mem-α的核心貢獻(xiàn)在于將記憶構(gòu)建問題轉(zhuǎn)化為一個可通過強(qiáng)化學(xué)習(xí)優(yōu)化的序列決策問題。

與以往依賴監(jiān)督學(xué)習(xí)或手工規(guī)則的方法不同,Mem-α讓智能體在處理信息流的過程中自主探索最優(yōu)的記憶管理策略,并通過下游任務(wù)表現(xiàn)直接獲得反饋。這種端到端的優(yōu)化方式使得模型能夠?qū)W習(xí)到真正有效的記憶構(gòu)建策略。

任務(wù)設(shè)定(Task Setup)

如上圖所示,Mem-α將記憶構(gòu)建建模為順序決策過程。智能體依次處理信息塊,決定執(zhí)行哪些記憶操作,處理完成后利用構(gòu)建的記憶系統(tǒng)回答問題。

訓(xùn)練過程中通過多個獎勵信號(獲得反饋。被訓(xùn)練的智能體(??)專注學(xué)習(xí)記憶管理策略,固定的大語言模型(??)負(fù)責(zé)根據(jù)記憶回答問題。

獎勵函數(shù)設(shè)計

Mem-α 采用多維度獎勵函數(shù)優(yōu)化記憶構(gòu)建:

  1. 問答準(zhǔn)確率():最核心的信號,直接衡量基于記憶回答問題的準(zhǔn)確率
  2. 工具調(diào)用格式():確保智能體正確使用記憶操作工具
  3. 記憶壓縮():鼓勵高效利用記憶空間
  4. 內(nèi)容有效性():通過LLM評判器評估記憶質(zhì)量

最終獎勵:(實驗發(fā)現(xiàn)效果最佳)。

記憶系統(tǒng)架構(gòu)

為了展示Mem-α框架的有效性,研究團(tuán)隊設(shè)計了一個包含三種記憶類型的復(fù)雜記憶系統(tǒng),靈感來源于認(rèn)知科學(xué)中的記憶分類理論:

  1. 核心記憶(Core Memory):存儲用戶的基本、持久信息(角色、偏好、目標(biāo)),容量512tokens;
  2. 情景記憶(Episodic Memory):記錄帶時間戳的事件,如 “[9:15]在咖啡館遇見Alice”;
  3. 語義記憶(Semantic Memory):存儲結(jié)構(gòu)化知識和事實,如專業(yè)知識、操作指南等。

每種記憶類型支持插入、更新、刪除操作。智能體需要學(xué)習(xí)在適當(dāng)時機(jī)選擇合適的工具和記憶類型。

訓(xùn)練數(shù)據(jù)集構(gòu)建

Mem-α的訓(xùn)練數(shù)據(jù)集的構(gòu)建思路來源于MemoryAgentBench中的四個維度:

  1. 精確檢索(Accurate Retrieval):從歷史數(shù)據(jù)中提取正確信息以回答查詢,涵蓋單跳和多跳檢索場景
  2. 測試時學(xué)習(xí)(Test-Time Learning):在部署期間獲取新行為或能力
  3. 長期理解(Long-Range Understanding):整合分布在多個片段中的信息,回答需要全面序列分析的查詢
  4. 沖突解決(Conflict Resolution):在遇到矛盾證據(jù)時修訂、覆蓋或刪除先前存儲的信息

本研究聚焦于前三個維度,排除了沖突解決維度。這是因為目前缺乏真實的評估基準(zhǔn)——現(xiàn)有的沖突解決數(shù)據(jù)集主要是合成的,未能充分捕捉真實世界的復(fù)雜性。

研究團(tuán)隊收集并整理了來自不同源頭的八個數(shù)據(jù)集,處理到統(tǒng)一的范式,最后構(gòu)造了一個完善的數(shù)據(jù)集并保證與MemoryAgentBench的測試集沒有交織,涵蓋了以上的前三個維度進(jìn)行訓(xùn)練。

實驗結(jié)果

主實驗:性能與泛化能力

Mem-α在30k tokens上訓(xùn)練,在驗證集(驗證集也是<30k tokens的)上的效果如下:

在測試集上的效果如下:

四個關(guān)鍵發(fā)現(xiàn)

  1. 全面超越現(xiàn)有方法:在所有任務(wù)上顯著優(yōu)于基線。在MemoryAgentBench上,精確檢索(AR)和長期理解(LRU)任務(wù)尤其突出,證明了對未見分布的強(qiáng)泛化能力。
  2. 高效記憶壓縮:相比Long-Context和RAG-Top2,記憶占用減少約50%的同時保持更優(yōu)性能。在BookSum和InfBench-Sum上壓縮效果更佳,驗證了語義壓縮機(jī)制在性能和效率間的平衡。
  3. 結(jié)構(gòu)化架構(gòu)的必要性:扁平記憶基線(MEM1、MemAgent)使用單段落表示,性能明顯受限,凸顯了非結(jié)構(gòu)化記憶在復(fù)雜信息處理中的不足。這驗證了分層記憶設(shè)計和強(qiáng)化學(xué)習(xí)優(yōu)化策略的有效性。
  4. 極強(qiáng)的長度泛化:訓(xùn)練時僅使用平均<30K tokens 的文檔,成功泛化到超過400K tokens的文檔(MemoryAgentBench 多文檔數(shù)據(jù)集最長達(dá)474K),展現(xiàn)了訓(xùn)練框架對極端長度外推的魯棒性。

消融實驗:性能與泛化能力

實驗對比了Qwen3-4B在強(qiáng)化學(xué)習(xí)訓(xùn)練前后的表現(xiàn)。訓(xùn)練前,模型在使用復(fù)雜記憶系統(tǒng)時表現(xiàn)不佳,平均準(zhǔn)確率僅為38.9%,且經(jīng)常出現(xiàn)工具使用錯誤。

經(jīng)過Mem-α訓(xùn)練后,同一模型的性能提升到64.2%,展現(xiàn)出正確的記憶管理行為。

Mem-α證明了當(dāng)涉及LLM智能體的記憶管理時,學(xué)習(xí)勝過工程。

傳統(tǒng)上被視為需要精心工程化的系統(tǒng)組件,實際上可以通過端到端的學(xué)習(xí)得到優(yōu)化,未來,能夠構(gòu)建更智能、更自適應(yīng)的AI系統(tǒng)。

論文鏈接:https://arxiv.org/abs/2509.25911

代碼倉庫:https://github.com/wangyu-ustc/Mem-alpha

開源模型:https://huggingface.co/YuWangX/Memalpha-4B

訓(xùn)練數(shù)據(jù)集:https://huggingface.co/datasets/YuWangX/Memalpha

測試數(shù)據(jù)集: https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-29 00:00:00

LLM上下文窗口系統(tǒng)

2025-05-12 02:50:00

2024-07-12 14:07:04

2025-06-03 08:32:00

2025-08-08 14:06:48

MemToolLLM智能體

2025-09-18 10:10:31

2009-11-06 10:44:31

Visual Stud

2022-09-14 17:12:15

flowable源碼DEMO

2025-08-29 07:47:54

2025-08-08 02:15:00

2020-11-10 09:00:00

JavaMule ESB開發(fā)

2025-10-27 01:11:00

2025-09-12 13:32:48

2009-10-21 10:47:03

Siliverligh

2010-07-07 10:24:46

Python多線程

2010-08-18 09:15:45

路由器網(wǎng)絡(luò)診斷

2025-06-23 09:26:24

2021-02-04 11:53:49

Linuxplatform總線

2020-09-23 07:00:00

Selenium We架構(gòu)

2020-09-04 10:14:02

Linux驅(qū)動7內(nèi)核
點贊
收藏

51CTO技術(shù)棧公眾號