LLM記憶管理終于不用“手把手教”了,新框架讓智能體自主管理記憶系統(tǒng)
不再依賴人工設(shè)計,讓模型真正學(xué)會管理記憶。
來自來自加州大學(xué)圣地亞哥分校、斯坦福大學(xué)的研究人員提出了一個創(chuàng)新的強(qiáng)化學(xué)習(xí)框架——
Mem-α,用于訓(xùn)練LLM智能體自主管理復(fù)雜的記憶系統(tǒng)。

在實際應(yīng)用中,僅僅依靠prompts和instructions往往不足以覆蓋所有場景:模型經(jīng)常會遇到不知道如何更新記憶的情況,尤其是當(dāng)記憶系統(tǒng)像MIRIX那樣變得復(fù)雜時。
不同于MIRIX、MemGPT等依賴prompts和instructions的傳統(tǒng)方案,Mem-α采用數(shù)據(jù)驅(qū)動的強(qiáng)化學(xué)習(xí)方法,讓模型在交互中自主學(xué)習(xí)最優(yōu)記憶管理策略。
如何做到的呢?
讓模型真正學(xué)會如何管理記憶
上下文窗口限制&現(xiàn)有記憶系統(tǒng)的缺陷
大語言模型(LLM)智能體受限于有限的上下文窗口,這使得外部記憶系統(tǒng)對于長期信息理解變得至關(guān)重要。
即使像GPT-4.1這樣支持100萬tokens的模型,在長期交互中也會隨著窗口增長而導(dǎo)致成本激增和延遲增加。
當(dāng)前的記憶增強(qiáng)智能體通常依賴預(yù)定義的指令和工具來進(jìn)行記憶更新。
然而,語言模型往往缺乏決定存儲哪些信息、如何結(jié)構(gòu)化組織以及何時更新的能力——尤其是當(dāng)記憶系統(tǒng)變得更加復(fù)雜時。
這種局限性導(dǎo)致了次優(yōu)的記憶構(gòu)建和信息丟失,嚴(yán)重影響了智能體在長期交互中的表現(xiàn)。

如上圖所示,在沒有強(qiáng)化學(xué)習(xí)的情況下,模型在管理記憶系統(tǒng)時會出現(xiàn)明顯的錯誤:核心記憶沒有更新導(dǎo)致重要信息丟失,語義記憶中只保存了單一條目造成信息損失。
而經(jīng)過Mem-α訓(xùn)練后的模型能夠正確地在核心記憶、情景記憶和語義記憶中存儲相應(yīng)信息,實現(xiàn)全面的記憶管理。
Mem-α 強(qiáng)化學(xué)習(xí)框架
Mem-α的核心貢獻(xiàn)在于將記憶構(gòu)建問題轉(zhuǎn)化為一個可通過強(qiáng)化學(xué)習(xí)優(yōu)化的序列決策問題。
與以往依賴監(jiān)督學(xué)習(xí)或手工規(guī)則的方法不同,Mem-α讓智能體在處理信息流的過程中自主探索最優(yōu)的記憶管理策略,并通過下游任務(wù)表現(xiàn)直接獲得反饋。這種端到端的優(yōu)化方式使得模型能夠?qū)W習(xí)到真正有效的記憶構(gòu)建策略。
任務(wù)設(shè)定(Task Setup)

如上圖所示,Mem-α將記憶構(gòu)建建模為順序決策過程。智能體依次處理信息塊,決定執(zhí)行哪些記憶操作,處理完成后利用構(gòu)建的記憶系統(tǒng)回答問題。
訓(xùn)練過程中通過多個獎勵信號(
到
獲得反饋。被訓(xùn)練的智能體(
)專注學(xué)習(xí)記憶管理策略,固定的大語言模型(
)負(fù)責(zé)根據(jù)記憶回答問題。
獎勵函數(shù)設(shè)計
Mem-α 采用多維度獎勵函數(shù)優(yōu)化記憶構(gòu)建:
- 問答準(zhǔn)確率(
):最核心的信號,直接衡量基于記憶回答問題的準(zhǔn)確率 - 工具調(diào)用格式(
):確保智能體正確使用記憶操作工具 - 記憶壓縮(
):鼓勵高效利用記憶空間 - 內(nèi)容有效性(
):通過LLM評判器評估記憶質(zhì)量
最終獎勵:
(實驗發(fā)現(xiàn)
效果最佳)。
記憶系統(tǒng)架構(gòu)
為了展示Mem-α框架的有效性,研究團(tuán)隊設(shè)計了一個包含三種記憶類型的復(fù)雜記憶系統(tǒng),靈感來源于認(rèn)知科學(xué)中的記憶分類理論:

- 核心記憶(Core Memory):存儲用戶的基本、持久信息(角色、偏好、目標(biāo)),容量512tokens;
- 情景記憶(Episodic Memory):記錄帶時間戳的事件,如 “[9:15]在咖啡館遇見Alice”;
- 語義記憶(Semantic Memory):存儲結(jié)構(gòu)化知識和事實,如專業(yè)知識、操作指南等。
每種記憶類型支持插入、更新、刪除操作。智能體需要學(xué)習(xí)在適當(dāng)時機(jī)選擇合適的工具和記憶類型。
訓(xùn)練數(shù)據(jù)集構(gòu)建
Mem-α的訓(xùn)練數(shù)據(jù)集的構(gòu)建思路來源于MemoryAgentBench中的四個維度:
- 精確檢索(Accurate Retrieval):從歷史數(shù)據(jù)中提取正確信息以回答查詢,涵蓋單跳和多跳檢索場景
- 測試時學(xué)習(xí)(Test-Time Learning):在部署期間獲取新行為或能力
- 長期理解(Long-Range Understanding):整合分布在多個片段中的信息,回答需要全面序列分析的查詢
- 沖突解決(Conflict Resolution):在遇到矛盾證據(jù)時修訂、覆蓋或刪除先前存儲的信息
本研究聚焦于前三個維度,排除了沖突解決維度。這是因為目前缺乏真實的評估基準(zhǔn)——現(xiàn)有的沖突解決數(shù)據(jù)集主要是合成的,未能充分捕捉真實世界的復(fù)雜性。
研究團(tuán)隊收集并整理了來自不同源頭的八個數(shù)據(jù)集,處理到統(tǒng)一的范式,最后構(gòu)造了一個完善的數(shù)據(jù)集并保證與MemoryAgentBench的測試集沒有交織,涵蓋了以上的前三個維度進(jìn)行訓(xùn)練。
實驗結(jié)果
主實驗:性能與泛化能力
Mem-α在30k tokens上訓(xùn)練,在驗證集(驗證集也是<30k tokens的)上的效果如下:

在測試集上的效果如下:

四個關(guān)鍵發(fā)現(xiàn):
- 全面超越現(xiàn)有方法:在所有任務(wù)上顯著優(yōu)于基線。在MemoryAgentBench上,精確檢索(AR)和長期理解(LRU)任務(wù)尤其突出,證明了對未見分布的強(qiáng)泛化能力。
- 高效記憶壓縮:相比Long-Context和RAG-Top2,記憶占用減少約50%的同時保持更優(yōu)性能。在BookSum和InfBench-Sum上壓縮效果更佳,驗證了語義壓縮機(jī)制在性能和效率間的平衡。
- 結(jié)構(gòu)化架構(gòu)的必要性:扁平記憶基線(MEM1、MemAgent)使用單段落表示,性能明顯受限,凸顯了非結(jié)構(gòu)化記憶在復(fù)雜信息處理中的不足。這驗證了分層記憶設(shè)計和強(qiáng)化學(xué)習(xí)優(yōu)化策略的有效性。
- 極強(qiáng)的長度泛化:訓(xùn)練時僅使用平均<30K tokens 的文檔,成功泛化到超過400K tokens的文檔(MemoryAgentBench 多文檔數(shù)據(jù)集最長達(dá)474K),展現(xiàn)了訓(xùn)練框架對極端長度外推的魯棒性。
消融實驗:性能與泛化能力

實驗對比了Qwen3-4B在強(qiáng)化學(xué)習(xí)訓(xùn)練前后的表現(xiàn)。訓(xùn)練前,模型在使用復(fù)雜記憶系統(tǒng)時表現(xiàn)不佳,平均準(zhǔn)確率僅為38.9%,且經(jīng)常出現(xiàn)工具使用錯誤。
經(jīng)過Mem-α訓(xùn)練后,同一模型的性能提升到64.2%,展現(xiàn)出正確的記憶管理行為。
Mem-α證明了當(dāng)涉及LLM智能體的記憶管理時,學(xué)習(xí)勝過工程。
傳統(tǒng)上被視為需要精心工程化的系統(tǒng)組件,實際上可以通過端到端的學(xué)習(xí)得到優(yōu)化,未來,能夠構(gòu)建更智能、更自適應(yīng)的AI系統(tǒng)。
論文鏈接:https://arxiv.org/abs/2509.25911
代碼倉庫:https://github.com/wangyu-ustc/Mem-alpha
開源模型:https://huggingface.co/YuWangX/Memalpha-4B
訓(xùn)練數(shù)據(jù)集:https://huggingface.co/datasets/YuWangX/Memalpha
測試數(shù)據(jù)集: https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench






























