偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM記憶管理終于不用“手把手教”了，新框架讓智能體自主管理記憶系統(tǒng)

2025-10-21 08:53:00

人工智能新聞

來自來自加州大學(xué)圣地亞哥分校、斯坦福大學(xué)的研究人員提出了一個創(chuàng)新的強(qiáng)化學(xué)習(xí)框架。

不再依賴人工設(shè)計，讓模型真正學(xué)會管理記憶。

來自來自加州大學(xué)圣地亞哥分校、斯坦福大學(xué)的研究人員提出了一個創(chuàng)新的強(qiáng)化學(xué)習(xí)框架——

Mem-α，用于訓(xùn)練LLM智能體自主管理復(fù)雜的記憶系統(tǒng)。

在實際應(yīng)用中，僅僅依靠prompts和instructions往往不足以覆蓋所有場景：模型經(jīng)常會遇到不知道如何更新記憶的情況，尤其是當(dāng)記憶系統(tǒng)像MIRIX那樣變得復(fù)雜時。

不同于MIRIX、MemGPT等依賴prompts和instructions的傳統(tǒng)方案，Mem-α采用數(shù)據(jù)驅(qū)動的強(qiáng)化學(xué)習(xí)方法，讓模型在交互中自主學(xué)習(xí)最優(yōu)記憶管理策略。

如何做到的呢？

讓模型真正學(xué)會如何管理記憶

上下文窗口限制&現(xiàn)有記憶系統(tǒng)的缺陷

大語言模型（LLM）智能體受限于有限的上下文窗口，這使得外部記憶系統(tǒng)對于長期信息理解變得至關(guān)重要。

即使像GPT-4.1這樣支持100萬tokens的模型，在長期交互中也會隨著窗口增長而導(dǎo)致成本激增和延遲增加。

當(dāng)前的記憶增強(qiáng)智能體通常依賴預(yù)定義的指令和工具來進(jìn)行記憶更新。

然而，語言模型往往缺乏決定存儲哪些信息、如何結(jié)構(gòu)化組織以及何時更新的能力——尤其是當(dāng)記憶系統(tǒng)變得更加復(fù)雜時。

這種局限性導(dǎo)致了次優(yōu)的記憶構(gòu)建和信息丟失，嚴(yán)重影響了智能體在長期交互中的表現(xiàn)。

如上圖所示，在沒有強(qiáng)化學(xué)習(xí)的情況下，模型在管理記憶系統(tǒng)時會出現(xiàn)明顯的錯誤：核心記憶沒有更新導(dǎo)致重要信息丟失，語義記憶中只保存了單一條目造成信息損失。

而經(jīng)過Mem-α訓(xùn)練后的模型能夠正確地在核心記憶、情景記憶和語義記憶中存儲相應(yīng)信息，實現(xiàn)全面的記憶管理。

Mem-α 強(qiáng)化學(xué)習(xí)框架

Mem-α的核心貢獻(xiàn)在于將記憶構(gòu)建問題轉(zhuǎn)化為一個可通過強(qiáng)化學(xué)習(xí)優(yōu)化的序列決策問題。

與以往依賴監(jiān)督學(xué)習(xí)或手工規(guī)則的方法不同，Mem-α讓智能體在處理信息流的過程中自主探索最優(yōu)的記憶管理策略，并通過下游任務(wù)表現(xiàn)直接獲得反饋。這種端到端的優(yōu)化方式使得模型能夠?qū)W習(xí)到真正有效的記憶構(gòu)建策略。

任務(wù)設(shè)定（Task Setup）

如上圖所示，Mem-α將記憶構(gòu)建建模為順序決策過程。智能體依次處理信息塊，決定執(zhí)行哪些記憶操作，處理完成后利用構(gòu)建的記憶系統(tǒng)回答問題。

訓(xùn)練過程中通過多個獎勵信號（到獲得反饋。被訓(xùn)練的智能體（）專注學(xué)習(xí)記憶管理策略，固定的大語言模型（）負(fù)責(zé)根據(jù)記憶回答問題。

獎勵函數(shù)設(shè)計

Mem-α 采用多維度獎勵函數(shù)優(yōu)化記憶構(gòu)建：

問答準(zhǔn)確率（）：最核心的信號，直接衡量基于記憶回答問題的準(zhǔn)確率
工具調(diào)用格式（）：確保智能體正確使用記憶操作工具
記憶壓縮（）：鼓勵高效利用記憶空間
內(nèi)容有效性（）：通過LLM評判器評估記憶質(zhì)量

最終獎勵：（實驗發(fā)現(xiàn)效果最佳）。

記憶系統(tǒng)架構(gòu)

為了展示Mem-α框架的有效性，研究團(tuán)隊設(shè)計了一個包含三種記憶類型的復(fù)雜記憶系統(tǒng)，靈感來源于認(rèn)知科學(xué)中的記憶分類理論：

核心記憶（Core Memory）：存儲用戶的基本、持久信息（角色、偏好、目標(biāo)），容量512tokens；
情景記憶（Episodic Memory）：記錄帶時間戳的事件，如 “[9:15]在咖啡館遇見Alice”；
語義記憶（Semantic Memory）：存儲結(jié)構(gòu)化知識和事實，如專業(yè)知識、操作指南等。

每種記憶類型支持插入、更新、刪除操作。智能體需要學(xué)習(xí)在適當(dāng)時機(jī)選擇合適的工具和記憶類型。

訓(xùn)練數(shù)據(jù)集構(gòu)建

Mem-α的訓(xùn)練數(shù)據(jù)集的構(gòu)建思路來源于MemoryAgentBench中的四個維度：

精確檢索（Accurate Retrieval）：從歷史數(shù)據(jù)中提取正確信息以回答查詢，涵蓋單跳和多跳檢索場景
測試時學(xué)習(xí)（Test-Time Learning）：在部署期間獲取新行為或能力
長期理解（Long-Range Understanding）：整合分布在多個片段中的信息，回答需要全面序列分析的查詢
沖突解決（Conflict Resolution）：在遇到矛盾證據(jù)時修訂、覆蓋或刪除先前存儲的信息

本研究聚焦于前三個維度，排除了沖突解決維度。這是因為目前缺乏真實的評估基準(zhǔn)——現(xiàn)有的沖突解決數(shù)據(jù)集主要是合成的，未能充分捕捉真實世界的復(fù)雜性。

研究團(tuán)隊收集并整理了來自不同源頭的八個數(shù)據(jù)集，處理到統(tǒng)一的范式，最后構(gòu)造了一個完善的數(shù)據(jù)集并保證與MemoryAgentBench的測試集沒有交織，涵蓋了以上的前三個維度進(jìn)行訓(xùn)練。

實驗結(jié)果

主實驗：性能與泛化能力

Mem-α在30k tokens上訓(xùn)練，在驗證集（驗證集也是<30k tokens的）上的效果如下：

在測試集上的效果如下：

四個關(guān)鍵發(fā)現(xiàn)：

全面超越現(xiàn)有方法：在所有任務(wù)上顯著優(yōu)于基線。在MemoryAgentBench上，精確檢索（AR）和長期理解（LRU）任務(wù)尤其突出，證明了對未見分布的強(qiáng)泛化能力。
高效記憶壓縮：相比Long-Context和RAG-Top2，記憶占用減少約50%的同時保持更優(yōu)性能。在BookSum和InfBench-Sum上壓縮效果更佳，驗證了語義壓縮機(jī)制在性能和效率間的平衡。
結(jié)構(gòu)化架構(gòu)的必要性：扁平記憶基線（MEM1、MemAgent）使用單段落表示，性能明顯受限，凸顯了非結(jié)構(gòu)化記憶在復(fù)雜信息處理中的不足。這驗證了分層記憶設(shè)計和強(qiáng)化學(xué)習(xí)優(yōu)化策略的有效性。
極強(qiáng)的長度泛化：訓(xùn)練時僅使用平均<30K tokens 的文檔，成功泛化到超過400K tokens的文檔（MemoryAgentBench 多文檔數(shù)據(jù)集最長達(dá)474K），展現(xiàn)了訓(xùn)練框架對極端長度外推的魯棒性。

消融實驗：性能與泛化能力

實驗對比了Qwen3-4B在強(qiáng)化學(xué)習(xí)訓(xùn)練前后的表現(xiàn)。訓(xùn)練前，模型在使用復(fù)雜記憶系統(tǒng)時表現(xiàn)不佳，平均準(zhǔn)確率僅為38.9%，且經(jīng)常出現(xiàn)工具使用錯誤。

經(jīng)過Mem-α訓(xùn)練后，同一模型的性能提升到64.2%，展現(xiàn)出正確的記憶管理行為。

Mem-α證明了當(dāng)涉及LLM智能體的記憶管理時，學(xué)習(xí)勝過工程。

傳統(tǒng)上被視為需要精心工程化的系統(tǒng)組件，實際上可以通過端到端的學(xué)習(xí)得到優(yōu)化，未來，能夠構(gòu)建更智能、更自適應(yīng)的AI系統(tǒng)。

論文鏈接：https://arxiv.org/abs/2509.25911

代碼倉庫：https://github.com/wangyu-ustc/Mem-alpha

開源模型：https://huggingface.co/YuWangX/Memalpha-4B

訓(xùn)練數(shù)據(jù)集：https://huggingface.co/datasets/YuWangX/Memalpha

測試數(shù)據(jù)集: https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench

責(zé)任編輯：張燕妮來源：量子位

AI 強(qiáng)化學(xué)習(xí)模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="fv9c3"><track id="fv9c3"><dfn id="fv9c3"></dfn></track></legend>

<sup id="fv9c3"></sup>