偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Memory-R1:強化學習如何大幅提升 LLM 記憶 Agent 能力

譯文 精選
人工智能
大語言模型(LLMs)已成為眾多 AI 突破的核心技術(shù),廣泛應(yīng)用于聊天機器人、編程助手、問答系統(tǒng)、創(chuàng)意寫作等領(lǐng)域。然而,盡管功能強大,這些模型仍然是無狀態(tài)的:每次查詢都是獨立的,無法記住之前的交互內(nèi)容。受到固定上下文窗口的限制,它們無法在長時間對話或跨會話任務(wù)中積累持久記憶,更難以基于復(fù)雜的歷史信息進行推理。

譯者 | 劉汪洋

審校 | 重樓

Memory-R1 通過強化學習為 LLM 智能體提供主動且高效的記憶管理能力,實現(xiàn)了最先進的效果。

大語言模型(LLMs)已成為眾多 AI 突破的核心技術(shù),廣泛應(yīng)用于聊天機器人、編程助手、問答系統(tǒng)、創(chuàng)意寫作等領(lǐng)域。然而,盡管功能強大,這些模型仍然是無狀態(tài)的:每次查詢都是獨立的,無法記住之前的交互內(nèi)容。受到固定上下文窗口的限制,它們無法在長時間對話或跨會話任務(wù)中積累持久記憶,更難以基于復(fù)雜的歷史信息進行推理。雖然檢索增強生成(RAG)等近期方案試圖通過在提示中附加歷史信息來解決這一問題,但往往產(chǎn)生嘈雜、未經(jīng)篩選的上下文,要么用大量無關(guān)細節(jié)淹沒模型,要么遺漏關(guān)鍵信息。

來自慕尼黑大學、慕尼黑工業(yè)大學、劍橋大學和香港大學的聯(lián)合研究團隊提出了 Memory-R1,一個能夠教會 LLM 智能體如何決定記憶內(nèi)容和使用方式的創(chuàng)新框架。在這個框架下,LLM 智能體學會了主動管理和運用外部記憶,可以自主決定哪些信息需要添加、更新、刪除或忽略,并在回答問題時有效過濾噪音。關(guān)鍵創(chuàng)新是利用強化學習(RL)訓(xùn)練這些行為:系統(tǒng)只需要基于結(jié)果的獎勵信號就能學習,大大減少了監(jiān)督需求,同時在多種模型和任務(wù)中都表現(xiàn)出色。

LLMs 為什么難以處理記憶?

設(shè)想這樣一個多輪對話場景:用戶在第一輪中說:"我領(lǐng)養(yǎng)了一只叫 Buddy 的狗。"隨后又補充:"我又領(lǐng)養(yǎng)了一只叫 Scout 的狗。"面對這種情況,系統(tǒng)應(yīng)該替換原有信息、合并兩條信息,還是忽略這次更新?傳統(tǒng)記憶系統(tǒng)往往會判斷失誤,它們可能刪除"Buddy"的記錄并添加"Scout",錯誤地將新信息理解為矛盾而非補充。久而久之,這類系統(tǒng)會失去連貫性,導(dǎo)致用戶知識呈現(xiàn)碎片化而非有機演進。

RAG 系統(tǒng)雖能檢索信息,卻缺乏過濾機制:無關(guān)條目會污染推理過程,噪音干擾模型的注意力。而人類的做法截然不同,我們會廣泛搜索信息,然后有選擇地篩選出重要內(nèi)容。目前大多數(shù) AI 記憶系統(tǒng)都是靜態(tài)的,依賴人工設(shè)計的啟發(fā)式規(guī)則來決定記憶內(nèi)容,而非通過反饋進行學習。

Memory-R1 框架

Memory-R1 的核心架構(gòu)包含兩個專門的 RL 微調(diào)智能體:

  • 記憶管理器:在每輪對話結(jié)束后決定執(zhí)行何種記憶操作(添加、更新、刪除或無操作),動態(tài)維護外部記憶庫。
  • 回答 Agent:針對每個用戶問題,檢索最多 60 個候選記憶片段,將其精煉為最相關(guān)的子集,然后基于這些過濾后的上下文進行推理并生成答案。

兩個組件均采用強化學習進行訓(xùn)練——具體使用近端策略優(yōu)化(PPO)或群體相對策略優(yōu)化(GRPO)算法——僅將問答準確性作為獎勵信號。這意味著智能體無需人工標注的記憶操作數(shù)據(jù),而是通過試錯機制學習,直接優(yōu)化最終任務(wù)性能。

記憶管理器:學習編輯知識

每輪對話結(jié)束后,LLM 會提取其中的關(guān)鍵事實。記憶管理器隨即從記憶庫中檢索相關(guān)條目,并選擇相應(yīng)的操作:

  • 添加:插入尚未存在的新信息。
  • 更新:當新細節(jié)詳細說明或完善先前事實時,將其合并到現(xiàn)有記憶中。
  • 刪除:移除過時或矛盾的信息。
  • 無操作:如果沒有添加相關(guān)內(nèi)容,則保持記憶不變。

訓(xùn)練:記憶管理器根據(jù)回答 Agent 基于新編輯的記憶庫所生成答案的質(zhì)量來進行更新。如果記憶操作能夠幫助回答 Agent 生成準確回答,記憶管理器就會獲得正獎勵。這種基于結(jié)果的獎勵機制避免了對記憶操作進行大量人工標注。

具體案例:當用戶先說"我領(lǐng)養(yǎng)了一只叫 Buddy 的狗",后來又說"我又領(lǐng)養(yǎng)了一只叫 Scout 的狗"時,傳統(tǒng)系統(tǒng)往往會刪除"Buddy"的記錄并添加"Scout",錯誤地將其視為矛盾信息。而經(jīng)過 RL 訓(xùn)練的記憶管理器則會更新記憶為:"Andrew 領(lǐng)養(yǎng)了兩只狗,Buddy 和 Scout",從而維持了知識庫的連貫性和成長性。

消融實驗:RL 微調(diào)顯著改善了記憶管理,PPO 和 GRPO 都優(yōu)于基于上下文的啟發(fā)式管理器。系統(tǒng)實現(xiàn)了知識的融合貫通,而非割裂分散。

回答 Agent:選擇性推理

對于每個問題,系統(tǒng)使用 RAG 檢索多達 60 個候選記憶。但回答 Agent不是將所有這些都輸入給 LLM,而是首先對候選集進行提煉,只保留最相關(guān)的條目,然后再生成答案。

訓(xùn)練:回答 Agent 也使用 RL 訓(xùn)練,使用其答案與標準答案之間的精確匹配作為獎勵。這鼓勵它專注于過濾噪音和在高質(zhì)量上下文上進行推理。

示例:當被問到"John 住在海灘附近還是山區(qū)附近?"時,傳統(tǒng) LLM 受到無關(guān)記憶的影響可能輸出"山區(qū)"。然而,Memory-R1 的回答 Agent 在回答之前只提取海灘相關(guān)的條目,從而得出正確的"海灘"回答。

消融實驗結(jié)果:RL 微調(diào)顯著提升了靜態(tài)檢索的答案質(zhì)量。記憶精煉(過濾無關(guān)記憶)機制進一步提升了性能表現(xiàn)。在更優(yōu)秀的記憶管理器配合下,收益更為明顯,產(chǎn)生了多重疊加的改進效果。

訓(xùn)練數(shù)據(jù)效率

Memory-R1 的訓(xùn)練非常高效:只用 152 個問答對就能訓(xùn)練出有效的模型。原因在于智能體能直接從最終結(jié)果中學習,不需要大量人工標注的記憶操作數(shù)據(jù)。這種最小化監(jiān)督的方式使系統(tǒng)能夠輕松擴展到大規(guī)模、真實世界的對話歷史場景。

評估采用的 LOCOMO 基準包含多輪對話(每個對話約 600 輪,平均 26,000 tokens)及相應(yīng)的問答對,涵蓋單跳推理、多跳推理、開放域問答和時間推理等多個維度——這為測試長期記憶管理能力提供了理想的評估環(huán)境。

實驗結(jié)果

研究團隊在 LLaMA-3.1-8B-Instruct 和 Qwen-2.5-7B-Instruct 兩個基礎(chǔ)模型上測試了 Memory-R1,并與多個對比基準(LOCOMO、Zep、A-Mem、LangMem、Mem0)進行對比。主要評估指標包括:

  • F1 分數(shù):衡量預(yù)測答案與標準答案之間的重疊程度。
  • BLEU-1 分數(shù):評估單詞級別的詞匯相似性。
  • LLM 評判:采用獨立的 LLM 代替人類來評估答案的事實準確性、相關(guān)性和完整性。
  • 實驗結(jié)果:Memory-R1-GRPO 實現(xiàn)了最佳整體性能,在 LLaMA-3.1-8B 模型上相比 Mem0(此前的最佳基線)實現(xiàn)了 F1 分數(shù) 48% 的提升、BLEU-1 分數(shù) 69% 的提升,以及 LLM 評判分數(shù) 37% 的提升。在 Qwen-2.5-7B 模型上也觀察到了類似的明顯改進。這些改進效果涵蓋各類問題,且在多種模型架構(gòu)中都能復(fù)現(xiàn)。

為什么這很重要

Memory-R1 證明了記憶管理和利用能力是可以習得的,LLM 智能體無需依賴脆弱的啟發(fā)式規(guī)則。通過采用結(jié)果驅(qū)動的 RL 方法,該系統(tǒng)實現(xiàn)了:

  • 知識的自動整合,伴隨對話發(fā)展而非簡單分割或覆蓋。
  • 有效的噪音過濾,在回答過程中提升事實準確性和推理質(zhì)量。
  • 高效的學習機制,僅需少量監(jiān)督即可擴展至真實世界的長期任務(wù)。
  • 良好的跨模型泛化性,為下一代智能體式、記憶感知 AI 系統(tǒng)奠定了堅實基礎(chǔ)。

結(jié)論

Memory-R1 成功將 LLM 智能體從無狀態(tài)限制中解放出來,通過強化學習賦予它們有效管理和運用長期記憶的能力。通過將記憶操作和信息過濾重新定義為 RL 問題,該方法以最小的監(jiān)督需求和優(yōu)異的通用性達到了頂尖的性能表現(xiàn)。這意味著 AI 系統(tǒng)正從單純的對話能力邁向具備記憶、學習和推理能力的智能體,為用戶提供更加豐富、持久且實用的 AI 體驗。

常見問題解答

問題1:Memory-R1 相比傳統(tǒng) LLM 記憶系統(tǒng)有何優(yōu)勢?

Memory-R1 采用強化學習主動管理記憶,即智能決定信息的添加、更新、刪除或保留。相比靜態(tài)的啟發(fā)式方法,實現(xiàn)了更加智能的知識整合和更少的信息碎片化。

問題2:Memory-R1如何提升長對話中的答案質(zhì)量?

回答 Agent 采用"記憶精煉"策略:從檢索到的最多 60 個記憶片段中篩選出與當前問題最相關(guān)的內(nèi)容,相比于簡單地將所有上下文直接輸入模型,這種方式有效減少了噪音干擾并大幅改善了事實準確性。

問題3:Memory-R1 的訓(xùn)練數(shù)據(jù)效率如何?

非常高效。Memory-R1 僅使用 152 個問答對就達到了業(yè)界領(lǐng)先的性能提升,這得益于其面向結(jié)果的 RL 獎勵機制,避免了對每個記憶操作進行昂貴人工標注的需要。

查看論文鏈接。歡迎查看我們的GitHub頁面獲取教程、代碼和筆記。

原文標題:Memory-R1: How Reinforcement Learning Supercharges LLM Memory Agents,作者:Asif Razzaq

譯者介紹

劉汪洋,51CTO社區(qū)編輯,昵稱:明明如月,一個擁有 5 年開發(fā)經(jīng)驗的某大廠高級 Java 工程師。

責任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-09-30 14:40:00

AI強化學習框架

2025-06-23 09:09:00

2025-03-25 09:12:00

LIMAI模型

2025-10-11 04:00:00

2023-04-23 10:12:14

算法強化學習

2025-05-30 04:00:00

IBMRLVRGRPO

2025-05-28 02:25:00

2025-04-09 09:41:43

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2024-09-13 06:32:25

2025-02-25 08:06:05

2025-06-16 08:46:00

2025-04-25 13:34:53

R1DeepSeekAgent

2025-06-09 09:32:35

2025-06-10 11:22:09

強化學習AI模型

2025-03-07 09:24:00

2025-06-05 06:36:17

2025-06-23 09:26:24

2025-04-27 09:23:00

模型訓(xùn)練AI

2025-10-11 09:02:40

點贊
收藏

51CTO技術(shù)棧公眾號