重塑記憶架構(gòu)：LLM正在安裝「操作系統(tǒng)」

2025-07-16 13:00:26

超長上下文窗口的大模型也會(huì)經(jīng)常「失憶」，「記憶」也是需要管理的。

眾所周知，現(xiàn)代大型語言模型（LLM）的上下文窗口普遍有限 —— 大多數(shù)模型只能處理數(shù)千到數(shù)萬 token，比如早期的 GPT-3 僅有～2,048 token。雖然近期有些模型已經(jīng)拓展到了百萬級(jí)甚至千萬級(jí) token 窗口（如 Meta 的 Llama 4 Scout 宣稱可達(dá) 1,000 萬 token）。

圖中顯示了 LLM 上下文窗口大小的演變。

image.png

注意：token 數(shù)量為近似最大值。「GPT-4.1」指的是 2025 年 4 月更新的 GPT-4，「Scout」是專為長上下文設(shè)計(jì)的 17B 參數(shù) Llama 4 變體。

LLM 存在一個(gè)內(nèi)在的「記憶缺陷」，即擁有的上下文窗口是有限的，這嚴(yán)重限制了它們?cè)诙噍喆巍⒍鄷?huì)話的長期交互中維持一致性的能力。

也因此，現(xiàn)代 LLM 普遍難以維持長期記憶。這對(duì)很多應(yīng)用來說實(shí)在相當(dāng)不妙，畢竟記憶是實(shí)現(xiàn)反思和規(guī)劃的關(guān)鍵，也是智能體系統(tǒng)不可或缺的重要組成部分。

image.png

基于 LLM 的自主智能體系統(tǒng)概況圖，圖源 Lil'Log https://lilianweng.github.io/posts/2023-06-23-agent/

近段時(shí)間，關(guān)于大模型記憶的相關(guān)研究多了起來，前些天開源的 MemOS 就吸引了不少眼球。

與傳統(tǒng) RAG 或純參數(shù)存儲(chǔ)不同，MemOS 把「記憶」看作一種和算力同等重要的系統(tǒng)資源。對(duì)于大模型的長期記憶進(jìn)行持續(xù)更新管理，將明文、激活狀態(tài)和參數(shù)記憶統(tǒng)一在同一個(gè)框架里進(jìn)行調(diào)度、融合、歸檔和權(quán)限管理，讓大模型擁有了擁有了持續(xù)進(jìn)化和自我更新的能力。

大模型記憶與長上下文處理能力密不可分

之前探討的大模型，能處理大量的 token，甚至達(dá)到千萬 token 級(jí)別，這些均屬于 LLM 的長上下文處理能力。實(shí)際的 LLM 使用經(jīng)驗(yàn)告訴我們，具有強(qiáng)大長上下文處理能力的 LLM 都具有更強(qiáng)的記憶能力。

長上下文（Long Context）

指模型在當(dāng)前推理過程中能「看到」的歷史文本長度。
本質(zhì)上是一次性輸入到模型中的序列長度。
用于解決如文檔問答、多輪對(duì)話、代碼分析等需要上下文保持的任務(wù)。

「長上下文處理能力」包括：

長度泛化能力：模型在訓(xùn)練中未見過的更長的序列上進(jìn)行外推的能力。如果超出訓(xùn)練長度，某些模型會(huì)災(zāi)難性地失敗。

高效注意力能力：減少長序列計(jì)算 / 內(nèi)存消耗的機(jī)制（亞平方算法）。這可能包括近似注意力、稀疏模式或完全替代的架構(gòu)。

信息保留能力：指模型實(shí)際利用遠(yuǎn)距信息的能力。如果模型在一定位置之后實(shí)際上忽略了上下文內(nèi)容，那么即使擁有龐大的上下文窗口也是無效的。如果訓(xùn)練不當(dāng)，模型可能出現(xiàn)注意力權(quán)重衰減或在超過一定長度后丟失上下文等現(xiàn)象。

提示詞與利用能力：研究如何設(shè)計(jì)提示詞（prompt）以最大限度發(fā)揮長上下文的優(yōu)勢。

記憶（Memory）

指模型跨多輪對(duì)話 / 使用所保留的信息。
是一種持久化機(jī)制，記錄關(guān)于用戶、對(duì)話、偏好等信息。

SwirlAI 創(chuàng)始人兼 CEO Aurimas Griciūnas 認(rèn)為，可以將 LLM 的記憶分為以下類型：

image.png

1. 事件記憶 - 這種類型的記憶包含代理過去的交互和執(zhí)行的操作。每當(dāng)完成某個(gè)操作，控制系統(tǒng)會(huì)將該操作信息寫入持久化存儲(chǔ)中，便于未來調(diào)用或回溯。

2. 語義記憶 - 語義記憶包括可訪問的外部知識(shí)信息，以及其對(duì)自身狀態(tài)和能力的理解。這種記憶既可以是僅代理內(nèi)部可見的背景知識(shí)，也可以是用于限制信息范圍、提升回答準(zhǔn)確性的錨定上下文（grounding context），從海量互聯(lián)網(wǎng)數(shù)據(jù)中篩選出與當(dāng)前任務(wù)相關(guān)的信息。

3. 程序性記憶 - 程序性記憶指的是與系統(tǒng)運(yùn)行機(jī)制相關(guān)的結(jié)構(gòu)性信息，例如系統(tǒng)提示詞（system prompt）的格式、可調(diào)用的工具、預(yù)設(shè)的行為邊界（guardrails）等。

4. 在特定任務(wù)場景下，代理系統(tǒng)會(huì)根據(jù)需求從長期記憶中調(diào)取相關(guān)信息，并暫存于本地緩存，以便快速訪問和任務(wù)執(zhí)行。

5. 從長期記憶中調(diào)取的信息與當(dāng)前局部緩存的信息共同構(gòu)成了代理的工作記憶（也稱短期記憶）。這些信息會(huì)被整合成最終輸入給大語言模型（LLM）的提示詞，用于指導(dǎo)其生成后續(xù)行為指令或任務(wù)響應(yīng)。

如圖所示，通常將 1 - 3 標(biāo)記為長期記憶，將 5 標(biāo)記為短期記憶。

image.png

長上下文能力和記憶能力可協(xié)同工作：

記憶系統(tǒng)中的信息（如用戶偏好）可被注入到上下文中，作為提示的一部分；
長上下文窗口能幫助模型在當(dāng)前對(duì)話中維持短期「記憶」，減少依賴記憶系統(tǒng)。

實(shí)現(xiàn) LLM 記憶的幾種方法

長上下文的方法

正如前文討論的，當(dāng)對(duì)話內(nèi)容超出了上下文長度時(shí)，LLM 可能會(huì)出現(xiàn)忘記用戶的喜好、重復(fù)提問，甚至與之前確認(rèn)的事實(shí)相沖突的現(xiàn)象。最直接的提高 LLM 記憶能力的方法就是提高 LLM 的長上下文處理能力。目前，提高 LLM 長上下文處理能力的方法有：

1、RAG （檢索增強(qiáng)生成，Retrieval-augmented Generation）作為構(gòu)建知識(shí)庫并檢索引導(dǎo) LLM 生成的方法具有非常強(qiáng)的泛用性。通過將結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可檢索的語義表示，RAG 實(shí)現(xiàn)了「先檢索、再生成」的流程，使得 LLM 能夠結(jié)合外部知識(shí)應(yīng)對(duì)事實(shí)性問題，減少幻覺。

RAG 架構(gòu)支持對(duì)文檔動(dòng)態(tài)更新，便于構(gòu)建實(shí)時(shí)可擴(kuò)展可編輯的知識(shí)體系，這為后續(xù)的 LLM 記憶的構(gòu)建和記憶系統(tǒng)的設(shè)計(jì)提供了基礎(chǔ)。

圖中對(duì)比 RAG 流程與純長上下文方法的差異，RAG 效率高，但可能遺漏間接上下文；長上下文使用雖然全面，但需要模型處理非常大的輸入。

2、分層摘要：在對(duì)一本書進(jìn)行總結(jié)時(shí)，可以通過遞歸的方式將每一章分別進(jìn)行摘要，得到中間摘要，然后再對(duì)這些中間摘要進(jìn)行進(jìn)一步總結(jié)，依此類推。這種方法可以應(yīng)對(duì)遠(yuǎn)超模型上下文長度的輸入，但其操作流程較為繁瑣，且容易在多輪摘要過程中引入和累積錯(cuò)誤。

3、滑動(dòng)窗口推理：對(duì)于需要對(duì)長文本進(jìn)行閱讀理解等任務(wù)，可以將模型應(yīng)用于文本的滑動(dòng)窗口上（例如，第 1–5 段，然后是第 2–6 段，依此類推），再通過某種方法或次級(jí)模型對(duì)各窗口的輸出結(jié)果進(jìn)行整合。

研究人員探索了多種算法途徑來擴(kuò)展上下文窗口。廣義而言，這些方法可以分為：(a) 用于長度外推的位置編碼方法，(b) 高效或稀疏注意力架構(gòu)，（c) 替代序列模型（取代自注意力），以及 (d) 混合或記憶增強(qiáng)方法。

了解更多有關(guān) LLM 長上下文窗口的細(xì)節(jié)信息，可以參閱來自 Dr. Adnan Masood 的文章：

文章鏈接：https://medium.com/%40adnanmasood/long-context-windows-in-large-language-models-applications-in-comprehension-and-code-03bf4027066f

記憶的方法

盡管上下文能力與大模型記憶緊密相關(guān)，但上下文窗口并不能直接等價(jià)于記憶。

以構(gòu)建一個(gè)聊天機(jī)器人為例，該機(jī)器人需要記住用戶在此前對(duì)話中說過的話。隨著對(duì)話長度的增加，記憶管理會(huì)將信息從輸入上下文中移出，存入一個(gè)可搜索的持久數(shù)據(jù)庫；同時(shí)對(duì)信息進(jìn)行總結(jié)，以便將相關(guān)事實(shí)保留在輸入上下文中；還會(huì)在需要時(shí)從較早的對(duì)話中恢復(fù)相關(guān)內(nèi)容。這種機(jī)制使得聊天機(jī)器人能夠在生成下一輪回復(fù)時(shí)，將當(dāng)前最相關(guān)的信息保留在其輸入上下文記憶中。

基于記憶的方法看上去與 RAG 非常相似，實(shí)際上也確實(shí)如此。大致上分為兩種類型。

固定記憶池

一類方法采用外部編碼器將知識(shí)注入到記憶池中，例如 Memory Network，其重點(diǎn)在于解決 RNN 中的遺忘問題。后續(xù)工作則通過計(jì)算整個(gè)記憶池的加權(quán)和，作為記憶的代表向量。最具代表性的工作 MemoryLLM，在 LLM 的潛在空間中集成了一個(gè)內(nèi)置記憶池。這個(gè)記憶池的設(shè)計(jì)目標(biāo)是：在固定容量的限制下，實(shí)現(xiàn)新知識(shí)的有效整合，并最大程度地減少信息遺忘，從而避免記憶無限增長的問題。

另一類方法則直接使用語言模型本身作為編碼器來更新記憶。例如，Memory Transformer 以及 RMT，提出在讀取上下文時(shí)添加記憶 token，其中記憶池最多包含 20 個(gè) token。

盡管這些固定大小的記憶池在實(shí)驗(yàn)中表現(xiàn)出一定的效果，但其性能仍受到記憶容量限制。

非固定記憶池

其他基于記憶的方法通常采用非固定大小的記憶池，并引入不同的遺忘機(jī)制以應(yīng)對(duì)記憶不斷增長的問題。在這些方法中，記憶池通常以以下幾種形式存在：

1. 隱藏狀態(tài)（hidden states）：如 MemoryBank，將中間表示作為可持久化的記憶內(nèi)容存儲(chǔ)。

2. 鍵值對(duì)（key-value pairs）：代表性方法包括 KNN-LM 和 LONGMEM，以可檢索的鍵值結(jié)構(gòu)進(jìn)行知識(shí)保存和回調(diào)。

3. 隱藏空間向量（vectors in hidden space）：如 Memformer 通過在潛在空間中保存向量來增強(qiáng)上下文記憶。

4. 原始文本（raw texts）：如 RET-LLM，將知識(shí)以三元組的形式存入記憶中，并通過 API 查詢方式，在當(dāng)前上下文下檢索相關(guān)信息。

這些方法提供了更靈活的記憶機(jī)制，但由于缺乏結(jié)構(gòu)化的壓縮與管理手段，存儲(chǔ)的知識(shí)可能存在冗余，影響記憶效率與模型推理性能。

有關(guān)大模型記憶的部分技術(shù)，可以參考以下論文：

論文標(biāo)題：MemoryLLM: Towards Self-Updatable Large Language Models
論文鏈接：https://arxiv.org/abs/2402.04624

記憶數(shù)據(jù)管理：記憶系統(tǒng)

據(jù)前文所述，LLM 的記憶與數(shù)據(jù)庫非常相似。雖然 RAG 引入了純文本的外部知識(shí)，但它仍然是一種無狀態(tài)的工作方法，缺乏生命周期管理與持久表示的整合能力。

記憶系統(tǒng)本質(zhì)上和 RAG 檢索是幾乎一致的，但記憶系統(tǒng)機(jī)制會(huì)在記憶存儲(chǔ)的基礎(chǔ)上增加更豐富的信息組織、信息管理和信息檢索方法，將記憶存儲(chǔ)管理與計(jì)算機(jī)操作系統(tǒng)的原理相結(jié)合，能夠構(gòu)建更加完善的記憶機(jī)制，使 LLM 擁有更持久的記憶。

近期有關(guān) LLM 記憶系統(tǒng)的研究逐步走入聚光燈下，大多受傳統(tǒng)操作系統(tǒng)的內(nèi)存機(jī)制啟發(fā)，建立了全新架構(gòu)的記憶管理模式。以近期幾個(gè)具有代表性的研究工作為例：

Coursera 聯(lián)合創(chuàng)始人，前百度 AI 部門總負(fù)責(zé)人，前 Google Brain 項(xiàng)目創(chuàng)始成員與負(fù)責(zé)人吳恩達(dá)在近期的短課程中提到：

大型語言模型（LLM）的輸入上下文窗口具有有限空間。使用更長的輸入上下文不僅成本更高，而且處理速度更慢。因此，管理存儲(chǔ)在該上下文窗口中的內(nèi)容至關(guān)重要。

在論文《MemGPT: Towards LLMs as Operating Systems》中，作者提出使用一個(gè) LLM 代理來管理該上下文窗口。該系統(tǒng)配備了一個(gè)大型的持久內(nèi)存，用于存儲(chǔ)所有可能被納入輸入上下文的信息，而一個(gè)代理則負(fù)責(zé)決定哪些信息實(shí)際被包含進(jìn)去。該技術(shù)受傳統(tǒng)操作系統(tǒng)中分層內(nèi)存系統(tǒng)的啟發(fā)：通過在物理內(nèi)存與磁盤之間進(jìn)行分頁，實(shí)現(xiàn)擴(kuò)展虛擬內(nèi)存的假象。

論文標(biāo)題：MemGPT: Towards LLMs as Operating Systems
論文鏈接：https://arxiv.org/abs/2310.08560

記憶張量（上海）科技有限公司聯(lián)合上海交通大學(xué)、中國人民大學(xué)、同濟(jì)大學(xué)、浙江大學(xué)、中國電信等多家頂尖團(tuán)隊(duì)發(fā)布了 MemOS（Memory Operating System），一套面向大模型的工業(yè)級(jí)記憶操作系統(tǒng)。在技術(shù)實(shí)現(xiàn)層面，MemOS 借鑒了傳統(tǒng)操作系統(tǒng)的分層架構(gòu)設(shè)計(jì)，也融合了 Memory3（憶立方）大模型在記憶分層管理方面的核心機(jī)制。整個(gè)系統(tǒng)由 API 與應(yīng)用接口層、記憶調(diào)度與管理層、記憶存儲(chǔ)與基礎(chǔ)設(shè)施層三大核心層次組成，構(gòu)建了一套從用戶交互到底層存儲(chǔ)的全鏈路記憶管理閉環(huán)。

image.png

項(xiàng)目官網(wǎng)：https://memos.openmem.net
論文鏈接：https://memos.openmem.net/paper_memos_v2

北郵百家 AI 團(tuán)隊(duì)推出首個(gè)大模型記憶操作系統(tǒng)開源框架 MemoryOS，借鑒了現(xiàn)代操作系統(tǒng)中成熟的內(nèi)存管理原則，采用短期、中期、長期三級(jí)分層記憶存儲(chǔ)體系（實(shí)時(shí)對(duì)話存儲(chǔ)、主題信息整合、個(gè)性化知識(shí)沉淀），包含四大核心功能：記憶存儲(chǔ)、記憶更新、記憶檢索和響應(yīng)生成，全方位管理 AI 記憶系統(tǒng)。

image.png

項(xiàng)目地址：https://github.com/BAI-LAB/MemoryOS
論文鏈接：https://arxiv.org/abs/2506.06326

加利福尼亞大學(xué)圣迭戈分校（UCSD）博士生 Yu Wang 和紐約大學(xué)教授陳溪（Xi Chen）聯(lián)合推出并開源了 MIRIX —— 全球首個(gè)真正意義上的多模態(tài)、多智能體 AI 記憶系統(tǒng)。MIRIX 擁有六類核心記憶，能夠細(xì)分認(rèn)知角色。提出了一種模塊化多智能體架構(gòu)（multi-agent architecture），由若干專用組件在統(tǒng)一調(diào)度機(jī)制下協(xié)作完成輸入處理、記憶更新和信息檢索。

論文標(biāo)題：MIRIX: Multi-Agent Memory System for LLM-Based Agents
論文鏈接：https://arxiv.org/abs/2507.07957

除此以外，在針對(duì) LLM 記憶管理與更新的前沿研究工作中，另一類參考人類神經(jīng)或人類大腦記憶的模式同樣取得了很好的結(jié)果。

Larimar —— 一種受大腦啟發(fā)的新型架構(gòu)，用于通過分布式情景記憶增強(qiáng) LLMs。人類能非常迅速地執(zhí)行知識(shí)更新和泛化，在大腦中，這種快速學(xué)習(xí)被認(rèn)為依賴于海馬體及其情景記憶能力。該工作受人類情景記憶能力的啟發(fā)，構(gòu)建了分層內(nèi)存框架，提出了一種用于實(shí)時(shí)測試時(shí)適應(yīng)的情景化且可適應(yīng)的記憶條件 LLM 架構(gòu)。

論文標(biāo)題：Larimar: Large Language Models with Episodic Memory Control
論文地址：https://arxiv.org/pdf/2403.11901

M+ 探索了探索隱空間 (Latent-Space) 的記憶 —— 既壓縮又可端到端訓(xùn)練，更接近人類在神經(jīng)激活中存儲(chǔ)信息的方式。該工作在 MemoryLLM 之上提出的長期隱空間記憶擴(kuò)展框架：通過把「過期」隱藏向量寫入 CPU - 側(cè)長期記憶池，再用協(xié)同檢索器拉回最相關(guān)記憶，它將 8 B 級(jí)模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上，同時(shí)顯存占用保持不變。