偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

那天,AI大模型想起了,被「失憶」所束縛的枷鎖

人工智能 新聞
谷歌宣布 Gemini 具備了記憶能力。此前,它已經(jīng)憑借長達(dá) 100 萬 token 甚至更高的上下文長度,在「短期記憶」上有不錯表現(xiàn) —— 能夠在一次會話中保留大量信息。

記憶,你有我有,LLM 不一定有,但它們正在有。

前些天,谷歌宣布 Gemini 具備了記憶能力。此前,它已經(jīng)憑借長達(dá) 100 萬 token 甚至更高的上下文長度,在「短期記憶」上有不錯表現(xiàn) —— 能夠在一次會話中保留大量信息。但這一次,Gemini 可以跨越多次對話,從用戶的交流中提煉關(guān)鍵細(xì)節(jié)和偏好,并在下一次交互時主動調(diào)用,讓對話更自然、更連貫。

事實上,更早幾天,Anthropic 才剛剛為自家的 Claude 裝上記憶。在一段演示視頻中,一位用戶休假歸來,向 Claude 詢問之前聊過的內(nèi)容。Claude 會在歷史聊天中檢索相關(guān)記錄,閱讀并總結(jié)給用戶,然后詢問是否要繼續(xù)原先的項目。

該公司寫道:「你再也不會忘記自己的工作了,Claude 現(xiàn)在會記住你們之前的對話,這樣你就可以無縫地繼續(xù)項目,參考之前的討論,并在你的想法上進(jìn)行構(gòu)建,而不必每次都從頭開始?!?/span>

至于 OpenAI,在這個方向上卻已經(jīng)走出了相當(dāng)遠(yuǎn)。早在 2024 年 2 月份,該公司就已經(jīng)為 ChatGPT 上線了記憶功能:當(dāng)用戶與 ChatGPT 聊天時,用戶可以要求 ChatGPT 記住特定的內(nèi)容或讓它自行獲取詳細(xì)信息。使用頻率越多,ChatGPT 的記憶力就會越好,并且隨著時間的推移,用戶能明顯感覺到效果的提升。

前些天,該公司 CEO 山姆?奧特曼更是表示 GPT-6 的一大改進(jìn)核心也將會是記憶。他表示:「人們想要記憶,人們想要那些需要讓 AI 能夠理解他們的產(chǎn)品功能。」

而 xAI 也已經(jīng)在 4 月份讓 Grok 能夠記憶多輪對話的內(nèi)容。并且 Grok 的記憶是透明的:用戶可以清楚地看到 Grok 知道的內(nèi)容,并可選擇忘記哪些內(nèi)容。

近段時間來,LLM 記憶這個賽道也越來越擁擠,新的研究、產(chǎn)品不斷涌現(xiàn)。這不,字節(jié)跳動聯(lián)合浙大和上交不久前才剛發(fā)布一個具備長期記憶能力的多模態(tài)智能體 M3-Agent,讓記憶能力不再僅限于文本,更是擴展到了視頻、音頻等多模態(tài)數(shù)據(jù)。

來源:arXiv:2508.09736

另外,我們也看到了一批關(guān)注 AI 記憶的創(chuàng)業(yè)公司的誕生,包括提出了 MemGPT 的 Letta AI、提出了 AI 的記憶操作系統(tǒng) MemOS 的記憶張量(上海)科技有限公司以及我們前段時間報道過的提出了擁有一定的原生記憶能力的非 Transformer 架構(gòu) Yan 2.0 Preview 的國內(nèi) AI 創(chuàng)企 RockAI 等。

這些案例背后,記憶并不只是「存信息」那么簡單,而是涉及存儲、檢索、提煉和遺忘等復(fù)雜機制。

而「記憶」也正在成為大模型進(jìn)一步蛻變以及智能體進(jìn)一步走向大規(guī)模應(yīng)用的關(guān)鍵技術(shù),正如 OpenAI 前研究高管、Thinking Machines Lab 聯(lián)合創(chuàng)始人翁荔(Lilian Weng)在其博客文章中展示的那樣。

接下來,我們就來看看,LLM 的記憶究竟是如何實現(xiàn)的。

LLM 記憶的類型以及如何實現(xiàn) LLM 記憶

要構(gòu)建記憶,必定要先定義記憶。這里我們直接引用翁荔的定義:

記憶可以被定義為獲取、存儲、保留和隨后檢索信息的過程。

她又進(jìn)一步將記憶分為感官記憶、短期記憶和長期記憶:

  • 感官記憶:學(xué)習(xí)原始輸入(包括文本、圖像或其他模態(tài)數(shù)據(jù))的嵌入表示;
  • 短期記憶:即在上下文中的記憶 —— 短暫且有限的,因為它受到 Transformer 有限上下文窗口長度的限制;
  • 長期記憶:可以跨對話使用的記憶,包括智能體在響應(yīng)用戶查詢時可以調(diào)用的外部向量存儲,可以通過快速檢索訪問。

這里我們不關(guān)注感官記憶,同時更加側(cè)重于長期記憶。

根據(jù)近期的幾篇相關(guān)綜述報告,我們可以對 LLM 的短期和長期記憶做一個更加詳細(xì)的歸納分類,包括上下文內(nèi)記憶、外部記憶、參數(shù)化記憶、類人的分層式記憶和情境記憶。

上下文內(nèi)記憶

上下文內(nèi)記憶是一種短期記憶。

簡單來說,就是將需要模型知道的信息放入模型的上下文窗口之中,也就是放入我們發(fā)送給模型的提示詞(prompt)中。這樣一來,模型就可以在執(zhí)行推理之前先瀏覽一遍這些信息。這種方法適用于任何有足夠長上下文的 LLM,也是一種簡單直接的通用方法。

上下文內(nèi)記憶是 LLM 的短期記憶。圖中,上下文窗口被表示為一個消息陣列。最新消息位于數(shù)組末尾。消息按從舊到新的順序排列?!赶到y(tǒng)消息」不會被移出上下文窗口,因為它包含對模型至關(guān)重要的信息 —— 通常是告知 LLM 其被期望行為的具體指令。圖源:johnsosoka.com

但是,這種方法的缺點也很明顯:

  • 容量有限:LLM 的上下文窗口長度終究有限,無法容納海量信息。
  • 成本高昂:將大量信息塞入提示詞會顯著增加每一次推理的計算成本和時間。
  • 臨時性:這部分記憶是「一次性」的,一旦對話會話結(jié)束,所有上下文信息都會被遺忘,無法跨會話保留(所以是短期記憶)。

外部記憶

外部記憶是一種非參數(shù)化(是指沒有融合進(jìn)模型的參數(shù)之中)的長期記憶。這是為了克服短期記憶的限制而生的,同時也是當(dāng)前構(gòu)建長期記憶最主流的方式。

其核心思想是將信息存儲在模型外部的數(shù)據(jù)庫中(如向量數(shù)據(jù)庫),在需要時通過信息檢索技術(shù)(Retrieval)將最相關(guān)的內(nèi)容取回,并注入到當(dāng)前的上下文窗口中,為模型提供決策依據(jù)。這一過程通常被稱為「檢索增強生成」(Retrieval-Augmented Generation, RAG)。

一個完整的外部記憶系統(tǒng)通常包括三個關(guān)鍵操作 :

  • 記憶寫入:將新的信息(如對話歷史、用戶偏好)處理后存入外部數(shù)據(jù)庫。
  • 記憶管理:對已存儲的記憶進(jìn)行更新、合并、去重,甚至遺忘過時或不重要的信息 。
  • 記憶讀?。焊鶕?jù)當(dāng)前的用戶查詢,從數(shù)據(jù)庫中高效地檢索出最相關(guān)的記憶片段。

記憶的讀?。≧)、寫入(W)和管理(M)過程,其中虛線表示交叉試驗信息可以整合進(jìn)記憶模塊,圖源:arXiv:2404.13501

這種方法的優(yōu)勢在于靈活性高,可以存儲海量信息,并且更新記憶無需重新訓(xùn)練模型 。但它也面臨挑戰(zhàn),即檢索的準(zhǔn)確性和效率至關(guān)重要:一旦檢索失敗或錯誤,就可能會向模型提供無關(guān)甚至錯誤的「記憶」,從而影響最終輸出的質(zhì)量。

參數(shù)化記憶

與將記憶存儲在外部不同,參數(shù)化記憶是試圖將信息直接編碼進(jìn)大模型自身的參數(shù)(即神經(jīng)網(wǎng)絡(luò)的權(quán)重)中。這是一種更深層次的「內(nèi)化記憶」。

非參數(shù)化記憶與參數(shù)化記憶,圖源:arXiv:2411.00489

實現(xiàn)參數(shù)化記憶的方式主要有:

  • 模型微調(diào):通過在特定數(shù)據(jù)集上進(jìn)行訓(xùn)練,將領(lǐng)域知識或特定人設(shè)「注入」模型參數(shù)中 。例如,用醫(yī)療知識微調(diào)模型,使其成為一個專業(yè)的「醫(yī)療智能體」。
  • 知識編輯:與需要大量數(shù)據(jù)和計算的微調(diào)不同,知識編輯技術(shù)可以精確地修改模型參數(shù)中存儲的特定事實,同時盡量不影響其他知識,適合小規(guī)模、高精度的記憶更新。
  • 輕量化適應(yīng):采用低秩適應(yīng)(LoRA)等參數(shù)高效的微調(diào)技術(shù),通過訓(xùn)練一個微小的「外掛」模塊來承載新的記憶,從而在不改動龐大基礎(chǔ)模型的前提下實現(xiàn)記憶的更新 。

圖源:arXiv:2404.13501

參數(shù)化記憶的優(yōu)點是信息一旦被編碼,檢索速度極快,因為在推理時它就是模型的一部分,沒有額外的檢索延遲。

但其缺點是記憶的更新成本高昂,通常需要重新訓(xùn)練或微調(diào),并且存在「災(zāi)難性遺忘」的風(fēng)險,即模型在學(xué)習(xí)新知識時可能會忘記舊的知識 。

類人的分層式記憶和情境記憶

為了讓 AI 的記憶機制更接近人類,有研究者們從認(rèn)知科學(xué)中汲取了靈感,設(shè)計了更復(fù)雜的、類似人腦的記憶架構(gòu)。人類的記憶并非扁平的,而是分為記錄具體事件的情景記憶(Episodic Memory,如「我昨天午餐吃了什么」)和存儲一般事實與知識的語義記憶(Semantic Memory,如「地球是圓的」)。

人類記憶與 LLM 記憶的對比,圖源:arXiv:2504.15965

受此啟發(fā),分層式記憶系統(tǒng)被提出,它通過更精細(xì)化的記憶管理,實現(xiàn)從原始信息到抽象知識的提煉。

  • 記憶整合與提煉:模型不僅僅是存儲原始對話,還會對其進(jìn)行加工。例如,一個智能體可以先將每天的對話內(nèi)容總結(jié)成一個個具體的「情景記憶」片段。
  • 反思與抽象:隨著時間的推移,智能體會通過「反思」(Reflection)機制,從大量的情景記憶中提煉出更高級、更抽象的「語義記憶」。比如,從「用戶 A 連續(xù)一周都在下午 3 點詢問咖啡推薦」這一情景中,提煉出「用戶 A 有下午喝咖啡的習(xí)慣」這一語義層面的偏好。

這種分層式的記憶結(jié)構(gòu)讓 AI 不僅能「記住」發(fā)生了什么,更能「理解」這些事情背后的模式和意義,從而做出更智能、更具洞察力的反應(yīng)。

需要指出,在實際應(yīng)用中,上述不同類型的記憶并非完全獨立,而是經(jīng)常被組合使用,形成「混合記憶(Hybrid Memory)」系統(tǒng)。

舉個例子,一個智能體可能用參數(shù)內(nèi)記憶來固化其核心性格,同時利用外部記憶來動態(tài)記錄與用戶的每一次互動,從而兼顧穩(wěn)定性和靈活性。

另外,這里的分類也并未窮盡,更多的記憶方法也在不斷涌現(xiàn)。

近期一些值得關(guān)注的記憶系統(tǒng)

了解了 AI 獲得短期和長期記憶的幾種形式,下面我們來看一些具體的記憶實現(xiàn)。

OpenAI 等大廠是怎么做的?

OpenAI 的 ChatGPT 的記憶功能上線于去年 2 月份,用戶可以在聊天中顯式讓 ChatGPT 記住某些東西,比如「記住我喜歡 Python 編程」或者「記住我的孩子叫 Lucy」。這些記憶會被單獨存儲,后續(xù)的對話會將這些信息作為背景注入模型的系統(tǒng)提示詞中,讓 AI 具備「常識」般記住用戶的偏好。用戶也可以直接要求它記住 / 忘記某件事情,并在個人設(shè)置中查看和管理這些記憶條目。

ChatGPT 中保存的記憶

除了顯式記憶,ChatGPT 還能借助最近的對話歷史來理解上下文和用戶的習(xí)慣。從 2024 年起,OpenAI 還實現(xiàn)了「跨會話歷史」引用,即 ChatGPT 能在不同會話中,基于之前的交互自動捕捉細(xì)節(jié),比如你的表達(dá)風(fēng)格、關(guān)注的主題等,從而提供更連貫的服務(wù)。

從其描述來看,ChatGPT 實現(xiàn)記憶機制的原理并不復(fù)雜:ChatGPT 會將用戶記憶以結(jié)構(gòu)化片段保存于服務(wù)器端(如向量數(shù)據(jù)庫 + 常規(guī)數(shù)據(jù)庫),再通過提示工程方式,在生成回復(fù)時自動將用戶記憶片段注入模型參考語境,實現(xiàn)個性化推薦和上下文延續(xù)。這類似于給 AI 補充用戶專屬背景知識庫,讓 AI「越來越懂你」。

相較之下,Anthropic 的 Claude 的記憶則更加簡單一些 —— 它不是像 OpenAI 的 ChatGPT 那樣的持久記憶功能;Claude 只會在用戶要求時才會檢索和引用過去的聊天記錄,而且它不會建立用戶檔案。

而 Gemini 看起來與 ChatGPT 的功能類似,另外還支持用戶自己錄入想要 Gemini 記住的東西。

Gemini 支持直接錄入記憶

像管理內(nèi)存一樣管理記憶

上面 ChatGPT、Claude 和 Gemini 處理用戶記憶的方式還很簡單,核心技術(shù)是提示工程。這類方式會受到模型上下文窗口大小的限制,難以承載更多信息。

那如果讓記憶本身也智能化呢?論文《MemGPT: Towards LLMs as Operating Systems》提出使用一個專門的記憶 LLM 智能體來管理工作 LLM 上下文窗口。

該系統(tǒng)配備了一個大型的持久記憶,用于存儲所有可能被納入輸入上下文的信息,而那個智能體的職責(zé)則是負(fù)責(zé)決定哪些信息實際被包含進(jìn)工作 LLM 的上下文窗口。該技術(shù)受傳統(tǒng)操作系統(tǒng)中分層內(nèi)存系統(tǒng)的啟發(fā) —— 通過在物理內(nèi)存與磁盤之間進(jìn)行分頁,實現(xiàn)擴展虛擬內(nèi)存的假象。

圖源:arXiv:2310.08560

如上圖所示,在 MemGPT 中,一個有著固定上下文長度的 LLM 處理器配備了分層內(nèi)存系統(tǒng)和一些函數(shù),使其能夠管理自身的記憶。這個 LLM 的提示 token(輸入,即主上下文)由系統(tǒng)指令、工作上下文和 FIFO 隊列組成。LLM 的完成 token (輸出)會被函數(shù)執(zhí)行器解釋為函數(shù)調(diào)用。MemGPT 使用函數(shù)在主上下文和外部上下文(歸檔和調(diào)用存儲數(shù)據(jù)庫)之間移動數(shù)據(jù)。LLM 可以通過在其輸出中生成一個特殊的關(guān)鍵字參數(shù) (request heartbeat=true) 來請求立即進(jìn)行后續(xù)的 LLM 推理,從而將函數(shù)調(diào)用鏈接在一起;函數(shù)鏈?zhǔn)沟?MemGPT 能夠執(zhí)行多步檢索來回答用戶查詢。

為 AI 記憶打造一個操作系統(tǒng)

記憶張量(上海)科技有限公司等提出的 MemOS(Memory Operating System)則更進(jìn)一步,借鑒了傳統(tǒng)操作系統(tǒng)的分層架構(gòu)設(shè)計,也融合了 Memory3(憶立方)大模型在記憶分層管理方面的核心機制。與傳統(tǒng) RAG 或純參數(shù)存儲不同,MemOS 把 「記憶」 看作一種和算力同等重要的系統(tǒng)資源。它通過標(biāo)準(zhǔn)化的 MemCube 記憶單元,將明文、激活狀態(tài)和參數(shù)記憶統(tǒng)一在同一個框架里進(jìn)行調(diào)度、融合、歸檔和權(quán)限管理。簡單來說,模型不再只是 「看完即忘」,而是擁有了持續(xù)進(jìn)化和自我更新的能力。

MemOS 整個系統(tǒng)由 API 與應(yīng)用接口層、記憶調(diào)度與管理層、記憶存儲與基礎(chǔ)設(shè)施層三大核心層次組成,構(gòu)建了一套從用戶交互到底層存儲的全鏈路記憶管理閉環(huán)。

MemOS 框架,圖源:http://memos.openmem.net/

在 API 與應(yīng)用接口層,MemOS 提供了標(biāo)準(zhǔn)化的 Memory API,開發(fā)者可以通過簡單的接口實現(xiàn)記憶創(chuàng)建、刪除、更新等操作,讓大模型具備易于調(diào)用和擴展的持久記憶能力,支持多輪對話、長期任務(wù)和跨會話個性化等復(fù)雜應(yīng)用場景。在記憶調(diào)度與管理層,MemOS 提出了記憶調(diào)度的全新范式,支持基于上下文的 「下一場景預(yù)測」,可以在模型生成時提前加載潛在需要的記憶片段,顯著降低響應(yīng)延遲、提升推理效率。而在記憶存儲與基礎(chǔ)設(shè)施層,MemOS 通過標(biāo)準(zhǔn)化的 MemCube 封裝,將明文記憶、激活記憶和參數(shù)記憶三種形態(tài)有機整合。它支持多種持久化存儲方式,包括 Graph 數(shù)據(jù)庫、向量數(shù)據(jù)庫等,并具備跨模型的記憶遷移與復(fù)用能力。

無獨有偶,北郵百家 AI 團(tuán)隊推出的 MemoryOS 則巧妙融合了計算機操作系統(tǒng)原理與人腦分層記憶機制,構(gòu)建段頁式三級存儲架構(gòu)及四大核心模塊(存儲、更新、檢索、生成),提供全鏈路用戶記憶管理方案,讓 AI 智能體擁有持久「記性」與深度「個性」。

MemoryOS 架構(gòu)概況,圖源:arXiv:2506.06326

記憶的分層細(xì)化

從上面幾個項目可以看出,記憶管理的一個重要方面是分層。這其實也很好理解,正如人類的記憶一樣,LLM 的記憶同樣也有輕重緩急。

在這方面,MIRIX 是近期一個較為亮眼的項目,其將記憶細(xì)分成了 6 類來進(jìn)行處理:核心記憶、情景記憶、語義記憶、程序記憶、資源記憶、知識金庫。

MIRIX 的六個記憶組件,每一個都有自己的專屬功能。圖源:2507.07957

基于此,MIRIX 可以先理解需求,再決定在哪種記憶中搜索,再組合答案。也就是說:它會思考「我要回憶什么」,而不是機械地索引。

具體來說,他們提出了一種模塊化多智能體架構(gòu),由若干專用組件在統(tǒng)一調(diào)度機制下協(xié)作完成輸入處理、記憶更新和信息檢索。整個系統(tǒng)包括:元記憶管理器(Meta Memory Manager)、記憶管理器(Memory Managers)以及對話智能體(Chat Agent)。

在記憶更新時,當(dāng)系統(tǒng)接收到新的輸入(如用戶提供的文本、推斷出的事件、上傳的文件)時,會按如下流程進(jìn)行處理:初步檢索→路由與分析→并行更新→完成確認(rèn)。

MIRIX 的記憶更新工作流程,圖源:2507.07957

在對話檢索時,檢索流程的主要步驟是:粗檢索→目標(biāo)檢索選擇→精細(xì)檢索→結(jié)果整合與答案生成→交互式更新。這一流程可確保系統(tǒng)的回答不僅有一致性,也能根據(jù)最新知識動態(tài)調(diào)整。

MIRIX 的對話檢索工作流程,圖源:2507.07957

結(jié)構(gòu)化記憶與圖式記憶

在處理大模型所要記憶的內(nèi)容時,一種常見的方法是將記憶轉(zhuǎn)化為向量數(shù)據(jù)庫:也就是把文本型的記憶信息轉(zhuǎn)成嵌入(Embedding)向量,存入數(shù)據(jù)庫中。這樣,當(dāng)用戶再次提問時,系統(tǒng)可以通過語義檢索快速找到相關(guān)的記憶,再交給模型使用,其流程大致是:信息提取 → 向量化(Embedding) → 存入向量數(shù)據(jù)庫 → 檢索增強生成(RAG)。

不過,這種方法也存在一定的缺點:

  • 記憶容易冗余:如果信息太多,存儲空間和檢索成本都會增加。
  • 缺乏層次和結(jié)構(gòu):向量檢索找到的是「語義相似」,但不能很好地表達(dá)時間順序、因果關(guān)系或知識結(jié)構(gòu)。
  • 檢索不穩(wěn)定:有時會找不到真正相關(guān)的信息,或者返回「相似但不正確」的片段。

因此,在記憶系統(tǒng)的構(gòu)建中,一個重要的探索方向是對需要 AI 記憶的內(nèi)容進(jìn)行提煉、壓縮和結(jié)構(gòu)化處理。這不僅能提升記憶容量,也能讓模型在回憶時更準(zhǔn)確、更高效。具體方法包括:

  • 把知識點存儲成數(shù)據(jù)庫條目,帶有清晰的鍵值和屬性。
  • 用圖(Graph)結(jié)構(gòu)來表示實體之間的聯(lián)系,方便模型理解因果、上下位關(guān)系。
  • 甚至可以結(jié)合多層記憶:短期向量記憶(快速檢索)+ 長期結(jié)構(gòu)化記憶(穩(wěn)定存儲)。

舉個例子,新加坡國立大學(xué)和同濟(jì)大學(xué)等提出的 G-Memory 設(shè)計了一個三層圖式基于模型,分別為洞察圖、查詢圖和交互圖。

G-Memory 概況,中間可以看到其三層圖式記憶架構(gòu),圖源:2506.07398

其中,洞察圖用于捕捉單智能體對環(huán)境與交互的主觀理解,查詢圖是統(tǒng)一智能體間的任務(wù)需求與意圖表達(dá),而交互圖則能顯式地建模各智能體之間的協(xié)作路徑、溝通歷史與記憶共享權(quán)限。

通過這種分層記憶圖式結(jié)構(gòu),G-Memory 支持「定制化記憶視角」與「跨智能體語義映射」,可有效解決多智能體間記憶污染和路徑?jīng)_突等協(xié)同問題,也為異質(zhì)智能體系統(tǒng)構(gòu)建了可擴展的記憶編排范式。

多模態(tài)記憶

隨著多模態(tài)時代的到來,AI 系統(tǒng)不僅要理解和記住文本,還需要處理圖像、視頻、音頻等多模態(tài)信息,對多模態(tài)記憶的需求也隨之產(chǎn)生。相比文本,多模態(tài)記憶的難點在于信息量巨大、時序關(guān)系復(fù)雜、知識結(jié)構(gòu)分散,這對 AI 的存儲與檢索能力提出了更高的挑戰(zhàn)。

為應(yīng)對這些挑戰(zhàn),AI 社區(qū)正在積極探索不同的解決方案。

其中,由前 Meta Reality Labs 頂尖科學(xué)家團(tuán)隊創(chuàng)立的研究實驗室 Memories.ai 提出了「大視覺記憶模型」(LVMM)。

這一模型為 AI 系統(tǒng)引入了革命性的視覺記憶層:它突破了傳統(tǒng) AI 在視頻處理中僅限于「片段式分析」的局限,轉(zhuǎn)而能夠持續(xù)捕獲、存儲和結(jié)構(gòu)化海量的視覺數(shù)據(jù)。這樣,AI 不僅能夠永久保留上下文信息,還能精準(zhǔn)識別時序模式、進(jìn)行智能對比分析。換句話說,該平臺可以將原始視頻轉(zhuǎn)化為可搜索、帶有上下文關(guān)聯(lián)的數(shù)據(jù)庫,從而賦予 AI 系統(tǒng)類似人類的持續(xù)學(xué)習(xí)能力,配備上了一個幾乎無限的「視覺大腦」。

與此同時,國內(nèi)也出現(xiàn)了新的探索。字節(jié)跳動聯(lián)合浙江大學(xué)和上海交通大學(xué)發(fā)布了 M3-Agent。這是一種具備長期記憶能力的多模態(tài)智能體。其架構(gòu)由多模態(tài)大語言模型(MLLM)和多模態(tài)長期記憶模塊組成,整體分為「記憶(memorization)」與「控制(control)」兩大并行過程:

  • 在記憶階段,M3-Agent 能夠?qū)崟r處理視頻與音頻流,并生成「情節(jié)記憶」和「語義記憶」;
  • 在控制階段,系統(tǒng)則依托長期記憶進(jìn)行推理和任務(wù)執(zhí)行,能夠跨事件、角色等多個維度自主檢索相關(guān)信息。

M3-Agent 架構(gòu),圖源:arXiv:2508.09736

值得注意的是,M3-Agent 并非依賴單輪的 RAG 來調(diào)用記憶,而是通過強化學(xué)習(xí)驅(qū)動的多輪推理與迭代記憶檢索,從而顯著提升任務(wù)完成率。

此外,M3-Agent 在長期視頻處理方面提出了兩項關(guān)鍵突破:

  • 無限信息處理:不再局限于離線、有限長度的視頻,而是能夠持續(xù)處理任意長的多模態(tài)輸入流,更接近人類長期記憶的形成方式。
  • 世界知識構(gòu)建:傳統(tǒng)方法往往停留在低層次的視覺描述,而 M3-Agent 通過實體中心化的記憶結(jié)構(gòu),逐步積累角色身份、實體屬性等高層知識,從而保證長期上下文的一致性與連貫性。

通過這些探索,可以看到多模態(tài)記憶正從「存儲片段」走向「構(gòu)建世界」,這無疑將成為下一代智能體實現(xiàn)真正長期學(xué)習(xí)與理解的關(guān)鍵。

將記憶原生融入模型

除了外掛式的記憶機制,也有一些探索嘗試將記憶能力直接融入模型自身。最基本的方法是基于需要記憶的數(shù)據(jù)對模型進(jìn)行再訓(xùn)練,讓記憶「寫入」參數(shù),比如使用 LoRA 或測試時訓(xùn)練來進(jìn)行記憶參數(shù)化。然而,近期學(xué)界和業(yè)界也出現(xiàn)了一些更加有趣的嘗試。

Meta 在論文 《Memory Layers at Scale》 中提出了「記憶層」(memory layers)的概念。按照傳統(tǒng)做法,語言模型的信息主要存儲在網(wǎng)絡(luò)權(quán)重中,而提升記憶能力通常依賴于擴大參數(shù)規(guī)模。但這種方式的代價是巨大的計算和能耗,而且對于一些「簡單的關(guān)聯(lián)記憶」(如名人生日、國家首都、概念間的對應(yīng)關(guān)系),并非最優(yōu)解。

左圖為常規(guī)記憶層,右圖為改進(jìn)的 Memory+ 模塊,圖源:arXiv:2412.09764

記憶層則提供了一種更加自然且高效的路徑。其核心思想是通過鍵 - 值對檢索機制來實現(xiàn)關(guān)聯(lián)存儲與調(diào)用,即以 embedding 表示鍵和值,實現(xiàn)一種神經(jīng)網(wǎng)絡(luò)內(nèi)部的「查表式記憶」。早期雖然有類似的工作(如 Memory Networks、Neural Turing Machine),但并未在大規(guī)模 AI 架構(gòu)中真正發(fā)揮作用。Meta 的研究突破在于將 Transformer 中的前饋網(wǎng)絡(luò)(FFN)替換為記憶層,并保持其他部分不變。

Meta 還在大規(guī)模實驗中驗證了記憶層的可擴展性,其記憶容量可達(dá) 1280 億參數(shù)級別,相比以往提升了兩個數(shù)量級。

這表明,記憶層有潛力成為下一代大模型的核心組件。

另外,Meta 去年提出的 Branch-Train-MiX (BTX)方法也有望成為一種實現(xiàn)參數(shù)化記憶的手段,其包含三個主要步驟。

BTX 方法概況,圖源:arXiv:2403.07816

  1. 在 Branch 和 Train 階段,會基于預(yù)訓(xùn)練的種子模型創(chuàng)建多個副本(稱為專家模型),并在不同的數(shù)據(jù)子集上進(jìn)行獨立訓(xùn)練,每個副本對應(yīng)一個特定的知識領(lǐng)域,例如數(shù)學(xué)、編程或百科。此訓(xùn)練過程并行且異步,從而可降低通信成本并提高訓(xùn)練吞吐量。
  2. 接下來,在 MiX 階段,這些專家模型的前向子層被合并為一個 MoE 模塊,形成統(tǒng)一的 MoE 模型。在每個 Transformer 層中,使用路由網(wǎng)絡(luò)來選擇將哪個專家的前饋子層應(yīng)用于每個 token。自注意力子層和其他模塊的權(quán)重通過簡單的平均進(jìn)行合并。
  3. 最后,在 MoE 微調(diào)階段,合并后的模型在整個訓(xùn)練數(shù)據(jù)集上進(jìn)一步微調(diào),使路由網(wǎng)絡(luò)能夠?qū)W習(xí)在測試期間如何在不同專家之間動態(tài)路由 token。

與此同時,另一條不同的路徑來自國內(nèi) AI 創(chuàng)企 RockAI,其提出的 Yan 2.0 Preview 模型具有「原生記憶能力」,能夠在推理的同時把記憶直接融入?yún)?shù)中。值得注意的是,它并未采用常規(guī)的 Transformer 架構(gòu)和注意力機制,而是基于 Yan 架構(gòu)。

Yan 2.0 Preview 架構(gòu)示意圖

Yan 2.0 Preview 通過一個可微分的「神經(jīng)網(wǎng)絡(luò)記憶單元」實現(xiàn)記憶的存儲、檢索和遺忘。

與外掛知識庫不同,這種方式更接近生物記憶:模型會將理解過的信息內(nèi)化為權(quán)重的一部分,形成一種真正「自身的記憶」。在使用體驗上,這意味著用戶無需再手動管理知識庫(增刪改查),而是可以依賴模型實現(xiàn)端到端的記憶與調(diào)用。

關(guān)鍵挑戰(zhàn)與未來趨勢

構(gòu)建一個真正強大、可靠且智能的 LLM 記憶系統(tǒng),其難度不亞于模型本身的研發(fā)。盡管我們已經(jīng)看到了諸多創(chuàng)新,但前路依然充滿挑戰(zhàn)。結(jié)合相關(guān)綜述報告、技術(shù)博客以及學(xué)術(shù)界的深入探討,我們可以將這些挑戰(zhàn)與未來的發(fā)展趨勢歸納為以下幾個方面。

1. 挑戰(zhàn):從數(shù)據(jù)堆砌到智能管理 —— 學(xué)習(xí)遺忘與整合

遺忘其實與記憶一樣重要,而當(dāng)前許多記憶系統(tǒng),特別是基于外部數(shù)據(jù)庫的方案,更像是一個信息倉庫,面臨著只進(jìn)不出的困境。

  • 失控的記憶增長:模型缺乏類似人腦的有效遺忘機制 。在沒有主動干預(yù)的情況下,記憶會無限累積,不僅增加了存儲和檢索的負(fù)擔(dān),還可能因為過時或無關(guān)的信息干擾而降低決策質(zhì)量。
  • 信息沖突與更新難題:當(dāng)新舊信息或多個信息源發(fā)生沖突時,模型往往難以像人類一樣巧妙地進(jìn)行整合與更新,形成新的、更準(zhǔn)確的記憶。如何讓模型自動解決記憶間的矛盾,是實現(xiàn)動態(tài)和自適應(yīng)記憶的關(guān)鍵。

未來的研究需要為 AI 設(shè)計更精巧的記憶管理機制,讓它學(xué)會斷舍離,主動遺忘不再重要的信息,并智能地融合新知識。

arXiv:2411.00489 中提出的 Self-Adaptive Long-term Memory (SALM) 架構(gòu)中包含了長期記憶的遺忘階段

2. 挑戰(zhàn):效率、成本與可擴展性的不可能三角

不同的記憶方案在效率和成本之間面臨著艱難的權(quán)衡。

  • 外部記憶的延遲:雖然靈活,但依賴 RAG 的外部記憶系統(tǒng)在每次查詢時都需要經(jīng)過「檢索→注入上下文」的步驟,這帶來了額外的計算延遲,限制了其在實時應(yīng)用中的表現(xiàn) 。
  • 參數(shù)記憶的僵化:將記憶寫入模型參數(shù)雖然能實現(xiàn)快速調(diào)用,但更新成本極為高昂。無論是完全微調(diào)還是知識編輯,都難以支持需要頻繁更新記憶的在線學(xué)習(xí)或終身學(xué)習(xí)場景。

未來的方向在于探索更高效的混合記憶架構(gòu),以及更輕量化、低成本的參數(shù)內(nèi)記憶更新技術(shù),以平衡記憶的靈活性、調(diào)用速度和更新成本。

3. 趨勢:從功能模擬到結(jié)構(gòu)仿生 —— 走向多模態(tài)與綜合記憶系統(tǒng)

未來的 LLM 記憶將不再局限于單一功能,而是朝著更全面、更類似人腦的綜合系統(tǒng)演進(jìn)。

  • 邁向多模態(tài)記憶:正如人類通過視覺、聽覺、觸覺等多種感官形成記憶,AI 的記憶也正從純文本擴展到圖像、音頻、視頻等多模態(tài)數(shù)據(jù) 。一個能記住用戶長相、聲音和對話場景的智能體,無疑將提供遠(yuǎn)超文本交互的個性化體驗。
  • 構(gòu)建綜合記憶架構(gòu):當(dāng)前研究多集中于記憶的某個特定方面(如短期對話或長期知識)。未來的先進(jìn)系統(tǒng)將整合不同類型的記憶模塊(類似人類的感官記憶、工作記憶、情景記憶和語義記憶)讓它們協(xié)同工作,形成一個多層次、多維度、能夠自適應(yīng)的綜合記憶中樞 。

圖源:https://www.youtube.com/live/n-slj72yx8w?si=St48Q9D_h-RFwB5g

4. 趨勢:從孤立個體到記憶互聯(lián) —— 智能體間的共享與協(xié)作

隨著多智能體系統(tǒng)的興起,記憶的邊界正在從單個智能體擴展到智能體網(wǎng)絡(luò)。

  • 共享記憶:未來的智能體集群將能夠訪問一個共享的記憶池,或者在彼此之間傳輸、同步記憶。比如,一個精通醫(yī)療的智能體可以將它的知識記憶共享給一個金融智能體,以協(xié)作完成復(fù)雜的跨領(lǐng)域任務(wù)。
  • 集體智能與隱私:這種記憶的互聯(lián)將催生更強大的集體智能,但也帶來了新的挑戰(zhàn),例如如何在協(xié)作與競爭中管理信息不對稱 ,以及如何保護(hù)從個人數(shù)據(jù)聚合而來的集體隱私 。

5. 終極目標(biāo):從規(guī)則演化到自動演化

目前,智能體的反思和成長在很大程度上仍依賴于人類預(yù)先設(shè)定的規(guī)則。終極目標(biāo)是實現(xiàn)記憶的自動演化,即智能體能夠根據(jù)與環(huán)境的持續(xù)互動,自主地學(xué)習(xí)如何管理和優(yōu)化其記憶,動態(tài)調(diào)整策略,并最終實現(xiàn)無需人工干預(yù)的終身學(xué)習(xí)。

正如天橋腦科學(xué)研究院和普林斯頓大學(xué)等發(fā)布的《Long Term Memory : The Foundation of AI Self-Evolution》中寫到的一樣:「模型的自我進(jìn)化能力是模型長期適應(yīng)和個性化的關(guān)鍵,而這又嚴(yán)重仰賴于有效的記憶機制?!?/span>

arXiv:2410.15665 中給出的長期記憶與 AI 自我進(jìn)化示意圖

當(dāng)它真正實現(xiàn)時,這不僅將是記憶技術(shù)的飛躍,更是通往通用人工智能(AGI)的關(guān)鍵一步。

從「數(shù)據(jù)檔案」到「認(rèn)知核心」,

記憶正在重塑 AI 的本質(zhì)

回望全文,我們不難發(fā)現(xiàn),記憶正在成為劃分 AI 新舊時代的「分水嶺」。它將大型語言模型從一個 stateless(無狀態(tài))的、一次性的「文本計算器」,轉(zhuǎn)變?yōu)橐粋€ stateful(有狀態(tài))的、能夠積累經(jīng)驗并持續(xù)演化的「認(rèn)知主體」。

我們見證了這場變革的完整路徑:從受限于上下文長度、曇花一現(xiàn)的短期記憶,到以 RAG 為代表、將信息存儲于模型之外的外部記憶,再到嘗試將知識內(nèi)化為模型一部分、挑戰(zhàn)與機遇并存的參數(shù)化記憶。這些探索的本質(zhì),是讓 AI 從「使用信息」走向「擁有經(jīng)驗」。如今,行業(yè)已經(jīng)不再滿足于讓 AI 僅僅記住事實,而是開始系統(tǒng)性地設(shè)計它應(yīng)該如何記憶、如何反思、如何提煉,乃至如何遺忘 —— 這標(biāo)志著我們正在從構(gòu)建「數(shù)據(jù)檔案」邁向構(gòu)建 AI 的「認(rèn)知核心」。

展望未來,AI 記憶的發(fā)展將不再是單一技術(shù)的線性優(yōu)化,而是一場深刻的架構(gòu)革命。其終極形態(tài),或許是一個能高度模擬人腦機制的綜合認(rèn)知記憶系統(tǒng)。在這樣的系統(tǒng)中,記憶不再是被動調(diào)用的知識庫,而是驅(qū)動模型構(gòu)建和更新其內(nèi)部「世界模型」的主動引擎。

這個未來的記憶系統(tǒng)將具備三大特征:

  • 多模態(tài)原生 (Multimodal Native):它將不再區(qū)分文本、圖像或聲音,而是將所有感官輸入無縫融合成統(tǒng)一的、包含豐富情境的多模態(tài)記憶,形成對物理世界更完整、更深刻的理解 。
  • 終身自主演化 (Lifelong Autonomous Evolution):它將具備近乎生物的終身學(xué)習(xí)能力 ,能通過持續(xù)的自我反思與記憶整合,在沒有人類強干預(yù)的情況下不斷成長。遺忘不再是被動的清除,而是一種主動的、為吸收新知識而優(yōu)化內(nèi)存的智能策略。
  • 社會化與協(xié)同 (Social & Collaborative):記憶將突破單個智能體的限制,通過共享記憶機制,構(gòu)建起智能體間的「集體意識」 。專業(yè)化的智能體可以像人類專家一樣交流、協(xié)作,共同完成遠(yuǎn)超個體能力的復(fù)雜任務(wù)。

這場關(guān)于記憶的探索,其意義已遠(yuǎn)超技術(shù)本身。我們正試圖賦予機器一段連貫的「生命歷程」,讓它擁有自己的「過去」,并以此塑造它的「現(xiàn)在」和「未來」。

AI 發(fā)展史以及未來預(yù)測,英文源圖:Concentrix

當(dāng)一個 AI 能夠憑借其積累的記憶,展現(xiàn)出獨特的「個性」、形成穩(wěn)定的「價值觀」、甚至與我們建立起深刻的情感連接時,那或許才是 AGI 真正到來的拂曉時分。我們教機器記憶,最終可能是在創(chuàng)造一種全新的、能夠與我們共同演化的智能生命。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-05-30 12:27:54

策略模式算法

2022-04-29 21:37:34

漏洞網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2025-07-14 09:20:00

2025-05-29 10:32:32

2023-05-10 14:40:40

AI模型算力

2024-06-19 16:11:22

2025-06-09 08:56:00

2013-07-23 10:13:17

2025-04-22 08:08:37

2024-12-25 08:02:17

人工智能AI運維

2025-06-03 08:35:00

大模型技術(shù)AI

2022-12-16 15:11:39

AI模型

2024-06-14 20:38:37

Testin云測

2025-04-01 09:54:09

AI算法大模型AI

2023-09-07 15:01:45

2023-08-03 10:59:49

人工智能

2023-07-04 09:48:10

AI模型

2024-05-16 08:23:26

大語言模型知識圖譜人工智能

2023-07-17 13:01:07

模型AI

2023-03-06 16:12:59

ChatGPT人工智能
點贊
收藏

51CTO技術(shù)棧公眾號