偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

重塑記憶架構(gòu):LLM正在安裝「操作系統(tǒng)」

人工智能 新聞
超長上下文窗口的大模型也會(huì)經(jīng)?!甘洝?,「記憶」也是需要管理的。

眾所周知,現(xiàn)代大型語言模型(LLM)的上下文窗口普遍有限 —— 大多數(shù)模型只能處理數(shù)千到數(shù)萬 token,比如早期的 GPT-3 僅有~2,048 token。雖然近期有些模型已經(jīng)拓展到了百萬級甚至千萬級 token 窗口(如 Meta 的 Llama 4 Scout 宣稱可達(dá) 1,000 萬 token)。

圖中顯示了 LLM 上下文窗口大小的演變。

image.pngimage.png

注意:token 數(shù)量為近似最大值?!窯PT-4.1」指的是 2025 年 4 月更新的 GPT-4,「Scout」是專為長上下文設(shè)計(jì)的 17B 參數(shù) Llama 4 變體。

LLM 存在一個(gè)內(nèi)在的「記憶缺陷」,即擁有的上下文窗口是有限的,這嚴(yán)重限制了它們在多輪次、多會(huì)話的長期交互中維持一致性的能力。

也因此,現(xiàn)代 LLM 普遍難以維持長期記憶。這對很多應(yīng)用來說實(shí)在相當(dāng)不妙,畢竟記憶是實(shí)現(xiàn)反思和規(guī)劃的關(guān)鍵,也是智能體系統(tǒng)不可或缺的重要組成部分。

image.pngimage.png

基于 LLM 的自主智能體系統(tǒng)概況圖,圖源 Lil'Log https://lilianweng.github.io/posts/2023-06-23-agent/

近段時(shí)間,關(guān)于大模型記憶的相關(guān)研究多了起來,前些天開源的 MemOS 就吸引了不少眼球。

與傳統(tǒng) RAG 或純參數(shù)存儲(chǔ)不同,MemOS 把 「記憶」 看作一種和算力同等重要的系統(tǒng)資源。對于大模型的長期記憶進(jìn)行持續(xù)更新管理,將明文、激活狀態(tài)和參數(shù)記憶統(tǒng)一在同一個(gè)框架里進(jìn)行調(diào)度、融合、歸檔和權(quán)限管理,讓大模型擁有了擁有了持續(xù)進(jìn)化和自我更新的能力。

大模型記憶與長上下文處理能力密不可分

之前探討的大模型,能處理大量的 token,甚至達(dá)到千萬 token 級別,這些均屬于 LLM 的長上下文處理能力。實(shí)際的 LLM 使用經(jīng)驗(yàn)告訴我們,具有強(qiáng)大長上下文處理能力的 LLM 都具有更強(qiáng)的記憶能力。

長上下文(Long Context)

  • 指模型在當(dāng)前推理過程中能「看到」的歷史文本長度。
  • 本質(zhì)上是一次性輸入到模型中的序列長度。
  • 用于解決如文檔問答、多輪對話、代碼分析等需要上下文保持的任務(wù)。

「長上下文處理能力」包括:

長度泛化能力:模型在訓(xùn)練中未見過的更長的序列上進(jìn)行外推的能力。如果超出訓(xùn)練長度,某些模型會(huì)災(zāi)難性地失敗。

高效注意力能力:減少長序列計(jì)算 / 內(nèi)存消耗的機(jī)制(亞平方算法)。這可能包括近似注意力、稀疏模式或完全替代的架構(gòu)。

信息保留能力:指模型實(shí)際利用遠(yuǎn)距信息的能力。如果模型在一定位置之后實(shí)際上忽略了上下文內(nèi)容,那么即使擁有龐大的上下文窗口也是無效的。如果訓(xùn)練不當(dāng),模型可能出現(xiàn)注意力權(quán)重衰減或在超過一定長度后丟失上下文等現(xiàn)象。

提示詞與利用能力:研究如何設(shè)計(jì)提示詞(prompt)以最大限度發(fā)揮長上下文的優(yōu)勢。

記憶(Memory)

  • 指模型跨多輪對話 / 使用所保留的信息。
  • 是一種持久化機(jī)制,記錄關(guān)于用戶、對話、偏好等信息。

SwirlAI 創(chuàng)始人兼 CEO Aurimas Griciūnas 認(rèn)為,可以將 LLM 的記憶分為以下類型:

image.pngimage.png

1. 事件記憶 - 這種類型的記憶包含代理過去的交互和執(zhí)行的操作。每當(dāng)完成某個(gè)操作,控制系統(tǒng)會(huì)將該操作信息寫入持久化存儲(chǔ)中,便于未來調(diào)用或回溯。

2. 語義記憶 - 語義記憶包括可訪問的外部知識信息,以及其對自身狀態(tài)和能力的理解。這種記憶既可以是僅代理內(nèi)部可見的背景知識,也可以是用于限制信息范圍、提升回答準(zhǔn)確性的錨定上下文(grounding context),從海量互聯(lián)網(wǎng)數(shù)據(jù)中篩選出與當(dāng)前任務(wù)相關(guān)的信息。

3. 程序性記憶 - 程序性記憶指的是與系統(tǒng)運(yùn)行機(jī)制相關(guān)的結(jié)構(gòu)性信息,例如系統(tǒng)提示詞(system prompt)的格式、可調(diào)用的工具、預(yù)設(shè)的行為邊界(guardrails)等。

4. 在特定任務(wù)場景下,代理系統(tǒng)會(huì)根據(jù)需求從長期記憶中調(diào)取相關(guān)信息,并暫存于本地緩存,以便快速訪問和任務(wù)執(zhí)行。

5. 從長期記憶中調(diào)取的信息與當(dāng)前局部緩存的信息共同構(gòu)成了代理的工作記憶(也稱短期記憶)。這些信息會(huì)被整合成最終輸入給大語言模型(LLM)的提示詞,用于指導(dǎo)其生成后續(xù)行為指令或任務(wù)響應(yīng)。

如圖所示,通常將 1 - 3 標(biāo)記為長期記憶,將 5 標(biāo)記為短期記憶。

image.pngimage.png

長上下文能力和記憶能力可協(xié)同工作:

  • 記憶系統(tǒng)中的信息(如用戶偏好)可被注入到上下文中,作為提示的一部分;
  • 長上下文窗口能幫助模型在當(dāng)前對話中維持短期「記憶」,減少依賴記憶系統(tǒng)。

實(shí)現(xiàn) LLM 記憶的幾種方法

長上下文的方法

正如前文討論的,當(dāng)對話內(nèi)容超出了上下文長度時(shí),LLM 可能會(huì)出現(xiàn)忘記用戶的喜好、重復(fù)提問,甚至與之前確認(rèn)的事實(shí)相沖突的現(xiàn)象。最直接的提高 LLM 記憶能力的方法就是提高 LLM 的長上下文處理能力。目前,提高 LLM 長上下文處理能力的方法有:

1、RAG (檢索增強(qiáng)生成,Retrieval-augmented Generation)作為構(gòu)建知識庫并檢索引導(dǎo) LLM 生成的方法具有非常強(qiáng)的泛用性。通過將結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可檢索的語義表示,RAG 實(shí)現(xiàn)了「先檢索、再生成」的流程,使得 LLM 能夠結(jié)合外部知識應(yīng)對事實(shí)性問題,減少幻覺。

RAG 架構(gòu)支持對文檔動(dòng)態(tài)更新,便于構(gòu)建實(shí)時(shí)可擴(kuò)展可編輯的知識體系,這為后續(xù)的 LLM 記憶的構(gòu)建和記憶系統(tǒng)的設(shè)計(jì)提供了基礎(chǔ)。

image.png

圖中對比 RAG 流程與純長上下文方法的差異,RAG 效率高,但可能遺漏間接上下文;長上下文使用雖然全面,但需要模型處理非常大的輸入。

2、分層摘要:在對一本書進(jìn)行總結(jié)時(shí),可以通過遞歸的方式將每一章分別進(jìn)行摘要,得到中間摘要,然后再對這些中間摘要進(jìn)行進(jìn)一步總結(jié),依此類推。這種方法可以應(yīng)對遠(yuǎn)超模型上下文長度的輸入,但其操作流程較為繁瑣,且容易在多輪摘要過程中引入和累積錯(cuò)誤。

3、滑動(dòng)窗口推理:對于需要對長文本進(jìn)行閱讀理解等任務(wù),可以將模型應(yīng)用于文本的滑動(dòng)窗口上(例如,第 1–5 段,然后是第 2–6 段,依此類推),再通過某種方法或次級模型對各窗口的輸出結(jié)果進(jìn)行整合。

研究人員探索了多種算法途徑來擴(kuò)展上下文窗口。廣義而言,這些方法可以分為:(a) 用于長度外推的位置編碼方法,(b) 高效或稀疏注意力架構(gòu),(c) 替代序列模型(取代自注意力),以及 (d) 混合或記憶增強(qiáng)方法。

了解更多有關(guān) LLM 長上下文窗口的細(xì)節(jié)信息,可以參閱來自 Dr. Adnan Masood 的文章:

image.png

記憶的方法

盡管上下文能力與大模型記憶緊密相關(guān),但上下文窗口并不能直接等價(jià)于記憶。 

以構(gòu)建一個(gè)聊天機(jī)器人為例,該機(jī)器人需要記住用戶在此前對話中說過的話。隨著對話長度的增加,記憶管理會(huì)將信息從輸入上下文中移出,存入一個(gè)可搜索的持久數(shù)據(jù)庫;同時(shí)對信息進(jìn)行總結(jié),以便將相關(guān)事實(shí)保留在輸入上下文中;還會(huì)在需要時(shí)從較早的對話中恢復(fù)相關(guān)內(nèi)容。這種機(jī)制使得聊天機(jī)器人能夠在生成下一輪回復(fù)時(shí),將當(dāng)前最相關(guān)的信息保留在其輸入上下文記憶中。

基于記憶的方法看上去與 RAG 非常相似,實(shí)際上也確實(shí)如此。大致上分為兩種類型。

固定記憶池

一類方法采用外部編碼器將知識注入到記憶池中,例如 Memory Network,其重點(diǎn)在于解決 RNN 中的遺忘問題。后續(xù)工作則通過計(jì)算整個(gè)記憶池的加權(quán)和,作為記憶的代表向量。最具代表性的工作 MemoryLLM,在 LLM 的潛在空間中集成了一個(gè)內(nèi)置記憶池。這個(gè)記憶池的設(shè)計(jì)目標(biāo)是:在固定容量的限制下,實(shí)現(xiàn)新知識的有效整合,并最大程度地減少信息遺忘,從而避免記憶無限增長的問題。

另一類方法則直接使用語言模型本身作為編碼器來更新記憶。例如,Memory Transformer 以及 RMT,提出在讀取上下文時(shí)添加記憶 token,其中記憶池最多包含 20 個(gè) token。

盡管這些固定大小的記憶池在實(shí)驗(yàn)中表現(xiàn)出一定的效果,但其性能仍受到記憶容量限制。

非固定記憶池

其他基于記憶的方法通常采用非固定大小的記憶池,并引入不同的遺忘機(jī)制以應(yīng)對記憶不斷增長的問題。在這些方法中,記憶池通常以以下幾種形式存在:

1. 隱藏狀態(tài)(hidden states):如 MemoryBank,將中間表示作為可持久化的記憶內(nèi)容存儲(chǔ)。

2. 鍵值對(key-value pairs):代表性方法包括 KNN-LM 和 LONGMEM,以可檢索的鍵值結(jié)構(gòu)進(jìn)行知識保存和回調(diào)。

3. 隱藏空間向量(vectors in hidden space):如 Memformer 通過在潛在空間中保存向量來增強(qiáng)上下文記憶。

4. 原始文本(raw texts):如 RET-LLM,將知識以三元組的形式存入記憶中,并通過 API 查詢方式,在當(dāng)前上下文下檢索相關(guān)信息。

這些方法提供了更靈活的記憶機(jī)制,但由于缺乏結(jié)構(gòu)化的壓縮與管理手段,存儲(chǔ)的知識可能存在冗余,影響記憶效率與模型推理性能。

有關(guān)大模型記憶的部分技術(shù),可以參考以下論文:

image.png

  • 論文標(biāo)題:MemoryLLM: Towards Self-Updatable Large Language Models
  • 論文鏈接:https://arxiv.org/abs/2402.04624

記憶數(shù)據(jù)管理:記憶系統(tǒng)

據(jù)前文所述,LLM 的記憶與數(shù)據(jù)庫非常相似。雖然 RAG 引入了純文本的外部知識,但它仍然是一種無狀態(tài)的工作方法,缺乏生命周期管理與持久表示的整合能力。

記憶系統(tǒng)本質(zhì)上和 RAG 檢索是幾乎一致的,但記憶系統(tǒng)機(jī)制會(huì)在記憶存儲(chǔ)的基礎(chǔ)上增加更豐富的信息組織、信息管理和信息檢索方法,將記憶存儲(chǔ)管理與計(jì)算機(jī)操作系統(tǒng)的原理相結(jié)合,能夠構(gòu)建更加完善的記憶機(jī)制,使 LLM 擁有更持久的記憶。

近期有關(guān) LLM 記憶系統(tǒng)的研究逐步走入聚光燈下,大多受傳統(tǒng)操作系統(tǒng)的內(nèi)存機(jī)制啟發(fā),建立了全新架構(gòu)的記憶管理模式。以近期幾個(gè)具有代表性的研究工作為例:

Coursera 聯(lián)合創(chuàng)始人,前百度 AI 部門總負(fù)責(zé)人,前 Google Brain 項(xiàng)目創(chuàng)始成員與負(fù)責(zé)人吳恩達(dá)在近期的短課程中提到:

image.png

大型語言模型(LLM)的輸入上下文窗口具有有限空間。使用更長的輸入上下文不僅成本更高,而且處理速度更慢。因此,管理存儲(chǔ)在該上下文窗口中的內(nèi)容至關(guān)重要。

在論文《MemGPT: Towards LLMs as Operating Systems》中,作者提出使用一個(gè) LLM 代理來管理該上下文窗口。該系統(tǒng)配備了一個(gè)大型的持久內(nèi)存,用于存儲(chǔ)所有可能被納入輸入上下文的信息,而一個(gè)代理則負(fù)責(zé)決定哪些信息實(shí)際被包含進(jìn)去。該技術(shù)受傳統(tǒng)操作系統(tǒng)中分層內(nèi)存系統(tǒng)的啟發(fā):通過在物理內(nèi)存與磁盤之間進(jìn)行分頁,實(shí)現(xiàn)擴(kuò)展虛擬內(nèi)存的假象。

image.png

  • 論文標(biāo)題:MemGPT: Towards LLMs as Operating Systems
  • 論文鏈接:https://arxiv.org/abs/2310.08560

記憶張量(上海)科技有限公司聯(lián)合上海交通大學(xué)、中國人民大學(xué)、同濟(jì)大學(xué)、浙江大學(xué)、中國電信等多家頂尖團(tuán)隊(duì)發(fā)布了 MemOS(Memory Operating System),一套面向大模型的工業(yè)級記憶操作系統(tǒng)。在技術(shù)實(shí)現(xiàn)層面,MemOS 借鑒了傳統(tǒng)操作系統(tǒng)的分層架構(gòu)設(shè)計(jì),也融合了 Memory3(憶立方)大模型在記憶分層管理方面的核心機(jī)制。整個(gè)系統(tǒng)由 API 與應(yīng)用接口層、記憶調(diào)度與管理層、記憶存儲(chǔ)與基礎(chǔ)設(shè)施層三大核心層次組成,構(gòu)建了一套從用戶交互到底層存儲(chǔ)的全鏈路記憶管理閉環(huán)。

image.pngimage.png

  • 項(xiàng)目官網(wǎng):https://memos.openmem.net
  • 論文鏈接:https://memos.openmem.net/paper_memos_v2

北郵百家 AI 團(tuán)隊(duì)推出首個(gè)大模型記憶操作系統(tǒng)開源框架 MemoryOS,借鑒了現(xiàn)代操作系統(tǒng)中成熟的內(nèi)存管理原則,采用短期、中期、長期三級分層記憶存儲(chǔ)體系(實(shí)時(shí)對話存儲(chǔ)、主題信息整合、個(gè)性化知識沉淀),包含四大核心功能:記憶存儲(chǔ)、記憶更新、記憶檢索和響應(yīng)生成,全方位管理 AI 記憶系統(tǒng)。

image.pngimage.png

  • 項(xiàng)目地址:https://github.com/BAI-LAB/MemoryOS
  • 論文鏈接:https://arxiv.org/abs/2506.06326

加利福尼亞大學(xué)圣迭戈分校(UCSD)博士生 Yu Wang 和紐約大學(xué)教授陳溪(Xi Chen)聯(lián)合推出并開源了 MIRIX —— 全球首個(gè)真正意義上的多模態(tài)、多智能體 AI 記憶系統(tǒng)。MIRIX 擁有六類核心記憶,能夠細(xì)分認(rèn)知角色。提出了一種模塊化多智能體架構(gòu)(multi-agent architecture),由若干專用組件在統(tǒng)一調(diào)度機(jī)制下協(xié)作完成輸入處理、記憶更新和信息檢索。

圖片

  • 論文標(biāo)題:MIRIX: Multi-Agent Memory System for LLM-Based Agents
  • 論文鏈接:https://arxiv.org/abs/2507.07957

除此以外,在針對 LLM 記憶管理與更新的前沿研究工作中,另一類參考人類神經(jīng)或人類大腦記憶的模式同樣取得了很好的結(jié)果。

Larimar —— 一種受大腦啟發(fā)的新型架構(gòu),用于通過分布式情景記憶增強(qiáng) LLMs。人類能非常迅速地執(zhí)行知識更新和泛化,在大腦中,這種快速學(xué)習(xí)被認(rèn)為依賴于海馬體及其情景記憶能力。該工作受人類情景記憶能力的啟發(fā),構(gòu)建了分層內(nèi)存框架,提出了一種用于實(shí)時(shí)測試時(shí)適應(yīng)的情景化且可適應(yīng)的記憶條件 LLM 架構(gòu)。

image.png

  • 論文標(biāo)題:Larimar: Large Language Models with Episodic Memory Control
  • 論文地址:https://arxiv.org/pdf/2403.11901

M+ 探索了探索隱空間 (Latent-Space) 的 記憶 —— 既壓縮又可端到端訓(xùn)練,更接近人類在神經(jīng)激活中存儲(chǔ)信息的方式。 該工作在 MemoryLLM 之上提出的長期隱空間記憶擴(kuò)展框架:通過把「過期」隱藏向量寫入 CPU - 側(cè)長期記憶池,再用協(xié)同檢索器拉回最相關(guān)記憶,它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時(shí)顯存占用保持不變。

image.png

  • 論文標(biāo)題:M+: Extending MemoryLLM with Scalable Long-Term Memory
  • 論文鏈接:https://arxiv.org/abs/2502.00592

如有相關(guān)前沿研究進(jìn)展,歡迎讀者留言推薦,共同交流探討。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2014-02-20 10:36:03

Linux操作系統(tǒng)

2009-09-02 15:04:49

2011-01-10 16:34:13

linux安裝

2010-04-16 10:34:45

Unix操作系統(tǒng)

2009-08-26 08:29:35

Windows 7系統(tǒng)測試

2024-07-12 14:07:04

2009-07-09 09:42:33

2022-01-04 12:43:47

Haiku操作系統(tǒng)Wine補(bǔ)丁

2011-01-14 17:50:50

Linux安裝方法

2022-01-14 07:25:28

Linux 安裝字體Linux 系統(tǒng)

2013-02-22 11:25:27

UbuntuUbuntu移動(dòng)操作系

2009-12-14 16:43:53

2009-12-09 17:25:19

Linux操作系統(tǒng)

2025-06-09 08:56:00

2019-06-12 06:52:39

操作系統(tǒng)Windows終端

2013-11-18 09:19:13

黑莓10黑莓

2013-11-18 10:31:21

黑莓10BlackBerry1

2021-07-20 15:40:21

Windows 11Windows微軟

2023-11-29 12:56:50

2010-01-12 14:20:10

Linux安裝
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號