偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM 記憶系統(tǒng)深度解析:從上下文窗口到多層架構(gòu)的突破與演進(jìn)

人工智能
LLM的記憶系統(tǒng)并非單一的機(jī)制,而是由上下文窗口作為工作記憶,結(jié)合RAG實(shí)現(xiàn)長(zhǎng)期記憶,通過(guò)提示壓縮優(yōu)化工作記憶,并借助多層記憶系統(tǒng)整合短期和長(zhǎng)期記憶的復(fù)雜架構(gòu)。

在與大型語(yǔ)言模型(LLMs)交互時(shí),我們常常會(huì)產(chǎn)生一種它們具備智能和記憶能力的錯(cuò)覺(jué)。然而,這種直覺(jué)掩蓋了一個(gè)基本的工程現(xiàn)實(shí):從核心來(lái)看,LLMs是無(wú)狀態(tài)的,每個(gè)輸入都是被獨(dú)立處理的。如果想要構(gòu)建一個(gè)能夠進(jìn)行連貫對(duì)話或調(diào)用公司知識(shí)庫(kù)的LLM應(yīng)用程序,就必須圍繞模型設(shè)計(jì)一個(gè)復(fù)雜的記憶系統(tǒng)。本文將詳細(xì)闡述這一架構(gòu)——從LLM有限的工作記憶,到能讓其獲取海量、持久且最新知識(shí)的先進(jìn)系統(tǒng)。核心觀點(diǎn)很簡(jiǎn)單:構(gòu)建強(qiáng)大的LLM應(yīng)用程序,首要任務(wù)是打造一個(gè)穩(wěn)健的記憶系統(tǒng)。

LLM的工作記憶:上下文窗口

LLM維持即時(shí)上下文最直接的方式是通過(guò)其上下文窗口。這是一個(gè)定義好的輸入大小,以 tokens(子詞單元)為計(jì)量單位,模型可以在一次調(diào)用中處理這些輸入。在多輪對(duì)話中,系統(tǒng)會(huì)將之前的對(duì)話歷史添加到用戶當(dāng)前的查詢前面。然后,LLM 對(duì)這個(gè)拼接后的輸入進(jìn)行處理,從而生成與當(dāng)前討論上下文相關(guān)的回應(yīng)。

例如,谷歌的 Gemini 2.5 Pro 提供了 100 萬(wàn)個(gè) tokens 的上下文窗口,不久后還將支持 200 萬(wàn)個(gè) tokens。這一容量可以容納海量信息,相當(dāng)于多部小說(shuō)或龐大的代碼庫(kù),使模型能夠在單一輸入中進(jìn)行復(fù)雜的長(zhǎng)程推理。

然而,這種機(jī)制雖為基礎(chǔ),卻存在一些關(guān)鍵限制,使其不足以支撐生產(chǎn)級(jí)別的應(yīng)用程序。

首先是有限的容量與信息淘汰問(wèn)題。隨著對(duì)話歷史的不斷擴(kuò)展,系統(tǒng)必須采用淘汰策略來(lái)丟棄較舊的 tokens,這不可避免地會(huì)導(dǎo)致信息丟失,阻礙長(zhǎng)時(shí)間的交互。就像我們的短期記憶容量有限,當(dāng)新的信息不斷涌入,舊的信息就會(huì)被擠出去,無(wú)法再被完整回憶起來(lái)。在LLM的交互中也是如此,長(zhǎng)時(shí)間的對(duì)話會(huì)讓早期重要的信息因?yàn)閠okens數(shù)量的限制而被舍棄,影響對(duì)話的連貫性和準(zhǔn)確性。

其次是計(jì)算復(fù)雜性與成本問(wèn)題。標(biāo)準(zhǔn) Transformer 模型中注意力機(jī)制的計(jì)算成本以 O(N2) 的規(guī)模增長(zhǎng)。因此,隨著工作記憶容量的增大,推理的運(yùn)營(yíng)成本和延遲會(huì)高到令人望而卻步。這意味著如果我們想要讓LLM處理更多的信息,就需要投入更多的計(jì)算資源,不僅會(huì)增加經(jīng)濟(jì)成本,還會(huì)讓用戶等待更長(zhǎng)的時(shí)間才能得到回應(yīng),嚴(yán)重影響用戶體驗(yàn)。

再者是位置偏差(“迷失在中間”)問(wèn)題。實(shí)證研究表明,對(duì)于位于極長(zhǎng)上下文窗口正中間的信息,LLMs的性能會(huì)顯著下降。這種現(xiàn)象通常被稱為“迷失在中間”問(wèn)題,它揭示了一種“U 形”性能曲線,即模型往往更關(guān)注輸入序列開(kāi)頭和結(jié)尾的信息。這意味著僅僅向大的上下文窗口中添加更多數(shù)據(jù),并不能保證模型能有效利用所有相關(guān)信息。這是 Nelson F. Liu 等人在 2023 年發(fā)表的題為《迷失在中間:語(yǔ)言模型如何使用長(zhǎng)上下文》的論文中的一個(gè)關(guān)鍵發(fā)現(xiàn)。比如在一份冗長(zhǎng)的報(bào)告中,中間部分的關(guān)鍵數(shù)據(jù)可能會(huì)被LLM忽略,導(dǎo)致生成的回應(yīng)遺漏重要信息。

最后是靜態(tài)知識(shí)與動(dòng)態(tài)現(xiàn)實(shí)不匹配問(wèn)題。LLM 的內(nèi)在知識(shí)來(lái)源于其靜態(tài)的訓(xùn)練數(shù)據(jù)集。上下文窗口可以攜帶一些新信息,但無(wú)法用實(shí)時(shí)數(shù)據(jù)、公司特定信息或個(gè)人歷史更新模型的核心知識(shí)庫(kù)。在這個(gè)信息快速更新的時(shí)代,LLM的訓(xùn)練數(shù)據(jù)一旦固定,就無(wú)法及時(shí)反映最新的事件、政策變化等,這極大地限制了LLM在需要實(shí)時(shí)信息場(chǎng)景中的應(yīng)用。

這些限制使得我們必須構(gòu)建一個(gè)分層的記憶架構(gòu),為L(zhǎng)LM提供持久的長(zhǎng)期記憶。

用于持久高效記憶的先進(jìn)架構(gòu)

要構(gòu)建一個(gè)穩(wěn)健的LLM應(yīng)用程序,需要實(shí)施一些架構(gòu)模式來(lái)管理LLM即時(shí)上下文窗口之外的記憶。這些系統(tǒng)提供持久的長(zhǎng)期記憶,并優(yōu)化有限工作記憶的使用。

通過(guò)檢索增強(qiáng)生成(RAG)實(shí)現(xiàn)長(zhǎng)期記憶

如果說(shuō)上下文窗口是LLM的工作記憶,那么檢索增強(qiáng)生成(RAG)就是它的長(zhǎng)期記憶。RAG通過(guò)從外部不斷更新的知識(shí)庫(kù)中檢索相關(guān)信息,增強(qiáng)LLM的生成能力。這使得LLM應(yīng)用程序能夠訪問(wèn)公司維基、實(shí)時(shí)數(shù)據(jù)或個(gè)人歷史,而無(wú)需記住所有這些內(nèi)容。

這個(gè)過(guò)程通常包括以下幾個(gè)步驟。第一步是數(shù)據(jù)攝入和嵌入。專有數(shù)據(jù)被分割成塊,并轉(zhuǎn)換為數(shù)值嵌入。就像我們把書(shū)本中的知識(shí)分門(mén)別類地存儲(chǔ)在大腦中,方便以后提取一樣,將數(shù)據(jù)分割成塊并進(jìn)行嵌入處理,能讓LLM更高效地檢索和利用信息。

第二步是向量數(shù)據(jù)庫(kù)存儲(chǔ)。這些嵌入被存儲(chǔ)在專門(mén)的向量數(shù)據(jù)庫(kù)中。向量數(shù)據(jù)庫(kù)就像一個(gè)高效的圖書(shū)館,將各種信息按照特定的規(guī)則進(jìn)行存儲(chǔ),便于快速查找。

第三步是檢索過(guò)程。用戶的查詢被嵌入,然后通過(guò)相似性搜索從數(shù)據(jù)庫(kù)中檢索出最相關(guān)的數(shù)據(jù)塊。當(dāng)我們向LLM提問(wèn)時(shí),它就像在圖書(shū)館中根據(jù)關(guān)鍵詞查找相關(guān)書(shū)籍一樣,從向量數(shù)據(jù)庫(kù)中找到與問(wèn)題最相關(guān)的信息。

第四步是上下文增強(qiáng)和生成。只有這些高度相關(guān)的片段會(huì)被附加到提示中,使LLM的回應(yīng)基于具體、實(shí)時(shí)且可驗(yàn)證的信息。這確保了LLM生成的內(nèi)容更加準(zhǔn)確、可靠,有堅(jiān)實(shí)的信息支撐。

RAG提高了事實(shí)準(zhǔn)確性,提供了獲取最新信息的途徑,為大型知識(shí)庫(kù)提供了可擴(kuò)展性,并通過(guò)引用提高了透明度。在很多領(lǐng)域,如客服、醫(yī)療咨詢等,準(zhǔn)確性至關(guān)重要,RAG的應(yīng)用能有效減少錯(cuò)誤信息的輸出。

提示壓縮:優(yōu)化工作記憶

即使有了RAG,上下文窗口仍然是一種有限的資源。提示壓縮是一種在提示(包括指令、檢索到的上下文和對(duì)話歷史)到達(dá)LLM之前,智能地減少其token數(shù)量的技術(shù)。

其核心思想是從輸入中識(shí)別并移除冗余或信息量較少的tokens,同時(shí)保留基本含義和意圖。蔣等人的論文《LLMLingua:為大型語(yǔ)言模型的加速推理壓縮提示》可能是第一篇專門(mén)探討大型語(yǔ)言模型提示壓縮的研究論文。LLMLingua使用一個(gè)較小的、訓(xùn)練良好的語(yǔ)言模型(如GPT-2或LLaMA)來(lái)識(shí)別并移除對(duì)更大模型理解來(lái)說(shuō)語(yǔ)義不太重要的tokens。這種方法引入了使用困惑度來(lái)過(guò)濾tokens的概念,并已顯示出令人印象深刻的結(jié)果,在實(shí)現(xiàn)高達(dá)20倍壓縮的同時(shí),保留了原始提示在推理和上下文學(xué)習(xí)等任務(wù)中的能力。

簡(jiǎn)單來(lái)說(shuō),困惑度是衡量語(yǔ)言模型對(duì)一系列單詞的“驚訝”或“困惑”程度的指標(biāo)。一個(gè)高度可預(yù)測(cè)的token(低困惑度)添加的新信息很少;一個(gè)令人驚訝的token(高困惑度)則添加了很多新信息。本質(zhì)上,困惑度是一個(gè)token為序列提供多少信息的代理指標(biāo)。這種方法通過(guò)減少token使用量和成本、提高推理速度,并確保關(guān)鍵信息在可用限制內(nèi),直接解決了上下文窗口的局限性。就像我們?cè)趯?xiě)文章時(shí)會(huì)精簡(jiǎn)語(yǔ)言,去掉不必要的修飾詞,只保留核心內(nèi)容一樣,提示壓縮能讓LLM在有限的上下文窗口內(nèi)處理更多關(guān)鍵信息。

多層記憶系統(tǒng):結(jié)合短期和長(zhǎng)期記憶

對(duì)于最復(fù)雜的應(yīng)用程序,結(jié)合短期和長(zhǎng)期記憶的架構(gòu)至關(guān)重要。這是一種分層記憶形式,其中上下文窗口作為工作記憶,容納即時(shí)對(duì)話和最關(guān)鍵的檢索信息;向量數(shù)據(jù)庫(kù)(RAG)作為長(zhǎng)期記憶,提供龐大、可搜索且持久的知識(shí)存儲(chǔ);還有一個(gè)系統(tǒng)組件負(fù)責(zé)協(xié)調(diào)流程,決定哪些信息需要主動(dòng)保存在工作記憶中,哪些可以被分頁(yè)到長(zhǎng)期記憶中,只在需要時(shí)才檢索。

這種多層方法使LLM應(yīng)用程序既能具備豐富的知識(shí),又能保持對(duì)話的連貫性,克服了任何單一記憶系統(tǒng)的局限性。多層記憶系統(tǒng)的靈感來(lái)源于人類記憶的組織方式,人類有用于短期、長(zhǎng)期和工作記憶的不同但相互關(guān)聯(lián)的系統(tǒng)。Joon Sung Park等人的研究論文《生成代理:人類行為的交互式模擬》引用了人類認(rèn)知心理學(xué),作為他們創(chuàng)建具有觀察、反思和長(zhǎng)期存儲(chǔ)不同層次系統(tǒng)的靈感來(lái)源。人類在處理信息時(shí),會(huì)將短期記憶中的重要信息轉(zhuǎn)化為長(zhǎng)期記憶,在需要時(shí)再提取出來(lái),多層記憶系統(tǒng)正是借鑒了這一原理,讓LLM能更高效地管理和利用信息。

綜上所述,LLM的記憶系統(tǒng)并非單一的機(jī)制,而是由上下文窗口作為工作記憶,結(jié)合RAG實(shí)現(xiàn)長(zhǎng)期記憶,通過(guò)提示壓縮優(yōu)化工作記憶,并借助多層記憶系統(tǒng)整合短期和長(zhǎng)期記憶的復(fù)雜架構(gòu)。這些組件相互協(xié)作,共同支撐起LLM應(yīng)用程序的強(qiáng)大功能,使其能夠在各種場(chǎng)景中提供準(zhǔn)確、連貫且及時(shí)的回應(yīng)。隨著技術(shù)的不斷發(fā)展,相信LLM的記憶系統(tǒng)會(huì)更加完善,為我們帶來(lái)更多的便利和可能。

責(zé)任編輯:武曉燕 來(lái)源: 大模型之路
相關(guān)推薦

2025-07-29 00:00:00

LLM上下文窗口系統(tǒng)

2024-04-29 13:09:10

LLM架構(gòu)性能

2025-05-15 08:20:46

2025-07-16 09:12:00

AI模型訓(xùn)練

2025-10-14 09:54:28

2025-08-08 14:06:48

MemToolLLM智能體

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-05-26 01:45:00

LLMAI信任

2025-10-20 09:06:00

2012-07-30 16:29:40

架構(gòu)架構(gòu)模式.NET

2025-10-11 04:22:00

人工海馬體網(wǎng)絡(luò)LV-Eval

2022-05-03 21:01:10

架構(gòu)項(xiàng)目映射

2024-01-29 08:49:36

RAG模型檢索

2012-12-31 10:01:34

SELinuxSELinux安全

2025-05-09 09:15:00

2022-09-14 13:13:51

JavaScript上下文

2025-10-27 09:38:26

2025-10-10 09:16:47

2025-05-09 07:50:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)