偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<bdo id="dlxz6"></bdo>

<thead id="dlxz6"></thead>

<thead id="dlxz6"></thead>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

LLM 記憶系統(tǒng)深度解析：從上下文窗口到多層架構(gòu)的突破與演進(jìn)

作者：大模型之路 2025-08-11 08:20:02

LLM的記憶系統(tǒng)并非單一的機(jī)制，而是由上下文窗口作為工作記憶，結(jié)合RAG實(shí)現(xiàn)長(zhǎng)期記憶，通過(guò)提示壓縮優(yōu)化工作記憶，并借助多層記憶系統(tǒng)整合短期和長(zhǎng)期記憶的復(fù)雜架構(gòu)。

在與大型語(yǔ)言模型（LLMs）交互時(shí)，我們常常會(huì)產(chǎn)生一種它們具備智能和記憶能力的錯(cuò)覺(jué)。然而，這種直覺(jué)掩蓋了一個(gè)基本的工程現(xiàn)實(shí)：從核心來(lái)看，LLMs是無(wú)狀態(tài)的，每個(gè)輸入都是被獨(dú)立處理的。如果想要構(gòu)建一個(gè)能夠進(jìn)行連貫對(duì)話或調(diào)用公司知識(shí)庫(kù)的LLM應(yīng)用程序，就必須圍繞模型設(shè)計(jì)一個(gè)復(fù)雜的記憶系統(tǒng)。本文將詳細(xì)闡述這一架構(gòu)——從LLM有限的工作記憶，到能讓其獲取海量、持久且最新知識(shí)的先進(jìn)系統(tǒng)。核心觀點(diǎn)很簡(jiǎn)單：構(gòu)建強(qiáng)大的LLM應(yīng)用程序，首要任務(wù)是打造一個(gè)穩(wěn)健的記憶系統(tǒng)。

LLM的工作記憶：上下文窗口

LLM維持即時(shí)上下文最直接的方式是通過(guò)其上下文窗口。這是一個(gè)定義好的輸入大小，以 tokens（子詞單元）為計(jì)量單位，模型可以在一次調(diào)用中處理這些輸入。在多輪對(duì)話中，系統(tǒng)會(huì)將之前的對(duì)話歷史添加到用戶當(dāng)前的查詢前面。然后，LLM 對(duì)這個(gè)拼接后的輸入進(jìn)行處理，從而生成與當(dāng)前討論上下文相關(guān)的回應(yīng)。

例如，谷歌的 Gemini 2.5 Pro 提供了 100 萬(wàn)個(gè) tokens 的上下文窗口，不久后還將支持 200 萬(wàn)個(gè) tokens。這一容量可以容納海量信息，相當(dāng)于多部小說(shuō)或龐大的代碼庫(kù)，使模型能夠在單一輸入中進(jìn)行復(fù)雜的長(zhǎng)程推理。

然而，這種機(jī)制雖為基礎(chǔ)，卻存在一些關(guān)鍵限制，使其不足以支撐生產(chǎn)級(jí)別的應(yīng)用程序。

首先是有限的容量與信息淘汰問(wèn)題。隨著對(duì)話歷史的不斷擴(kuò)展，系統(tǒng)必須采用淘汰策略來(lái)丟棄較舊的 tokens，這不可避免地會(huì)導(dǎo)致信息丟失，阻礙長(zhǎng)時(shí)間的交互。就像我們的短期記憶容量有限，當(dāng)新的信息不斷涌入，舊的信息就會(huì)被擠出去，無(wú)法再被完整回憶起來(lái)。在LLM的交互中也是如此，長(zhǎng)時(shí)間的對(duì)話會(huì)讓早期重要的信息因?yàn)閠okens數(shù)量的限制而被舍棄，影響對(duì)話的連貫性和準(zhǔn)確性。

其次是計(jì)算復(fù)雜性與成本問(wèn)題。標(biāo)準(zhǔn) Transformer 模型中注意力機(jī)制的計(jì)算成本以 O(N2) 的規(guī)模增長(zhǎng)。因此，隨著工作記憶容量的增大，推理的運(yùn)營(yíng)成本和延遲會(huì)高到令人望而卻步。這意味著如果我們想要讓LLM處理更多的信息，就需要投入更多的計(jì)算資源，不僅會(huì)增加經(jīng)濟(jì)成本，還會(huì)讓用戶等待更長(zhǎng)的時(shí)間才能得到回應(yīng)，嚴(yán)重影響用戶體驗(yàn)。

再者是位置偏差（“迷失在中間”）問(wèn)題。實(shí)證研究表明，對(duì)于位于極長(zhǎng)上下文窗口正中間的信息，LLMs的性能會(huì)顯著下降。這種現(xiàn)象通常被稱為“迷失在中間”問(wèn)題，它揭示了一種“U 形”性能曲線，即模型往往更關(guān)注輸入序列開(kāi)頭和結(jié)尾的信息。這意味著僅僅向大的上下文窗口中添加更多數(shù)據(jù)，并不能保證模型能有效利用所有相關(guān)信息。這是 Nelson F. Liu 等人在 2023 年發(fā)表的題為《迷失在中間：語(yǔ)言模型如何使用長(zhǎng)上下文》的論文中的一個(gè)關(guān)鍵發(fā)現(xiàn)。比如在一份冗長(zhǎng)的報(bào)告中，中間部分的關(guān)鍵數(shù)據(jù)可能會(huì)被LLM忽略，導(dǎo)致生成的回應(yīng)遺漏重要信息。

最后是靜態(tài)知識(shí)與動(dòng)態(tài)現(xiàn)實(shí)不匹配問(wèn)題。LLM 的內(nèi)在知識(shí)來(lái)源于其靜態(tài)的訓(xùn)練數(shù)據(jù)集。上下文窗口可以攜帶一些新信息，但無(wú)法用實(shí)時(shí)數(shù)據(jù)、公司特定信息或個(gè)人歷史更新模型的核心知識(shí)庫(kù)。在這個(gè)信息快速更新的時(shí)代，LLM的訓(xùn)練數(shù)據(jù)一旦固定，就無(wú)法及時(shí)反映最新的事件、政策變化等，這極大地限制了LLM在需要實(shí)時(shí)信息場(chǎng)景中的應(yīng)用。

這些限制使得我們必須構(gòu)建一個(gè)分層的記憶架構(gòu)，為L(zhǎng)LM提供持久的長(zhǎng)期記憶。

用于持久高效記憶的先進(jìn)架構(gòu)

要構(gòu)建一個(gè)穩(wěn)健的LLM應(yīng)用程序，需要實(shí)施一些架構(gòu)模式來(lái)管理LLM即時(shí)上下文窗口之外的記憶。這些系統(tǒng)提供持久的長(zhǎng)期記憶，并優(yōu)化有限工作記憶的使用。

通過(guò)檢索增強(qiáng)生成（RAG）實(shí)現(xiàn)長(zhǎng)期記憶

如果說(shuō)上下文窗口是LLM的工作記憶，那么檢索增強(qiáng)生成（RAG）就是它的長(zhǎng)期記憶。RAG通過(guò)從外部不斷更新的知識(shí)庫(kù)中檢索相關(guān)信息，增強(qiáng)LLM的生成能力。這使得LLM應(yīng)用程序能夠訪問(wèn)公司維基、實(shí)時(shí)數(shù)據(jù)或個(gè)人歷史，而無(wú)需記住所有這些內(nèi)容。

這個(gè)過(guò)程通常包括以下幾個(gè)步驟。第一步是數(shù)據(jù)攝入和嵌入。專有數(shù)據(jù)被分割成塊，并轉(zhuǎn)換為數(shù)值嵌入。就像我們把書(shū)本中的知識(shí)分門(mén)別類地存儲(chǔ)在大腦中，方便以后提取一樣，將數(shù)據(jù)分割成塊并進(jìn)行嵌入處理，能讓LLM更高效地檢索和利用信息。

第二步是向量數(shù)據(jù)庫(kù)存儲(chǔ)。這些嵌入被存儲(chǔ)在專門(mén)的向量數(shù)據(jù)庫(kù)中。向量數(shù)據(jù)庫(kù)就像一個(gè)高效的圖書(shū)館，將各種信息按照特定的規(guī)則進(jìn)行存儲(chǔ)，便于快速查找。

第三步是檢索過(guò)程。用戶的查詢被嵌入，然后通過(guò)相似性搜索從數(shù)據(jù)庫(kù)中檢索出最相關(guān)的數(shù)據(jù)塊。當(dāng)我們向LLM提問(wèn)時(shí)，它就像在圖書(shū)館中根據(jù)關(guān)鍵詞查找相關(guān)書(shū)籍一樣，從向量數(shù)據(jù)庫(kù)中找到與問(wèn)題最相關(guān)的信息。

第四步是上下文增強(qiáng)和生成。只有這些高度相關(guān)的片段會(huì)被附加到提示中，使LLM的回應(yīng)基于具體、實(shí)時(shí)且可驗(yàn)證的信息。這確保了LLM生成的內(nèi)容更加準(zhǔn)確、可靠，有堅(jiān)實(shí)的信息支撐。

RAG提高了事實(shí)準(zhǔn)確性，提供了獲取最新信息的途徑，為大型知識(shí)庫(kù)提供了可擴(kuò)展性，并通過(guò)引用提高了透明度。在很多領(lǐng)域，如客服、醫(yī)療咨詢等，準(zhǔn)確性至關(guān)重要，RAG的應(yīng)用能有效減少錯(cuò)誤信息的輸出。

提示壓縮：優(yōu)化工作記憶

即使有了RAG，上下文窗口仍然是一種有限的資源。提示壓縮是一種在提示（包括指令、檢索到的上下文和對(duì)話歷史）到達(dá)LLM之前，智能地減少其token數(shù)量的技術(shù)。

其核心思想是從輸入中識(shí)別并移除冗余或信息量較少的tokens，同時(shí)保留基本含義和意圖。蔣等人的論文《LLMLingua：為大型語(yǔ)言模型的加速推理壓縮提示》可能是第一篇專門(mén)探討大型語(yǔ)言模型提示壓縮的研究論文。LLMLingua使用一個(gè)較小的、訓(xùn)練良好的語(yǔ)言模型（如GPT-2或LLaMA）來(lái)識(shí)別并移除對(duì)更大模型理解來(lái)說(shuō)語(yǔ)義不太重要的tokens。這種方法引入了使用困惑度來(lái)過(guò)濾tokens的概念，并已顯示出令人印象深刻的結(jié)果，在實(shí)現(xiàn)高達(dá)20倍壓縮的同時(shí)，保留了原始提示在推理和上下文學(xué)習(xí)等任務(wù)中的能力。

簡(jiǎn)單來(lái)說(shuō)，困惑度是衡量語(yǔ)言模型對(duì)一系列單詞的“驚訝”或“困惑”程度的指標(biāo)。一個(gè)高度可預(yù)測(cè)的token（低困惑度）添加的新信息很少；一個(gè)令人驚訝的token（高困惑度）則添加了很多新信息。本質(zhì)上，困惑度是一個(gè)token為序列提供多少信息的代理指標(biāo)。這種方法通過(guò)減少token使用量和成本、提高推理速度，并確保關(guān)鍵信息在可用限制內(nèi)，直接解決了上下文窗口的局限性。就像我們?cè)趯?xiě)文章時(shí)會(huì)精簡(jiǎn)語(yǔ)言，去掉不必要的修飾詞，只保留核心內(nèi)容一樣，提示壓縮能讓LLM在有限的上下文窗口內(nèi)處理更多關(guān)鍵信息。

多層記憶系統(tǒng)：結(jié)合短期和長(zhǎng)期記憶

對(duì)于最復(fù)雜的應(yīng)用程序，結(jié)合短期和長(zhǎng)期記憶的架構(gòu)至關(guān)重要。這是一種分層記憶形式，其中上下文窗口作為工作記憶，容納即時(shí)對(duì)話和最關(guān)鍵的檢索信息；向量數(shù)據(jù)庫(kù)（RAG）作為長(zhǎng)期記憶，提供龐大、可搜索且持久的知識(shí)存儲(chǔ)；還有一個(gè)系統(tǒng)組件負(fù)責(zé)協(xié)調(diào)流程，決定哪些信息需要主動(dòng)保存在工作記憶中，哪些可以被分頁(yè)到長(zhǎng)期記憶中，只在需要時(shí)才檢索。

這種多層方法使LLM應(yīng)用程序既能具備豐富的知識(shí)，又能保持對(duì)話的連貫性，克服了任何單一記憶系統(tǒng)的局限性。多層記憶系統(tǒng)的靈感來(lái)源于人類記憶的組織方式，人類有用于短期、長(zhǎng)期和工作記憶的不同但相互關(guān)聯(lián)的系統(tǒng)。Joon Sung Park等人的研究論文《生成代理：人類行為的交互式模擬》引用了人類認(rèn)知心理學(xué)，作為他們創(chuàng)建具有觀察、反思和長(zhǎng)期存儲(chǔ)不同層次系統(tǒng)的靈感來(lái)源。人類在處理信息時(shí)，會(huì)將短期記憶中的重要信息轉(zhuǎn)化為長(zhǎng)期記憶，在需要時(shí)再提取出來(lái)，多層記憶系統(tǒng)正是借鑒了這一原理，讓LLM能更高效地管理和利用信息。

綜上所述，LLM的記憶系統(tǒng)并非單一的機(jī)制，而是由上下文窗口作為工作記憶，結(jié)合RAG實(shí)現(xiàn)長(zhǎng)期記憶，通過(guò)提示壓縮優(yōu)化工作記憶，并借助多層記憶系統(tǒng)整合短期和長(zhǎng)期記憶的復(fù)雜架構(gòu)。這些組件相互協(xié)作，共同支撐起LLM應(yīng)用程序的強(qiáng)大功能，使其能夠在各種場(chǎng)景中提供準(zhǔn)確、連貫且及時(shí)的回應(yīng)。隨著技術(shù)的不斷發(fā)展，相信LLM的記憶系統(tǒng)會(huì)更加完善，為我們帶來(lái)更多的便利和可能。

責(zé)任編輯：武曉燕來(lái)源：大模型之路

LLM RAG 上下文窗口

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="zbhfr"><source id="zbhfr"></source></style>