
譯者 | 陳峻
審校 | 重樓
目前,數(shù)據(jù)科學家們已經(jīng)熟悉了那些以不同的文件格式作為處理輸入與輸出的各類機器學習模型。在大多數(shù)情況下,人工智能智能體(AI agent)都需要通過維護上下文,從人機交互中學習,以及按需訪問其他模型無法處理的海量知識存儲。這無疑需要龐大的內(nèi)存架構(gòu)。
你可以試想這樣的數(shù)字:GPT-4 的 128k 令牌限制,就相當于大約 96,000 個單詞。這樣的限制,對于那些需要與整個館藏資料打交道的學術(shù)研究助理、或每天管理數(shù)千筆交易的客戶服務(wù)代表來說,是極具挑戰(zhàn)的。他們其實需要的是更加智能化的內(nèi)存架構(gòu),而不是更大的上下文窗口。
這便是向量數(shù)據(jù)庫的用武之處,它可以成為AI基礎(chǔ)架構(gòu)中必不可少的部分,將“語義記憶”的模糊問題轉(zhuǎn)化為數(shù)據(jù)科學家所理解的高維相似性搜索的精確領(lǐng)域。下面,讓我們來詳細了解一下。
從特征工程到語義嵌入
嵌入(Embeddings),是從標準的機器學習到智能體內(nèi)存系統(tǒng)轉(zhuǎn)變的第一步?,F(xiàn)代化嵌入模型如同智能特征提取器,可以將普通語言轉(zhuǎn)換為豐富且有意義的表示形式。
而神經(jīng)嵌入代表的是連續(xù)空間中的語義鏈接,與 TF-IDF 和 n-gram 等稀疏且脆弱的特征并不相同。其中,OpenAI 的 text-embedding-3-large 是將“機器學習模型部署”轉(zhuǎn)換為具有余弦相似性的 3072 個維向量,以滿足人類語義相關(guān)性的各類評估。

從稀疏特征到密集語義嵌入
實際上,我們已能夠?qū)⒍ㄐ韵嗨菩裕?,某些文檔具有相似的主題)轉(zhuǎn)換為可量化的距離測量值,進而測量、優(yōu)化、以及系統(tǒng)性地改進這些測量值。這也是數(shù)據(jù)科學的研究基礎(chǔ)。
矢量數(shù)據(jù)庫:基礎(chǔ)設(shè)施層
當前,向量數(shù)據(jù)庫已經(jīng)解決了當你在需要實時搜索數(shù)百萬個高維嵌入時出現(xiàn)的可擴展性挑戰(zhàn)。作為數(shù)據(jù)科學家,我們可以將它們視為針對相似性查詢(而非聚合進行優(yōu)化)的專用 OLAP 系統(tǒng)。

矢量數(shù)據(jù)庫的工作流
不過,此類矢量數(shù)據(jù)庫面臨的核心技術(shù)挑戰(zhàn),恰好是我們在其他領(lǐng)域已解決的問題:如何在不進行詳盡比較的情況下,有效地搜索高維空間?而且當維數(shù)的量級超過大約 20 個的時候,維度的詛咒便會使得傳統(tǒng)的基于樹的索引(如,KD 樹、球樹)變得毫無用處。
在此基礎(chǔ)上,現(xiàn)代化的矢量數(shù)據(jù)庫采用了復雜的索引策略:
- HNSW(分層可導航小世界,Hierarchical Navigable Small World):構(gòu)建一個多層圖形,其中每個節(jié)點都連接到其最近的鄰居節(jié)點上。這主要是因為搜索的復雜性會按照對數(shù)的方式,以及數(shù)百萬個向量的請求來擴展。因此,在大多數(shù)情況下,這些請求可能會在不到 100 毫秒的時間內(nèi)被完成。
- IVF-PQ(具有乘積量化的倒置文件,Inverted File with Product Quantization):通過對向量空間進行聚類并采用學習壓縮(learnt compression),它可以將內(nèi)存占用減少 75%,同時保持較強的召回率。這便是我們從機器學習模型調(diào)整中獲悉到的經(jīng)典精度召回率(precision-recall)的優(yōu)化--使用其中一些準確性換取了巨大的可擴展性。

HNSW 與 IVF-PQ
當然,影響選擇上述方法的因素往往涉及到對延遲與吞吐量、內(nèi)存與準確性、以及成本與性能等諸多數(shù)據(jù)因素的了解與科學權(quán)衡。
內(nèi)存架構(gòu):情景存儲與語義存儲
借鑒認知心理學研究,有效的智能體記憶系統(tǒng)實現(xiàn)了反映人類記憶模式的雙重存儲機制,即:
- 情景記憶,存儲了原始的、帶有時間戳的交互。這些交互不限于每一次對話回合、工具的執(zhí)行、以及環(huán)境觀察等屬性。它為調(diào)試、審計跟蹤和上下文重建提供了完美的調(diào)用。從數(shù)據(jù)科學的角度來看,我們可以將其視為“原始數(shù)據(jù)湖”,它不會丟失或轉(zhuǎn)換任何內(nèi)容。
- 語義記憶,包含了從情景體驗中提取的結(jié)構(gòu)化知識?;诖?,智能體存儲了從有關(guān)用戶、領(lǐng)域知識、以及行為模式中學習到的事實。與機器學習管道中的特征存儲類似,語義記憶提供了對已處理的見解的快速訪問。

情景記憶與語義記憶
可見,這些不同的記憶模式不僅可以被使用在不同的數(shù)據(jù)庫中,而且能夠服務(wù)于不同的分析目的,并且具有不同的保留、更新和查詢模式。
用于設(shè)計和評估的架構(gòu)
為了讓智能體能夠提供有效且能產(chǎn)生預(yù)期結(jié)果的記憶系統(tǒng),我們從數(shù)據(jù)科學角度通過如下方面來設(shè)計內(nèi)存架構(gòu):
- 檢索質(zhì)量:使用人工標記的相關(guān)性評級來衡量recall@k(信息檢索和推薦系統(tǒng)中常用的評價指標)和平均倒數(shù)排名 (Mean Reciprocal Rank,MRR)。在該架構(gòu)中,我們不會進行一般性的猜測和測量,而是會描述智能體應(yīng)該如何實際處理查詢的測試集。
- 從開始到結(jié)束的性能:在該架構(gòu)中,我們需要跟蹤完成了多少任務(wù),檢查用戶的滿意度,以及響應(yīng)的效率。同時,為了衡量答案質(zhì)量的變化,我們還應(yīng)使用 BLEU、ROUGE 或語義相似性指標之類的工具。
- 系統(tǒng)性能:我們需要密切關(guān)注安裝成本、存儲增長量、查詢延遲分布方式、以及基礎(chǔ)結(jié)構(gòu)增長情況。這些實用的指標通常會比純粹準確性的衡量標準更重要。
- 消融研究(Ablation studies):我們可以通過移除部分組件來驗證其必要性,進而確保以有計劃的方式,更改嵌入模型、塊大小、恢復方法、以及上下文壓縮技術(shù)。顯然,這將有助于確定哪些部分可以帶來更好的速度,以及哪些部分需要被調(diào)整。
提高效率的模式和策略
- 混合檢索:使用這種檢索方法,我們可以確保密集矢量從搜索開始,使用 BM25(Best Matching 25,一種信息檢索領(lǐng)域的經(jīng)典算法)進行稀疏關(guān)鍵字匹配,以獲得各種查詢的良好結(jié)果。其實,我們正是從模型堆疊中獲悉了這種模式:這種組合方法通常比單獨使用任何一種方法都更有效。
- 動態(tài)分配上下文:我們通過設(shè)置學習的規(guī)則,根據(jù)查詢的復雜性、用戶的過往交互、以及作業(yè)的需求,來更改上下文窗口的使用方式。這將從效率上解決靜態(tài)資源的分配問題。
- 進行小的更改:對特定于某些智能體的數(shù)據(jù),我們使用對比學習,使得通用嵌入模型更適應(yīng)用戶所在的區(qū)域。毫不夸張地說,目前市場上已經(jīng)上市的模型可能沒有幾個能夠達到該模型的準確水平(通常僅達到其15-30%)。
可能面臨的挑戰(zhàn)
- 管理成本:將 API 放入文本中,會使得成本隨著文本量的增加而直接上升。智能的分塊計劃、壓縮方法、以及精心添加的高價值內(nèi)容都需要成本。為此,我們需要持續(xù)監(jiān)控每位用戶所增加的費用,并設(shè)置警報,以便在超出限額時能及時發(fā)出通知。
- 數(shù)據(jù)質(zhì)量:矢量系統(tǒng)可能會使得數(shù)據(jù)質(zhì)量問題變得更糟。例如,無法正常工作的分塊、不均勻的風格、以及難以閱讀的文本都會減慢系統(tǒng)的運行速度。此外,我們還要確保結(jié)果質(zhì)量得到跟蹤,并確保數(shù)據(jù)能夠正確地使用類似于機器學習功能的管道。
- 安全保障:采用嵌入的方式會跟蹤源文本的含義,這可能會帶來安全方面的風險。我們應(yīng)對此考慮不同的隱私設(shè)置、訪問控制、以及保存數(shù)據(jù)的規(guī)則,使之既實用又合法。
小結(jié)
作為新興的學習和適應(yīng)智能系統(tǒng)的基礎(chǔ),數(shù)據(jù)科學家不僅可以使用矢量數(shù)據(jù)庫作為工具來創(chuàng)建 AI 聊天機器人,也能夠利用其邏輯來創(chuàng)建一套智能體內(nèi)存,以監(jiān)控系統(tǒng)、協(xié)調(diào)測試、并加快響應(yīng)。面對復雜的系統(tǒng)開發(fā)與變化,我們不是要改進某一個模型,而是要構(gòu)建出由多個協(xié)同工作能力的 AI 部件組成的分布式內(nèi)存架構(gòu),讓更多單打獨斗的AI系統(tǒng)轉(zhuǎn)變成協(xié)同服務(wù)的AI智能體。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項目實施經(jīng)驗,善于對內(nèi)外部資源與風險實施管控,專注傳播網(wǎng)絡(luò)與信息安全知識與經(jīng)驗。
原文標題:LLMs + Vector Databases: Building Memory Architectures for AI Agents,作者:Lanre Shittu
































