AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??
譯文譯者 | 朱先忠
審校 | 重樓
本文要討論什么內(nèi)容?
Meta公司努力開發(fā)出的CoCoMix(Continuous Concept Mixing:連續(xù)概念混合,出自Jihoon等人2025年發(fā)表的論文,見【引文1】)框架實(shí)現(xiàn)了概念學(xué)習(xí),即學(xué)習(xí)單詞背后的概念而不是僅僅預(yù)測(cè)下一個(gè)標(biāo)記,從而使其具有極強(qiáng)的可操控性和可解釋性。
但是,依然存在一個(gè)核心問(wèn)題:即使是概念上非常出色的模型,在訓(xùn)練之后的實(shí)際部署中,也可能難以應(yīng)對(duì)細(xì)微差別或事實(shí)性的回憶挑戰(zhàn)。你可以問(wèn)一個(gè)看似簡(jiǎn)單的問(wèn)題,比如:“在我們之前那場(chǎng)涉及200萬(wàn)個(gè)標(biāo)記的對(duì)話中,我們?cè)谀睦镉懻撨^(guò)匹諾曹那出了名的不斷增長(zhǎng)的鼻子?”無(wú)論LLM的概念能力多么強(qiáng),如果答案超出了它的上下文范圍,它就無(wú)法回答這個(gè)簡(jiǎn)單的問(wèn)題。
那么問(wèn)題來(lái)了:我們能否在推理過(guò)程中為這些智能LLM配備適應(yīng)性強(qiáng)的“記憶”或性能提升呢?
1. 基礎(chǔ)問(wèn)題:Transformer
Transformer(出自Vaswani等人2017年發(fā)表的論文,見【引文2】)在現(xiàn)代人工智能領(lǐng)域已變得無(wú)處不在。自其取得突破性成功以來(lái),它已成為各領(lǐng)域的首選架構(gòu)。
回想2020年,人們對(duì)任何機(jī)器學(xué)習(xí)問(wèn)題的默認(rèn)反應(yīng)往往是“把注意力集中到它上面”——令人驚訝的是,它確實(shí)有效,而且通常表現(xiàn)優(yōu)于最先進(jìn)的模型。視覺任務(wù)?請(qǐng)使用Transformer(Dosovitskiy等人2020年發(fā)表的論文,見【引文3】)。時(shí)間序列預(yù)測(cè)?又是Transformer(Zerveas等人于2021年發(fā)表的論文,見【引文4】)。自然語(yǔ)言處理?Transformer幾乎定義了它(Rogers等人于2021年發(fā)表的論文,見【引文5】)。
但是,隨著我們對(duì)大型模型的依賴加深以及計(jì)算預(yù)算的擴(kuò)大,即使是這種“全能”架構(gòu)也開始顯示出其局限性——因此,人們開始努力進(jìn)一步擴(kuò)展其功能。
存在瓶頸?可以求助于注意力機(jī)制的“人人對(duì)話”方法。這種方法非常巧妙,但成本卻極其高昂——想象一下,一個(gè)房間里有一百萬(wàn)人,每個(gè)人都必須記住與所有人的每一次對(duì)話。這限制了Transformer的“工作記憶”——使其記憶變得狹窄,難以進(jìn)行理解海量文檔所需的“長(zhǎng)期回憶”,因?yàn)樵缙谛畔?huì)逐漸消失。
除了上下文限制之外,普通的Transformer還面臨另一個(gè)根本障礙:訓(xùn)練后缺乏適應(yīng)性。雖然它們擅長(zhǎng)運(yùn)用海量預(yù)訓(xùn)練知識(shí)來(lái)預(yù)測(cè)下一個(gè)標(biāo)記(這是一個(gè)復(fù)雜的推理和預(yù)測(cè)過(guò)程),但這與真正的學(xué)習(xí)并不相同。就像谷歌地圖一樣,雖然它會(huì)為你找到“最短路徑”,但它會(huì)忘記前方有施工路段,讓你沖破路障。而人類向?qū)t會(huì)為你指引一條替代的小巷路線。
這種無(wú)法從當(dāng)前正在處理的數(shù)據(jù)中“即時(shí)學(xué)習(xí)”的能力,對(duì)于需要不斷適應(yīng)或記憶訓(xùn)練集之外的新經(jīng)驗(yàn)的任務(wù)來(lái)說(shuō),是一個(gè)嚴(yán)重的限制。
下面這張圖解釋了傳統(tǒng)Transformer注意力機(jī)制的局限性。其中,頂部展示了一個(gè)小型且有限的“注意力窗口”,其中包含t1-t6個(gè)標(biāo)記,表明像t203這樣的舊標(biāo)記已被“遺忘”。底部則展示了18個(gè)標(biāo)記的全對(duì)全注意力機(jī)制,突出顯示了其“O(n2)”的二次成本、計(jì)算消耗和資源密集度,并得出結(jié)論:它“無(wú)法擴(kuò)展到百萬(wàn)級(jí)以上的上下文窗口”。
當(dāng)前原始Transformer的眾多問(wèn)題中的兩個(gè)(作者本人繪制)
解決方案?Titans框架!
研究人員沒(méi)有僅僅針對(duì)單一限制,而是從更廣闊的視角出發(fā):像人腦這樣的智能系統(tǒng)如何管理記憶并適應(yīng)新情況?這并非關(guān)乎擁有一個(gè)龐大且隨時(shí)可用的記憶體。它其實(shí)是一個(gè)更靈活的設(shè)置,其中不同的組件相互協(xié)調(diào),以處理不同類型的信息和經(jīng)驗(yàn)。
Meta公司研究人員新研發(fā)成功的Titans架構(gòu)(出自Behrouz等人于2025年發(fā)表的論文,見【引文6】))就包含了這一點(diǎn),它不是圍繞單一的整體注意力模塊構(gòu)建的,而是圍繞一個(gè)專門的記憶系統(tǒng)合作團(tuán)隊(duì)構(gòu)建的,每個(gè)系統(tǒng)在理解和響應(yīng)手頭的任務(wù)方面都發(fā)揮著至關(guān)重要的作用。
(1)架構(gòu)組件:內(nèi)存模塊
- 短期記憶(STM):這是一種敏銳、注重細(xì)節(jié)的“專家”。它的功能類似于你所知的注意力,但它不會(huì)被過(guò)去的一切(現(xiàn)在是LMM的工作)所淹沒(méi),而是專注于當(dāng)下。這就像你記住了對(duì)方剛剛對(duì)你說(shuō)的話,時(shí)間剛好夠你回應(yīng)。
- 長(zhǎng)期記憶模塊(LMM):這是最令人興奮的新增功能。它旨在在推理過(guò)程中學(xué)習(xí)和適應(yīng)——沒(méi)錯(cuò),就是在推理過(guò)程中,而且是即時(shí)方式!我所說(shuō)的“適應(yīng)”字面意思是它的參數(shù)會(huì)發(fā)生變化!想象一下,你多年來(lái)一直在理解一位朋友——不斷積累經(jīng)驗(yàn),同時(shí)過(guò)濾掉不重要的事件。
- 持久記憶(PM):此模塊保存著基礎(chǔ)的、特定于任務(wù)的知識(shí)。這些是模型在主要訓(xùn)練過(guò)程中獲得的可學(xué)習(xí)的基本見解。這些知識(shí)并非即時(shí)動(dòng)態(tài)的,但為其他兩個(gè)模塊提供了必要的基礎(chǔ)和背景。它就像你的個(gè)性、你的舉止、走路或開車的能力,這些你不需要重新學(xué)習(xí)或改變。
三種記憶模塊:短期記憶(STM)、長(zhǎng)期記憶模塊(LMM)和持久記憶(PM)
這張圖展示了三種記憶模塊:短期記憶,表現(xiàn)為一個(gè)在“STM/Attention”筆記本電腦前感到壓力的人物,專注于當(dāng)前情境;長(zhǎng)期記憶,表現(xiàn)為一個(gè)在“LTM weights”筆記本電腦前面帶微笑的人物,用羽毛筆更新自身,記錄歷史情境;持久記憶,表現(xiàn)為一個(gè)平靜的人物,手持石碑,石碑上寫著“預(yù)設(shè)相同權(quán)重”,體現(xiàn)了固定的、與數(shù)據(jù)無(wú)關(guān)的任務(wù)知識(shí)(作者本人繪制此圖)。
(2)這些內(nèi)存模塊是如何實(shí)現(xiàn)的?
那么,這三者究竟是如何協(xié)同工作的呢?首先,STM本質(zhì)上是標(biāo)準(zhǔn)的自注意力計(jì)算,它是原生Transformer的核心。它的“記憶”是訓(xùn)練過(guò)程中學(xué)習(xí)到的鍵值緩存和注意力矩陣。
另一方面,PM是一組可學(xué)習(xí)的參數(shù),它們被添加到輸入序列的前面,并在訓(xùn)練過(guò)程中學(xué)習(xí),并充當(dāng)模型在推理過(guò)程中無(wú)論如何都要遵循的“圣杯”。
到目前為止還算容易理解,嗯?接下來(lái),讓我們深入探討其中的創(chuàng)新之處和真正令人興奮的部分。雖然它是作為一個(gè)簡(jiǎn)單的MLP網(wǎng)絡(luò)實(shí)現(xiàn)的,但它可以在測(cè)試時(shí)進(jìn)行調(diào)整——LMM模塊:
(3)Titans框架核心:自適應(yīng)長(zhǎng)期記憶(LMM)模塊
等一下……測(cè)試時(shí)更新參數(shù)?這難道不是只在訓(xùn)練時(shí)才會(huì)做的事嗎?這難道不是作弊嗎?
當(dāng)你聽到“測(cè)試時(shí)訓(xùn)練”這個(gè)詞時(shí),你是否想到了這些問(wèn)題?這些問(wèn)題確實(shí)存在,但這并不意味著作弊。Titans利用在線學(xué)習(xí)和元學(xué)習(xí)的原理,實(shí)現(xiàn)快速、局部的更新,這些更新專門針對(duì)記憶,而非一般的任務(wù)改進(jìn)。它在測(cè)試時(shí)不會(huì)查看外部標(biāo)簽來(lái)計(jì)算梯度和優(yōu)化參數(shù);相反,一切都保持獨(dú)立:模型僅使用已知信息和當(dāng)前感知信息進(jìn)行內(nèi)部調(diào)整。
在人類記憶中,常規(guī)和可預(yù)測(cè)的事件往往會(huì)逐漸消失,而意外或令人驚訝的時(shí)刻往往會(huì)持續(xù)存在(來(lái)自Mandler于2014年發(fā)表的論文,見【引文7】)。這是實(shí)現(xiàn)動(dòng)態(tài)測(cè)試時(shí)間更新背后的核心思想。
LMM如何學(xué)習(xí):關(guān)聯(lián)損失函數(shù)
LMM充當(dāng)聯(lián)想記憶:它學(xué)習(xí)將“鍵”(線索)與“值”(信息)聯(lián)系起來(lái)。對(duì)于每條新數(shù)據(jù)xt(MAG和MAL中的輸入塊,MAC中的STM(自注意力機(jī)制)輸出):
- 鍵值提?。合到y(tǒng)首先使用可學(xué)習(xí)的變換(Wk和Wv)將xt轉(zhuǎn)換為特定鍵(kt)和關(guān)聯(lián)值(vt)。
使用線性層將xt映射到kt和vt(作者本人繪制)
- 測(cè)試LMM:在當(dāng)前狀態(tài)下,對(duì)LMM進(jìn)行“詢問(wèn)”:給定這個(gè)新密鑰kt,你會(huì)預(yù)測(cè)什么值?我們將其預(yù)測(cè)稱為pt。
Mt-1:當(dāng)前LMM狀態(tài);kt:當(dāng)前塊的密鑰(作者本人繪制)
- 計(jì)算損失:通過(guò)LMM預(yù)測(cè)的錯(cuò)誤程度來(lái)衡量:
預(yù)測(cè)輸出與“基本事實(shí)”之間的標(biāo)準(zhǔn)MSE損失(作者本人繪制)
梯度和“意外”信號(hào)
為了讓LMM從這種損失中學(xué)習(xí),我們加入了“驚喜信號(hào)”,它能夠衡量模型在看到基本事實(shí)(vt)時(shí)的“驚訝”程度。這個(gè)“驚喜”在數(shù)學(xué)上定義為損失函數(shù)相對(duì)于LMM參數(shù)的梯度。
“意外”的測(cè)量,即模型與預(yù)測(cè)“正確的”vt的距離(作者本人繪制)
考慮到LMM的當(dāng)前知識(shí),較大的梯度意味著xt是非?!傲钊梭@訝”或出乎意料的。
基本學(xué)習(xí)步驟:
LMM學(xué)習(xí)的最簡(jiǎn)單方法是稍微調(diào)整其參數(shù)以減少這種意外(即減少損失),就像梯度下降中的一步一樣:
Mt:更新后的LMM參數(shù);Mt-1:之前的LMM參數(shù);lr:學(xué)習(xí)率(作者本人繪制)
細(xì)化驚喜:利用動(dòng)量和遺忘實(shí)現(xiàn)更智能的學(xué)習(xí)
僅僅對(duì)眼前的“驚喜”做出反應(yīng)是不夠的。良好的記憶力不僅需要洞察趨勢(shì),還必須知道何時(shí)放棄舊的、不相關(guān)的信息。
智能學(xué)習(xí)方向(ΔΘMt):首先,LMM計(jì)算出調(diào)整其參數(shù)的最佳方向。這不僅基于當(dāng)前的意外,還基于對(duì)近期意外的“記憶”。
參數(shù)變化是根據(jù)之前的變化和當(dāng)前的意外情況計(jì)算得出的(作者本人繪制)
- ΔΘMt:LMM參數(shù)的建議變更。
- ηt*ΔΘMt-1:這是動(dòng)量 ——它延續(xù)了上一步的學(xué)習(xí)趨勢(shì)。ηt(數(shù)據(jù)相關(guān))決定了過(guò)去動(dòng)量的持續(xù)時(shí)間。
- θt*?Loss_current_surprise:這是當(dāng)前意外的影響。θt(數(shù)據(jù)相關(guān))衡量其影響力。最終參數(shù)更新(ΘMt):然后,LMM更新其實(shí)際參數(shù),將舊知識(shí)與新的學(xué)習(xí)方向相結(jié)合,并且至關(guān)重要的是,允許“遺忘”。
最終更新包括更新多少以及保留多少(作者本人繪制)
- ΘMt:從xt學(xué)習(xí)后的LMM的新參數(shù)。
- (1—at)*ΘMt-1:這是保留了多少舊LMM狀態(tài)。at(依賴于數(shù)據(jù),介于0和1之間)是遺忘因子 -如果at很高,則會(huì)遺忘更多的舊狀態(tài)。
- ΔΘMt:上面計(jì)算的智能學(xué)習(xí)方向。
下圖展示了LTM模塊的更新過(guò)程。分塊輸入序列(例如STM輸出)被投影到鍵向量和值向量中。鍵向量在LTM模塊中進(jìn)行前向傳遞,并與值向量一起計(jì)算損失。該損失的梯度(通過(guò)不帶更新的后向傳遞)通過(guò)加權(quán)和與動(dòng)量緩沖區(qū)中存儲(chǔ)的先前更新相結(jié)合。組合后的更新經(jīng)過(guò)“遺忘”門,該門確定LTM的新權(quán)重。
整個(gè)LMM更新過(guò)程的可視化(作者本人繪制)
簡(jiǎn)而言之:
LMM會(huì)查看當(dāng)前數(shù)據(jù)的“意外情況”(?Loss_current_surprise),將其與近期的學(xué)習(xí)趨勢(shì)(momentumΔΘMt-1)相融合,然后更新其內(nèi)部知識(shí)(ΘMt),并決定在此過(guò)程中保留或丟棄多少舊信息(at)。數(shù)據(jù)依賴門控(ηt,θt,at)使其能夠動(dòng)態(tài)自適應(yīng)。
(4)Titans的架構(gòu)藍(lán)圖:記憶在行動(dòng)
谷歌研究人員探索了這三個(gè)內(nèi)存模塊的三種主要排列方式:
記憶作為情境(MAC)
在這種設(shè)置中,Titans為STM(標(biāo)準(zhǔn)自注意力塊)創(chuàng)建了一個(gè)增強(qiáng)且更豐富的環(huán)境。
- 非常長(zhǎng)的輸入序列被分成多個(gè)段或塊。
- 在處理時(shí),模型將塊映射到查詢,并使用它來(lái)從LMM中檢索相關(guān)的歷史上下文(查詢經(jīng)過(guò)LMM,其輸出是歷史上下文)。
- 然后將這些檢索到的歷史標(biāo)記與靜態(tài)持久內(nèi)存標(biāo)記和當(dāng)前段標(biāo)記連接起來(lái)。
- 整個(gè)擴(kuò)展序列(持久+歷史+當(dāng)前)被輸入到STM(注意力)層,該層處理這個(gè)大型組合上下文中的關(guān)系。
- 注意力層的輸出反映了對(duì)當(dāng)前數(shù)據(jù)考慮到歷史和任務(wù)知識(shí)的深刻理解,然后將其用作LMM動(dòng)態(tài)參數(shù)更新過(guò)程的輸入數(shù)據(jù)。
- 使用相同的注意力結(jié)果再次查詢更新后的LMM,然后通過(guò)門控總和或部分連接將其響應(yīng)與原始注意力相結(jié)合以產(chǎn)生最終結(jié)果。
類比:文本(序列)以頁(yè)面(塊)的形式呈現(xiàn)。對(duì)于每一頁(yè),不斷學(xué)習(xí)的筆記記錄者(LMM)會(huì)快速?gòu)倪^(guò)去的筆記中找到相關(guān)的摘要,并將其與重要的“規(guī)則手冊(cè)”筆記(PM)進(jìn)行混合。學(xué)生(STM/注意力)會(huì)閱讀整篇文章——規(guī)則手冊(cè)、相關(guān)的過(guò)去摘要以及當(dāng)前頁(yè)面——并根據(jù)從豐富的上下文中學(xué)習(xí)到的知識(shí),準(zhǔn)確地告訴筆記記錄者當(dāng)前頁(yè)面上哪些要點(diǎn)對(duì)于將來(lái)的總結(jié)至關(guān)重要。
最終答案的形成是基于學(xué)生的詳細(xì)閱讀和筆記記錄者更新后的記憶視角的綜合考慮。
下圖展示的是記憶即語(yǔ)境(MAC)架構(gòu)圖。分塊輸入向LMM查詢歷史語(yǔ)境。結(jié)合持久記憶,這為注意力模塊(STM)構(gòu)建了一個(gè)“更豐富的語(yǔ)境”。注意力模塊的輸出更新LMM,并與更新后的LMM輸出相結(jié)合,形成最終結(jié)果。
MAC架構(gòu)可視化(作者本人繪制)
記憶之門(MAG)
該設(shè)計(jì)以不同的方式并行集成存儲(chǔ)器,通過(guò)動(dòng)態(tài)門混合來(lái)自STM和LMM輸出的信息。
- 輸入序列(持久序列+當(dāng)前序列)被輸入到兩條路徑:一條路徑通往STM,此處使用滑動(dòng)窗口注意力機(jī)制實(shí)現(xiàn),使其能夠聚焦于每個(gè)符號(hào)周圍的局部鄰域。
另一條并行路徑通往LMM網(wǎng)絡(luò)。 - LMM的輸入用于動(dòng)態(tài)更新其參數(shù),并生成相應(yīng)的輸出表示。
- 然后,STM(滑動(dòng)窗口注意力機(jī)制)的輸出和LMM前向傳遞的輸出會(huì)通過(guò)一個(gè)門控機(jī)制。該門控機(jī)制會(huì)學(xué)習(xí)在局部注意力機(jī)制的信息和LMM的狀態(tài)/輸出所代表的信息之間進(jìn)行混合或選擇。
- 該門控機(jī)制的輸出是該令牌位置的最終輸出。
打個(gè)比方:每收到一頁(yè)紙,兩個(gè)任務(wù)就會(huì)同時(shí)進(jìn)行:學(xué)生(STM)專注于眼前的那一頁(yè),而獨(dú)立的筆記記錄者(LMM)則通讀當(dāng)前頁(yè)面,并將其與目前為止所見的內(nèi)容聯(lián)系起來(lái),默默地更新其整體理解。學(xué)生根據(jù)段落給出答案,而筆記記錄者則根據(jù)其不斷發(fā)展的宏觀框架提出想法。
協(xié)調(diào)者(門控機(jī)制)只需將兩個(gè)輸出融合或從中挑選,即可得出最終答案。
以下給出內(nèi)存即門控(MAG)架構(gòu)示意圖。分塊輸入序列與持久內(nèi)存令牌組合。該增強(qiáng)序列同時(shí)查詢LMM模塊(也用于更新)和注意力模塊(STM)。然后,LMM分支和STM分支的輸出通過(guò)門控和進(jìn)行組合,以生成最終輸出。
MAG架構(gòu)可視化(作者本人繪制)
記憶層(MAL)
在這個(gè)變體中,LMM網(wǎng)絡(luò)被用作初始處理層,在序列到達(dá)注意力機(jī)制(STM)之前對(duì)其進(jìn)行修改。
- 輸入序列(仍然使用“持久+當(dāng)前”方式)首先作為不同的層通過(guò)LMM網(wǎng)絡(luò)。
- 當(dāng)LMM網(wǎng)絡(luò)逐塊處理序列時(shí),其參數(shù)會(huì)動(dòng)態(tài)更新。它還會(huì)生成一個(gè)變換后的輸出序列。
- 然后,將LMM層的轉(zhuǎn)換輸出序列用作后續(xù)STM(注意力)層(滑動(dòng)窗口或窗口內(nèi)完全注意力)的輸入。
- Attention層的輸出是該序列的模型的最終輸出。
打個(gè)比方:首先,每一頁(yè)新內(nèi)容都會(huì)直接發(fā)送給主筆記員(LMM),LMM會(huì)處理所有內(nèi)容,并不斷總結(jié)和更新其總結(jié)風(fēng)格。之后,這份(可能細(xì)節(jié)較少的)總結(jié)會(huì)被交給學(xué)生(STM)。學(xué)生只會(huì)看到并關(guān)注總結(jié)文本的局部?jī)?nèi)容,他們的答案完全基于主筆記員提供的內(nèi)容。
下圖展示的是記憶即層(MAL)架構(gòu)圖。一個(gè)以持久記憶標(biāo)記開頭的分塊輸入序列被送入LMM模塊進(jìn)行查詢和更新。LMM的輸出隨后作為注意力模塊(STM)的輸入(查詢),STM產(chǎn)生最終輸出。
MAL架構(gòu)可視化(作者本人繪制)
3. 我們從中獲得了什么?結(jié)果和發(fā)現(xiàn)
那么,現(xiàn)在我們對(duì)Transformer之后的下一個(gè)革命性技術(shù)已經(jīng)了如指掌,但它真的會(huì)那么偉大嗎?谷歌的研究人員真的破解了能夠記憶、適應(yīng)并克服此前被認(rèn)為不可能的挑戰(zhàn)的模型密碼嗎?讓我們逐一回顧一下這些新發(fā)現(xiàn):
語(yǔ)言能力:不僅僅是文字
Titans框架的功能遠(yuǎn)不止于更準(zhǔn)確地預(yù)測(cè)下一個(gè)單詞。得益于其動(dòng)態(tài)長(zhǎng)期記憶模塊(LMM),它展現(xiàn)出對(duì)語(yǔ)言和語(yǔ)境更深入、更直觀的理解。與Transformer++等強(qiáng)大的基準(zhǔn)模型以及一些最新的循環(huán)模型相比,Titans框架的表現(xiàn)始終優(yōu)于它們,不僅在語(yǔ)言建模方面,在常識(shí)推理任務(wù)上也同樣如此。
(來(lái)源:改編自Behrouz等人于2025年發(fā)表的論文,表1)
Titans在常識(shí)和推理任務(wù)上的表現(xiàn)(混合情況下使用:MAC、MAG、MAL;簡(jiǎn)單情況下使用:LMM)
大海撈針挑戰(zhàn)
Titans框架的設(shè)計(jì)在S-NIAH任務(wù)中展現(xiàn)出卓越的性能連續(xù)性,這與RULER基準(zhǔn)測(cè)試(Hsieh等人于2024年發(fā)表的論文,見【引文8】)相符,該基準(zhǔn)測(cè)試旨在評(píng)估有效的上下文長(zhǎng)度。Titans模型(包括獨(dú)立的神經(jīng)記憶模型LMM)即使在16K個(gè)標(biāo)記的情況下也能保持強(qiáng)勁的檢索率,而一些最先進(jìn)的循環(huán)模型的準(zhǔn)確率則隨著序列長(zhǎng)度的增加而急劇下降。
(來(lái)源:Behrouz等人于2025年發(fā)表的論文,表2)
Titans(混合情況下使用:MAC、MAG、MAL;簡(jiǎn)單情況下使用:LMM)在RULER的S-NIAH任務(wù)上的表現(xiàn)(出自Hsieh等人于2024年發(fā)表的論文,見【引文8】)
在BABILong中掌握復(fù)雜推理
檢索事實(shí)是一回事。但如何運(yùn)用多個(gè)事實(shí),并跨越海量上下文進(jìn)行推理呢?這才是真正的考驗(yàn),也正是BABILong基準(zhǔn)測(cè)試(來(lái)自YuryKuratov等人于2024年發(fā)表的論文,見【引文9】)的要求。Titans(尤其是MAC架構(gòu))不僅表現(xiàn)出色,而且超越了所有模型。即使是像GPT-4和Llama3.1-70B這樣的大型模型,即使是那些能夠訪問(wèn)外部工具或檢索系統(tǒng)的模型,Titans最大的模型參數(shù)量也高達(dá)7.6億!
除此之外,Titans(MAC混合架構(gòu))即使在1000萬(wàn)個(gè)標(biāo)記的情況下也能達(dá)到70%的準(zhǔn)確率。換個(gè)角度來(lái)看,這就像在整個(gè)《哈利·波特》系列中導(dǎo)航和尋找拼圖碎片……甚至還多10倍。
(來(lái)源:Behrouz等人于2025年發(fā)表的論文,圖6)
BABILong上不同LLM的準(zhǔn)確率與序列長(zhǎng)度圖(出自Yury Kuratov等人于2024年發(fā)表的論文,見【引文9】)
內(nèi)存深度與速度
研究人員探索了通過(guò)堆疊更多層來(lái)加深長(zhǎng)期記憶模塊(LMM)時(shí)會(huì)發(fā)生什么。結(jié)果如何?更深層的LMM顯著提升了其存儲(chǔ)和組織重要信息的能力,使其更不容易忘記關(guān)鍵細(xì)節(jié),尤其是在大多數(shù)模型難以保持上下文的長(zhǎng)序列中。
雖然LMM本身能夠獲得線性時(shí)間復(fù)雜度,從而高效處理大量輸入,但更深的LMM確實(shí)需要付出一些代價(jià):吞吐量降低,或者每秒處理的令牌更少。
下面的折線圖展示了不同深度(L_M=1、2、3、4)的LMM模型的訓(xùn)練吞吐量(103標(biāo)記/秒)與序列長(zhǎng)度的關(guān)系。所有LMM變體均表現(xiàn)出幾乎恒定的吞吐量,無(wú)論序列長(zhǎng)度如何,這表明吞吐量呈線性增長(zhǎng)。然而,較深的LMM(L_M=3和L_M=4)的吞吐量逐漸低于較淺的LMM(L_M=1和L_M=2),這表明隨著內(nèi)存深度的增加,效率會(huì)有所降低。
(來(lái)源:Behrouz等人于2025年發(fā)表的論文,圖8)
不同LMM深度的序列長(zhǎng)度與吞吐量
超越語(yǔ)言任務(wù)
另一個(gè)令人興奮的事實(shí)是,同樣的記憶機(jī)制在傳統(tǒng)語(yǔ)言任務(wù)之外也能發(fā)揮作用。在時(shí)間序列預(yù)測(cè)(一個(gè)以混亂、變化的模式而聞名的領(lǐng)域)中,長(zhǎng)期記憶模塊(LMM)的表現(xiàn)足以匹敵高度專業(yè)化的模型,包括那些基于Mamba(之前的SOTA)的模型。
在DNA建模這項(xiàng)完全不同的任務(wù)中,該架構(gòu)表現(xiàn)出了強(qiáng)大的效果。這種通用性實(shí)屬不易,這表明,如果處理得當(dāng),記憶不僅有用,而且是跨領(lǐng)域的基礎(chǔ)。
(來(lái)源:改編自Behrouz等人于2025年發(fā)表的論文,表3)
神經(jīng)記憶(以LMM為模型)在各種時(shí)間序列數(shù)據(jù)集上的表現(xiàn)
(來(lái)源:Behrouz等人于2025年發(fā)表的論文,表4)
神經(jīng)記憶模塊(LMM作為模型)在基因組基準(zhǔn)上的表現(xiàn)(Gre?ová等人于2023年發(fā)表的論文,見【引文10】)
4. 結(jié)論和最終想法
本次對(duì)Titans的深入研究就到此結(jié)束。探索這種架構(gòu)真的非常有趣——看到研究超越了規(guī)模化,深入探究記憶和學(xué)習(xí)如何以更具適應(yīng)性、更像人類的方式運(yùn)作,令人耳目一新。
谷歌的基礎(chǔ)性工作傳承在此延續(xù),從發(fā)明Transformer到現(xiàn)在重新思考AI如何在推理過(guò)程中學(xué)習(xí)。Titans仿佛是這種精神的自然演進(jìn)。
話雖如此,如今的AI領(lǐng)域比2017年更加擁擠了。無(wú)論多么精彩的新想法,要成為主流都面臨著更加艱難的道路。性能只是其中之一——效率、簡(jiǎn)潔性和社區(qū)影響力比以往任何時(shí)候都更加重要。
盡管如此,Titans有力地預(yù)示著未來(lái)模型將不再僅僅基于已知知識(shí)進(jìn)行思考,而是能夠真正地在實(shí)踐中適應(yīng)。無(wú)論這是否會(huì)成為下一個(gè)“只需關(guān)注”的時(shí)刻,這都是邁向更智能、更智慧的AI的充滿希望的一步。
參考文獻(xiàn)
【1】Tack,Jihoon等人,“使用連續(xù)概念進(jìn)行LLM預(yù)訓(xùn)練?!保?025)arXiv預(yù)印本 arXiv:2502.08524。
【2】Vaswani,Ashish等人,“你只需要注意力。”(2017),神經(jīng)信息處理系統(tǒng)的進(jìn)展30。
【3】Dosovitskiy,Alexey等人,“一張圖片勝過(guò)16×16個(gè)單詞:用于大規(guī)模圖像識(shí)別的Transformers?!保?020),arXiv預(yù)印本 arXiv:2010.11929。
【4】Zerveas,George等人,“基于Transformer的多元時(shí)間序列表示學(xué)習(xí)框架?!?2021),第27屆ACM SIGKDD知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘會(huì)議論文集。
【5】Rogers,Anna等人,“BERTology入門:我們對(duì)BERT工作原理的了解?!保?021年),計(jì)算語(yǔ)言學(xué)協(xié)會(huì)匯刊8:842–866。
【6】Behrouz,Ali、Peilin Zhong和Vahab Mirrokni?!?a >Titans:學(xué)習(xí)在考試時(shí)記憶?!保?024年),arXiv預(yù)印本 arXiv:2501.00663。
【7】Mandler,George?!?a >情感與認(rèn)知”(2014年)。心理學(xué)出版社,3–36。
【8】Hsieh,Cheng-Ping等人,“RULER:長(zhǎng)上下文語(yǔ)言模型的真實(shí)上下文大小是多少?”,載于:第一屆語(yǔ)言建模會(huì)議。2024年。
【9】Kuratov,Yury等人?!?a >Babilong:用大海撈針的長(zhǎng)上下文推理測(cè)試LLMS的極限?!保?024),神經(jīng)信息處理系統(tǒng)進(jìn)展,37:106519–106554。
【10】Gre?ová,Katarína等人,“基因組基準(zhǔn):基因組序列分類數(shù)據(jù)集集合?!保?023)BMC基因組數(shù)據(jù),24.1:25。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。
原文標(biāo)題:Can AI Truly Develop a Memory That Adapts Like Ours?,作者:Moulik Gupta