偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

上海AI Lab最新推出Mixture-of-Memories:線性注意力也有稀疏記憶了

人工智能 新聞
DeepSeek NSA 通過(guò)三種方式壓縮 “KV” 實(shí)現(xiàn) sparse attention,但這只是一種可以工作但不優(yōu)雅的折中方案。因?yàn)樗趬嚎s Transfromer 的記憶能力,以換取效率。

回顧 AGI 的爆發(fā),從最初的 pre-training (model/data) scaling,到 post-training (SFT/RLHF) scaling,再到 reasoning (RL) scaling,找到正確的 scaling 維度始終是問(wèn)題的本質(zhì)。2017 年發(fā)布的 Transformer 架構(gòu)沿用至今,離不開(kāi) Transformer 強(qiáng)大的 “無(wú)損記憶” 能力,當(dāng)然也需要付出巨大的 KV 緩存代價(jià)。換句話說(shuō),Transformer 架構(gòu)具有強(qiáng)大的 memory scaling 能力。

DeepSeek NSA 通過(guò)三種方式壓縮 “KV” 實(shí)現(xiàn) sparse attention,但這只是一種可以工作但不優(yōu)雅的折中方案。因?yàn)樗趬嚎s Transfromer 的記憶能力,以換取效率。

另一方面,大概從 2023 年火到今天的線性序列建模方法(包括 linear attention 類(lèi),Mamba 系列,RWKV 系列)則是另一個(gè)極端,只維護(hù)一份固定大小 dxd 的 RNN memory state,然后加 gate,改更新規(guī)則,但這種方式始終面臨較低的性能上限,所以才會(huì)有各種混合架構(gòu)的同樣可以工作但不優(yōu)雅的折中方案。

我們認(rèn)為,未來(lái)的模型架構(gòu)一定具有兩點(diǎn)特性:強(qiáng)大的 memory scaling 能力 + 關(guān)于序列長(zhǎng)度的低復(fù)雜度。后者可以通過(guò)高效注意力機(jī)制實(shí)現(xiàn),比如:linear 或者 sparse attention,是實(shí)現(xiàn)長(zhǎng)序列建模的必備性質(zhì)。而前者仍然是一個(gè)有待探索的重要課題,我們把給出的方案稱(chēng)為 “sparse memory”。

這促使我們?cè)O(shè)計(jì)了 MoM: Mixture-of-Memories,它讓我們從目前主流線性序列建模方法改 gate 和 RNN 更新規(guī)則的套路中跳脫出來(lái),稀疏且無(wú)限制地?cái)U(kuò)大 memory 大小。MoM 通過(guò) router 分發(fā) token(靈感來(lái)自 MoE)維護(hù)多個(gè) KV memory,實(shí)現(xiàn) memory 維度 scaling。每個(gè) memory 又可以進(jìn)行 RNN-style 計(jì)算,所以整體具有關(guān)于序列長(zhǎng)度線性的訓(xùn)練復(fù)雜度,推理又是常數(shù)級(jí)復(fù)雜度。此外,我們又設(shè)計(jì)了 shared memory 和 local memory 合作分別處理全局和局部信息。實(shí)驗(yàn)表現(xiàn)相當(dāng)驚艷,尤其是在目前 linear 類(lèi)方法效果不好的 recall-instensive 任務(wù)上表現(xiàn)格外好,甚至在 1.3B 模型上已經(jīng)和 Transformer 架構(gòu)旗鼓相當(dāng)。

圖片

  • 論文地址:https://arxiv.org/abs/2502.13685
  • 代碼地址:https://github.com/OpenSparseLLMs/MoM
  • 未來(lái)還會(huì)集成在:https://github.com/OpenSparseLLMs/Linear-MoE
  • 模型權(quán)重開(kāi)源在:https://huggingface.co/linear-moe-hub

方法細(xì)節(jié)

Linear Recurrent Memory

對(duì)于這部分內(nèi)容,熟悉線性序列建模的小伙伴可以跳過(guò)了。

輸入 圖片經(jīng)過(guò) query key value proj 得到圖片

圖片

最簡(jiǎn)潔的 recurrent 形式線性序列建模方法(對(duì)標(biāo)最基礎(chǔ)的 linear attention)按照下面公式做 RNN 更新:

圖片

這里,我們不得不提一下,各種各樣的 Gate 形式(圖片前面的)和更新規(guī)則(  右邊的)就是在魔改上面的一行公式,各種具體形式如下表:

(各種方法本身有不同的符號(hào),像 Mamba, HGRN 就不用 q k v,這里為了統(tǒng)一對(duì)比全部對(duì)標(biāo)到 linear attention 形式。其中Titans的形式,把 memory update rule 看作 optimzier update 的話,最核心的還是 SGD 形式,暫時(shí)忽略momentum/weight decay ,只一個(gè)公式表達(dá)的話寫(xiě)成這種梯度更新的形式是合理的。)

圖片

其實(shí)這些方法又可以進(jìn)一步細(xì)分為不同類(lèi)別(很多地方都粗略的統(tǒng)一稱(chēng)為 linear RNN 或者 RNN),這里論文暫時(shí)沒(méi)提:

  • Linear Attention, Lightning Attention, RetNet, GLA, DeltaNet, Gated DeltaNet 屬于 linear attention 類(lèi)
  • Mamba2 屬于 SSM 類(lèi),HGRN2 屬于 linear RNN 類(lèi)
  • TTT, Titans 屬于 Test-Time Training 類(lèi)

Mixture-of-Memories

MoM 思路非常簡(jiǎn)單,和 MoE 一樣按照 token 分發(fā),通過(guò) router 為每個(gè) token 選擇 topk 的 memories 并計(jì)算各自權(quán)重:

圖片

所有激活的 topk memories 按照各自權(quán)重加權(quán)求和得到一份混合記憶:

圖片

然后就又回到了 linear 類(lèi)方法一貫的輸出計(jì)算:

圖片

另外,這里我們額外引入了 shared memory 的概念,即每個(gè) token 都會(huì)經(jīng)過(guò)這個(gè)永遠(yuǎn)激活的 memory,有利于模型獲取全局信息。相對(duì)而言,其他稀疏激活的 memory 更擅長(zhǎng)獲取局部信息。消融實(shí)驗(yàn)表明,shared memory 的存在對(duì)模型效果有明確的積極作用。

圖片

硬件高效實(shí)現(xiàn)

MoM的硬件高效Triton算子可以很方便地實(shí)現(xiàn),其輸出的計(jì)算可以簡(jiǎn)單寫(xiě)作:

圖片

也就是說(shuō) MoM 中每個(gè) memory 的計(jì)算過(guò)程可以復(fù)用現(xiàn)有的單個(gè)算子,再把所有 memory 的輸出加權(quán)求和起來(lái)。和直接在算子內(nèi)先求和再算輸出是數(shù)學(xué)等價(jià)的。

實(shí)驗(yàn)結(jié)果

in-context recall-instensive tasks

一直以來(lái),線性序列建模方法因?yàn)樽陨矸浅S邢薜?memory 大小,在這類(lèi) in-context recall-intensive 任務(wù)上表現(xiàn)不好。同時(shí) Transformer 模型得益于其強(qiáng)大的無(wú)損記憶能力,非常擅長(zhǎng)這類(lèi)任務(wù)。所以已經(jīng)出現(xiàn)了各種層間 hybrid 的模型,來(lái)提升 linear 類(lèi)模型在這類(lèi)任務(wù)上的效果。

我們首先重點(diǎn)測(cè)試了這類(lèi)任務(wù)(結(jié)果見(jiàn)下表),使用 Gated DeltaNet 作為 MoM 的 memory 計(jì)算形式(在 Memory 更新過(guò)程中,每個(gè) memory 都使用 Gated DeltaNet 的 gate 和更新規(guī)則),總共 4 個(gè) local sparse memory,激活 2 個(gè),還有一個(gè) shared memory。其中標(biāo) ? 的模型來(lái)自開(kāi)源項(xiàng)目(https://huggingface.co/fla-hub),沒(méi)標(biāo) ?的是我們從頭預(yù)訓(xùn)練的模型。

結(jié)果還算相當(dāng)不錯(cuò),在沒(méi)有數(shù)據(jù)污染或任何套路的情況下,結(jié)果顯示 MoM 就是單純地效果好。這也和預(yù)期一致,翻倍擴(kuò)展 memory 大小,效果好過(guò)其他 linear 類(lèi)方法。有一些意外的是,在 1.3B 的結(jié)果里,MoM 基本可以和 Transformer 相媲美。

圖片

其他評(píng)測(cè)效果

其他評(píng)測(cè)結(jié)果效果也不錯(cuò):

圖片

圖片

推理效率

推理效率是線性序列建模方法的重點(diǎn),結(jié)果顯示 MoM 在常數(shù)級(jí)復(fù)雜度推理速度和顯存占用方面,表現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。

圖片

消融實(shí)驗(yàn)

圖片

圖片

Loss 曲線

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2024-11-08 15:00:00

AI模型

2025-10-16 09:00:00

大模型

2025-10-31 16:00:45

AI模型架構(gòu)

2025-02-07 16:15:27

2025-09-30 08:36:09

2024-07-04 12:18:21

2022-02-21 09:25:57

VR研究Nature

2025-09-29 18:51:01

2024-09-19 10:07:41

2025-05-30 09:06:00

2025-10-14 13:54:01

AI模型測(cè)試

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡(luò)ResNet

2025-10-22 09:00:00

2025-07-16 09:05:00

AI評(píng)測(cè)模型

2023-11-24 12:36:00

模型訓(xùn)練

2021-05-06 15:55:01

谷歌Android開(kāi)發(fā)

2023-07-29 13:26:51

模型AI

2025-02-17 13:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)