Mamba 架構(gòu)上頂會(huì)ICLR 2026,AI大腦核心Transformer的王座還能坐穩(wěn)嗎?
Transformer統(tǒng)治了AI大模型領(lǐng)域。有人認(rèn)為,實(shí)現(xiàn)AGI,Transformer就夠了!
還有人認(rèn)為,還需要幾次底層架構(gòu)革新。例如,華為《智能世界-2035》報(bào)告里就這樣說。
隨著模型訓(xùn)練、部署規(guī)模和計(jì)算需求的爆炸式增長,我們發(fā)現(xiàn),算力和能源需求就像無底洞,那怎么才能讓AI既聰明,又便宜,還能跑得快?
Transformer架構(gòu)的計(jì)算復(fù)雜度和序列長度的二次方成正比。你要處理的文本長度增加一倍,計(jì)算量就要翻四倍。同時(shí),它的內(nèi)存占用也隨著序列長度線性增長。用它實(shí)現(xiàn)AGI,能源和算力需求不可想象。
學(xué)術(shù)界和工業(yè)界都在尋找出路。
Mamba登上了舞臺(tái)。Mamba-3目前正在頂會(huì)ICLR 2026接受雙盲評(píng)審。

它沒有選擇在Transformer的框架上修修補(bǔ)補(bǔ),而是另辟蹊徑,從一個(gè)更古老也更基礎(chǔ)的理論——狀態(tài)空間模型(SSM)里找到了靈感。
Mamba-3的故事,本質(zhì)上是一個(gè)關(guān)于效率和智慧的權(quán)衡與進(jìn)化。它從推理效率這個(gè)最實(shí)際、最要命的問題出發(fā),引入了三個(gè)改進(jìn):一個(gè)更具表現(xiàn)力的遞歸方式,一套更聰明的狀態(tài)更新規(guī)則,以及一個(gè)更能榨干硬件性能的多輸入多輸出(MIMO)架構(gòu)。
Mamba-3到底耍了什么新花樣,它又如何與Transformer掰手腕呢?
萬丈高樓平地起
要理解Mamba-3的精妙,先聊聊什么是狀態(tài)空間模型(SSM)。
這個(gè)概念最早并不是為自然語言處理(NLP)準(zhǔn)備的,它的老本行是預(yù)測連續(xù)變化的系統(tǒng),比如電路里的信號(hào),氣象云圖的變幻,或者一個(gè)運(yùn)動(dòng)物體的飛行軌跡。從數(shù)學(xué)和概念上講,它和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是近親,都是那種一步一步處理序列,并保留一個(gè)‘記憶’來影響下一步?jīng)Q策的模型。
顧名思義,SSM的核心是‘狀態(tài)空間’。你可以把它想象成一個(gè)描述系統(tǒng)當(dāng)前所有狀況的快照,里面包含了所有關(guān)鍵變量。SSM的工作就是接收一個(gè)輸入序列x(t),把它映射到一個(gè)看不見的潛在狀態(tài)h(t),這個(gè)h(t)就好像是RNN里的隱藏狀態(tài),然后根據(jù)這個(gè)狀態(tài)預(yù)測出輸出y(t)。
所有SSM都圍繞著兩個(gè)核心方程運(yùn)轉(zhuǎn):
- 狀態(tài)方程:
h'(t)=A*h(t)+B*x(t) - 輸出方程:
y(t)=C*h(t)+D*x(t)
這里的A, B, C, D四個(gè)參數(shù),通常是權(quán)重矩陣,它們定義了系統(tǒng)的動(dòng)態(tài)。在控制理論這些傳統(tǒng)領(lǐng)域,這些矩陣是固定的,代表一個(gè)已知的系統(tǒng)。而在深度學(xué)習(xí)里,它們變成了需要通過訓(xùn)練來優(yōu)化的參數(shù),由神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)權(quán)重來表示。
SSM的經(jīng)典形態(tài)是為連續(xù)信號(hào)設(shè)計(jì)的,但我們處理的文本、圖片、聲音,在計(jì)算機(jī)里都是離散的數(shù)據(jù)。這就需要一個(gè)‘離散化’的步驟。
你可以把離散化想象成對一個(gè)連續(xù)流動(dòng)的信號(hào)進(jìn)行周期性采樣。這個(gè)過程引入了一個(gè)新參數(shù),叫做步長(Δ),它決定了我們多久采一次樣。離散化的方法有很多種,但包括Mamba在內(nèi)的大多數(shù)現(xiàn)代SSM都用了一種簡單的方式,叫零階保持(ZOH)。
經(jīng)過離散化,SSM就能像RNN一樣處理序列數(shù)據(jù)了。
但是,早期的離散SSM并不實(shí)用,因?yàn)樗^承了RNN的一些老毛病,比如訓(xùn)練效率低,而且記性不好,很難捕捉序列里距離很遠(yuǎn)的兩個(gè)元素之間的關(guān)系,也就是所謂的‘長距離依賴’問題。
轉(zhuǎn)機(jī)出現(xiàn)在2021年,一個(gè)叫Albert Gu的研究者和他的同事們提出了結(jié)構(gòu)化狀態(tài)空間序列模型,簡稱S4。這個(gè)工作為后來的Mamba鋪平了道路。
S4模型做了兩件大事。
第一是通過卷積實(shí)現(xiàn)高效訓(xùn)練。離散SSM雖然在推理時(shí)像RNN一樣快,但訓(xùn)練起來卻奇慢無比。S4的作者們發(fā)現(xiàn),由于SSM只涉及線性的加法和乘法運(yùn)算,這一連串的遞歸操作可以展開成一個(gè)一維的卷積核。這個(gè)卷積核可以直接把輸入序列x一步到位地映射到輸出y。而卷積運(yùn)算,可以使用一種叫‘快速傅里葉變換’的算法來高效計(jì)算。
這就帶來了一個(gè)絕妙的好處:在訓(xùn)練時(shí),當(dāng)整個(gè)輸入序列都已知的情況下,S4可以像一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)一樣,并行地、高效地進(jìn)行計(jì)算;而在推理時(shí),當(dāng)我們需要一個(gè)一個(gè)地生成token時(shí),它又可以變回RNN的形態(tài),享受極快的速度和極低的內(nèi)存占用。兩全其美。
第二是通過結(jié)構(gòu)化矩陣解決長記性問題。為了讓SSM能夠記住更久遠(yuǎn)的信息,S4沒有像常規(guī)的機(jī)器學(xué)習(xí)模型那樣隨機(jī)初始化它的權(quán)重矩陣A和B,而是采用了一種叫HiPPO的技術(shù),從特殊的正交多項(xiàng)式(比如勒讓德多項(xiàng)式)推導(dǎo)出矩陣的結(jié)構(gòu)。這種特殊的初始化方式,就像給模型裝上了一個(gè)記憶增強(qiáng)插件,使得它在處理長序列時(shí)的性能飆升。
S4的后續(xù)變種,比如DSS,S5,以及我們今天的主角Mamba系列,雖然在具體的初始化方案上有所不同,但都保留了HiPPO的核心思想:給矩陣A和B施加某種結(jié)構(gòu),通常是對角結(jié)構(gòu),來保證模型能夠穩(wěn)定地更新狀態(tài),并記住長期的依賴關(guān)系。
Mamba的進(jìn)化之路
2023年,Tri Dao和Albert Gu(又是他)在論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中首次提出了Mamba架構(gòu)。這是第一個(gè)在語言建模上,能與Transformer正面抗衡的架構(gòu)。
Mamba的核心創(chuàng)新有兩個(gè)。
第一個(gè)叫‘選擇性狀態(tài)空間模型’。它給傳統(tǒng)的SSM裝上了一個(gè)‘選擇’開關(guān),讓模型能夠根據(jù)當(dāng)前輸入的重要性,動(dòng)態(tài)地決定要記住哪些歷史信息,忽略哪些歷史信息。這個(gè)能力,以前被認(rèn)為是Transformer自注意力機(jī)制的專利。
第二個(gè)叫‘硬件感知并行掃描’。這是一個(gè)非常工程化的優(yōu)化,它專門針對現(xiàn)代圖形處理單元(GPU)的計(jì)算特性,設(shè)計(jì)了一種高效的算法來處理SSM的遞歸計(jì)算,最大化地利用硬件資源。
一年后,還是這兩位作者,又發(fā)表了一篇論文,進(jìn)一步探討了SSM和Transformer之間的深層聯(lián)系,并提出了一個(gè)更快更強(qiáng)的改進(jìn)版,Mamba-2。
Mamba-2發(fā)現(xiàn)一大類SSM的計(jì)算過程,可以等價(jià)地表示為一種帶掩碼的矩陣乘法。這個(gè)發(fā)現(xiàn),使得Mamba-2可以利用矩陣乘法的高效實(shí)現(xiàn),訓(xùn)練速度比Mamba-1提升了50%。同時(shí),它還支持了更大的狀態(tài)維度,讓模型能夠處理更復(fù)雜的任務(wù),尤其是在長序列上。
現(xiàn)在,故事發(fā)展到了Mamba-3。

Mamba-3是在Mamba-2的基礎(chǔ)上,從推理效率這個(gè)角度出發(fā),做出的又一次進(jìn)化。它帶來了三個(gè)核心的方法論改進(jìn)。
第一個(gè)叫‘梯形離散化’。它用一種更精確的數(shù)學(xué)方法(梯形法則)來替代之前Mamba-2里相對粗糙的方法(歐拉法則),來完成從連續(xù)信號(hào)到離散序列的轉(zhuǎn)換。這個(gè)改進(jìn)讓模型的遞歸更新變得更具表現(xiàn)力。
第二個(gè)叫‘復(fù)雜狀態(tài)空間模型’。它通過引入復(fù)數(shù)來定義SSM,使得模型的狀態(tài)更新能力大大增強(qiáng),解決了許多線性模型在處理一些需要精確狀態(tài)跟蹤的任務(wù)(比如數(shù)數(shù)的奇偶性)時(shí)能力不足的問題。
第三個(gè)叫‘多輸入多輸出SSM’。這是一個(gè)純粹為了提升解碼速度和硬件效率的設(shè)計(jì)。它將原本基于外積的狀態(tài)更新,改為了基于矩陣乘法的更新,極大地提高了計(jì)算的‘算術(shù)強(qiáng)度’,讓GPU不再‘挨餓’。
Mamba-3的新花樣
更精確的離散化:梯形法則
結(jié)構(gòu)化SSM在理論上被定義為一個(gè)連續(xù)時(shí)間系統(tǒng),但實(shí)際處理的數(shù)據(jù)都是離散的。從連續(xù)到離散的轉(zhuǎn)換,也就是離散化,是關(guān)鍵一步。
Mamba-2用的是歐拉法則,你可以把它想象成用一個(gè)矩形的面積去近似一段曲線下的面積,它只考慮了區(qū)間的終點(diǎn)值。這種方法的誤差是O(Δt2),雖然簡單,但不夠精確。
Mamba-3換用了一種更高級(jí)的方法:廣義梯形法則。它不再是簡單地用矩形去近似,而是用一個(gè)梯形,同時(shí)考慮了區(qū)間的起點(diǎn)和終點(diǎn),用一個(gè)數(shù)據(jù)相關(guān)的凸組合來連接它們。這種方法的誤差降低到了O(Δt3),精度整整提高了一個(gè)數(shù)量級(jí)。

Mamba-3在進(jìn)行狀態(tài)更新時(shí),不僅考慮了當(dāng)前時(shí)間步的輸入,還回看了一眼上一個(gè)時(shí)間步的輸入。這個(gè)小小的‘回眸’,讓模型對序列動(dòng)態(tài)的捕捉能力變得更加細(xì)膩和強(qiáng)大。
這個(gè)改進(jìn)不僅提升了模型的表現(xiàn)力,還使得Mamba-3不再需要之前很多線性模型都依賴的一個(gè)組件——短因果卷積。這讓整個(gè)模型架構(gòu)變得更加簡潔和統(tǒng)一。
更聰明的狀態(tài)更新:復(fù)數(shù)與旋轉(zhuǎn)
現(xiàn)代SSM為了追求效率,一直在簡化其核心的狀態(tài)轉(zhuǎn)移矩陣。S4模型用的是復(fù)雜的‘正規(guī)加低秩’矩陣,Mamba把它簡化為實(shí)數(shù)對角矩陣,Mamba-2更是簡化到了一個(gè)標(biāo)量。這些簡化在語言建模任務(wù)上沒有帶來明顯的性能下降,但也削弱了模型在一些簡單狀態(tài)跟蹤任務(wù)上的能力。
比如,判斷一個(gè)二進(jìn)制序列里‘1’的個(gè)數(shù)是奇數(shù)還是偶數(shù)(奇偶性任務(wù))。這個(gè)任務(wù)對于單層的LSTM(長短期記憶網(wǎng)絡(luò))來說是小菜一碟,但對于狀態(tài)轉(zhuǎn)移矩陣只有實(shí)數(shù)特征值的Mamba-2來說,卻難如登天。
原因在于,實(shí)數(shù)特征值只能表示狀態(tài)的‘伸縮’和‘翻轉(zhuǎn)’,無法表示‘旋轉(zhuǎn)’。而像奇偶性這樣的任務(wù),其內(nèi)在的狀態(tài)轉(zhuǎn)換恰恰是周期性的,就像一個(gè)開關(guān)在‘開’和‘關(guān)’之間切換,這在數(shù)學(xué)上最自然的表示就是旋轉(zhuǎn)。
Mamba-3為了恢復(fù)這種能力,引入了復(fù)數(shù)。
它證明了,一個(gè)復(fù)數(shù)值的SSM,在離散化后,等價(jià)于一個(gè)狀態(tài)維度加倍的實(shí)數(shù)值SSM,其狀態(tài)轉(zhuǎn)移矩陣由一系列2x2的旋轉(zhuǎn)矩陣塊構(gòu)成。
更進(jìn)一步,它還證明了,這種旋轉(zhuǎn)操作可以被等效地‘吸收’到輸入和輸出的投影矩陣B和C中。這最終導(dǎo)向了一個(gè)驚人的結(jié)論:使用復(fù)數(shù)SSM,等價(jià)于在一個(gè)普通的、基于標(biāo)量轉(zhuǎn)移的SSM的輸入(B)和輸出(C)上,應(yīng)用了一種數(shù)據(jù)相關(guān)的旋轉(zhuǎn)位置嵌入(RoPE)。
RoPE在很多大模型(比如Llama)里都在用,它通過給詞向量注入絕對或相對的位置信息來幫助模型理解語序。Mamba-3在這里做的,是把RoPE從一個(gè)‘?dāng)?shù)據(jù)無關(guān)’的、固定的位置編碼,變成了一個(gè)‘?dāng)?shù)據(jù)相關(guān)’的、動(dòng)態(tài)的狀態(tài)旋轉(zhuǎn)器。
這個(gè)被作者稱為‘RoPE技巧’的實(shí)現(xiàn),讓Mamba-3用極小的計(jì)算開銷,就獲得了強(qiáng)大的狀態(tài)跟蹤能力,能夠輕松解決奇偶性、模運(yùn)算等Mamba-2無法完成的任務(wù)。
更極致的硬件效率:從外積到矩陣乘法
在自回歸生成(也就是一個(gè)詞一個(gè)詞地往外蹦)的場景下,性能通常用每秒生成的token數(shù)(TPS)來衡量。在這個(gè)指標(biāo)上,像Mamba這樣的模型,因?yàn)橹挥幸粋€(gè)固定大小的隱藏狀態(tài),而不需要像Transformer那樣維護(hù)一個(gè)隨序列長度線性增長的KV緩存,所以具有天然的優(yōu)勢。
但是,TPS這個(gè)指標(biāo)沒有考慮到硬件效率。一個(gè)更底層的指標(biāo)是‘算術(shù)強(qiáng)度’,它定義為一次操作的浮點(diǎn)運(yùn)算次數(shù)(FLOPs)與為此移動(dòng)的數(shù)據(jù)字節(jié)數(shù)的比值。
現(xiàn)代的GPU,就像一個(gè)超級(jí)強(qiáng)大的計(jì)算工廠,它的計(jì)算能力(ops)遠(yuǎn)遠(yuǎn)超過了它的數(shù)據(jù)搬運(yùn)能力(byte)。如果算術(shù)強(qiáng)度太低,GPU就會(huì)把大量時(shí)間浪費(fèi)在等待數(shù)據(jù)從內(nèi)存里搬運(yùn)過來的路上,而不是在真正地進(jìn)行計(jì)算。這種情況,我們稱之為‘內(nèi)存受限’。
Mamba-2的狀態(tài)更新是一個(gè)外積操作。它的算術(shù)強(qiáng)度是一個(gè)常數(shù),遠(yuǎn)低于現(xiàn)代GPU的理想值。這意味著,在解碼時(shí),Mamba-2并不能充分發(fā)揮出GPU的威力。
Mamba-3做了一個(gè)看似簡單卻異常有效的改動(dòng)。它把狀態(tài)更新從外積改成了矩陣乘法。
這在信號(hào)處理的語境里,恰好對應(yīng)著從單輸入單輸出(SISO)系統(tǒng)到多輸入多輸出(MIMO)系統(tǒng)的泛化。

在MIMO公式下,算術(shù)強(qiáng)度與一個(gè)新引入的秩r成正比。通過調(diào)整r的大小,我們就可以靈活地提高算術(shù)強(qiáng)度,將解碼過程從‘內(nèi)存受限’推向‘計(jì)算受限’,從而更充分地利用硬件,獲得更高的TPS。這個(gè)過程甚至不增加推理時(shí)的內(nèi)存占用(狀態(tài)H的大小不變)。
這三板斧,共同構(gòu)成了Mamba-3的核心混合器(Mixer)原語。整個(gè)Mamba-3的架構(gòu)也進(jìn)行了一些調(diào)整,交替使用Mamba-3塊和SwiGLU塊,并采用了預(yù)歸一化。
架構(gòu)性能大比拼
在語言建模性能上,論文作者們使用FineWeb-Edu數(shù)據(jù)集的1000億個(gè)token,對Mamba-3以及Transformer、Gated DeltaNet和Mamba-2等基線模型,在180M、440M、820M和1.5B四種不同參數(shù)規(guī)模上進(jìn)行了預(yù)訓(xùn)練。
結(jié)果顯示,在所有模型規(guī)模上,Mamba-3在各種下游任務(wù)上的表現(xiàn)都全面領(lǐng)先。

在檢索能力方面,也就是從長文本中精確查找信息的能力,Transformer由于其可以無損回顧所有歷史信息的KV緩存機(jī)制,仍然具有優(yōu)勢。這是所有固定狀態(tài)大小模型的共同短板。
實(shí)驗(yàn)表明,Mamba-3在關(guān)聯(lián)回憶和問答這類任務(wù)上表現(xiàn)不錯(cuò),但在需要從半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中提取信息的任務(wù)上表現(xiàn)不佳。不過,在合成的‘大海撈針’(NIAH)任務(wù)上,Mamba-3的表現(xiàn)超越或持平了基線,并且展現(xiàn)出了比Mamba-2更好的泛化能力。

推理效率:

在常用的bf16精度和128狀態(tài)維度設(shè)置下,Mamba-3的SISO和MIMO版本都比Mamba-2和Gated DeltaNet要快。

這張圖則更直觀地展示了Mamba-3的優(yōu)勢。橫軸是狀態(tài)大?。梢钥醋魇峭评硭俣鹊拇?,越小越快),縱軸是預(yù)訓(xùn)練困惑度(模型性能的代理,越低越好)。Mamba-3 MIMO版本在不增加狀態(tài)大?。ㄒ簿褪遣粻奚俣龋┑那疤嵯拢瑢⑿阅?效率的帕累托前沿又向前推進(jìn)了一步。
最后,消融實(shí)驗(yàn)驗(yàn)證了Mamba-3各項(xiàng)改進(jìn)的有效性。

梯形離散化和引入的偏置項(xiàng)協(xié)同作用,顯著提升了模型性能。而在狀態(tài)跟蹤任務(wù)上,擁有RoPE的Mamba-3幾乎完美地解決了奇偶性和模運(yùn)算任務(wù),而沒有RoPE的Mamba-3和Mamba-2則表現(xiàn)得和隨機(jī)猜測差不多。
Mamba-3的故事,是關(guān)于如何在計(jì)算效率和模型能力之間尋找更優(yōu)解的探索。
在需要無損記憶和精確檢索的長文本任務(wù)上,固定大小的狀態(tài)記憶機(jī)制,依然是它相較于Transformer的軟肋。作者也坦言,將Mamba-3與外部的檢索機(jī)制相結(jié)合,構(gòu)建混合架構(gòu),或許是未來的一個(gè)重要方向。
你覺得Mamba-3會(huì)取代Transformer嗎?還是一個(gè)有益的補(bǔ)充?



































