蘋果AI選Mamba:Agent任務(wù)比Transformer更好
都說蘋果AI慢半拍,沒想到新研究直接在Transformer頭上動(dòng)土。(doge)
「Mamba+工具」,在Agent場(chǎng)景更能打!

在最新論文《To Infinity and Beyond》中,研究團(tuán)隊(duì)發(fā)現(xiàn):
在長(zhǎng)任務(wù)、多交互的Agent式任務(wù)中,基于SSM架構(gòu)(狀態(tài)空間模型)的模型,比如Mamba,在效率與泛化能力上,展現(xiàn)出超越Transformer的潛力。
Mamba一作表示:

超越Transformer,怎么說?
Transformer的長(zhǎng)篇累牘問題
先說說Transformer的“富貴病”。
Transformer確實(shí)很聰明,靠自注意力機(jī)制能夠同時(shí)關(guān)注輸入序列中所有詞語之間的關(guān)聯(lián),比如閱讀文章時(shí)可以快速建立首尾關(guān)鍵信息的聯(lián)系。
但這種能力的實(shí)現(xiàn)需要較高的計(jì)算成本,隨著輸入序列長(zhǎng)度的增加,其計(jì)算量會(huì)呈平方級(jí)增長(zhǎng)。
例如,輸入1000個(gè)詞時(shí),需要處理1000×1000=100萬次詞對(duì)關(guān)系;
要是處理有上萬個(gè)詞的長(zhǎng)文檔,計(jì)算量會(huì)達(dá)到億級(jí),這對(duì)普通GPU來說是不小的負(fù)擔(dān)。
而這種計(jì)算成本過高的問題還會(huì)引發(fā)連鎖反應(yīng):
- 首先是處理延遲顯著增加。在長(zhǎng)序列任務(wù)中,模型的響應(yīng)速度會(huì)大幅下降;
- 其次,在Agent類任務(wù)中表現(xiàn)不佳。Agent任務(wù)通常需要?jiǎng)討B(tài)決策與迭代優(yōu)化的能力,而Transformer在每一步操作中都需重新計(jì)算全局注意力,這就會(huì)導(dǎo)致整體效率偏低,難以滿足此類任務(wù)對(duì)實(shí)時(shí)性和靈活性的需求。
相比之下,Mamba則采用了更為輕量化的設(shè)計(jì)思路。
「Mamba+工具」更高效
作為狀態(tài)空間模型(SSM)的一種,Mamba不依賴全局注意力機(jī)制,而是通過持續(xù)更新的內(nèi)部狀態(tài)來理解輸入信息。
有點(diǎn)像人寫流水賬,只記最近進(jìn)展,不翻舊賬。
這種機(jī)制帶來了三項(xiàng)顯著優(yōu)勢(shì):
- 計(jì)算量隨序列長(zhǎng)度呈線性增長(zhǎng)例如處理1000個(gè)詞僅需對(duì)應(yīng)數(shù)量級(jí)的計(jì)算,遠(yuǎn)低于Transformer的消耗;
- 支持流式處理能夠邊接收輸入邊進(jìn)行計(jì)算,無需等待完整序列加載完畢;
- 內(nèi)存占用保持穩(wěn)定不會(huì)隨序列長(zhǎng)度增加而顯著上升,在效率方面表現(xiàn)突出。
不過,Mamba也有個(gè)明顯局限:內(nèi)部狀態(tài)的存儲(chǔ)容量有限,在處理超長(zhǎng)序列任務(wù)時(shí),早期信息容易被后續(xù)輸入覆蓋,導(dǎo)致模型對(duì)前文關(guān)鍵信息的保留能力較弱。
針對(duì)這一問題,蘋果團(tuán)隊(duì)提出了新方案——通過引入外部工具擴(kuò)展模型的信息處理能力。
比如算數(shù)學(xué)題時(shí)用指針工具記數(shù)字、存進(jìn)位;修代碼時(shí)用文件查看工具反復(fù)讀代碼、用運(yùn)行工具測(cè)報(bào)錯(cuò)……
這些工具可以在任務(wù)執(zhí)行過程中提供輔助,相當(dāng)給模型提供了可動(dòng)態(tài)調(diào)用的外部存儲(chǔ)和交互接口。

這樣做的結(jié)果就是,引入工具后Mamba的性能得到顯著提升:
在多位數(shù)加法任務(wù)中,配備指針工具的Mamba展現(xiàn)出良好的泛化能力,經(jīng)過5位數(shù)加法訓(xùn)練后,能夠穩(wěn)定處理1000位數(shù)的計(jì)算,準(zhǔn)確率接近100%,而Transformer在處理20位數(shù)時(shí)已出現(xiàn)明顯誤差;
在代碼調(diào)試任務(wù)中,讓Mamba模擬交互式調(diào)試流程(查看文件、局部修改、執(zhí)行驗(yàn)證的迭代方式),面對(duì)復(fù)雜度高于訓(xùn)練集的代碼庫(kù),其正確率顯著高于Transformer;
在邏輯推理及漢諾塔等需要分步規(guī)劃的任務(wù)中,結(jié)合工具的Mamba能夠應(yīng)對(duì)更復(fù)雜的問題場(chǎng)景,Transformer則要么算得慢,要么直接卡殼……

可以看出,Transformer聰明但慢,做事情講究從頭到尾一步到位,遇上需要反復(fù)調(diào)整的Agent式任務(wù),就顯得又貴又笨重;
Mamba反應(yīng)快但記性差,但裝上外置大腦后補(bǔ)足記憶短板后,效率嘎嘎提升。
這么一看,「Mamba+工具」的組合可能真要在Agent場(chǎng)景下?lián)孴ransformer的風(fēng)頭了。
論文地址:https://arxiv.org/pdf/2510.14826



































