偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果AI選Mamba:Agent任務(wù)比Transformer更好

人工智能 新聞
在長(zhǎng)任務(wù)、多交互的Agent式任務(wù)中,基于SSM架構(gòu)(狀態(tài)空間模型)的模型,比如Mamba,在效率與泛化能力上,展現(xiàn)出超越Transformer的潛力。

都說蘋果AI慢半拍,沒想到新研究直接在Transformer頭上動(dòng)土。(doge)

「Mamba+工具」,在Agent場(chǎng)景更能打!

在最新論文《To Infinity and Beyond》中,研究團(tuán)隊(duì)發(fā)現(xiàn):

在長(zhǎng)任務(wù)、多交互的Agent式任務(wù)中,基于SSM架構(gòu)(狀態(tài)空間模型)的模型,比如Mamba,在效率與泛化能力上,展現(xiàn)出超越Transformer的潛力。

Mamba一作表示:??

超越Transformer,怎么說?

Transformer的長(zhǎng)篇累牘問題

先說說Transformer的“富貴病”。

Transformer確實(shí)很聰明,靠自注意力機(jī)制能夠同時(shí)關(guān)注輸入序列中所有詞語之間的關(guān)聯(lián),比如閱讀文章時(shí)可以快速建立首尾關(guān)鍵信息的聯(lián)系。

但這種能力的實(shí)現(xiàn)需要較高的計(jì)算成本,隨著輸入序列長(zhǎng)度的增加,其計(jì)算量會(huì)呈平方級(jí)增長(zhǎng)。

例如,輸入1000個(gè)詞時(shí),需要處理1000×1000=100萬次詞對(duì)關(guān)系;

要是處理有上萬個(gè)詞的長(zhǎng)文檔,計(jì)算量會(huì)達(dá)到億級(jí),這對(duì)普通GPU來說是不小的負(fù)擔(dān)。

而這種計(jì)算成本過高的問題還會(huì)引發(fā)連鎖反應(yīng):

  • 首先是處理延遲顯著增加。在長(zhǎng)序列任務(wù)中,模型的響應(yīng)速度會(huì)大幅下降;
  • 其次,在Agent類任務(wù)中表現(xiàn)不佳。Agent任務(wù)通常需要?jiǎng)討B(tài)決策與迭代優(yōu)化的能力,而Transformer在每一步操作中都需重新計(jì)算全局注意力,這就會(huì)導(dǎo)致整體效率偏低,難以滿足此類任務(wù)對(duì)實(shí)時(shí)性和靈活性的需求。

相比之下,Mamba則采用了更為輕量化的設(shè)計(jì)思路。

「Mamba+工具」更高效

作為狀態(tài)空間模型(SSM)的一種,Mamba不依賴全局注意力機(jī)制,而是通過持續(xù)更新的內(nèi)部狀態(tài)來理解輸入信息

有點(diǎn)像人寫流水賬,只記最近進(jìn)展,不翻舊賬。

這種機(jī)制帶來了三項(xiàng)顯著優(yōu)勢(shì):

  • 計(jì)算量隨序列長(zhǎng)度呈線性增長(zhǎng)例如處理1000個(gè)詞僅需對(duì)應(yīng)數(shù)量級(jí)的計(jì)算,遠(yuǎn)低于Transformer的消耗;
  • 支持流式處理能夠邊接收輸入邊進(jìn)行計(jì)算,無需等待完整序列加載完畢;
  • 內(nèi)存占用保持穩(wěn)定不會(huì)隨序列長(zhǎng)度增加而顯著上升,在效率方面表現(xiàn)突出。

不過,Mamba也有個(gè)明顯局限:內(nèi)部狀態(tài)的存儲(chǔ)容量有限,在處理超長(zhǎng)序列任務(wù)時(shí),早期信息容易被后續(xù)輸入覆蓋,導(dǎo)致模型對(duì)前文關(guān)鍵信息的保留能力較弱。

針對(duì)這一問題,蘋果團(tuán)隊(duì)提出了新方案——通過引入外部工具擴(kuò)展模型的信息處理能力

比如算數(shù)學(xué)題時(shí)用指針工具記數(shù)字、存進(jìn)位;修代碼時(shí)用文件查看工具反復(fù)讀代碼、用運(yùn)行工具測(cè)報(bào)錯(cuò)……

這些工具可以在任務(wù)執(zhí)行過程中提供輔助,相當(dāng)給模型提供了可動(dòng)態(tài)調(diào)用的外部存儲(chǔ)和交互接口。

這樣做的結(jié)果就是,引入工具后Mamba的性能得到顯著提升:

在多位數(shù)加法任務(wù)中,配備指針工具的Mamba展現(xiàn)出良好的泛化能力,經(jīng)過5位數(shù)加法訓(xùn)練后,能夠穩(wěn)定處理1000位數(shù)的計(jì)算,準(zhǔn)確率接近100%,而Transformer在處理20位數(shù)時(shí)已出現(xiàn)明顯誤差;

在代碼調(diào)試任務(wù)中,讓Mamba模擬交互式調(diào)試流程(查看文件、局部修改、執(zhí)行驗(yàn)證的迭代方式),面對(duì)復(fù)雜度高于訓(xùn)練集的代碼庫(kù),其正確率顯著高于Transformer;

在邏輯推理及漢諾塔等需要分步規(guī)劃的任務(wù)中,結(jié)合工具的Mamba能夠應(yīng)對(duì)更復(fù)雜的問題場(chǎng)景,Transformer則要么算得慢,要么直接卡殼……

可以看出,Transformer聰明但慢,做事情講究從頭到尾一步到位,遇上需要反復(fù)調(diào)整的Agent式任務(wù),就顯得又貴又笨重;

Mamba反應(yīng)快但記性差,但裝上外置大腦后補(bǔ)足記憶短板后,效率嘎嘎提升。

這么一看,「Mamba+工具」的組合可能真要在Agent場(chǎng)景下?lián)孴ransformer的風(fēng)頭了。

論文地址:https://arxiv.org/pdf/2510.14826

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-07-15 08:20:00

2023-10-30 09:16:00

模型訓(xùn)練

2024-05-13 10:38:08

2024-08-13 12:49:29

2024-08-19 13:21:14

2025-04-21 16:27:18

AIGPT?3.5工具

2023-12-29 08:02:17

大模型人工智能AI

2025-07-10 08:55:00

模型AI論文

2025-10-17 10:23:00

2022-11-10 15:32:29

2022-04-20 12:17:50

命令Batcat

2012-03-20 09:20:54

IntelliJEclipseJava

2022-04-25 10:04:56

df命令Linux

2019-08-14 08:00:00

Arch LinuxUbuntuLinux

2024-04-02 09:03:43

TransformeMambaRNN

2024-03-04 08:20:00

谷歌架構(gòu)AI

2025-06-05 02:15:00

Mamba視覺網(wǎng)絡(luò)

2024-08-22 16:23:05

2022-02-21 15:19:10

谷歌漏洞Linux

2024-09-03 09:46:51

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)