偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

蘋果AI選Mamba：Agent任務(wù)比Transformer更好

2025-10-22 08:41:22

人工智能新聞

在長(zhǎng)任務(wù)、多交互的Agent式任務(wù)中，基于SSM架構(gòu)（狀態(tài)空間模型）的模型，比如Mamba，在效率與泛化能力上，展現(xiàn)出超越Transformer的潛力。

都說蘋果AI慢半拍，沒想到新研究直接在Transformer頭上動(dòng)土。（doge）

「Mamba+工具」，在Agent場(chǎng)景更能打！

在最新論文《To Infinity and Beyond》中，研究團(tuán)隊(duì)發(fā)現(xiàn)：

在長(zhǎng)任務(wù)、多交互的Agent式任務(wù)中，基于SSM架構(gòu)（狀態(tài)空間模型）的模型，比如Mamba，在效率與泛化能力上，展現(xiàn)出超越Transformer的潛力。

Mamba一作表示：

超越Transformer，怎么說？

Transformer的長(zhǎng)篇累牘問題

先說說Transformer的“富貴病”。

Transformer確實(shí)很聰明，靠自注意力機(jī)制能夠同時(shí)關(guān)注輸入序列中所有詞語之間的關(guān)聯(lián)，比如閱讀文章時(shí)可以快速建立首尾關(guān)鍵信息的聯(lián)系。

但這種能力的實(shí)現(xiàn)需要較高的計(jì)算成本，隨著輸入序列長(zhǎng)度的增加，其計(jì)算量會(huì)呈平方級(jí)增長(zhǎng)。

例如，輸入1000個(gè)詞時(shí)，需要處理1000×1000=100萬次詞對(duì)關(guān)系；

要是處理有上萬個(gè)詞的長(zhǎng)文檔，計(jì)算量會(huì)達(dá)到億級(jí)，這對(duì)普通GPU來說是不小的負(fù)擔(dān)。

而這種計(jì)算成本過高的問題還會(huì)引發(fā)連鎖反應(yīng)：

首先是處理延遲顯著增加。在長(zhǎng)序列任務(wù)中，模型的響應(yīng)速度會(huì)大幅下降；
其次，在Agent類任務(wù)中表現(xiàn)不佳。Agent任務(wù)通常需要?jiǎng)討B(tài)決策與迭代優(yōu)化的能力，而Transformer在每一步操作中都需重新計(jì)算全局注意力，這就會(huì)導(dǎo)致整體效率偏低，難以滿足此類任務(wù)對(duì)實(shí)時(shí)性和靈活性的需求。

相比之下，Mamba則采用了更為輕量化的設(shè)計(jì)思路。

「Mamba+工具」更高效

作為狀態(tài)空間模型（SSM）的一種，Mamba不依賴全局注意力機(jī)制，而是通過持續(xù)更新的內(nèi)部狀態(tài)來理解輸入信息。

有點(diǎn)像人寫流水賬，只記最近進(jìn)展，不翻舊賬。

這種機(jī)制帶來了三項(xiàng)顯著優(yōu)勢(shì)：

計(jì)算量隨序列長(zhǎng)度呈線性增長(zhǎng)例如處理1000個(gè)詞僅需對(duì)應(yīng)數(shù)量級(jí)的計(jì)算，遠(yuǎn)低于Transformer的消耗；
支持流式處理能夠邊接收輸入邊進(jìn)行計(jì)算，無需等待完整序列加載完畢；
內(nèi)存占用保持穩(wěn)定不會(huì)隨序列長(zhǎng)度增加而顯著上升，在效率方面表現(xiàn)突出。

不過，Mamba也有個(gè)明顯局限：內(nèi)部狀態(tài)的存儲(chǔ)容量有限，在處理超長(zhǎng)序列任務(wù)時(shí)，早期信息容易被后續(xù)輸入覆蓋，導(dǎo)致模型對(duì)前文關(guān)鍵信息的保留能力較弱。

針對(duì)這一問題，蘋果團(tuán)隊(duì)提出了新方案——通過引入外部工具擴(kuò)展模型的信息處理能力。

比如算數(shù)學(xué)題時(shí)用指針工具記數(shù)字、存進(jìn)位；修代碼時(shí)用文件查看工具反復(fù)讀代碼、用運(yùn)行工具測(cè)報(bào)錯(cuò)……

這些工具可以在任務(wù)執(zhí)行過程中提供輔助，相當(dāng)給模型提供了可動(dòng)態(tài)調(diào)用的外部存儲(chǔ)和交互接口。

這樣做的結(jié)果就是，引入工具后Mamba的性能得到顯著提升：

在多位數(shù)加法任務(wù)中，配備指針工具的Mamba展現(xiàn)出良好的泛化能力，經(jīng)過5位數(shù)加法訓(xùn)練后，能夠穩(wěn)定處理1000位數(shù)的計(jì)算，準(zhǔn)確率接近100%，而Transformer在處理20位數(shù)時(shí)已出現(xiàn)明顯誤差；

在代碼調(diào)試任務(wù)中，讓Mamba模擬交互式調(diào)試流程（查看文件、局部修改、執(zhí)行驗(yàn)證的迭代方式），面對(duì)復(fù)雜度高于訓(xùn)練集的代碼庫(kù)，其正確率顯著高于Transformer；

在邏輯推理及漢諾塔等需要分步規(guī)劃的任務(wù)中，結(jié)合工具的Mamba能夠應(yīng)對(duì)更復(fù)雜的問題場(chǎng)景，Transformer則要么算得慢，要么直接卡殼……

可以看出，Transformer聰明但慢，做事情講究從頭到尾一步到位，遇上需要反復(fù)調(diào)整的Agent式任務(wù)，就顯得又貴又笨重；

Mamba反應(yīng)快但記性差，但裝上外置大腦后補(bǔ)足記憶短板后，效率嘎嘎提升。

這么一看，「Mamba+工具」的組合可能真要在Agent場(chǎng)景下?lián)孴ransformer的風(fēng)頭了。

論文地址：https://arxiv.org/pdf/2510.14826

責(zé)任編輯：張燕妮來源：量子位

蘋果 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="p3z93"></sub>