ICCV 2025 | 線性注意力新突破!MANO多極機(jī)制橫掃視覺與物理任務(wù),性能暴漲還更省算力!
一眼概覽
MANO(Multipole Attention Neural Operator) 將注意力機(jī)制重新表述為“多極相互作用”問(wèn)題,通過(guò)引入分層多尺度注意力結(jié)構(gòu),在保持全局感受野的同時(shí),將時(shí)間與內(nèi)存復(fù)雜度從 O(N2) 降至 O(N),在圖像分類與物理模擬(Darcy 流)任務(wù)中均超越主流 Transformer 模型。
核心問(wèn)題
傳統(tǒng) Transformer 在視覺和物理建模中性能強(qiáng)大,但其 計(jì)算復(fù)雜度隨輸入長(zhǎng)度平方增長(zhǎng),在高分辨率圖像或密集網(wǎng)格模擬中成本極高?,F(xiàn)有方法(如 Swin、ViT、FNO)多依賴窗口化或降采樣,雖提升效率卻犧牲了全局上下文。核心挑戰(zhàn): 如何在保持全局信息交互的前提下,將注意力計(jì)算的時(shí)間與空間復(fù)雜度降至線性,同時(shí)兼顧多尺度細(xì)節(jié)與長(zhǎng)程依賴?
技術(shù)亮點(diǎn)
1. 多極注意力機(jī)制(Multipole Attention)受 N 體模擬啟發(fā),將注意力視為點(diǎn)間物理相互作用問(wèn)題,引入快速多極法(Fast Multipole Method, FMM),在多層次尺度下高效計(jì)算全局交互。
2. 層級(jí)卷積下采樣與共享權(quán)重在各尺度間使用共享卷積核進(jìn)行下采樣與上采樣,使模型能在任意分辨率下運(yùn)行,實(shí)現(xiàn)尺度無(wú)關(guān)性與參數(shù)恒定性。
3. 視覺與物理任務(wù)統(tǒng)一框架MANO 同時(shí)適用于 圖像分類(如 SwinV2 替換注意力層) 和 偏微分方程(PDE)求解,在視覺任務(wù)與神經(jīng)算子(Neural Operator)學(xué)習(xí)中展現(xiàn)出一致的優(yōu)越性。
方法框架
圖片
MANO 的核心流程:
1. 多尺度特征提?。狠斎雸D像或場(chǎng)函數(shù)經(jīng)共享卷積核多次下采樣,生成不同尺度的表示 。
2. 局部-全局注意力融合:在每個(gè)尺度內(nèi)以滑動(dòng)窗口方式計(jì)算局部注意力,同時(shí)通過(guò)層級(jí)上采樣和重疊窗口實(shí)現(xiàn)跨尺度交互。
3. 跨層聚合與輸出:各尺度注意力結(jié)果經(jīng)反卷積上采樣回原始分辨率后加權(quán)求和,形成最終全局上下文融合輸出。
這一流程在復(fù)雜度上保持與單層窗口注意力相同的 O(N),但顯著增強(qiáng)了模型的全局表達(dá)能力與泛化性。
實(shí)驗(yàn)結(jié)果速覽
圖片
圖像分類(Image Classification)
在 SwinV2-T(28M 參數(shù))基礎(chǔ)上替換為 MANO 模塊后,模型在多個(gè)數(shù)據(jù)集上實(shí)現(xiàn)顯著提升。
性能全面超越 ViT、DeiT、TinyViT,尤其在細(xì)粒度分類任務(wù)上表現(xiàn)突出。
實(shí)用價(jià)值與應(yīng)用
? 視覺領(lǐng)域: 作為 Swin 或 ViT 的可插拔替代模塊,適合高分辨率圖像分類、分割、重建等任務(wù)。
? 科學(xué)計(jì)算: 可高效學(xué)習(xí)偏微分方程算子,實(shí)現(xiàn)跨分辨率泛化,適用于 流體力學(xué)、氣候模擬、材料科學(xué) 等領(lǐng)域。
? 多模態(tài)潛力: 由于其統(tǒng)一的“物理-視覺”框架,MANO 有潛力成為視覺物理混合建模的基礎(chǔ)模塊。
開放問(wèn)題
? MANO 的分層結(jié)構(gòu)當(dāng)前為靜態(tài)設(shè)定,能否實(shí)現(xiàn)自適應(yīng)層級(jí)選擇以捕獲不同輸入的多尺度耦合?
? 該機(jī)制目前假設(shè) 規(guī)則網(wǎng)格輸入,如何擴(kuò)展至不規(guī)則網(wǎng)格或非歐幾里得域?
? 是否可將 多極注意力 融入時(shí)間維度,用于時(shí)序 PDE 或視頻理解任務(wù)?
? 注:所有免費(fèi)資料(包括本文論文)獲取鏈接:https://link3.cc/soragpt 【網(wǎng)頁(yè)瀏覽器打開】->【點(diǎn)擊,最新最先進(jìn)的計(jì)算機(jī)算法資料分享】->【右上角搜索,Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics】即可獲得
? 重磅消息1 | manus智能體開放免費(fèi)使用【親自體驗(yàn),效果非常絲滑】http://quxiedu.com:6230/archives/chong-bang-xiao-xi-manushkai-fang-mian-fei-shi-yong
【 或 https://manus.im/invitation/6PTIBEYS5EOLW】
?重磅消息2 | 醫(yī)學(xué)類模板ppt獲取【親自體驗(yàn),使用起來(lái)效果非常棒】 http://quxiedu.com:6230/archives/chong-bang-xiao-xi-yi-xue-lei-mo-ban-ppthuo-qu
?重磅消息3 | ChatGPT plus 升級(jí)費(fèi)用低至人民幣109元,非常實(shí)惠且便捷【http://quxiedu.com:6230/archives/chong-bang-xiao-xi-chatgpt-plus-sheng-ji-fei-yong-di-zhi-ren-min-bi-109yuan】【親自體驗(yàn),一鍵升級(jí)ChatGPTPlus,效果非常絲滑】
?注意:所有鏈接用瀏覽器即可打開


































