偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="k6vgp"><strong id="k6vgp"></strong></tfoot>

<tfoot id="k6vgp"><span id="k6vgp"></span></tfoot>

<menuitem id="k6vgp"></menuitem>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

作者：夢(mèng)晨 2021-11-25 12:35:03

新聞人工智能

Transformer做視覺取得巨大成功，各大變體頻頻刷榜，其中誰是最強(qiáng)？

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

Transformer做視覺取得巨大成功，各大變體頻頻刷榜，其中誰是最強(qiáng)？

早期人們認(rèn)為是其中的注意力機(jī)制貢獻(xiàn)最大，對(duì)注意力模塊做了很多改進(jìn)。

后續(xù)研究又發(fā)現(xiàn)不用注意力換成Spatial MLP效果也很好，甚至使用傅立葉變換模塊也能保留97%的性能。

爭議之下，顏水成團(tuán)隊(duì)的最新論文給出一個(gè)不同觀點(diǎn)：

其實(shí)這些具體模塊并不重要，Transformer的成功來自其整體架構(gòu)。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

他們把Transformer中的注意力模塊替換成了簡單的空間池化算子，新模型命名為PoolFormer。

這里原文的說法很有意思，“簡單到讓人尷尬”……

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

測試結(jié)果上，PoolFormer在ImageNet-1K上獲得了82.1%的top-1精度。

（PyTorch版代碼已隨論文一起發(fā)布在GitHub上，地址可在這篇推文末尾處獲取。）

同等參數(shù)規(guī)模下，簡單池化模型超過了一些經(jīng)過調(diào)優(yōu)的使用注意力（如DeiT）或MLP模塊（如ResMLP）的模型。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

這個(gè)結(jié)果讓一些圍觀的CVer直接驚掉下巴：

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

太好奇了，模型簡單到什么樣才能令人尷尬？

PoolFormer

整體結(jié)構(gòu)與其他模型類似，PoolFormer只是把token mixer部分換了一下。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

因?yàn)橹饕?yàn)證視覺任務(wù)，所以假設(shè)輸入數(shù)據(jù)的格式為通道優(yōu)先，池化算子描述如下：

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

PyTorch風(fēng)格的偽代碼大概是這樣：

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

池化算子的復(fù)雜度比自注意力和Spatial MLP要小，與要處理的序列長度呈線性關(guān)系。

其中也沒有可學(xué)習(xí)的參數(shù)，所以可以采用類似傳統(tǒng)CNN的分階段方法來充分發(fā)揮性能，這次的模型分了4個(gè)階段。

假設(shè)總共有L個(gè)PoolFormer塊，那么4個(gè)階段分配成L/6、L/6、L/2、L/6個(gè)。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

每個(gè)階段的具體參數(shù)如下：

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

PoolFormer基本情況介紹完畢，下面開始與其他模型做性能對(duì)比。

首先是圖像分類任務(wù)，對(duì)比模型分為三類：

CNN模型ResNet和RegNetY
使用注意力模塊的ViT、DeiT和PVT
使用Spatial MLP的MLP-Mixer、ResMLP、Swin-Mixer和gMLP

在ImageNet-1K上，無論是按累計(jì)乘加操作數(shù)（MACs）還是按參數(shù)規(guī)模為標(biāo)準(zhǔn)，PoolFormer性能都超過了同等規(guī)模的其他模型。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

目標(biāo)檢測和實(shí)例分割任務(wù)上用了COCO數(shù)據(jù)集，兩項(xiàng)任務(wù)中PoolFormer都以更少的參數(shù)取得比ResNet更高的性能。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

△目標(biāo)檢測

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

△實(shí)例分割

最后是ADE20K語義分割任務(wù)，PoolFormer的表現(xiàn)也超過了ResNet、ResNeXt和PVT。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

消融實(shí)驗(yàn)

上面可以看出，幾大視覺任務(wù)上PoolFormer都取得了有競爭力的成績。

不過這還不足以支撐這篇論文開頭提出的那個(gè)觀點(diǎn)。

到底是整體架構(gòu)重要？還是說PoolFormer中的池化模塊剛好是一種簡單卻有效的Token Mixer？

團(tuán)隊(duì)的驗(yàn)證方法是把池化模塊直接替換成恒等映射（Identity Mapping）。

結(jié)果令人驚訝，替換后在ImageNet-1K上也保留了74.3%的Top-1精度。

在此基礎(chǔ)上無論是改變池化核尺寸、歸一化方法、激活函數(shù)影響都不大。

最重要的是，在4個(gè)階段中把注意力和空間全連接層等機(jī)制混合起來用性能影響也不大。

其中特別觀察到，前兩階段用池化后兩階段用注意力這種組合表現(xiàn)突出。

這樣的配置下稍微增加一下規(guī)模精度就可達(dá)到81%，作為對(duì)比的ResMLP-B24模型達(dá)到相同性能需要7倍的參數(shù)規(guī)模和8.5倍的累計(jì)乘加操作。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

最終，消融實(shí)驗(yàn)結(jié)果說明Transformer中具體到token mixer這個(gè)部分，具體用了哪種方法并不關(guān)鍵。

不增加模型規(guī)模的情況下，網(wǎng)絡(luò)的整體結(jié)構(gòu)才是對(duì)性能提升最重要的。

這樣的整體結(jié)構(gòu)被團(tuán)隊(duì)提煉出來，命名為MetaFormer。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

NLP上還會(huì)成立嗎？

這項(xiàng)研究由顏水成領(lǐng)導(dǎo)的Sea AI Lab和來自新加坡國立大學(xué)的成員共同完成。

[[436639]]

△顏水成

論文的最后，團(tuán)隊(duì)表示下一步研究方向是在更多場景下繼續(xù)驗(yàn)證，如自監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)。

除了視覺任務(wù)，也要看看在NLP任務(wù)上結(jié)論是否也成立。

另外發(fā)這篇論文還有一個(gè)目的：

呼吁大家把研究的重點(diǎn)放在優(yōu)化模型的基礎(chǔ)結(jié)構(gòu)，而不是在具體模塊上花太多精力去打磨。

顏水成發(fā)了個(gè)“簡單到尷尬”的模型證明Transformer威力源自架構(gòu)

論文地址：
https://arxiv.org/abs/2111.11418

GitHub倉庫：
https://github.com/sail-sg/poolformer

責(zé)任編輯：張燕妮來源：量子位

模型人工智能深度學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營