偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型被偷家!CNN搞多模態(tài)不弱于Transfromer(騰訊&港中文)

人工智能 新聞
在Transformer占據(jù)多模態(tài)工具半壁江山的時代,大核CNN又“殺了回來”,成為了一匹新的黑馬。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

騰訊AI實驗室與港中文聯(lián)合團隊提出了一種新的CNN架構(gòu),圖像識別精度和速度都超過了Transformer架構(gòu)模型。

切換到點云、音頻、視頻等其他模態(tài),也無需改變模型結(jié)構(gòu),簡單預(yù)處理即可接近甚至超越SOTA。

團隊提出了專門用于大核CNN架構(gòu)設(shè)計的四條guideline和一種名為UniRepLKNet的強力backbone。

只要用ImageNet-22K對其進行預(yù)訓(xùn)練,精度和速度就都能成為SOTA——

ImageNet達到88%,COCO達到56.4 box AP,ADE20K達到55.6 mIoU,實際測速優(yōu)勢很大。

在時序預(yù)測的超大數(shù)據(jù)上使用UniRepLKNet,也能達到最佳水平——

例如在全球氣溫和風(fēng)速預(yù)測上,它就超越了Nature子刊上基于Transformer的前SOTA。

更多細節(jié),我們接著看作者投稿。

“Transformer時代”,為什么還需要CNN

在正式介紹UniRepLKNet的原理之前,作者首先解答了兩個問題。

第一個問題是,為什么在Transformer大一統(tǒng)各個模態(tài)的時代還要研究CNN?

作者認為,Transformer和CNN只不過是相互交融的兩種結(jié)構(gòu)設(shè)計思路罷了,沒有理由認為前者具有本質(zhì)的優(yōu)越性。

“Transformer大一統(tǒng)各個模態(tài)”正是研究團隊試圖修正的認知。

正如2022年初ConvNeXt、RepLKNet和另外一些工作問世之前,“Transformer在圖像任務(wù)上吊打CNN”是主流認知。

這幾項成果出現(xiàn)后,這一認知被修正為“CNN和Transformer在圖像任務(wù)上差不多”。

本研究團隊的成果將其進一步修正:在點云、音頻、視頻上,CNN比我們想象的強太多了。

在時序預(yù)測這種并不是CNN傳統(tǒng)強項的領(lǐng)域(LSTM等曾是主流,最近兩年Transformer越來越多),CNN都能超過Transformer,成功將其“偷家”。

因此,研究團隊認為,CNN在大一統(tǒng)這一點上可能不弱于Transformer。

第二個問題是,如何將一個為圖像任務(wù)設(shè)計的CNN用于音頻、視頻、點云、時序數(shù)據(jù)?

出于對簡潔和通用性的永恒追求,將UniRepLKNet用于其他模態(tài)時,不對模型架構(gòu)主體做任何改變(以下實驗用的全都是UniRepLKNet-Small)。

只需要將視頻、音頻、點云、時序數(shù)據(jù)給處理成C×H×W的embedding map(對于圖像來說,C=3),就能實現(xiàn)到其他模態(tài)的過渡,例如:

  • 把音頻的頻譜圖(Time×Frequency)看成是一幅單通道圖像,即C=1,H=T,W=F;
  • 將點云進行三視圖投影,得到三幅單通道圖像,C=3,H和W可以隨意指定;
  • 將視頻中的各幀拼接到一起,極為簡單地得到一張大圖(例如,16幀的3×224×224視頻拼接得到3×896×896的輸入);
  • 對時序數(shù)據(jù),借鑒CorrFormer中的embedding layer將數(shù)據(jù)轉(zhuǎn)換為隱空間中的張量然后簡單粗暴地將其reshape成一幅單通道圖像。

后文展示的結(jié)果將會證明,如此簡單的設(shè)計產(chǎn)生的效果是極為優(yōu)秀的。

大卷積核CNN架構(gòu)設(shè)計

2022年,RepLKNet提出了用超大卷積核(從13×13到31×31)來構(gòu)建現(xiàn)代CNN以及正確使用超大卷積核的幾個設(shè)計原則。

但從架構(gòu)層面看,RepLKNet只是簡單地用了Swin Transformer的整體架構(gòu),并沒有做什么改動。

當(dāng)前大核CNN架構(gòu)設(shè)計要么遵循現(xiàn)有的CNN設(shè)計原則,要么遵循現(xiàn)有的Transformer設(shè)計原則。

在傳統(tǒng)的卷積網(wǎng)絡(luò)架構(gòu)設(shè)計中,當(dāng)研究者向網(wǎng)絡(luò)中添加一個3×3或5×5卷積層時,往往會期望它同時產(chǎn)生三個作用:

  • 增大感受野
  • 提高抽象層次,例如從線條到紋理、從紋理到物體的局部
  • 通過增加深度而一般地提高表征能力(越深,參數(shù)越多,非線性越多,擬合能力越高)

那么,設(shè)計大卷積核CNN架構(gòu)時,應(yīng)該遵循怎樣的原則呢?

本文指出,應(yīng)該解耦上述三種要素,需要什么效果就用對應(yīng)的結(jié)構(gòu)來實現(xiàn)

  • 用少量大卷積核保證大感受野。
  • 用depthwise 3×3等小卷積提高特征抽象層次。
  • 用一些高效結(jié)構(gòu)(如SE Block、Bottleneck structure等)來提高模型的深度從而增強其一般的表示能力。

這樣的解耦之所以能夠?qū)崿F(xiàn),正是大卷積核的本質(zhì)優(yōu)勢所保證的,即不依賴深度堆疊的大感受野。

經(jīng)過系統(tǒng)研究,本文提出了大卷積核CNN設(shè)計的四條Architectural Guidelines。

根據(jù)這些guideline,本文提出的UniRepLKNet模型結(jié)構(gòu)如下——

每個block主要由depthwise conv、SE Block和FFN三個部分組成。

其中depthwise conv可以是大卷積核(圖中所示的Dilated Reparam Block,其使用膨脹卷積來輔助大核卷積來捕捉稀疏的特征而且可以通過結(jié)構(gòu)重參數(shù)化方法等價轉(zhuǎn)換為一個卷積層),也可以只是depthwise 3x3。

多項表現(xiàn)超越Transformer

作為圖像模態(tài)中的老三樣,ImageNet、COCO、ADE20K上的結(jié)果自然是不能少。論文中最多只用ImageNet-22K預(yù)訓(xùn)練,沒有用更大的數(shù)據(jù)。

雖然大核CNN本來不是很重視ImageNet(因為圖像分類任務(wù)對表征能力和感受野的要求不高,發(fā)揮不出大kernel的潛力),但UniRepLKNet還是超過了最新的諸多模型,其實際測速的結(jié)果尤為喜人。

例如,UniRepLKNet-XL的ImageNet精度達到88%,而且實際速度是DeiT III-L的三倍。量級較小的UniRepLKNet相對于FastViT等專門設(shè)計的輕量級模型的優(yōu)勢也非常明顯。

圖片圖片

在COCO目標(biāo)檢測任務(wù)上,UniRepLKNet最強大的競爭者是InternImage:

UniRepLKNet-L在COCO上不及InternImage-L,但是UniRepLKnet-XL超過了InternImage-XL。

考慮到InternImage團隊在目標(biāo)檢測領(lǐng)域的積淀非常深厚,這一效果也算很不容易了。

在ADE20K語義分割上,UniRepLKNet的優(yōu)勢相當(dāng)顯著,最高達到55.6的mIoU。與ConvNeXt-XL相比超出了整整1.6。

為了驗證UniRepLKNet處理時序數(shù)據(jù)的能力,本文挑戰(zhàn)了一個數(shù)據(jù)規(guī)模超大的《Nature》級別的任務(wù):全球氣溫和風(fēng)速預(yù)測。

盡管UniRepLKNet本來是為面向圖像任務(wù)設(shè)計的,它卻能超過為這個任務(wù)而設(shè)計的CorrFormer(前SOTA)。

這一發(fā)現(xiàn)尤為有趣,因為這種超大規(guī)模時間序列預(yù)測任務(wù)聽起來更適合LSTM、GNN和Transformer,這次CNN卻將其“偷家”了。

在音頻、視頻和點云任務(wù)上,本文的極簡處理方法也都十分有效。

One More Thing

除了提出一種在圖像上非常強力的backbone之外,本文所報告的這些發(fā)現(xiàn)似乎表明,大核CNN的潛力還沒有得到完全開發(fā)。

即便在Transformer的理論強項——“大一統(tǒng)建模能力”上,大核CNN也比我們所想象的更為強大。

本文也報告了相關(guān)的證據(jù):將kernel size從13減為11,這四個模態(tài)上的性能都發(fā)生了顯著降低。

此外,作者已經(jīng)放出了所有代碼,并將所有模型和實驗?zāi)_本開源。

論文地址: 
https://arxiv.org/abs/2311.15599

原文鏈接:https://mp.weixin.qq.com/s/Y1rGsy4zK78T14YSy-GtQw

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2025-01-08 08:21:16

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-11-13 15:00:00

模型數(shù)據(jù)

2024-12-18 18:57:58

2024-11-13 09:39:13

2023-05-15 12:14:02

ChatGPT語音模型

2024-09-25 14:53:00

2021-10-13 17:28:33

AI 數(shù)據(jù)人工智能

2025-04-22 09:22:00

模型檢測AI

2024-11-11 15:11:23

2024-05-17 16:02:00

2024-11-12 10:20:00

模型數(shù)據(jù)

2025-05-21 08:47:00

2019-10-14 15:13:24

AI 數(shù)據(jù)人工智能

2024-07-08 08:47:00

2024-03-20 13:18:46

模型多模態(tài)體系

2024-03-25 12:40:19

訓(xùn)練模型

2024-05-10 06:59:06

2023-08-04 13:22:46

AI開源
點贊
收藏

51CTO技術(shù)棧公眾號