偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

新聞 人工智能
來自清華大學(xué)、西安交大、微軟亞研的研究者提出了一種稱為 MoBY 的自監(jiān)督學(xué)習(xí)方法,其中以 Vision Transformer 作為其主干架構(gòu),將 MoCo v2 和 BYOL 結(jié)合,并在 ImageNet-1K 線性評估中獲得相當(dāng)高的準(zhǔn)確率,性能優(yōu)于 MoCo v3、DINO 等網(wǎng)絡(luò)。

  [[409974]]

近兩年來,計算機(jī)視覺領(lǐng)域經(jīng)歷了兩次重大轉(zhuǎn)變,第一次是由 MoCo(Momentum Contrast)開創(chuàng)的自監(jiān)督視覺表征學(xué)習(xí),其預(yù)訓(xùn)練模型經(jīng)過微調(diào)可以遷移到不同的任務(wù)上;第二次是基于 Transformer 的主干架構(gòu),近年來在自然語言處理中取得巨大成功的 Transformer 又在計算機(jī)視覺領(lǐng)域得到了探索,進(jìn)而產(chǎn)生了從 CNN 到 Transformer 的建模轉(zhuǎn)變。

不久前,微軟亞研的研究者提出了一種通過移動窗口(shifted windows)計算的分層視覺 Swin Transformer,它可以用作計算機(jī)視覺的通用主干網(wǎng)絡(luò)。在各類回歸任務(wù)、圖像分類、目標(biāo)檢測、語義分割等方面具有極強(qiáng)性能。

而在近日,來自清華大學(xué)、西安交通大學(xué)以及微軟亞洲研究院的研究者也在計算機(jī)視覺領(lǐng)域發(fā)力,提出了名為 MoBY 自監(jiān)督學(xué)習(xí)方法,以 Vision Transformers 作為其主干架構(gòu),將 MoCo v2 和 BYOL 結(jié)合在一起,在 ImageNet-1K 線性評估中獲得相當(dāng)高的準(zhǔn)確率:通過 300-epoch 訓(xùn)練,分別在 DeiT-S 和 Swin-T 獲得 72.8% 和 75.0% 的 top-1 準(zhǔn)確率。與使用 DeiT 作為主干的 MoCo v3 和 DINO 相比,性能略好,但trick要輕得多。

更重要的是,使用 Swin Transformer 作為主干架構(gòu),還能夠評估下游任務(wù)中(目標(biāo)檢測和語義分割等)的學(xué)習(xí)表征,其與最近的 ViT/DeiT 方法相比,由于 ViT / DeiT 不適合這些密集的預(yù)測任務(wù),因此僅在 ImageNet-1K 上報告線性評估結(jié)果。研究者希望該結(jié)果可以促進(jìn)對 Transformer 架構(gòu)設(shè)計的自監(jiān)督學(xué)習(xí)方法進(jìn)行更全面的評估。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源
  • 論文地址:https://arxiv.org/pdf/2105.04553.pdf
  • GitHub 地址:https://github.com/SwinTransformer/Transformer-SSL

方法介紹

自監(jiān)督學(xué)習(xí)方法 MoBY 由 MoCo v2 和 BYOL 這兩個比較流行的自監(jiān)督學(xué)習(xí)方法組成,MoBY 名字的由來是各取了 MoCo v2 和 BYOL 前兩個字母。MoBY 繼承了 MoCo v2 中的動量設(shè)計、鍵隊列、對比損失,此外 MoBY 還繼承了 BYOL 中非對稱編碼器、非對稱數(shù)據(jù)擴(kuò)充、動量調(diào)度(momentum scheduler)。MoBY 架構(gòu)圖如下圖 1 所示:

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

MoBY 包含兩個編碼器:在線編碼器和目標(biāo)編碼器。這兩個編碼器都包含一個主干和 projector head(2 層 MLP),在線編碼器引入了額外的預(yù)測頭(2 層 MLP),使得這兩個編碼器具有非對稱性。在線編碼器采用梯度更新,目標(biāo)編碼器則是在線編碼器在每次訓(xùn)練迭代中通過動量更新得到的移動平均值。對目標(biāo)編碼器采用逐漸增加動量更新策略:訓(xùn)練過程中,動量項值默認(rèn)起始值為 0.99,并逐漸增加到 1。

學(xué)習(xí)表征采用對比損失,具體而言,對于一個在線視圖(online view)q,其對比損失計算公式如下所示:

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

式中,κ_+ 為同一幅圖像的另一個視圖(view)的目標(biāo)特征;κ_i 是鍵隊列( key queue )中的目標(biāo)特性;τ是 temperature 項;Κ是鍵隊列的大?。J(rèn)為 4096)。

在訓(xùn)練中,與大多數(shù)基于 Transformer 的方法一樣,研究者還采用了 AdamW 優(yōu)化器。

MoBY 偽代碼如下所示:

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

實驗

在 ImageNet-1K 上的線性評估

在 ImageNet-1K 數(shù)據(jù)集上進(jìn)行線性評估是一種常用的評估學(xué)得的表征質(zhì)量的方式。在該方式中,線性分類器被用于主干,主干權(quán)重被凍結(jié),僅訓(xùn)練線性分類器。訓(xùn)練完線性分類器之后,使用中心裁剪(center crop)在驗證集上取得了 top-1 準(zhǔn)確率。

表 1 給出了使用各種自監(jiān)督學(xué)習(xí)方法和主干網(wǎng)絡(luò)架構(gòu)的預(yù)訓(xùn)練模型的主要性能結(jié)果。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

1.與使用 Transformer 架構(gòu)的其他 SSL 方法進(jìn)行比較

MoCo v3、DINO 等方法采用 ViT/DeiT 作為主干網(wǎng)絡(luò)架構(gòu),該研究首先給出了使用 DeiT-S 的 MoBY 的性能結(jié)果,以便與該研究的方法進(jìn)行合理比較。經(jīng)過了 300 個 epoch 的訓(xùn)練,MoBY 達(dá)到了 72.8% top-1 的準(zhǔn)確率,這比 MoCo v3 和 DINO(不含多次裁剪(multi-crop))略勝一籌,結(jié)果如表 1 所示。

2.Swin-T VS DeiT-S

研究者還比較了在自監(jiān)督學(xué)習(xí)中各種 Transformer 架構(gòu)的使用情況。如表 1 所示,Swin-T 達(dá)到了 75.0% top-1 的準(zhǔn)確率,比 DeiT-S 高出 2.2%。值得一提的是,這一性能差距比使用監(jiān)督學(xué)習(xí)還大(+1.5%)。

該研究進(jìn)行的初步探索表明,固定 patch 嵌入對 MoBY 沒有用,并且在 MLP 塊之前用批歸一化代替層歸一化層可以讓 top-1 準(zhǔn)確率提升 1.1%(訓(xùn)練 epoch 為 100),如表 2 所示。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

在下游任務(wù)上的遷移性能

研究者評估了學(xué)得的表征在 COCO 目標(biāo)檢測 / 實例分割和 ADE20K 語義分割的下游任務(wù)上的遷移性能。

1.COCO 目標(biāo)檢測和實例分割

評估中采用了兩個檢測器:Mask R-CNN 和 Cascade Mask R-CNN。表 3 給出了在 1x 和 3x 設(shè)置下由 MoBY 學(xué)得的表征和預(yù)訓(xùn)練監(jiān)督方法的比較結(jié)果。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

2.ADE20K 語義分割

研究者采用 UPerNet 方法和 ADE20K 數(shù)據(jù)集進(jìn)行評估。表 4 給出了監(jiān)督和自監(jiān)督預(yù)訓(xùn)練模型的比較結(jié)果。這表明 MoBY 的性能比監(jiān)督方法稍差一點,這意味著使用 Transformer 架構(gòu)進(jìn)行自監(jiān)督學(xué)習(xí)具有改進(jìn)空間。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

消融實驗

研究者又進(jìn)一步使用 ImageNet-1K 線性評估進(jìn)行了消融實驗,其中 Swin-T 為主干網(wǎng)絡(luò)架構(gòu)。

1.不對稱的 drop path rate 是有益的

對于使用圖像分類任務(wù)和 Transformer 架構(gòu)的監(jiān)督表征學(xué)習(xí)來說,drop path 是一種有效的正則化方法。研究者通過消融實驗探究了該正則化方法的影響,實驗結(jié)果如下表 5 所示。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

2.其他超參數(shù)

第一組消融實驗探究了鍵隊列大小 K 從 1024 到 16384 的影響,實驗結(jié)果如表 6(a) 所示。該方法在不同 K(從 1024 到 16384)下都能夠穩(wěn)定執(zhí)行,其中采用 4096 作為默認(rèn)值。

第二組消融實驗探究了溫度(temperature)τ的影響,實驗結(jié)果如表 6(b) 所示。其中τ為 0.2 時性能最佳,0.2 也是默認(rèn)值。

第三組消融實驗探究了目標(biāo)編碼器的初始動量值的影響,實驗結(jié)果如表 6(c) 所示。其中值為 0.99 時性能最佳,并被設(shè)為默認(rèn)值。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學(xué)習(xí)方法代碼已開源

 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-05-12 15:22:07

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2024-05-24 15:53:20

視覺圖像

2024-07-30 11:20:00

圖像視覺

2024-06-13 11:44:43

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2022-05-17 16:38:40

數(shù)據(jù)訓(xùn)練

2025-04-25 08:00:00

2022-04-26 09:44:29

算法庫EasyCV開源

2023-02-14 15:11:19

工具模型

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2021-12-31 14:11:20

框架AI開發(fā)

2021-11-08 22:42:51

機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)數(shù)據(jù)

2025-03-10 08:53:00

2015-10-12 10:37:42

學(xué)習(xí)算法檢測

2019-10-14 10:40:03

機(jī)器學(xué)習(xí)人工智能非監(jiān)督學(xué)習(xí)

2024-02-19 07:30:00

AI模型

2020-08-16 11:34:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2023-02-01 13:29:46

機(jī)器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號