偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華人博士生首次嘗試用兩個Transformer構建一個GAN

人工智能
最近,CV 研究者對 transformer 產生了極大的興趣并取得了不少突破。這表明,transformer 有可能成為計算機視覺任務(如分類、檢測和分割)的強大通用模型。

 [[382526]]

最近,CV 研究者對 transformer 產生了極大的興趣并取得了不少突破。這表明,transformer 有可能成為計算機視覺任務(如分類、檢測和分割)的強大通用模型。

我們都很好奇:在計算機視覺領域,transformer 還能走多遠?對于更加困難的視覺任務,比如生成對抗網絡 (GAN),transformer 表現(xiàn)又如何?

在這種好奇心的驅使下,德州大學奧斯汀分校的 Yifan Jiang、Zhangyang Wang,IBM Research 的 Shiyu Chang 等研究者進行了第一次試驗性研究,構建了一個只使用純 transformer 架構、完全沒有卷積的 GAN,并將其命名為 TransGAN。與其它基于 transformer 的視覺模型相比,僅使用 transformer 構建 GAN 似乎更具挑戰(zhàn)性,這是因為與分類等任務相比,真實圖像生成的門檻更高,而且 GAN 訓練本身具有較高的不穩(wěn)定性。

華人博士生首次嘗試用兩個Transformer構建一個GAN
  • 論文鏈接:https://arxiv.org/pdf/2102.07074.pdf
  • 代碼鏈接:https://github.com/VITA-Group/TransGAN

從結構上來看,TransGAN 包括兩個部分:一個是內存友好的基于 transformer 的生成器,該生成器可以逐步提高特征分辨率,同時降低嵌入維數(shù);另一個是基于 transformer 的 patch 級判別器。

研究者還發(fā)現(xiàn),TransGAN 顯著受益于數(shù)據(jù)增強(超過標準的 GAN)、生成器的多任務協(xié)同訓練策略和強調自然圖像鄰域平滑的局部初始化自注意力。這些發(fā)現(xiàn)表明,TransGAN 可以有效地擴展至更大的模型和具有更高分辨率的圖像數(shù)據(jù)集。

實驗結果表明,與當前基于卷積骨干的 SOTA GAN 相比,表現(xiàn)最佳的 TransGAN 實現(xiàn)了極具競爭力的性能。具體來說,TransGAN 在 STL-10 上的 IS 評分為 10.10,F(xiàn)ID 為 25.32,實現(xiàn)了新的 SOTA。

該研究表明,對于卷積骨干以及許多專用模塊的依賴可能不是 GAN 所必需的,純 transformer 有足夠的能力生成圖像。

在該論文的相關討論中,有讀者調侃道,「attention is really becoming『all you need』.」

華人博士生首次嘗試用兩個Transformer構建一個GAN

不過,也有部分研究者表達了自己的擔憂:在 transformer 席卷整個社區(qū)的大背景下,勢單力薄的小實驗室要怎么活下去?

華人博士生首次嘗試用兩個Transformer構建一個GAN

如果 transformer 真的成為社區(qū)「剛需」,如何提升這類架構的計算效率將成為一個棘手的研究問題。

基于純 Transformer 的 GAN

作為基礎塊的 Transformer 編碼器

研究者選擇將 Transformer 編碼器(Vaswani 等人,2017)作為基礎塊,并盡量進行最小程度的改變。編碼器由兩個部件組成,第一個部件由一個多頭自注意力模塊構造而成,第二個部件是具有 GELU 非線性的前饋 MLP(multiple-layer perceptron,多層感知器)。此外,研究者在兩個部件之前均應用了層歸一化(Ba 等人,2016)。兩個部件也都使用了殘差連接。

內存友好的生成器

NLP 中的 Transformer 將每個詞作為輸入(Devlin 等人,2018)。但是,如果以類似的方法通過堆疊 Transformer 編碼器來逐像素地生成圖像,則低分辨率圖像(如 32×32)也可能導致長序列(1024)以及更高昂的自注意力開銷。

所以,為了避免過高的開銷,研究者受到了基于 CNN 的 GAN 中常見設計理念的啟發(fā),在多個階段迭代地提升分辨率(Denton 等人,2015;Karras 等人,2017)。他們的策略是逐步增加輸入序列,并降低嵌入維數(shù)。

如下圖 1 左所示,研究者提出了包含多個階段的內存友好、基于 Transformer 的生成器:

華人博士生首次嘗試用兩個Transformer構建一個GAN

每個階段堆疊了數(shù)個編碼器塊(默認為 5、2 和 2)。通過分段式設計,研究者逐步增加特征圖分辨率,直到其達到目標分辨率 H_T×W_T。具體來說,該生成器以隨機噪聲作為其輸入,并通過一個 MLP 將隨機噪聲傳遞給長度為 H×W×C 的向量。該向量又變形為分辨率為 H×W 的特征圖(默認 H=W=8),每個點都是 C 維嵌入。然后,該特征圖被視為長度為 64 的 C 維 token 序列,并與可學得的位置編碼相結合。

與 BERT(Devlin 等人,2018)類似,該研究提出的 Transformer 編碼器以嵌入 token 作為輸入,并遞歸地計算每個 token 之間的匹配。為了合成分辨率更高的圖像,研究者在每個階段之后插入了一個由 reshaping 和 pixelshuffle 模塊組成的上采樣模塊。

具體操作上,上采樣模塊首先將 1D 序列的 token 嵌入變形為 2D 特征圖

華人博士生首次嘗試用兩個Transformer構建一個GAN

,然后采用 pixelshuffle 模塊對 2D 特征圖的分辨率進行上采樣處理,并下采樣嵌入維數(shù),最終得到輸出

華人博士生首次嘗試用兩個Transformer構建一個GAN

。然后,2D 特征圖 X’_0 再次變形為嵌入 token 的 1D 序列,其中 token 數(shù)為 4HW,嵌入維數(shù)為 C/4。所以,在每個階段,分辨率(H, W)提升到兩倍,同時嵌入維數(shù) C 減少至輸入的四分之一。這一權衡(trade-off)策略緩和了內存和計算量需求的激增。

研究者在多個階段重復上述流程,直到分辨率達到(H_T , W_T )。然后,他們將嵌入維數(shù)投影到 3,并得到 RGB 圖像。

華人博士生首次嘗試用兩個Transformer構建一個GAN

用于判別器的 tokenized 輸入

與那些需要準確合成每個像素的生成器不同,該研究提出的判別器只需要分辨真假圖像即可。這使得研究者可以在語義上將輸入圖像 tokenize 為更粗糙的 patch level(Dosovitskiy 等人,2020)。

如上圖 1 右所示,判別器以圖像的 patch 作為輸入。研究者將輸入圖像

華人博士生首次嘗試用兩個Transformer構建一個GAN

分解為 8 × 8 個 patch,其中每個 patch 可被視為一個「詞」。然后,8 × 8 個 patch 通過一個線性 flatten 層轉化為 token 嵌入的 1D 序列,其中 token 數(shù) N = 8 × 8 = 64,嵌入維數(shù)為 C。再之后,研究者在 1D 序列的開頭添加了可學得位置編碼和一個 [cls] token。在通過 Transformer 編碼器后,分類 head 只使用 [cls] token 來輸出真假預測。

實驗

CIFAR-10 上的結果

研究者在 CIFAR-10 數(shù)據(jù)集上對比了 TransGAN 和近來基于卷積的 GAN 的研究,結果如下表 5 所示:

華人博士生首次嘗試用兩個Transformer構建一個GAN

如上表 5 所示,TransGAN 優(yōu)于 AutoGAN (Gong 等人,2019) ,在 IS 評分方面也優(yōu)于許多競爭者,如 SN-GAN (Miyato 等人, 2018)、improving MMDGAN (Wang 等人,2018a)、MGAN (Hoang 等人,2018)。TransGAN 僅次于 Progressive GAN 和 StyleGAN v2。

對比 FID 結果,研究發(fā)現(xiàn),TransGAN 甚至優(yōu)于 Progressive GAN,而略低于 StyleGANv2 (Karras 等人,2020b)。在 CIFAR-10 上生成的可視化示例如下圖 4 所示:

華人博士生首次嘗試用兩個Transformer構建一個GAN

STL-10 上的結果

研究者將 TransGAN 應用于另一個流行的 48×48 分辨率的基準 STL-10。為了適應目標分辨率,該研究將第一階段的輸入特征圖從(8×8)=64 增加到(12×12)=144,然后將提出的 TransGAN-XL 與自動搜索的 ConvNets 和手工制作的 ConvNets 進行了比較,結果下表 6 所示:

華人博士生首次嘗試用兩個Transformer構建一個GAN

與 CIFAR-10 上的結果不同,該研究發(fā)現(xiàn),TransGAN 優(yōu)于所有當前的模型,并在 IS 和 FID 得分方面達到新的 SOTA 性能。

高分辨率生成

由于 TransGAN 在標準基準 CIFAR-10 和 STL-10 上取得不錯的性能,研究者將 TransGAN 用于更具挑戰(zhàn)性的數(shù)據(jù)集 CelebA 64 × 64,結果如下表 10 所示:

華人博士生首次嘗試用兩個Transformer構建一個GAN

TransGAN-XL 的 FID 評分為 12.23,這表明 TransGAN-XL 可適用于高分辨率任務??梢暬Y果如圖 4 所示。

局限性

雖然 TransGAN 已經取得了不錯的成績,但與最好的手工設計的 GAN 相比,它還有很大的改進空間。在論文的最后,作者指出了以下幾個具體的改進方向:

  • 對 G 和 D 進行更加復雜的 tokenize 操作,如利用一些語義分組 (Wu et al., 2020)。
  • 使用代理任務(pretext task)預訓練 Transformer,這樣可能會改進該研究中現(xiàn)有的 MT-CT。
  • 更加強大的注意力形式,如 (Zhu 等人,2020)。
  • 更有效的自注意力形式 (Wang 等人,2020;Choromanski 等人,2020),這不僅有助于提升模型效率,還能節(jié)省內存開銷,從而有助于生成分辨率更高的圖像。

作者簡介

[[382531]]

本文一作 Yifan Jiang 是德州大學奧斯汀分校電子與計算機工程系的一年級博士生(此前在德克薩斯 A&M 大學學習過一年),本科畢業(yè)于華中科技大學,研究興趣集中在計算機視覺、深度學習等方向。目前,Yifan Jiang 主要從事神經架構搜索、視頻理解和高級表征學習領域的研究,師從德州大學奧斯汀分校電子與計算機工程系助理教授 Zhangyang Wang。

在本科期間,Yifan Jiang 曾在字節(jié)跳動 AI Lab 實習。今年夏天,他將進入 Google Research 實習。

一作主頁:https://yifanjiang.net/

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2022-05-26 15:03:54

芯片技術

2021-12-17 10:06:42

鴻蒙HarmonyOS應用

2023-07-30 15:22:47

2023-07-31 09:54:12

2021-07-19 15:02:48

機器人人工智能算法

2020-11-13 07:16:09

線程互斥鎖死循環(huán)

2011-07-12 10:06:19

Rails

2022-04-08 07:54:40

人工智能核算結果Python

2024-07-26 11:45:35

2024-07-12 08:38:05

2024-08-02 10:28:13

算法NLP模型

2023-06-08 11:27:10

模型AI

2021-11-19 10:13:01

模型人工智能計算

2025-04-21 16:32:29

視覺模型AI

2025-02-10 08:52:00

2018-04-09 09:19:08

谷歌開源機器學習

2014-06-23 10:26:23

Wi-Fi

2019-07-03 09:01:29

博士生頂會計算機

2021-01-28 16:11:00

工具代碼開發(fā)

2020-10-26 08:19:53

算法隊列
點贊
收藏

51CTO技術棧公眾號