偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

最新Transformer模型盤點(diǎn),Google研究員出品

新聞 前端
可高效處理長(zhǎng)文本的模型Longformer、和堪稱“升級(jí)版”Transformer的BigBird模型,到底有什么區(qū)別?

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

可高效處理長(zhǎng)文本的模型Longformer、和堪稱“升級(jí)版”Transformer的BigBird模型,到底有什么區(qū)別?

最新Transformer模型盤點(diǎn),Google研究員出品

Transformer的其他各種變體(X-former)到底都長(zhǎng)什么樣、又有哪些新應(yīng)用?

由于Transformer模型的發(fā)展速度日新月異,一天一個(gè)樣,哪怕是隔段時(shí)間回來(lái)研究,模型可能也已經(jīng)多了不少。

Transformer模型,是谷歌在2017年推出的NLP經(jīng)典模型(Bert就是用的Transformer)。

在機(jī)器翻譯任務(wù)上,Transformer表現(xiàn)超過(guò)了RNN和CNN,只需要編/解碼器就能達(dá)到很好的效果,可以高效地并行化。

好消息是,這里有一篇Transformer模型的“最新動(dòng)向”,它集中探討Transformer新模型對(duì)于自注意力機(jī)制(Self-attention)的改進(jìn),并對(duì)這些模型進(jìn)行對(duì)比。

此外,還有模型在NLP、計(jì)算機(jī)視覺(jué)和強(qiáng)化學(xué)習(xí)等各個(gè)領(lǐng)域的最新應(yīng)用。

標(biāo)準(zhǔn)Transformer模型

首先來(lái)看看,標(biāo)準(zhǔn)的Transformer模型是什么樣的。

最新Transformer模型盤點(diǎn),Google研究員出品

Transformer的核心部分,是右邊的兩個(gè)黑色實(shí)線框圈起來(lái)的兩部分,左邊是編碼器(Encoder),右邊是解碼器(Decoder)。

可以看見,編/解碼器主要由兩個(gè)模塊組合成:前饋神經(jīng)網(wǎng)絡(luò)(圖中藍(lán)色的部分)和注意力機(jī)制(圖中玫紅色的部分),解碼器通常多一個(gè)(交叉)注意力機(jī)制。

Transformer最重要的部分,就是注意力機(jī)制。

通俗來(lái)講,注意力機(jī)制在圖像處理中的應(yīng)用,是讓機(jī)器“像人一樣特別注意圖像的某個(gè)部分”,就像我們?cè)诳磮D時(shí),通常會(huì)“特別關(guān)注”圖中的某些地方。

[[343074]]

這其中,自注意力機(jī)制是定義Transformer模型特征的關(guān)鍵,其中一個(gè)重點(diǎn)難題就在于它的時(shí)間復(fù)雜度和空間復(fù)雜度上。

由于注意力機(jī)制直接將序列(sequence)兩兩比較,導(dǎo)致計(jì)算量巨大(計(jì)算量變成O(n²))。

最近,大量論文提出了新的Transformer“變種”,它們的根本目的都是加速模型的效率,但如果一篇篇去看,可能有點(diǎn)眼花繚亂。

為此,Google AI的研究人員特意整理了一篇Transformer模型的發(fā)展論文,仔細(xì)講解它們的出處。

“變種”后的Transformer模型

2種分類方法

使用方法來(lái)分類的話,Transformer模型可以分成如下3類:

只用編碼器:可用于分類
只用解碼器:可用于語(yǔ)言建模
編碼器-解碼器:可用于機(jī)器翻譯

但如果按這些變種的提高效率的原理,也就是“高效方法”來(lái)分類,那么Transformer模型的這些“變種”則可以被分成如下幾類:

最新Transformer模型盤點(diǎn),Google研究員出品

Fixed Patterns(固定模式):將視野限定為固定的預(yù)定義模式,例如局部窗口、固定步幅塊,用于簡(jiǎn)化注意力矩陣;

Learnable Patterns(可學(xué)習(xí)模式):以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)訪問(wèn)模式,關(guān)鍵在于確定token相關(guān)性。

Memory(內(nèi)存):利用可以一次訪問(wèn)多個(gè)token的內(nèi)存模塊,例如全局存儲(chǔ)器。

Low Rank(低秩):通過(guò)利用自注意力矩陣的低秩近似,來(lái)提高效率。

Kernels(內(nèi)核):通過(guò)內(nèi)核化的方式提高效率,其中核是注意力矩陣的近似,可視為低秩方法的一種。

Recurrence(遞歸):利用遞歸,連接矩陣分塊法中的各個(gè)塊,最終提高效率。

可以看見,近期Transformer相關(guān)的研究都被分在上面的圖像中了,非常清晰明了。

了解完分類方法后,接下來(lái)就是Transformer模型的各種變體了。

17種經(jīng)典“X-former”

1、Memory Compressed Transformer(2018)

這是讓Transformer能更好地處理長(zhǎng)序列的早期嘗試之一,主要修改了兩個(gè)部分:定位范圍注意、內(nèi)存壓縮注意。

其中,前者旨在將輸入序列分為長(zhǎng)度相似的模塊,并在每個(gè)部分中運(yùn)行自注意力機(jī)制,這樣能保證每個(gè)部分的注意力成本不變,激活次數(shù)就能根據(jù)輸入長(zhǎng)度線性縮放。

后者則是采用跨步卷積,減少注意力矩陣的大小、以及注意力的計(jì)算量,減少的量取決于跨步的步幅。

2、Image Transformer(2018)

這是個(gè)受卷積神經(jīng)網(wǎng)絡(luò)啟發(fā)的Transformer變種,重點(diǎn)是局部注意范圍,即將接受域限制為局部領(lǐng)域,主要有兩種方案:一維局部注意和二維局部注意。

最新Transformer模型盤點(diǎn),Google研究員出品

不過(guò),這種模型有一個(gè)限制條件,即要以失去全局接受域?yàn)榇鷥r(jià),以降低存儲(chǔ)和計(jì)算成本。

3、 Set Transformer(2019)

這個(gè)模型是為解決一種特殊應(yīng)用場(chǎng)景而生的:輸入是一組特征,輸出是這組特征的函數(shù)。

最新Transformer模型盤點(diǎn),Google研究員出品

它利用了稀疏高斯過(guò)程,將輸入集大小的注意復(fù)雜度從二次降為線性。

4、Sparse Transformer(2019)

這個(gè)模型的關(guān)鍵思想,在于僅在一小部分稀疏的數(shù)據(jù)對(duì)上計(jì)算注意力,以將密集注意力矩陣簡(jiǎn)化為稀疏版本。

不過(guò)這個(gè)模型對(duì)硬件有所要求,需要自定義GPU內(nèi)核,且無(wú)法直接在TPU等其他硬件上使用。

5、Axial Transformer(2019)

最新Transformer模型盤點(diǎn),Google研究員出品

這個(gè)模型主要沿輸入張量的單軸施加多個(gè)注意力,每個(gè)注意力都沿特定軸混合信息,從而使沿其他軸的信息保持獨(dú)立。

由于任何單軸的長(zhǎng)度通常都比元素總數(shù)小得多,因此這個(gè)模型可以顯著地節(jié)省計(jì)算和內(nèi)存。

6、Longformer(2020)

Sparse Transformer的變體,通過(guò)在注意力模式中留有空隙、增加感受野來(lái)實(shí)現(xiàn)更好的遠(yuǎn)程覆蓋。

在分類任務(wù)上,Longformer采用可以訪問(wèn)所有輸入序列的全局token(例如CLS token)。

7、Extended Transformer Construction(2020)

同樣是Sparse Transformer的變體,引入了一種新的全局本地注意力機(jī)制,在引入全局token方面與Longformer相似。

但由于無(wú)法計(jì)算因果掩碼,ETC不能用于自動(dòng)回歸解碼。

8、BigBird(2020)

與Longformer一樣,同樣使用全局內(nèi)存,但不同的是,它有獨(dú)特的“內(nèi)部變壓器構(gòu)造(ITC)”,即全局內(nèi)存已擴(kuò)展為在sequence中包含token,而不是簡(jiǎn)單的參數(shù)化內(nèi)存。

然而,與ETC一樣,BigBird同樣不能用于自動(dòng)回歸解碼。

9、Routing Transformer(2020)

提出了一種基于聚類的注意力機(jī)制,以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)注意力稀疏。為了確保集群中的token數(shù)量相似,模型會(huì)初始化聚類,計(jì)算每個(gè)token相對(duì)于聚類質(zhì)心的距離。

10、Reformer(2020)

一個(gè)基于局部敏感哈希(LSH)的注意力模型,引入了可逆的Transformer層,有助于進(jìn)一步減少內(nèi)存占用量。

模型的關(guān)鍵思想,是附近的向量應(yīng)獲得相似的哈希值,而遠(yuǎn)距離的向量則不應(yīng)獲得相似的哈希值,因此被稱為“局部敏感”。

11、Sinkhorn Transformer(2020)

這個(gè)模型屬于分塊模型,以分塊的方式對(duì)輸入鍵和值進(jìn)行重新排序,并應(yīng)用基于塊的局部注意力機(jī)制來(lái)學(xué)習(xí)稀疏模式。

12、Linformer(2020)

這是基于低秩的自注意力機(jī)制的高效Transformer模型,主要在長(zhǎng)度維度上進(jìn)行低秩投影,在單次轉(zhuǎn)換中按維度混合序列信息。

13、Linear Transformer(2020)

這個(gè)模型通過(guò)使用基于核的自注意力機(jī)制、和矩陣產(chǎn)品的關(guān)聯(lián)特性,將自注意力的復(fù)雜性從二次降低為線性。

目前,它已經(jīng)被證明可以在基本保持預(yù)測(cè)性能的情況下,將推理速度提高多達(dá)三個(gè)數(shù)量級(jí)。

14、Performer(2020)

這個(gè)模型利用正交隨機(jī)特征(ORF),采用近似的方法避免存儲(chǔ)和計(jì)算注意力矩陣。

15、Synthesizer models(2020)

這個(gè)模型研究了調(diào)節(jié)在自注意力機(jī)制中的作用,它合成了一個(gè)自注意力模塊,近似了這個(gè)注意權(quán)重。

16、Transformer-XL(2020)

這個(gè)模型使用遞歸機(jī)制鏈接相鄰的部分?;趬K的遞歸可被視為與其他討論的技術(shù)正交的方法,因?yàn)樗鼪](méi)有明確稀疏密集的自注意力矩陣。

17、Compressive Transformers(2020)

這個(gè)模型是Transformer-XL的擴(kuò)展,但不同于Transformer-XL,后者在跨段移動(dòng)時(shí)會(huì)丟棄過(guò)去的激活,而它的關(guān)鍵思想則是保持對(duì)過(guò)去段激活的細(xì)粒度記憶。

整體來(lái)說(shuō),這些經(jīng)典模型的參數(shù)量如下:

最新Transformer模型盤點(diǎn),Google研究員出品

更詳細(xì)的解讀(包括具體的模型參數(shù)等),以及對(duì)Transformer未來(lái)趨勢(shì)的預(yù)測(cè),可以戳下方傳送門查看整篇論文。

作者介紹

[[343077]]

論文一作Yi Tay,碩士和博士均畢業(yè)于新加坡國(guó)立大學(xué)計(jì)算機(jī)科學(xué)。

目前,Yi Tay在Google AI從事研究工作,主要方向是自然語(yǔ)言處理和機(jī)器學(xué)習(xí)。

傳送門

論文鏈接:
https://www.arxiv-vanity.com/papers/2009.06732

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-06-29 15:33:28

谷歌Transformer模型

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2021-02-21 00:18:47

惡意軟件研究職業(yè)技術(shù)

2022-06-15 18:57:43

人工智能

2020-08-24 08:15:29

軟件互聯(lián)網(wǎng)分布式

2020-12-23 17:50:46

AI語(yǔ)言模型AI倫理

2010-09-09 08:41:34

2011-07-30 13:22:49

2022-02-07 15:05:07

模型AI訓(xùn)練

2024-05-30 14:22:00

2009-11-17 12:21:41

2020-08-11 07:45:38

軟件測(cè)試

2017-08-29 08:11:48

倉(cāng)庫(kù)MITRFID

2010-03-11 09:39:02

微軟研究員泰克圖靈獎(jiǎng)

2020-08-10 09:14:50

軟件測(cè)試工具技術(shù)

2015-12-21 13:39:47

2020-12-03 10:56:31

軟件開發(fā)反饋弧

2013-08-18 18:26:21

App Store漏洞

2009-11-19 13:04:16

2022-07-15 10:37:22

AI研究數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)