偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Google最新《高效Transformers》闡述提升Transformers效率方式

人工智能 新聞
最近Google的Yi Tay發(fā)布了關(guān)于Transformers最新論文,提供這類模型的最新進展的全面概述。

Transformer模型是當(dāng)下的研究焦點,因為它們在語言、視覺和強化學(xué)習(xí)等領(lǐng)域的有效性。例如,在自然語言處理領(lǐng)域,Transformer已經(jīng)成為現(xiàn)代深度學(xué)習(xí)堆棧中不可缺少的主要部分。

最近,提出的令人眼花繚亂的X-former模型Linformer, Performer, Longformer等這些都改進了原始Transformer架構(gòu)的X-former模型,其中許多改進了計算和內(nèi)存效率。

為了幫助熱心的研究人員在這一混亂中給予指導(dǎo),本文描述了大量經(jīng)過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領(lǐng)域的現(xiàn)有工作和模型的有組織和全面的概述。

論文鏈接:https://arxiv.org/abs/2009.06732

介紹

Transformer是現(xiàn)代深度學(xué)習(xí)領(lǐng)域中一股強大的力量。Transformer無處不在,在語言理解、圖像處理等許多領(lǐng)域都產(chǎn)生了巨大的影響。因此,在過去的幾年里,大量的研究致力于對該模型進行根本性的改進,這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究。

最近出現(xiàn)了大量的Transformer模型變體,研究人員和實踐者可能會發(fā)現(xiàn)跟上創(chuàng)新的速度很有挑戰(zhàn)性。在撰寫本文時,僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此,對現(xiàn)有文獻進行綜述,既有利于社區(qū),又十分及時。

自注意力機制是確定Transformer模型的一個關(guān)鍵特性。該機制可以看作是一種類似圖的歸納偏差,它通過基于關(guān)聯(lián)的池化操作將序列中的所有標(biāo)記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復(fù)雜性,這可能阻礙模型在許多設(shè)置的可伸縮性。最近,為了解決這個問題,出現(xiàn)了大量的模型變體。以下我們將這類型號命名為「高效Transformers」。

根據(jù)上下文,可以對模型的效率進行不同的解釋。它可能指的是模型的內(nèi)存占用情況,當(dāng)模型運行的加速器的內(nèi)存有限時,這一點非常重要。效率也可能指計算成本,例如,在訓(xùn)練和推理期間的失敗次數(shù)。特別是對于設(shè)備上的應(yīng)用,模型應(yīng)該能夠在有限的計算預(yù)算下運行。在這篇綜述中,我們提到了Transformer在內(nèi)存和計算方面的效率,當(dāng)它們被用于建模大型輸入時。

有效的自注意力模型在建模長序列的應(yīng)用中是至關(guān)重要的。例如,文檔、圖像和視頻通常都由相對大量的像素或標(biāo)記組成。因此,處理長序列的效率對于Transformer的廣泛采用至關(guān)重要。

本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關(guān)注的是通過解決自注意力機制的二次復(fù)雜性問題來提高Transformer效率的建模進展和架構(gòu)創(chuàng)新,我們還將在后面的章節(jié)簡要討論一般改進和其他效率改進。

本文提出了一種高效Transformer模型的分類方法,并通過技術(shù)創(chuàng)新和主要用例對其進行了表征。特別地,我們回顧了在語言和視覺領(lǐng)域都有應(yīng)用的Transformer模型,試圖對各個領(lǐng)域的文獻進行分析。我們還提供了許多這些模型的詳細(xì)介紹,并繪制了它們之間的聯(lián)系。

本節(jié)概述了高效Transformer模型的一般分類,以其核心技術(shù)和主要用例為特征。盡管這些模型的主要目標(biāo)是提高自注意機制的內(nèi)存復(fù)雜度,但我們還包括了提高Transformer體系結(jié)構(gòu)的一般效率的方法。

固定模式(FP)——對自注意最早的修改是通過將視野限制在固定的、預(yù)定義的模式(如局部窗口和固定步距的塊模式)來簡化注意力矩陣。

組合模式(CP)——組合方法的關(guān)鍵思想是通過組合兩個或多個不同的訪問模式來提高覆蓋率。例如,Sparse Transformer通過將一半的頭部分配給每個模式,將跨步注意力和局部注意力結(jié)合起來。類似地,軸向Transformer運用了一系列以高維張量作為輸入的自注意計算,每個計算都沿著輸入張量的單個軸。從本質(zhì)上說,模式的組合以與固定模式相同的方式降低了內(nèi)存復(fù)雜度。但是,不同之處在于,多個模式的聚合和組合提高了自注意機制的整體覆蓋率。

可學(xué)習(xí)的模式(LP) -固定的,預(yù)先確定的模式的擴展是可學(xué)習(xí)的模式。不出所料,使用可學(xué)習(xí)模式的模型旨在以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)訪問模式。學(xué)習(xí)模式的一個關(guān)鍵特征是確定令牌相關(guān)性的概念,然后將令牌分配到桶或集群。值得注意的是,Reformer 引入了一種基于哈希的相似性度量,以有效地將令牌聚為塊。類似地,路由Transformer對令牌使用在線k-means聚類。同時,Sinkhorn排序網(wǎng)絡(luò)通過學(xué)習(xí)對輸入序列的塊進行排序,暴露了注意權(quán)值的稀疏性。在所有這些模型中,相似函數(shù)與網(wǎng)絡(luò)的其他部分一起端到端訓(xùn)練。可學(xué)習(xí)模式的關(guān)鍵思想仍然是利用固定模式(塊狀模式)。然而,這類方法學(xué)會了對輸入標(biāo)記進行排序/聚類——在保持固定模式方法的效率優(yōu)勢的同時,實現(xiàn)了序列的更優(yōu)全局視圖。

神經(jīng)記憶——另一個突出的方法是利用可學(xué)習(xí)的側(cè)記憶模塊,它可以一次訪問多個令牌。一種常見的形式是全局神經(jīng)存儲器,它能夠訪問整個序列。全局標(biāo)記充當(dāng)一種模型內(nèi)存的形式,它學(xué)習(xí)從輸入序列標(biāo)記中收集數(shù)據(jù)。這是在Set transformer中首次引入的誘導(dǎo)點方法。這些參數(shù)通常被解釋為「內(nèi)存」,用作將來處理的臨時上下文的一種形式。這可以被認(rèn)為是參數(shù)關(guān)注的一種形式。ETC 和Longformer也使用了全局記憶令牌。在有限的神經(jīng)記憶(或誘導(dǎo)點)中,我們能夠?qū)斎胄蛄袌?zhí)行一個初步的類似于池的操作來壓縮輸入序列——在設(shè)計高效的自注意模塊時,這是一個可以隨意使用的巧妙技巧。

低秩方法——另一種新興的技術(shù)是通過利用自注意矩陣的低秩近似來提高效率。

內(nèi)核——另一個最近流行的提高transformer效率的方法是通過內(nèi)核化來查看注意力機制。

遞歸——塊方法的一個自然擴展是通過遞歸連接這些塊。

下采樣——另一種降低計算成本的常用方法是降低序列的分辨率,從而以相應(yīng)的系數(shù)降低計算成本。

稀疏模型和條件計算——雖然不是專門針對注意力模塊,稀疏模型稀疏地激活一個參數(shù)子集,這通常提高了參數(shù)與FLOPs的比率。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-27 08:50:40

2024-07-04 09:22:24

2023-05-09 15:41:03

2023-03-02 08:00:00

開源PyNeuraLogTransforme

2012-04-20 09:47:59

戴爾存儲虛擬化

2024-09-26 10:42:20

2023-09-26 16:09:19

RWKV

2024-11-15 08:24:41

2022-09-04 14:38:00

世界模型建模IRIS

2022-05-16 09:48:30

Google性能優(yōu)化LCP

2012-04-04 11:30:34

Google

2010-03-02 14:15:11

Android平臺

2024-06-21 08:42:54

BERTNLP自然語言處理

2023-05-06 11:59:55

ACT-1人工智能語音

2025-03-10 10:20:00

TransformeDecoder自然語言處理

2023-03-16 08:00:00

機器學(xué)習(xí)深度學(xué)習(xí)人工智能

2009-12-25 17:15:03

Linux內(nèi)存

2020-11-02 16:20:07

GuavaJava編程語言

2021-07-26 09:56:19

AI 數(shù)據(jù)人工智能

2024-11-13 08:34:32

T5聊天機器人大模型
點贊
收藏

51CTO技術(shù)棧公眾號