偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

新聞 前端
清華大學(xué)圖形學(xué)實(shí)驗(yàn)室Jittor團(tuán)隊(duì)在arXiv上提交論文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2], 提出了一種新的注意機(jī)制,稱之為“External Attention”。

[[397888]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

 5月4日,谷歌團(tuán)隊(duì)在arXiv上提交了一篇論文“MLP-Mixer: An all-MLP Architecture for Vision”[1],引起了廣大計(jì)算機(jī)視覺(jué)的研究人員的熱烈討論:MLP究竟有多大的潛力?

5月5日,清華大學(xué)圖形學(xué)實(shí)驗(yàn)室Jittor團(tuán)隊(duì)在arXiv上提交論文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2], 提出了一種新的注意機(jī)制,稱之為“External Attention”。

基于兩個(gè)外部的、小的、可學(xué)習(xí)的和共享的存儲(chǔ)器,只用兩個(gè)級(jí)聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學(xué)習(xí)架構(gòu)中的“Self-attention”,揭示了線性層和注意力機(jī)制之間的關(guān)系。

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

同日,清華大學(xué)軟件學(xué)院丁貴廣團(tuán)隊(duì)在arXiv上提交了論文“RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”[3],展示了結(jié)合重參數(shù)化技術(shù)的MLP也取得了非常不錯(cuò)的效果。

5月6日牛津大學(xué)的學(xué)者提交了一篇名為”Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet”的論文[4],也提出了Transformer中的attention是不必要的,僅僅使用Feed forward就可以在ImageNet上實(shí)現(xiàn)非常高的結(jié)果。

從Self-attention到External-attention

自注意力機(jī)制在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域中起到了越來(lái)越重要的作用。對(duì)于輸入的Nxd維空間的特征向量F,自注意力機(jī)制使用基于自身線性變換的Query,Key和Value特征去計(jì)算自身樣本內(nèi)的注意力,并據(jù)此更新特征:

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

由于QKV是F的線性變換,簡(jiǎn)單起見(jiàn),我們可以將自注意力計(jì)算公式簡(jiǎn)記如下:

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

這是F對(duì)F的注意力,也就是所謂的Self-attention。如果希望注意力機(jī)制可以考慮到來(lái)自其他樣本的影響,那么就需要一個(gè)所有樣本共享的特征。為此,我們引入一個(gè)外部的Sxd維空間的記憶單元M,來(lái)刻畫所有樣本最本質(zhì)的特征,并用M來(lái)表示輸入特征。

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

我們稱這種新的注意力機(jī)制為External-attention。我們可以發(fā)現(xiàn),公式(5)(6)中的計(jì)算主要是矩陣乘法,就是常見(jiàn)的線性變換,一個(gè)自注意力機(jī)制就這樣被兩層線性層和歸一化層代替了。我們還使用了之前工作[5]中提出的Norm方式來(lái)避免某一個(gè)特征向量的過(guò)大而引起的注意力失效問(wèn)題。

為了增強(qiáng)External-attention的表達(dá)能力,與自注意力機(jī)制類似,我們采用兩個(gè)不同的記憶單元。

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

下圖形象地展示了External-attention與Self-attention的區(qū)別。

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

△圖1 Self Attention和External Attention的區(qū)別

為什么兩層線性層可以超越Self-attention?

自注意力機(jī)制一個(gè)明顯的缺陷在于計(jì)算量非常大,存在一定的計(jì)算冗余。通過(guò)控制記憶單元的大小,External-attention可以輕松實(shí)現(xiàn)線性的復(fù)雜度。

其次,自注意力機(jī)制僅利用了自身樣本內(nèi)的信息,忽略了不同樣本之間的潛在的聯(lián)系,而這種聯(lián)系在計(jì)算機(jī)視覺(jué)中是有意義的。打個(gè)比方,對(duì)于語(yǔ)義分割任務(wù),不同樣本中的相同類別的物體應(yīng)該具有相似的特征。

External-attention通過(guò)引入兩個(gè)外部記憶單元,隱式地學(xué)習(xí)了整個(gè)數(shù)據(jù)集的特征。這種思想同樣在稀疏編碼和字典學(xué)習(xí)中得到了應(yīng)用。

計(jì)圖團(tuán)隊(duì)在Pascal VOC 的Test set上,可視化了注意力圖以及分割的結(jié)果,如圖2所示,可以發(fā)現(xiàn),使用兩層線性層的External attention 的注意力圖是合理的。

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

△圖2 注意力圖以及分割的結(jié)果的可視化

從實(shí)驗(yàn)看External Attention的效果

為了證明方法的通用性,我們?cè)趫D像分類、分割、生成以及點(diǎn)云的分類和分割上均做了實(shí)驗(yàn),證明了方法的有效性,External-attention在大大減少計(jì)算量的同時(shí),可以取得與目前最先進(jìn)方法相當(dāng),甚至更好的結(jié)果。

1、圖像分類

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

2、圖像語(yǔ)義分割(三個(gè)數(shù)據(jù)集上)

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破
只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破
只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

3、圖像生成

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

4、點(diǎn)云分類

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

5、點(diǎn)云分割

只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破

External Attention VS MLP-Mixer

谷歌的工作提出了一種小巧且好用的Mixer-Layer,然后用極其豐富的實(shí)驗(yàn),證明了僅僅通過(guò)簡(jiǎn)單的圖像分塊和線性層的堆疊就可以實(shí)現(xiàn)非常好的性能,開拓了人們的想象。

清華的External Attention則揭示了線性層和注意力機(jī)制之間的內(nèi)在關(guān)聯(lián),證明了線性變換其實(shí)是一種特殊形式的注意力實(shí)現(xiàn),如下公式所示:

Attention(x)=Linear(Norm(Linear(x)))

計(jì)圖團(tuán)隊(duì)的工作和谷歌團(tuán)隊(duì)的工作都證明了線性層的有效性。值得注意的是,如果將External-attention不斷級(jí)聯(lián)堆疊起來(lái),也是MLP的形式,就可以實(shí)現(xiàn)一個(gè)純MLP的網(wǎng)絡(luò)結(jié)構(gòu),但External-attention使用不同的歸一化層,其更符合注意力機(jī)制。

這與谷歌團(tuán)隊(duì)的工作有異曲同工之妙。

清華的External Attention的部分計(jì)圖代碼已經(jīng)在Github開源。

后續(xù)將盡快開源全部計(jì)圖代碼。

External Attention的部分計(jì)圖代碼:
https://github.com/MenghaoGuo/-EANet

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2024-11-04 10:40:00

AI模型

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機(jī)器學(xué)習(xí)

2023-06-12 09:57:22

AIChatGPT

2024-09-19 10:07:41

2023-11-24 12:36:00

模型訓(xùn)練

2023-10-07 07:21:42

注意力模型算法

2025-02-17 13:00:00

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡(luò)PyTorch

2024-06-28 08:04:43

語(yǔ)言模型應(yīng)用

2024-10-31 10:00:39

注意力機(jī)制核心組件

2021-06-18 15:50:56

模型人工智能深度學(xué)習(xí)

2025-04-07 07:47:00

模型訓(xùn)練AI

2025-04-29 09:05:00

2025-05-30 09:06:00

2024-12-09 00:00:10

2024-12-31 15:34:00

大型語(yǔ)言模型Softmax架構(gòu)

2025-02-25 10:21:15

2024-07-01 12:17:54

2024-12-04 09:25:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)