偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="7noqa"><p id="7noqa"><li id="7noqa"></li></p></sub>

<blockquote id="7noqa"><p id="7noqa"><th id="7noqa"></th></p></blockquote>

<sub id="7noqa"></sub>

<s id="7noqa"><li id="7noqa"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

豪取四個SOTA，谷歌魔改Transformer登NeurIPS 2021

作者：佚名 2021-12-13 17:53:19

新聞人工智能

在這篇文章里，谷歌提出了TokenLearner方法，Vision Transformer用上它最多可以降低8倍計(jì)算量，而分類性能反而更強(qiáng)！

谷歌改造Vision Transformer的新作被NeurIPS 2021收錄了。在這篇文章里，谷歌提出了TokenLearner方法，Vision Transformer用上它最多可以降低8倍計(jì)算量，而分類性能反而更強(qiáng)！

目前，Transformer模型在計(jì)算機(jī)視覺任務(wù)（包括目標(biāo)檢測和視頻分類等任務(wù)）中獲得了最先進(jìn)的結(jié)果。

不同于逐像素處理圖像的標(biāo)準(zhǔn)卷積方法，Vision Transformer（ViT）將圖像視為一系列patch token（即由多個像素組成的較小部分圖像）。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

這也就意味著在每一層神經(jīng)網(wǎng)絡(luò)中，ViT模型使用多頭自注意力（multi-head self-attention），基于每對token之間的關(guān)系來處理patch token。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

這樣，ViT模型就能夠構(gòu)建整個圖像的全局表示。

在輸入端，將圖像均勻地分割成多個部分來形成token，例如，將512×512像素的圖像分割成16×16像素的patch token。在中間層，上一層的輸出成為下一層的token。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

這里插一句。如果處理的是視頻，則視頻「管道」如16x16x2視頻片段（2幀16x16圖像）就成為了token。視覺token的質(zhì)量和數(shù)量決定了Vision Transformer的整體性能。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

許多Vision Transformer結(jié)構(gòu)面臨的主要挑戰(zhàn)是，它們通常需要太多的token才能獲得合理的結(jié)果。

例如，即使使用16x16patch token化，單個512x512圖像也對應(yīng)于1024個token。對于具有多個幀的視頻，每層可能都需要處理數(shù)萬個token。

考慮到Transformer的計(jì)算量隨著token數(shù)量的增加而二次方增加，這通常會使Transformer難以處理更大的圖像和更長的視頻。

這就引出了一個問題：真的有必要在每一層處理那么多token嗎？

谷歌在「TokenLearner：What Can 8 Learned Tokens Do for Images and Videos?」中提到了「自適應(yīng)」這個概念。這篇文章將在NeurIPS 2021上進(jìn)行展示。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

論文地址：https://arxiv.org/pdf/2106.11297.pdf

項(xiàng)目地址：

https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner

實(shí)驗(yàn)表明，TokenLearner可以自適應(yīng)地生成更少數(shù)量的token，而不是總是依賴于由圖像均勻分配形成的token，這樣一來，可以使Vision Transformer運(yùn)行得更快，性能更好。

TokenLearner是一個可學(xué)習(xí)的模塊，它會獲取圖像張量（即輸入）并生成一小組token。該模塊可以放置在Vision Transformer模型中的不同位置，顯著減少了所有后續(xù)層中要處理的token數(shù)量。

實(shí)驗(yàn)表明，使用TokenLearner可以節(jié)省一半或更多的內(nèi)存和計(jì)算量，而分類性能卻并不會下降，并且由于其適應(yīng)輸入的能力，它甚至可以提高準(zhǔn)確率。

TokenLearner是啥？

TokenLearner其實(shí)是一種簡單的空間注意力方法。

為了讓每個TokenLearner學(xué)習(xí)到有用的信息，先得計(jì)算一個突出的重要區(qū)域的空間注意力圖（使用卷積層或MLP）。

接著，這樣的空間注意力圖會被用來對輸入的每個區(qū)域進(jìn)行加權(quán)（目的是丟棄不必要的區(qū)域），并且結(jié)果經(jīng)過空間池化后，就可以生成最終的學(xué)習(xí)好了的token。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

應(yīng)用于單個圖像的TokenLearner模塊的直觀圖示

TokenLearner學(xué)習(xí)在張量像素的子集上進(jìn)行空間處理，并生成一組適應(yīng)輸入的token向量。

這種操作被并行重復(fù)多次，就可以從原始的輸入中生成n個（10個左右）token。

換句話說，TokenLearner也可以被視為基于權(quán)重值來執(zhí)行像素的選擇，隨后進(jìn)行全局平均。

值得一提的是，計(jì)算注意力圖的函數(shù)由不同的可學(xué)習(xí)參數(shù)控制，并以端到端的方式進(jìn)行訓(xùn)練。這樣也就使得注意力函數(shù)可以在捕捉不同輸入中的空間信息時進(jìn)行優(yōu)化。

在實(shí)踐中，模型將學(xué)習(xí)多個空間注意力函數(shù)，并將其應(yīng)用于輸入，并平行地產(chǎn)生不同的token向量。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

TokenLearner模塊學(xué)習(xí)為每個輸出標(biāo)記生成一個空間注意力圖，并使用它來抽象化輸入的token

因此，TokenLearner使模型能夠處理與特定識別任務(wù)相關(guān)的少量token，而不是處理固定的、統(tǒng)一的token化輸入。

也就是說，TokenLearner啟用了自適應(yīng)token，以便可以根據(jù)輸入動態(tài)選擇token，這一做法有效地減少了token的總數(shù)，大大減少了Transformer網(wǎng)絡(luò)的計(jì)算。

而這些動態(tài)自適應(yīng)生成的token也可用于標(biāo)準(zhǔn)的Transformer架構(gòu)，如圖像領(lǐng)域的ViT和視頻領(lǐng)域的ViViT（Video Vision Transformer）。

TokenLearner放在哪？

構(gòu)建TokenLearner模塊后，下一步就必須要確定將其放置在哪個位置。

首先，研究人員嘗試將它放置在標(biāo)準(zhǔn)ViT架構(gòu)中的不同位置，輸入圖像使用224x224的大小。

TokenLearner生成的token數(shù)量為8個和16個，遠(yuǎn)遠(yuǎn)少于標(biāo)準(zhǔn)ViT使用的196個或576個token。

下圖顯示了在ViT B/16中的不同相對位置插入TokenLearner的模型的ImageNet 5-shot分類精度和FLOPs，其中ViT B/16是一個基礎(chǔ)模型，有12個注意力層。其運(yùn)行時使用16x16大小的patch token。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

在JFT 300M的預(yù)訓(xùn)練下，ImageNet的5-shot精度與ViT B/16中TokenLearner的相對位置有關(guān)

位置0意味著TokenLearner被置于任何Transformer層之前。其中，baseline是標(biāo)準(zhǔn)的ViT B/16的ImageNet 5-shot分類精度和FLOPs。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

計(jì)算量以數(shù)十億次浮點(diǎn)運(yùn)算（GFLOPS）衡量

我們發(fā)現(xiàn)，在網(wǎng)絡(luò)的最初四分之一處（1/4處）插入TokenLearner，實(shí)現(xiàn)了與基線幾乎相同的準(zhǔn)確性，同時將計(jì)算量減少到基線的三分之一以下。

此外，將TokenLearner放在后面一層（網(wǎng)絡(luò)的3/4之后），與不使用TokenLearner相比，取得了更好的性能，同時由于其適應(yīng)性，性能更快。

由于TokenLearner前后的token數(shù)量相差很大（例如，前196個，后8個），TokenLearner模塊后的相對計(jì)算量幾乎可以忽略不計(jì)。

TokenLearner VS ViT

將帶有TokenLearner的ViT模型和普通的ViT模型進(jìn)行對比，同時在ImageNet的few-shot上采用相同的設(shè)置。

TokenLearner會被放置在每個ViT模型中間的不同位置，如網(wǎng)絡(luò)的1/2和3/4處。其中，模型通過JFT 300M進(jìn)行預(yù)訓(xùn)練。

從圖上觀察可以得知，TokenLearner模型在準(zhǔn)確率和計(jì)算量方面的表現(xiàn)都比ViT要好。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

不同版本的ViT模型在ImageNet分類上的表現(xiàn)

在更大的ViT模型中插入TokenLearner，如具有24個注意力層，并以10x10（或8x8）個patch作為初始token的L/10和L/8。

之后，將這兩個模型與48層的ViT G/14模型進(jìn)行比較。

可以看到，在表現(xiàn)和G/14模型相當(dāng)?shù)那闆r下，TokenLearner只需要非常少的參數(shù)和計(jì)算量。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

左：大規(guī)模TokenLearner模型與ViT G/14在ImageNet數(shù)據(jù)集上的分類精度對比；右：參數(shù)量和FLOPS的對比

高性能視頻模型

視頻理解是計(jì)算機(jī)視覺的關(guān)鍵挑戰(zhàn)之一，TokenLearner在多個視頻分類數(shù)據(jù)集基準(zhǔn)上取得了SOTA的性能。

其中，在Kinetics-400和Kinetics-600上的性能超過了以前的Transformer模型，在Charades和AViD上也超過了之前的CNN模型。

通過與視頻視覺Transformer（Video Vision Transformer，ViViT）結(jié)合，TokenLearner會在每個時間段學(xué)習(xí)8（或16）個token。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

左：視頻分類任務(wù)；右圖：不同模型的對比

隨著時間的推移，當(dāng)人物在場景中移動時，TokenLearner會注意到不同的空間位置變化從而進(jìn)行token化。

豪取4個SOTA，谷歌魔改Transformer登NeurIPS 2021

TokenLearner的空間注意力圖的可視化

結(jié)論

雖然Vision Transformer是計(jì)算機(jī)視覺領(lǐng)域的一個強(qiáng)大模型，但大量的token及龐大的計(jì)算量一直是將ViT應(yīng)用于更大圖像和更長視頻的瓶頸。

本文中作者表明，保留如此大量的token并在整個層集上完全處理它們是沒有必要的。

此外，作者還證明了通過學(xué)習(xí)一個基于輸入圖像自適應(yīng)提取token的模塊，可以在節(jié)省計(jì)算的同時獲得更好的性能。

最后，多個公共數(shù)據(jù)集上的驗(yàn)證也表明了TokenLearner在視頻表征學(xué)習(xí)任務(wù)中的表現(xiàn)十分優(yōu)異。

責(zé)任編輯：張燕妮來源：新智元

谷歌 Transformer 技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="ijv34"><rp id="ijv34"></rp></s>

<em id="ijv34"><rt id="ijv34"></rt></em>

<blockquote id="ijv34"><p id="ijv34"><th id="ijv34"></th></p></blockquote>