偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<p id="lsjkm"></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

訓(xùn)練速度遠(yuǎn)超3D CNN，提速3倍！Transformer

作者：新智元 2021-03-18 15:29:10

新聞人工智能

Facebook AI推出了全新的視頻理解架構(gòu)TimeSformer，這也是第一個(gè)完全基于Transformer的視頻架構(gòu)。視頻剪輯上限可達(dá)幾分鐘，遠(yuǎn)遠(yuǎn)超過當(dāng)下最好的3D CNN，且成本更低。

[[388464]]

Facebook AI推出了全新的視頻理解架構(gòu)TimeSformer，這也是第一個(gè)完全基于Transformer的視頻架構(gòu)。視頻剪輯上限可達(dá)幾分鐘，遠(yuǎn)遠(yuǎn)超過當(dāng)下最好的3D CNN，且成本更低。

TimeSformer即Time-Space Transformer，這是第一個(gè)完全基于Transformer的視頻架構(gòu)，近年來已經(jīng)成為許多自然語言處理(NLP)應(yīng)用程序的主要方法，包括機(jī)器翻譯和通用語言理解。

訓(xùn)練速度遠(yuǎn)超3D CNN，提速3倍！Transformer

論文鏈接：
https://arxiv.org/pdf/2102.05095.pdf

TimeSformer 在幾個(gè)難度系數(shù)比較高的動(dòng)作識(shí)別基準(zhǔn)上獲得了最好的效果，包括 Kinetics-400動(dòng)作識(shí)別數(shù)據(jù)集。此外，與現(xiàn)代3D 卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比，TimeSformer 的訓(xùn)練速度提高了大約3倍，推理所需計(jì)算量不到原來的十分之一。這是支持需要實(shí)時(shí)或按需處理視頻的應(yīng)用程序的重要一步。

此外，TimeSformer具有可伸縮性，可以用來訓(xùn)練更長的視頻剪輯中的更大模型。這使得人工智能系統(tǒng)可以理解視頻中更復(fù)雜的人類行為，例如涉及多個(gè)原子步驟的活動(dòng)(修理汽車，準(zhǔn)備食物等)。許多需要理解復(fù)雜人類行為的人工智能應(yīng)用程序都能從中獲益。

訓(xùn)練速度遠(yuǎn)超3D CNN，提速3倍！Transformer

TimeSformer 與先進(jìn)的3D 卷積神經(jīng)網(wǎng)絡(luò)在 Kinetics-400(左)和 Kinetics-600(右)動(dòng)作識(shí)別基準(zhǔn)上的視頻分類精度。TimeSformer在兩個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了最高的準(zhǔn)確度。

分時(shí)空注意力

傳統(tǒng)的視頻分類模型利用3D 卷積濾波器。雖然這些濾波器在捕捉局部時(shí)空區(qū)域內(nèi)的短期模式方面有效，但是它們不能對(duì)超出其接受域的時(shí)空依賴關(guān)系進(jìn)行建模。

然而，TimeSformer完全建立在Transformer使用的自注意機(jī)制之上，這使得捕獲整個(gè)視頻的時(shí)空依賴性成為可能。

為了將Transformer應(yīng)用于視頻，TimeSformer將輸入視頻解釋為從單個(gè)幀中提取的圖像塊的時(shí)空序列。這種格式類似于NLP中使用的格式，即Transformer將句子視為從單個(gè)單詞計(jì)算出來的特征向量序列。

正如NLP Transformer通過將每個(gè)單詞與句子中的所有其他單詞進(jìn)行比較來推斷其含義一樣，這一模型通過將每個(gè)patch與視頻中的其他patch進(jìn)行明確的比較來捕捉每個(gè)patch的語義。這使得捕獲相鄰patch之間的短期依賴以及遠(yuǎn)距離patch之間的長期相關(guān)成為可能。

傳統(tǒng)的3D卷積神經(jīng)網(wǎng)絡(luò)由于需要在視頻的所有時(shí)空位置上使用大量的濾波器，所以計(jì)算成本也很高。

TimeSformer 通過1)將視頻分解成一小組不重疊的patch，2)應(yīng)用一種自注意的形式，避免對(duì)所有patch進(jìn)行詳盡的比較，從而保持了較低的計(jì)算成本。我們稱這種方案為「分時(shí)空注意力」。這個(gè)想法是依次應(yīng)用時(shí)間注意力和空間注意力。

當(dāng)應(yīng)用時(shí)間注意力時(shí)，每個(gè)patch(例如，下圖中藍(lán)色正方形)僅與其他幀中同一空間位置的補(bǔ)丁(綠色的正方形)進(jìn)行比較。如果視頻包含 t 幀，則只對(duì)每個(gè)patch進(jìn)行 t次時(shí)間的比較。

當(dāng)應(yīng)用空間注意力時(shí)，每個(gè)patch僅與同一框架內(nèi)的patch(紅色補(bǔ)丁)進(jìn)行比較。因此，如果 n 是每一幀中的patch數(shù)，分時(shí)空注意力在每個(gè)patch中只能執(zhí)行(t + n)次比較，而聯(lián)合時(shí)空注意力窮舉法則需要(t * n)次比較。此外，該研究發(fā)現(xiàn)分時(shí)空注意不僅比聯(lián)合時(shí)空注意更有效率，而且更準(zhǔn)確。

訓(xùn)練速度遠(yuǎn)超3D CNN，提速3倍！Transformer

TimeSformer 具有可伸縮性，可以在非常長的剪輯上運(yùn)行(例如，跨越102秒時(shí)間范圍的96幀序列) ，以便執(zhí)行超長時(shí)間范圍的建模。這與目前的3D CNN有很大不同，后者僅限于處理最多幾秒的片段，而且是識(shí)別長時(shí)間活動(dòng)的關(guān)鍵要求。

例如，看一段演示如何制作法式吐司的視頻。人工智能模型一次分析幾秒鐘可能會(huì)識(shí)別一些原子動(dòng)作(例如，打雞蛋或者把牛奶倒進(jìn)碗里)。但是對(duì)每個(gè)個(gè)體行為進(jìn)行分類并不足以對(duì)復(fù)雜的活動(dòng)進(jìn)行分類(許多食譜都涉及到打蛋)。TimeSformer 可以在更長的時(shí)間范圍內(nèi)分析視頻，揭示原子動(dòng)作之間的清晰的依賴關(guān)系(例如，將牛奶和打碎的雞蛋混合)。

訓(xùn)練速度遠(yuǎn)超3D CNN，提速3倍！Transformer

TimeSformer 的效率使得它能夠訓(xùn)練高空間分辨率的模型(例如，幀高達(dá)560x560像素)和超長視頻(高達(dá)96幀)。這些圖表顯示視頻分類成本(TFLOPs)作為空間分辨率(左)和視頻長度(右)的函數(shù)。通過這些圖，我們可以觀察到，分散的時(shí)空注意力比耗盡的時(shí)空聯(lián)合注意力節(jié)省了大量的計(jì)算能力，特別是當(dāng)應(yīng)用于大幀或長視頻時(shí)。在實(shí)際應(yīng)用中，當(dāng)空間幀分辨率達(dá)到448像素或幀數(shù)增加到32幀時(shí)，聯(lián)合時(shí)空注意會(huì)導(dǎo)致 GPU 內(nèi)存溢出，有效地使其不適用于大幀或長視頻。

訓(xùn)練速度遠(yuǎn)超3D CNN，提速3倍！Transformer

該圖提供了 TimeSformer 學(xué)習(xí)的自注意力熱度圖的可視化。第一行顯示原始幀，第二行根據(jù)自注意力對(duì)視頻分類的重要性(被認(rèn)為不重要的像素變暗)對(duì)每個(gè)像素的顏色進(jìn)行加權(quán)。如圖所示，TimeSformer 學(xué)習(xí)關(guān)注視頻中的相關(guān)區(qū)域，以執(zhí)行復(fù)雜的時(shí)空推理。

TimeSformer視頻剪輯上限可達(dá)幾分鐘

為了訓(xùn)練視頻理解模型，現(xiàn)在最好的3D CNN只能使用幾秒鐘長的視頻片段。有了TimeSformer，我們可以訓(xùn)練更長的視頻剪輯，最長可達(dá)幾分鐘。這可能極大地促進(jìn)機(jī)器理解視頻中復(fù)雜的長動(dòng)作的研究，這對(duì)于許多理解研究人類行為的人工智能應(yīng)用程序來說是重要的一步。

此外，TimeSformer的低推理成本是支持未來實(shí)時(shí)視頻處理應(yīng)用的一個(gè)重要步驟，如 AR/VR，或基于可穿戴攝像機(jī)拍攝的視頻智能助手。TimeSformer降低了成本，這將使更多的研究人員能夠解決視頻分析問題，從而加快這一領(lǐng)域的進(jìn)展。

責(zé)任編輯：張燕妮來源：新智元

人工智能機(jī)器學(xué)習(xí)技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sup id="dfidv"></sup><sub id="dfidv"></sub>

<sub id="dfidv"><p id="dfidv"></p></sub>

^{<thead id="dfidv"></thead>}