偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

李飛飛谷歌破局之作！用Transformer生成逼真視頻，下一個(gè)Pika來了？

作者：新智元 2023-12-12 13:45:00

人工智能新聞

今天，李飛飛攜斯坦福聯(lián)袂谷歌，用Transformer生成了逼真視頻，效果媲美Gen-2比肩Pika。2023年儼然已成AI視頻元年！

視頻大數(shù)據(jù)時(shí)代，真的來了！

剛剛，李飛飛的斯坦福團(tuán)隊(duì)同谷歌合作，推出了用于生成逼真視頻的擴(kuò)散模型W.A.L.T。

這是一個(gè)在共享潛在空間中訓(xùn)練圖像和視頻生成的，基于Transformer的擴(kuò)散模型。

論文：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

英偉達(dá)高級(jí)科學(xué)家Jim Fan轉(zhuǎn)發(fā)評(píng)論道：2022年是影像之年，2023是聲波之年，而2024，是視頻之年！

首先，研究人員使用因果編碼器在共享潛在空間中壓縮圖像和視頻。

其次，為了提高記憶和訓(xùn)練效率，研究人員使用基于窗口注意的變壓器架構(gòu)來進(jìn)行潛在空間中的聯(lián)合空間和時(shí)間生成建模。

研究人員的模型可以根據(jù)自然語(yǔ)言提示生成逼真的、時(shí)間一致的運(yùn)動(dòng)：

A Teddy bear skating carefully in Times Square，Slow Motion/一只泰迪熊在時(shí)代廣場(chǎng)上優(yōu)雅的滑冰，慢動(dòng)作

Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/將巧克力醬倒在香草冰淇淋甜筒上，工作室燈光

An stronaust riding a horse/一名宇航員騎著馬

A squirrel eating a burger/一只松鼠在吃漢堡

A panda taking a selfie/一只正在自拍的熊貓

An elephant wearing a birthday hat walking on the beach/一頭戴著生日帽的大象在海灘上行走

Sea lion admiring nature, river, waterfull, sun, forest/海獅欣賞自然，河流，瀑布，陽(yáng)光，森林

Pouring latte art into a silver cup with a golden spoon next to it/在銀杯中進(jìn)行拿鐵拉花，旁邊放著金勺子

Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/兩個(gè)騎士用光劍決斗，電影動(dòng)作鏡頭，極其慢動(dòng)作

A swarm of bees flying around their hive/一群蜜蜂在他們的蜂巢周圍飛翔

這個(gè)結(jié)構(gòu)還可以用圖片生成視頻：

A giant dragon sitting in a snow covered landscape, breathing fire/一條巨大的龍盤踞在冰雪覆蓋的大地上，噴吐著火焰

A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/一只可愛的熊貓?jiān)谔炜罩谢?，越過雪山，充滿夢(mèng)幻和異想天開的氣氛

An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球，大規(guī)模爆炸，慢動(dòng)作

以及，生成一致性很高的3D相機(jī)運(yùn)動(dòng)的視頻。

Cameraturns around a cute bunny, studio lighting, 360 rotation/相機(jī)圍繞一只可愛的兔子旋轉(zhuǎn)，工作室燈光，360度旋轉(zhuǎn)

Camera turns around utah teapot，studio lighting，360 rotation/相機(jī)圍繞茶壺旋轉(zhuǎn)，工作室燈光，360度旋轉(zhuǎn)

Camera turns around a burger on a plate，studio lighting，360 rotation/相機(jī)圍繞盤子中的漢堡旋轉(zhuǎn)，工作室燈光，360度旋轉(zhuǎn)

網(wǎng)友們驚嘆道，這些天好像已經(jīng)人手一個(gè)LLM或者圖像生成器。

今年簡(jiǎn)直是AI發(fā)展的煽動(dòng)性的一年。

兩個(gè)關(guān)鍵決策，組成三模型級(jí)聯(lián)

W.A.L.T的方法有兩個(gè)關(guān)鍵決策。

首先，研究者使用因果編碼器在統(tǒng)一的潛在空間內(nèi)聯(lián)合壓縮圖像和視頻，從而實(shí)現(xiàn)跨模態(tài)的訓(xùn)練和生成。

其次，為了提高記憶和訓(xùn)練效率，研究者使用了為空間和時(shí)空聯(lián)合生成建模量身定制的窗口注意力架構(gòu)。

通過這兩個(gè)關(guān)鍵決策，團(tuán)隊(duì)在已建立的視頻（UCF-101 和 Kinetics-600）和圖像（ImageNet）生成基準(zhǔn)測(cè)試上實(shí)現(xiàn)了SOTA，而無需使用無分類器指導(dǎo)。

最后，團(tuán)隊(duì)還訓(xùn)練了三個(gè)模型的級(jí)聯(lián)，用于文本到視頻的生成任務(wù)，包括一個(gè)基本的潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型，以每秒8幀的速度，生成512 x 896分辨率的視頻。

W.A.L.T的關(guān)鍵，是將圖像和視頻編碼到一個(gè)共享的潛在空間中。

Transformer主干通過具有兩層窗口限制注意力的塊來處理這些潛在空間——空間層捕捉圖像和視頻中的空間關(guān)系，而時(shí)空層模擬視頻中的時(shí)間動(dòng)態(tài)，并通過身份注意力掩碼傳遞圖像。

而文本調(diào)節(jié)，是通過空間交叉注意完成的。

W.A.L.T解決視頻生成建模難題

Transformer是高度可擴(kuò)展和可并行的神經(jīng)網(wǎng)絡(luò)架構(gòu)，是目前最當(dāng)紅的構(gòu)架。

這種理想的特性也讓研究界越來越青睞Transformer，而不是語(yǔ)言、音頻、語(yǔ)音、視覺、機(jī)器人技術(shù)等不同領(lǐng)域的特定領(lǐng)域架構(gòu)。

這種統(tǒng)一的趨勢(shì)，使研究人員能夠共享不同傳統(tǒng)領(lǐng)域的進(jìn)步，這樣就造就了有利于Transformer的模型設(shè)計(jì)創(chuàng)新和改進(jìn)的良性循環(huán)。

然而，有一個(gè)例外，就是視頻的生成建模。

擴(kuò)散模型已成為圖像和視頻生成建模的領(lǐng)先范例。然而，由一系列卷積層和自注意力層組成的U-Net架構(gòu)一直是所有視頻擴(kuò)散方法的主流。

這種偏好源于這樣一個(gè)事實(shí)：Transformer中完全注意力機(jī)制的記憶需求，與輸入序列的長(zhǎng)度呈二次方縮放。

在處理視頻等高維信號(hào)時(shí)，這種縮放會(huì)導(dǎo)致成本過高。

潛在擴(kuò)散模型可以通過在從自動(dòng)編碼器派生的低維潛在空間中運(yùn)行，來降低計(jì)算要求。

在這種情況下，一個(gè)關(guān)鍵的設(shè)計(jì)選擇，就是所使用的潛在空間的類型:空間壓縮 (每幀潛在) 與時(shí)空壓縮。

空間壓縮通常是首選，因?yàn)樗梢岳妙A(yù)訓(xùn)練的圖像自動(dòng)編碼器和LDM，它們?cè)诖笮统蓪?duì)圖像文本數(shù)據(jù)集上進(jìn)行訓(xùn)練。

然而，這種選擇增加了網(wǎng)絡(luò)復(fù)雜性，并限制了Transformer作為骨干網(wǎng)的使用，尤其是由于內(nèi)存限制而生成高分辨率視頻時(shí)。

另一方面，雖然時(shí)空壓縮可以緩解這些問題，但它排除了配對(duì)圖像文本數(shù)據(jù)集的使用，后者比視頻數(shù)據(jù)集更大、更多樣化。

因此，研究者提出了窗口注意力潛在Transformer (W.A.L.T) :一種基于Transformer的潛在視頻擴(kuò)散模型 (LVDM) 方法。

該方法由兩個(gè)階段組成。

首先，自動(dòng)編碼器將視頻和圖像映射到統(tǒng)一的低維潛在空間中。這種設(shè)計(jì)能夠在圖像和視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練單個(gè)生成模型，并顯著減少生成高分辨率視頻的計(jì)算負(fù)擔(dān)。

隨后，研究者提出了一種用于潛在視頻擴(kuò)散建模的Transformer塊的新設(shè)計(jì)，由在非重疊、窗口限制的空間和時(shí)空注意力之間交替的自注意力層組成。

這種設(shè)計(jì)有兩個(gè)主要好處——

首先，使用局部窗口注意力，可以顯著降低計(jì)算需求。

其次，它有利于聯(lián)合訓(xùn)練，其中空間層獨(dú)立處理圖像和視頻幀，而時(shí)空層致力于對(duì)視頻中的時(shí)間關(guān)系進(jìn)行建模。

雖然概念上很簡(jiǎn)單，但團(tuán)隊(duì)的方法讓Transformer在公共基準(zhǔn)上潛在視頻傳播中表現(xiàn)出了卓越的質(zhì)量和參數(shù)效率，這是第一個(gè)經(jīng)驗(yàn)證據(jù)。

具體來說，在類條件視頻生成 (UCF-101) 、幀預(yù)測(cè) (Kinetics-600) 和類條件圖像生成 (ImageNet)上，不使用無分類指導(dǎo)，就取得了SOTA。

最后，為了證明這種方法的可擴(kuò)展性和效率，研究者還生成了逼真的文本到視頻生成效果。

他們訓(xùn)練了由一個(gè)基本潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型組成的級(jí)聯(lián)模型，以每秒8幀的速度生成512X896分辨率的視頻，并且在UCF-101基準(zhǔn)測(cè)試中，取得了SOTA的zero-shot FVC分?jǐn)?shù)。

學(xué)習(xí)視覺符號(hào)

視頻生成建模中的一個(gè)關(guān)鍵設(shè)計(jì)決策，就是潛在空間表征的選擇。

理想情況下，需要一個(gè)共享且統(tǒng)一的壓縮視覺表征，可用于圖像和視頻的生成建模。

統(tǒng)一的表征很重要，這是因?yàn)橛捎跇?biāo)記視頻數(shù)據(jù)(例如文本視頻對(duì))的稀缺，聯(lián)合的圖像-視頻學(xué)習(xí)更可取。

為了實(shí)現(xiàn)視頻和靜態(tài)圖像的統(tǒng)一表征，第一幀始終獨(dú)立于視頻的其余部分進(jìn)行編碼。

為了將這個(gè)設(shè)計(jì)實(shí)例化，研究者使用了MAGVIT-v2分詞器的因果3DCNN編碼器-解碼器。

通常，編碼器-解碼器由常規(guī)D卷積層組成，它們無法獨(dú)立處理第一幀。

而因果3D卷積層解決了這個(gè)問題，因?yàn)榫矸e核僅對(duì)過去的幀進(jìn)行操作。

這就確保了每個(gè)幀的輸出僅受前面幀的影響，從而使模型能夠獨(dú)立標(biāo)記第一幀。

實(shí)驗(yàn)

視頻生成

研究人員考慮了兩個(gè)標(biāo)準(zhǔn)視頻基準(zhǔn)，即類別條件生成的UCF-101和帶有5個(gè)條件幀的視頻預(yù)測(cè)Kinetics-600。

研究人員使用FVD 作為主要評(píng)估指標(biāo)。在這兩個(gè)數(shù)據(jù)集上，W.A.L.T 顯著優(yōu)于之前的所有工作（下表1）。

與之前的視頻擴(kuò)散模型相比，研究人員在模型參數(shù)更少的情況下實(shí)現(xiàn)了最先進(jìn)的性能，并且需要50個(gè)DDIM推理步驟。

圖像生成

為了驗(yàn)證W.A.L.T在圖像領(lǐng)域的建模能力，研究人員訓(xùn)練了一個(gè)W.A.L.T版本，用于標(biāo)準(zhǔn)的ImageNet類別條件設(shè)置。

在評(píng)估中，研究人員遵循ADM并報(bào)告在50K樣本上用50個(gè)DDIM步驟生成的FID和Inception分?jǐn)?shù)。

研究人員將W.A.L.T與256 × 256分辨率的最先進(jìn)圖像生成方法進(jìn)行比較（下表2）。研究人員的模型在不需要專門的調(diào)度、卷積歸納偏見、改進(jìn)的擴(kuò)散損失和無分類器指導(dǎo)的情況下優(yōu)于之前的工作。盡管VDM++的FID分?jǐn)?shù)略有提高，但該模型的參數(shù)明顯更多（2B）。

消融實(shí)驗(yàn)

在使用ViT -based模型的各種計(jì)算機(jī)視覺任務(wù)中，已經(jīng)證明較小的補(bǔ)丁大小p可以始終提高性能。同樣，研究人員的研究結(jié)果也表明，減小補(bǔ)丁大小可以提高性能（下表3a）。

窗口注意力

研究人員比較了三種不同的STW窗口配置與全自注意（表3b）。研究人員發(fā)現(xiàn)，局部自注意力可以在速度上顯著更快（高達(dá)2倍）并且減少加速器內(nèi)存的需求，同時(shí)達(dá)到有競(jìng)爭(zhēng)力（或更好）的性能。

文生視頻

研究者在文本-圖像和文本-視頻對(duì)上，聯(lián)合訓(xùn)練了文本到視頻的W.A.L.T。

使用的是來自公共互聯(lián)網(wǎng)和內(nèi)部來源的約970M文本-圖像對(duì)，和約89M文本-視頻對(duì)的數(shù)據(jù)集。

定性評(píng)估

W.A.L.T根據(jù)自然語(yǔ)言提示生成的示例視頻，分辨率為512*896，持續(xù)時(shí)間為3.6秒，每秒8幀。

W.A.L.T模型能夠生成與文本提示一致、時(shí)間一致的逼真視頻。

研究人員在以1或2個(gè)潛在幀為條件的幀預(yù)測(cè)任務(wù)上，聯(lián)合訓(xùn)練了模型。

因此，模型可用于圖像動(dòng)畫（圖像到視頻）和生成具有連貫鏡頭運(yùn)動(dòng)的較長(zhǎng)視頻。

定量評(píng)價(jià)

科學(xué)地評(píng)估文本條件視頻生成系統(tǒng)仍然是一個(gè)重大挑戰(zhàn)，部分原因是缺乏標(biāo)準(zhǔn)化的訓(xùn)練數(shù)據(jù)集和基準(zhǔn)。

到目前為止，研究人員的實(shí)驗(yàn)和分析主要集中在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上，這些基準(zhǔn)使用相同的訓(xùn)練數(shù)據(jù)來確保受控和公平的比較。

盡管如此，為了與之前的文本到視頻工作進(jìn)行比較，研究人員還在表 5 中的零樣本評(píng)估協(xié)議中報(bào)告了 UCF-101 數(shù)據(jù)集的結(jié)果。

研究人員框架的主要優(yōu)勢(shì)是它能夠同時(shí)在圖像和視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。

在上表5中，研究人員消除了這種聯(lián)合訓(xùn)練方法的影響。

具體來說，研究人員使用第5.2 節(jié)中指定的默認(rèn)設(shè)置訓(xùn)練了兩個(gè)版本的W.A.L.T-L (每個(gè)版本有 419M 參數(shù))模型。

研究人員發(fā)現(xiàn)聯(lián)合培訓(xùn)可以使這兩個(gè)指標(biāo)都有顯著改善。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<kbd id="vd3rf"></kbd>

<button id="vd3rf"><option id="vd3rf"></option></button>