李飛飛谷歌破局之作!用Transformer生成逼真視頻,下一個Pika來了?
視頻大數(shù)據(jù)時代,真的來了!
剛剛,李飛飛的斯坦福團隊同谷歌合作,推出了用于生成逼真視頻的擴散模型W.A.L.T。

這是一個在共享潛在空間中訓(xùn)練圖像和視頻生成的,基于Transformer的擴散模型。

論文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
英偉達高級科學(xué)家Jim Fan轉(zhuǎn)發(fā)評論道:2022年是影像之年,2023是聲波之年,而2024,是視頻之年!

首先,研究人員使用因果編碼器在共享潛在空間中壓縮圖像和視頻。

其次,為了提高記憶和訓(xùn)練效率,研究人員使用基于窗口注意的變壓器架構(gòu)來進行潛在空間中的聯(lián)合空間和時間生成建模。

研究人員的模型可以根據(jù)自然語言提示生成逼真的、時間一致的運動:

A Teddy bear skating carefully in Times Square,Slow Motion/一只泰迪熊在時代廣場上優(yōu)雅的滑冰,慢動作

Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/將巧克力醬倒在香草冰淇淋甜筒上,工作室燈光

An stronaust riding a horse/一名宇航員騎著馬

A squirrel eating a burger/一只松鼠在吃漢堡

A panda taking a selfie/一只正在自拍的熊貓

An elephant wearing a birthday hat walking on the beach/一頭戴著生日帽的大象在海灘上行走

Sea lion admiring nature, river, waterfull, sun, forest/海獅欣賞自然,河流,瀑布,陽光,森林

Pouring latte art into a silver cup with a golden spoon next to it/在銀杯中進行拿鐵拉花,旁邊放著金勺子

Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/兩個騎士用光劍決斗,電影動作鏡頭,極其慢動作
A swarm of bees flying around their hive/一群蜜蜂在他們的蜂巢周圍飛翔
這個結(jié)構(gòu)還可以用圖片生成視頻:

A giant dragon sitting in a snow covered landscape, breathing fire/一條巨大的龍盤踞在冰雪覆蓋的大地上,噴吐著火焰

A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/一只可愛的熊貓在天空中滑滑板,越過雪山,充滿夢幻和異想天開的氣氛

An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球,大規(guī)模爆炸,慢動作
以及,生成一致性很高的3D相機運動的視頻。

Cameraturns around a cute bunny, studio lighting, 360 rotation/相機圍繞一只可愛的兔子旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)

Camera turns around utah teapot,studio lighting,360 rotation/相機圍繞茶壺旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)

Camera turns around a burger on a plate,studio lighting,360 rotation/相機圍繞盤子中的漢堡旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)
網(wǎng)友們驚嘆道,這些天好像已經(jīng)人手一個LLM或者圖像生成器。

今年簡直是AI發(fā)展的煽動性的一年。

兩個關(guān)鍵決策,組成三模型級聯(lián)
W.A.L.T的方法有兩個關(guān)鍵決策。
首先,研究者使用因果編碼器在統(tǒng)一的潛在空間內(nèi)聯(lián)合壓縮圖像和視頻,從而實現(xiàn)跨模態(tài)的訓(xùn)練和生成。
其次,為了提高記憶和訓(xùn)練效率,研究者使用了為空間和時空聯(lián)合生成建模量身定制的窗口注意力架構(gòu)。
通過這兩個關(guān)鍵決策,團隊在已建立的視頻(UCF-101 和 Kinetics-600)和圖像(ImageNet)生成基準測試上實現(xiàn)了SOTA,而無需使用無分類器指導(dǎo)。
最后,團隊還訓(xùn)練了三個模型的級聯(lián),用于文本到視頻的生成任務(wù),包括一個基本的潛在視頻擴散模型和兩個視頻超分辨率擴散模型,以每秒8幀的速度,生成512 x 896分辨率的視頻。

W.A.L.T的關(guān)鍵,是將圖像和視頻編碼到一個共享的潛在空間中。
Transformer主干通過具有兩層窗口限制注意力的塊來處理這些潛在空間——空間層捕捉圖像和視頻中的空間關(guān)系,而時空層模擬視頻中的時間動態(tài),并通過身份注意力掩碼傳遞圖像。
而文本調(diào)節(jié),是通過空間交叉注意完成的。
W.A.L.T解決視頻生成建模難題
Transformer是高度可擴展和可并行的神經(jīng)網(wǎng)絡(luò)架構(gòu),是目前最當(dāng)紅的構(gòu)架。
這種理想的特性也讓研究界越來越青睞Transformer,而不是語言 、音頻、語音、視覺、機器人技術(shù)等不同領(lǐng)域的特定領(lǐng)域架構(gòu)。
這種統(tǒng)一的趨勢,使研究人員能夠共享不同傳統(tǒng)領(lǐng)域的進步,這樣就造就了有利于Transformer的模型設(shè)計創(chuàng)新和改進的良性循環(huán)。
然而,有一個例外,就是視頻的生成建模。
擴散模型已成為圖像和視頻生成建模的領(lǐng)先范例。然而,由一系列卷積層和自注意力層組成的U-Net架構(gòu)一直是所有視頻擴散方法的主流。
這種偏好源于這樣一個事實:Transformer中完全注意力機制的記憶需求,與輸入序列的長度呈二次方縮放。
在處理視頻等高維信號時,這種縮放會導(dǎo)致成本過高。

潛在擴散模型可以通過在從自動編碼器派生的低維潛在空間中運行,來降低計算要求。
在這種情況下,一個關(guān)鍵的設(shè)計選擇,就是所使用的潛在空間的類型:空間壓縮 (每幀潛在) 與時空壓縮。
空間壓縮通常是首選,因為它可以利用預(yù)訓(xùn)練的圖像自動編碼器和LDM,它們在大型成對圖像文本數(shù)據(jù)集上進行訓(xùn)練。
然而,這種選擇增加了網(wǎng)絡(luò)復(fù)雜性,并限制了Transformer作為骨干網(wǎng)的使用,尤其是由于內(nèi)存限制而生成高分辨率視頻時。
另一方面,雖然時空壓縮可以緩解這些問題,但它排除了配對圖像文本數(shù)據(jù)集的使用,后者比視頻數(shù)據(jù)集更大、更多樣化。
因此,研究者提出了窗口注意力潛在Transformer (W.A.L.T) :一種基于Transformer的潛在視頻擴散模型 (LVDM) 方法。
該方法由兩個階段組成。
首先,自動編碼器將視頻和圖像映射到統(tǒng)一的低維潛在空間中。這種設(shè)計能夠在圖像和視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練單個生成模型,并顯著減少生成高分辨率視頻的計算負擔(dān)。
隨后,研究者提出了一種用于潛在視頻擴散建模的Transformer塊的新設(shè)計,由在非重疊、窗口限制的空間和時空注意力之間交替的自注意力層組成。

這種設(shè)計有兩個主要好處——
首先,使用局部窗口注意力,可以顯著降低計算需求。
其次,它有利于聯(lián)合訓(xùn)練,其中空間層獨立處理圖像和視頻幀,而時空層致力于對視頻中的時間關(guān)系進行建模。
雖然概念上很簡單,但團隊的方法讓Transformer在公共基準上潛在視頻傳播中表現(xiàn)出了卓越的質(zhì)量和參數(shù)效率,這是第一個經(jīng)驗證據(jù)。
具體來說,在類條件視頻生成 (UCF-101) 、幀預(yù)測 (Kinetics-600) 和類條件圖像生成 (ImageNet)上, 不使用無分類指導(dǎo),就取得了SOTA。
最后,為了證明這種方法的可擴展性和效率,研究者還生成了逼真的文本到視頻生成效果。
他們訓(xùn)練了由一個基本潛在視頻擴散模型和兩個視頻超分辨率擴散模型組成的級聯(lián)模型,以每秒8幀的速度生成512X896分辨率的視頻,并且在UCF-101基準測試中,取得了SOTA的zero-shot FVC分數(shù)。

學(xué)習(xí)視覺符號
視頻生成建模中的一個關(guān)鍵設(shè)計決策,就是潛在空間表征的選擇。
理想情況下,需要一個共享且統(tǒng)一的壓縮視覺表征,可用于圖像和視頻的生成建模。
統(tǒng)一的表征很重要,這是因為由于標(biāo)記視頻數(shù)據(jù)(例如文本視頻對)的稀缺,聯(lián)合的圖像-視頻學(xué)習(xí)更可取。
為了實現(xiàn)視頻和靜態(tài)圖像的統(tǒng)一表征,第一幀始終獨立于視頻的其余部分進行編碼。
為了將這個設(shè)計實例化,研究者使用了MAGVIT-v2分詞器的因果3DCNN編碼器-解碼器。
通常,編碼器-解碼器由常規(guī)D卷積層組成,它們無法獨立處理第一幀。
而因果3D卷積層解決了這個問題,因為卷積核僅對過去的
幀進行操作。
這就確保了每個幀的輸出僅受前面幀的影響,從而使模型能夠獨立標(biāo)記第一幀。

實驗
視頻生成
研究人員考慮了兩個標(biāo)準視頻基準,即類別條件生成的UCF-101和帶有5個條件幀的視頻預(yù)測Kinetics-600。
研究人員使用FVD 作為主要評估指標(biāo)。在這兩個數(shù)據(jù)集上,W.A.L.T 顯著優(yōu)于之前的所有工作(下表1)。

與之前的視頻擴散模型相比,研究人員在模型參數(shù)更少的情況下實現(xiàn)了最先進的性能,并且需要50個DDIM推理步驟。
圖像生成
為了驗證W.A.L.T在圖像領(lǐng)域的建模能力,研究人員訓(xùn)練了一個W.A.L.T版本,用于標(biāo)準的ImageNet類別條件設(shè)置。
在評估中,研究人員遵循ADM并報告在50K樣本上用50個DDIM步驟生成的FID和Inception分數(shù)。
研究人員將W.A.L.T與256 × 256分辨率的最先進圖像生成方法進行比較(下表2)。研究人員的模型在不需要專門的調(diào)度、卷積歸納偏見、改進的擴散損失和無分類器指導(dǎo)的情況下優(yōu)于之前的工作。盡管VDM++的FID分數(shù)略有提高,但該模型的參數(shù)明顯更多(2B)。

消融實驗
在使用ViT -based模型的各種計算機視覺任務(wù)中,已經(jīng)證明較小的補丁大小p可以始終提高性能。同樣,研究人員的研究結(jié)果也表明,減小補丁大小可以提高性能(下表3a)。
窗口注意力
研究人員比較了三種不同的STW窗口配置與全自注意(表3b)。研究人員發(fā)現(xiàn),局部自注意力可以在速度上顯著更快(高達2倍)并且減少加速器內(nèi)存的需求,同時達到有競爭力(或更好)的性能。

文生視頻
研究者在文本-圖像和文本-視頻對上,聯(lián)合訓(xùn)練了文本到視頻的W.A.L.T。
使用的是來自公共互聯(lián)網(wǎng)和內(nèi)部來源的約970M文本-圖像對,和約89M文本-視頻對的數(shù)據(jù)集。
定性評估
W.A.L.T根據(jù)自然語言提示生成的示例視頻,分辨率為512*896,持續(xù)時間為3.6秒,每秒8幀。
W.A.L.T模型能夠生成與文本提示一致、時間一致的逼真視頻。

研究人員在以1或2個潛在幀為條件的幀預(yù)測任務(wù)上,聯(lián)合訓(xùn)練了模型。
因此,模型可用于圖像動畫(圖像到視頻)和生成具有連貫鏡頭運動的較長視頻。

定量評價
科學(xué)地評估文本條件視頻生成系統(tǒng)仍然是一個重大挑戰(zhàn),部分原因是缺乏標(biāo)準化的訓(xùn)練數(shù)據(jù)集和基準。
到目前為止,研究人員的實驗和分析主要集中在標(biāo)準學(xué)術(shù)基準上,這些基準使用相同的訓(xùn)練數(shù)據(jù)來確保受控和公平的比較。
盡管如此,為了與之前的文本到視頻工作進行比較,研究人員還在表 5 中的零樣本評估協(xié)議中報告了 UCF-101 數(shù)據(jù)集的結(jié)果。

研究人員框架的主要優(yōu)勢是它能夠同時在圖像和視頻數(shù)據(jù)集上進行訓(xùn)練。
在上表5中,研究人員消除了這種聯(lián)合訓(xùn)練方法的影響。
具體來說,研究人員使用第5.2 節(jié)中指定的默認設(shè)置訓(xùn)練了兩個版本的W.A.L.T-L (每個版本有 419M 參數(shù))模型。
研究人員發(fā)現(xiàn)聯(lián)合培訓(xùn)可以使這兩個指標(biāo)都有顯著改善。




















