首批類Sora模型出現(xiàn),色拉布上線Snap Video,效果優(yōu)于Pika、不輸Gen-2
最近,OpenAI 視頻生成模型 Sora 的爆火,給基于 Transformer 的擴(kuò)散模型重新帶來(lái)了一波熱度,比如 Sora 研發(fā)負(fù)責(zé)人之一 William Peebles 與紐約大學(xué)助理教授謝賽寧去年提出的 DiT(Diffusion Transformer)。
當(dāng)然,隨著視頻生成這波 AI 趨勢(shì)的繼續(xù)演進(jìn),類似架構(gòu)的模型會(huì)越來(lái)越多。就在昨天,開(kāi)發(fā)出 SnapChat 圖片分享軟件的 Snap 公司、特倫托大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布了類似 Sora 的文本生成視頻模型 Snap Video,這次他們使用到了可擴(kuò)展的時(shí)空 Transformer。
相關(guān)的論文《Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis》已經(jīng)放出。
論文地址:https://arxiv.org/pdf/2402.14797.pdf
項(xiàng)目地址:https://snap-research.github.io/snapvideo/#title-footer
如你我所見(jiàn),統(tǒng)一圖像生成架構(gòu)(如帶有公開(kāi)可用圖像預(yù)訓(xùn)練模型的 U-Nets)的可用性,使得它們成為構(gòu)建大規(guī)模視頻生成器的邏輯基礎(chǔ),并且主要的架構(gòu)修改在于插入特定層來(lái)捕獲時(shí)序依賴性。同樣地,訓(xùn)練是在基于圖像的擴(kuò)散框架下進(jìn)行的,其中可以將模型應(yīng)用于視頻和一組單獨(dú)的圖像,從而提升結(jié)果的多樣性。
本文中,研究者認(rèn)為這種方法不是最理想的,因而想要系統(tǒng)性地解決。首先圖像和視頻模態(tài)呈現(xiàn)出了由連續(xù)視頻幀中相似內(nèi)容決定的內(nèi)在差異。以此類推,圖像和視頻壓縮算法基于完全不同的方法。為此,研究者重寫了 EDM(出自 2022 年論文 Elucidating the Design Space of Diffusion-Based Generative Models)框架,并重點(diǎn)關(guān)注高分辨率視頻。
具體來(lái)講,與以往將視頻視為圖像序列的工作不同,研究者通過(guò)將圖像作為高幀率視頻來(lái)執(zhí)行聯(lián)合視頻 - 圖像訓(xùn)練,從而避免純圖像訓(xùn)練中缺乏時(shí)間維度而導(dǎo)致的模態(tài)不匹配。其次,以往需要利用 U-Net 架構(gòu)來(lái)充分處理每個(gè)視頻幀,與純文本到圖像模型相比,這種做法增加了計(jì)算開(kāi)銷,對(duì)模型可擴(kuò)展性造成了實(shí)際的限制。然而,可擴(kuò)展性是獲得高質(zhì)量結(jié)果的關(guān)鍵因素。
此外,擴(kuò)展基于 U-Net 的架構(gòu)以自然地支持空間和時(shí)間維度需要進(jìn)行體積注意力運(yùn)算,又會(huì)產(chǎn)生令人望而卻步的計(jì)算需求。如果無(wú)法做到,則會(huì)影響輸出,導(dǎo)致生成的是動(dòng)態(tài)圖像或運(yùn)動(dòng)偽影,而不是具有連貫和多樣化動(dòng)作的視頻。
按照研究者自己的壓縮類比,他們提出利用重復(fù)幀,并引入可擴(kuò)展的 transformer 架構(gòu)來(lái)將空間和時(shí)間維度視為單個(gè)壓縮的 1D 潛在向量。研究者利用這種高壓縮的表示來(lái)聯(lián)合執(zhí)行時(shí)空計(jì)算,并對(duì)復(fù)雜運(yùn)動(dòng)進(jìn)行建模。
本文的架構(gòu)受到 FIT(出自 2023 年論文 Far-reaching interleaved transformers)的啟發(fā),并首次將它擴(kuò)展到了數(shù)十億參數(shù)。與 U-Net 相比,Snap Video 模型的訓(xùn)練速度快了 3.31 倍,推理速度快了 4.49 倍,同時(shí)實(shí)現(xiàn)了更高的生成質(zhì)量。
我們先來(lái)看 Snap Video 的一些生成示例。
越野車和摩托車穿過(guò)廣闊的沙漠,空氣中彌漫著灰塵,追逐跳躍的沙丘、具有挑戰(zhàn)性的地形以及挑戰(zhàn)極限的參賽者的興奮感。(Dust fills the air as off-road vehicles and motorcycles tear through a vast desert landscape. Capture the excitement of jumps over sand dunes, challenging terrain, and competitors pushing the limits of their machines.)
一張柯基犬在時(shí)代廣場(chǎng)騎自行車的照片,它戴著太陽(yáng)鏡和沙灘帽。(A photo of a Corgi dog riding a bike in Times Square. It is wearing sunglasses and a beach hat.)
在陡峭的懸崖頂上,兩名武士正在進(jìn)行一場(chǎng)劍戰(zhàn),捕捉?jīng)Q斗的復(fù)雜編排,強(qiáng)調(diào)每一次沖突和招架,使用橫掃鏡頭來(lái)展示令人驚嘆的風(fēng)景。(Atop dramatic cliffs, two warriors engage in a sword fight. Capture the intricate choreography of the duel, emphasizing every clash and parry. Use sweeping crane shots to showcase the breathtaking scenery.)
騎在獅子背上的牛仔熊貓,手持拍攝鏡頭。(a cowboy panda riding on the back of a lion, hand-held camera)
在浩瀚太空中,星際飛船展開(kāi)了一場(chǎng)宇宙沖突,渲染航天器、爆炸和宇宙碎片的復(fù)雜細(xì)節(jié),利用橫掃鏡頭的移動(dòng)來(lái)傳達(dá)戰(zhàn)斗的激烈程度和激烈時(shí)刻的特寫。(In the vastness of space, starships engage in a cosmic clash. Render intricate details of the spacecraft, explosions, and cosmic debris. Utilize sweeping camera movements to convey the enormity of the battle and close-ups for intense moments.)
前往電影拍攝地,水獺擔(dān)任電影導(dǎo)演,皺起眉頭、舉起爪子大喊「開(kāi)機(jī)」,捕捉這一刻的緊張氣氛,聚焦導(dǎo)演椅、劇本和忙碌的攝制組的 4K 細(xì)節(jié),使用動(dòng)態(tài)的攝像機(jī)角度來(lái)傳達(dá)電影布景的活力。(Transport to a movie set where an otter serves as a film director. Capture the intensity of the moment with furrowed brows and raised paws shouting "Action!" Focus on the 4K details of the director's chair, script, and the bustling film crew. Use dynamic camera angles to convey the energy of the film set.)
研究者在廣泛采用的 UCF101 和 MSR-VTT 數(shù)據(jù)集上對(duì) Snap Video 進(jìn)行評(píng)估,結(jié)果顯示,該模型在各種基準(zhǔn)上均實(shí)現(xiàn)了 SOTA 性能,尤其能生成高質(zhì)量的運(yùn)動(dòng)。最有趣的是, 他們針對(duì)最近的開(kāi)源和閉源方法展開(kāi)大量用戶研究,參與者表示,Snap Video 具有與 Runway Gen-2 相當(dāng)?shù)恼鎸?shí)感,同時(shí)明顯優(yōu)于 Pika 和 Floor33。
此外,在評(píng)估文本對(duì)齊和運(yùn)動(dòng)質(zhì)量時(shí),參與者大多偏向 Snap Video。與 Gen-2 在 prompt - 視頻對(duì)齊方面的對(duì)比時(shí),Snap Video 在 81% 的情況下受到青睞(80% 不選擇 Pika、81% 不選擇 Floor33);在生成運(yùn)動(dòng)量最大的動(dòng)態(tài)視頻方面,96% 不選擇 Gen2,89% 不選擇 Pika、88% 不選擇 Floor33;在生成最佳的運(yùn)動(dòng)質(zhì)量方面,79% 不選擇 Gen-2、 71% 不選擇 Pika、79% 不選擇 Floor33。
與 Runway Gen-2、Pika、Floor33 的比較結(jié)果一目了然。相同的 prompt:兩只大象在海灘上玩耍,享用著美味的沙拉醬牛肉大餐。(Two elephants are playing on the beach and enjoying a delicious beef stroganoff meal.)
一名男子騎著摩托車穿越城市,感受腎上腺素激增的感覺(jué)(A man cruises through the city on a motorcycle, feeling the adrenaline rush)
論文提出了生成高分辨率視頻的方法,即針對(duì)高維輸入重寫 EDM 擴(kuò)散框架,并提出一種基于 FIT 的高效 transformer 架構(gòu),該架構(gòu)可擴(kuò)展至數(shù)十億參數(shù)和數(shù)萬(wàn)輸入 patch。
第 3.1 節(jié)介紹了 EDM 框架,第 3.2 節(jié)強(qiáng)調(diào)了將擴(kuò)散框架應(yīng)用于高維輸入所面臨的挑戰(zhàn),并提出了重新審視的基于 EDM 的擴(kuò)散框架。第 3.3 節(jié)提出了一種縮小圖像和視頻聯(lián)合訓(xùn)練模式之間差距的方法。最后,第 3.4 節(jié)介紹了本文的可擴(kuò)展視頻生成架構(gòu),第 3.5 節(jié)和第 3.6 節(jié)分別介紹了訓(xùn)練和推理過(guò)程。
我們重點(diǎn)看一下 3.3 節(jié)和 3.4 節(jié)的內(nèi)容。
用于生成高分辨率視頻的 EDM,如何實(shí)現(xiàn)圖像 - 視頻模態(tài)匹配
EDM 最初是作為圖像生成框架提出的,其參數(shù)針對(duì) 64 × 64px 圖像生成進(jìn)行了優(yōu)化。改變空間分辨率或引入幀間共享內(nèi)容的視頻,可使去噪網(wǎng)絡(luò)以更高的信噪比(SNR)在原始分辨率下瑣碎地恢復(fù)有噪聲的幀,而原始框架的設(shè)計(jì)目的是在較低的噪聲水平下看到這種情況。
與圖像相比,有字幕的視頻數(shù)據(jù)量有限,因此研究上廣泛采用圖像 - 視頻聯(lián)合訓(xùn)練的方法,通常對(duì)兩種模態(tài)采用相同的擴(kuò)散過(guò)程,但視頻中 T 幀的存在需要采用與具有相同分辨率的圖像不同的處理過(guò)程。
其中一種可能性是對(duì)兩種模式采用不同的輸入縮放因子。本文研究者認(rèn)為這種解決方案并不可取,因?yàn)樗黾恿丝蚣艿膹?fù)雜性,而且圖像訓(xùn)練無(wú)法促進(jìn)去噪模型學(xué)習(xí)時(shí)間推理,而時(shí)間推理是視頻生成器的基本能力。
為了避免這些問(wèn)題,同時(shí)使用統(tǒng)一的擴(kuò)散過(guò)程,研究者將圖像視為具有無(wú)限幀率的 T 幀視頻,從而匹配圖像和視頻模態(tài),并引入可變幀率訓(xùn)練程序,消除圖像和視頻模態(tài)之間的差距。
可擴(kuò)展的視頻生成器
在視頻生成過(guò)程中,U-Net 通常使用時(shí)間注意力或卷積來(lái)建模時(shí)間維度。這種方法需要對(duì) T 個(gè)視頻幀中的每個(gè)幀進(jìn)行一次完整的 UNet 前向傳遞,其成本之高令人望而卻步(見(jiàn)圖 3a)。這些因素對(duì)模型的可擴(kuò)展性造成了實(shí)際限制(可擴(kuò)展性是實(shí)現(xiàn)高生成質(zhì)量的首要因素),同樣也限制了時(shí)空聯(lián)合建模的可能性。研究者認(rèn)為,以可分離的方式處理空間和時(shí)間建模會(huì)導(dǎo)致運(yùn)動(dòng)偽影、時(shí)間不一致或生成動(dòng)態(tài)圖像,而不是具有生動(dòng)動(dòng)態(tài)的視頻。視頻幀包含空間和時(shí)間上的冗余內(nèi)容,可以進(jìn)行壓縮。學(xué)習(xí)和運(yùn)算壓縮視頻表示法并對(duì)空間和時(shí)間維度進(jìn)行聯(lián)合建模,是實(shí)現(xiàn)高質(zhì)量視頻生成所需的可擴(kuò)展性和運(yùn)動(dòng)建模能力的必要步驟。
FIT 是一種基于 transformer 的高效架構(gòu),最近被提出用于高分辨率圖像合成和視頻生成。其主要思想如圖 3 所示,即通過(guò)一組可學(xué)習(xí)的潛在 token 來(lái)學(xué)習(xí)輸入的壓縮表示,并將計(jì)算集中在這個(gè)可學(xué)習(xí)的潛在空間上,從而允許輸入維度的增長(zhǎng)而幾乎不影響性能。
雖然這些架構(gòu)前景廣闊,但尚未擴(kuò)展到最先進(jìn)的基于 U-Net 的視頻生成器的十億參數(shù)規(guī)模,也未應(yīng)用于高分辨率視頻生成。要實(shí)現(xiàn)這些目標(biāo),需要考慮很多架構(gòu)因素。
時(shí)間建模是高質(zhì)量視頻生成器的一個(gè)基本方面。FIT 通過(guò)考慮跨越空間和時(shí)間維度的 Tp×Hp×Wp 大小的三維 patch 來(lái)生成 patch token。研究者發(fā)現(xiàn) Tp > 1 的值會(huì)限制時(shí)間建模的性能,因此只考慮跨空間維度的 patch。
與 patch 類似,F(xiàn)IT 也會(huì)將 patch token 分成跨越時(shí)間和空間維度的組,并逐組執(zhí)行交叉注意力運(yùn)算。每組的時(shí)間尺寸應(yīng)配置為每組覆蓋所有 T 個(gè)視頻幀,以獲得最佳的時(shí)間建模效果。此外,由于時(shí)間維度的存在,視頻比圖像包含更多的信息,因此增加了代表壓縮空間大小的潛在 token 的數(shù)量,在壓縮空間中進(jìn)行聯(lián)合時(shí)空計(jì)算。最后,F(xiàn)IT 利用局部層對(duì)同一組對(duì)應(yīng)的 patch token 進(jìn)行自關(guān)注運(yùn)算。
研究者發(fā)現(xiàn),對(duì)于大量的 patch token(最大分辨率為 147.456)來(lái)說(shuō),這種運(yùn)算的計(jì)算成本很高,因此在每次交叉注意力「讀取」或「寫入」運(yùn)算后,他們都會(huì)用一個(gè)前饋模塊來(lái)替代。
本文的模型利用由一系列調(diào)節(jié) token 表示的調(diào)節(jié)信息來(lái)控制生成過(guò)程。除了代表當(dāng)前 σ 的標(biāo)記外,為實(shí)現(xiàn)文本調(diào)節(jié),還引入了 T5-11B 文本編碼器,從輸入文本中提取文本嵌入。為了支持訓(xùn)練數(shù)據(jù)中視頻幀率的變化以及分辨率和寬高比的巨大差異,本文連接了代表當(dāng)前輸入幀率和原始分辨率的附加 token。
為了生成高分辨率的輸出,研究者部署了一個(gè)模型級(jí)聯(lián),包含生成 36×64px 視頻的第一階段模型和生成 288 × 512px 視頻的第二階段上采樣模型。
為了提高上采樣質(zhì)量,研究者在訓(xùn)練期間使用可變級(jí)別的噪聲來(lái)破壞第二階段的低分辨率輸入,并在推理期間將一定級(jí)別的噪聲應(yīng)用于超參數(shù)搜索獲得的第一階段輸出。
評(píng)估
消融實(shí)驗(yàn)
在消融實(shí)驗(yàn)中,研究者選擇了兩個(gè)不同容量的 U-Net 變體和一個(gè)較小的 FIT 變體,以評(píng)估這兩種架構(gòu)的可擴(kuò)展性。
定量評(píng)估
表 4 和表 5 分別展示了 Snap Video 和 UCF101 、 MSR-VTT 的對(duì)比:
定性評(píng)估
定性評(píng)估如圖 4 所示,本文方法生成的樣本更能呈現(xiàn)出生動(dòng)、高質(zhì)量的動(dòng)態(tài)效果,避免了基線中出現(xiàn)的閃爍假象: