一句話讓小姐姐為我換了N套衣服，谷歌卷出視頻生成新高度，網(wǎng)友：競(jìng)賽加碼

作者：量子位 2024-01-26 10:39:52

Lumiere的創(chuàng)新點(diǎn)在于，提出了時(shí)空U-Net（STU-Net）架構(gòu)：將視頻在空間和時(shí)間兩個(gè)維度同時(shí)進(jìn)行下采樣和上采樣，在網(wǎng)絡(luò)的中間層得到視頻的壓縮時(shí)空表示。

谷歌一出手，又把AI視頻生成卷上了新高度。

一句話生成視頻，現(xiàn)在在名為Lumiere的AI操刀下，可以是醬嬸的：

△“陽(yáng)光明媚，帆船在湖中航行”

如此一致性和質(zhì)量，再次點(diǎn)燃了網(wǎng)友們對(duì)AI視頻生成的熱情：谷歌加入戰(zhàn)局，又有好戲可看了。

不止是文生視頻，Lumiere把Pika的“一鍵換裝”也復(fù)現(xiàn)了出來(lái)。

左谷歌右pika，同樣是選中區(qū)域一句話完成視頻編輯，你pick哪一邊？

讓圖片中靜止的火焰躍動(dòng)起來(lái)，也同樣一選就能完成：

還有圖片轉(zhuǎn)視頻：

視頻風(fēng)格化：

總之就是主打一個(gè)質(zhì)量又高又全能。

更多細(xì)節(jié)，我們論文扒起~

用于視頻生成的時(shí)空擴(kuò)散模型

Lumiere旨在解決以往視頻生成中存在的幾個(gè)關(guān)鍵問(wèn)題：

真實(shí)性
多樣化
運(yùn)動(dòng)的連貫性

在此前的方法中，常見的做法是，擴(kuò)散模型先生成一些稀疏的關(guān)鍵幀，而后通過(guò)一系列時(shí)間超分辨率（TSR）模型來(lái)填補(bǔ)關(guān)鍵幀之間的空白，接著再用空間超分辨率模型獲取高清視頻結(jié)果。

可以想見，在全局連貫性上，這樣的做法存在先天的缺陷。

具體來(lái)說(shuō)，基于這一架構(gòu)，模型能夠一次性生成視頻中的所有幀——這也就提升了生成視頻的連貫性。

同時(shí)，因?yàn)榇蟛糠钟?jì)算發(fā)生在壓縮后的表示上，STU-Net能有效減少計(jì)算量，降低對(duì)計(jì)算和內(nèi)存的需求。

另外，為了提升視頻的分辨率，研究人員使用多重?cái)U(kuò)散（MultiDiffusion）技術(shù)，通過(guò)線性加權(quán)空間超分辨率網(wǎng)絡(luò)來(lái)處理重疊時(shí)間窗口帶來(lái)的邊界偽影等問(wèn)題，從而能將生成畫面融合為一個(gè)整體，得到連貫、高清的視頻效果。

時(shí)長(zhǎng)和分辨率方面，Lumiere能輸出1024×1024、16fps下長(zhǎng)5秒的視頻。

研究人員提到：

5秒已經(jīng)超過(guò)了大多數(shù)視頻作品中的平均鏡頭長(zhǎng)度。

值得一提的是，得益于時(shí)空U-Net架構(gòu)端到端全幀率視頻生成的能力和高效計(jì)算，Lumiere靈活可擴(kuò)展，可以輕松應(yīng)用到下游任務(wù)中，包括文生視頻、圖生視頻、視頻風(fēng)格化、視頻編輯修復(fù)等等。