視頻生成可以無(wú)限長(zhǎng)?谷歌VideoPoet大模型上線,網(wǎng)友:革命性技術(shù)
2023 年底,科技公司都在沖擊生成式 AI 的最后一個(gè)關(guān)卡 —— 視頻生成。
本周二,谷歌提出的視頻生成大模型上線,立刻獲得了人們的關(guān)注。這款名為 VideoPoet 的大語(yǔ)言模型,被人們認(rèn)為是革命性的 zero-shot 視頻生成工具。
VideoPoet 既可以文生視頻、圖像生視頻,又能風(fēng)格遷移,視頻轉(zhuǎn)語(yǔ)音。從效果上看,它可以構(gòu)建多樣化且流暢的運(yùn)動(dòng)。

消息一出,有很多人表示歡迎:看看目前的幾個(gè)成品效果不錯(cuò),大模型技術(shù)發(fā)展的速度也太快了。

有人對(duì)于這個(gè)大模型生成視頻的長(zhǎng)度表示驚訝:


來(lái)源:https://twitter.com/cybersphere_ai/status/1737257729167966353
還有人表示這是一個(gè)革命性的大語(yǔ)言模型。

也有人呼吁,谷歌需要趕緊把 VideoPoet 開(kāi)源了,大趨勢(shì)不等人。
隨著生成式 AI 的發(fā)展,最近出現(xiàn)了一波新的視頻生成模型,這些模型展示了令人驚嘆的畫(huà)面質(zhì)量。當(dāng)前視頻生成的瓶頸之一是產(chǎn)生連貫的大動(dòng)作。但在許多情況下,即使是領(lǐng)先的模型也只能產(chǎn)生較小的運(yùn)動(dòng),或者當(dāng)產(chǎn)生較大的運(yùn)動(dòng)時(shí),會(huì)表現(xiàn)出明顯的偽影。
為了探索語(yǔ)言模型在視頻生成中的應(yīng)用,來(lái)自谷歌的研究者引入了一種大語(yǔ)言模型(LLM)VideoPoet,能夠執(zhí)行各種視頻生成任務(wù),包括文本到視頻、圖像到視頻、視頻風(fēng)格化、 視頻修復(fù)和擴(kuò)展,以及視頻轉(zhuǎn)音頻。
VideoPoet 效果展示
文本生成視頻
提示:一只狗戴著耳機(jī)聽(tīng)音樂(lè),細(xì)節(jié)豐富,8k。

提示(從左到右):一條從嘴里射出激光束的鯊魚(yú);泰迪熊手牽著手走在雨天的第五大道上;舉鐵的小雞。

提示(從左到右):黃色蒲公英花瓣制成的獅子在咆哮;地球表面發(fā)生大規(guī)模爆炸;一匹馬在梵高的星夜中馳騁;穿著盔甲的松鼠騎著鵝;熊貓?jiān)谧耘摹?/span>

圖像生成視頻
對(duì)于圖像到視頻,VideoPoet 可以獲取輸入圖像并通過(guò)提示將其動(dòng)畫(huà)化。
蒙娜麗莎開(kāi)始打哈欠,只要輸入一張圖片,外加一句提示:一個(gè)女人打哈欠。就會(huì)得到下面的效果。

提示(從左到右):一艘船在波濤洶涌的大海上航行,有雷暴和閃電,油畫(huà)風(fēng)格;飛過(guò)有許多閃爍星星的星云;大風(fēng)天,一個(gè)拄著拐杖站在懸崖上的流浪者,俯視著下面浮動(dòng)的云海。

將視頻風(fēng)格化
VideoPoet 還能夠根據(jù)文本提示對(duì)輸入視頻進(jìn)行風(fēng)格化。
提示(從左到右):泰迪熊在干凈的冰湖上滑冰;一只金屬色的獅子在熔爐的光芒下咆哮。

生成音頻
VideoPoet 還能夠生成音頻。首先讓模型生成 2 秒的剪輯,然后嘗試在沒(méi)有任何文本指導(dǎo)的情況下預(yù)測(cè)畫(huà)面的音頻。這樣一來(lái),VideoPoet 能夠從單個(gè)模型生成視頻和音頻。
長(zhǎng)視頻
VideoPoet 還能生成長(zhǎng)視頻,默認(rèn)是 2 秒。通過(guò)調(diào)節(jié)視頻的最后 1 秒并預(yù)測(cè)接下來(lái)的 1 秒,這個(gè)過(guò)程可以無(wú)限地重復(fù),以生成任意時(shí)長(zhǎng)的視頻。下面是 VideoPoet 從文本輸入生成長(zhǎng)視頻的示例展示。提示:FPV 鏡頭展示了叢林中一座非常鋒利的精靈石城,有明亮的藍(lán)色河流、瀑布和大而陡峭的垂直懸崖面。

擴(kuò)展視頻
用戶可以改變提示,從而擴(kuò)展視頻。原始視頻是兩只浣熊騎著摩托車(chē)在松樹(shù)環(huán)繞的山路上行駛,8k。擴(kuò)展后的視頻是兩只浣熊騎著摩托車(chē),浣熊身后落下流星,流星撞擊地球并爆炸。

交互式視頻編輯
對(duì)于提供的輸入視頻(最左邊),用戶可以改變物體的運(yùn)動(dòng)來(lái)執(zhí)行不同的動(dòng)作。如下所示,中間三個(gè)沒(méi)有文本提示,最后一個(gè)文本提示為:煙霧背景下啟動(dòng)。

視頻修復(fù)
VideoPoet 可以在視頻被遮住的部分添加細(xì)節(jié),也可以選擇通過(guò)文本引導(dǎo)進(jìn)行修復(fù)。


為了展示 VideoPoet 的功能,谷歌還制作了一部由 VideoPoet 生成的多個(gè)短片組成的小短片。劇本是 Bard 編寫(xiě)的,是關(guān)于一只旅行浣熊的短篇故事,并附有逐個(gè)場(chǎng)景的分解和附帶的提示列表。然后,谷歌為每個(gè)提示生成視頻剪輯,并將所有生成的剪輯拼接在一起以生成下面的最終視頻。
方法簡(jiǎn)介
如下圖所示,VideoPoet 可以將輸入圖像動(dòng)畫(huà)化以生成一段視頻,并且可以編輯視頻或擴(kuò)展視頻。

在風(fēng)格化方面,該模型接收表征深度和光流的視頻,以文本指導(dǎo)的風(fēng)格繪制內(nèi)容。
視頻生成器
使用 LLM 進(jìn)行訓(xùn)練的一個(gè)關(guān)鍵優(yōu)勢(shì)是,可以重復(fù)使用現(xiàn)有 LLM 訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。然而,LLM 是在離散 token 上運(yùn)行的,這使得視頻生成具有挑戰(zhàn)性。而視頻和音頻 tokenizer 可以用來(lái)將視頻和音頻剪輯編碼為離散 token 序列,并且也可以轉(zhuǎn)換回原始表征形式。
通過(guò)使用多個(gè) tokenizer(用于視頻和圖像的 MAGVIT V2 和用于音頻的 SoundStream),VideoPoet 訓(xùn)練自回歸語(yǔ)言模型來(lái)學(xué)習(xí)跨視頻、圖像、音頻和文本的多個(gè)模態(tài)。一旦模型生成以某些上下文為條件的 token,就可以使用 tokenizer 解碼器將它們轉(zhuǎn)換回可視化的表征形式。

評(píng)估結(jié)果
研究團(tuán)隊(duì)使用各種基準(zhǔn)來(lái)評(píng)估 VideoPoet 在文本到視頻生成方面的表現(xiàn),以將結(jié)果與其他方法進(jìn)行比較。為了確保中立的評(píng)估,該研究在各種不同的 prompt 下運(yùn)行了所有模型,沒(méi)有挑選示例,并要求人類(lèi)評(píng)估者進(jìn)行偏好評(píng)分。


平均而言,在遵循 prompt 方面,人們認(rèn)為 VideoPoet 中 24-35% 的示例比競(jìng)爭(zhēng)模型更好,而競(jìng)爭(zhēng)模型的這一比例為 8-11%。評(píng)分者還更喜歡 VideoPoet 中 41-54% 的示例,因?yàn)樯梢曨l的動(dòng)作更有趣,而其他模型的這一比例為 11-21%。















 
 
 







 
 
 
 