視頻生成可以無(wú)限長(zhǎng)？谷歌VideoPoet大模型上線，網(wǎng)友：革命性技術(shù)

作者：機(jī)器之心 2023-12-20 15:26:13

人工智能新聞

蒙娜麗莎打哈欠，小雞學(xué)會(huì)舉鐵……谷歌VideoPoet大模型表現(xiàn)很亮眼。

2023 年底，科技公司都在沖擊生成式 AI 的最后一個(gè)關(guān)卡 —— 視頻生成。

本周二，谷歌提出的視頻生成大模型上線，立刻獲得了人們的關(guān)注。這款名為 VideoPoet 的大語(yǔ)言模型，被人們認(rèn)為是革命性的 zero-shot 視頻生成工具。

VideoPoet 既可以文生視頻、圖像生視頻，又能風(fēng)格遷移，視頻轉(zhuǎn)語(yǔ)音。從效果上看，它可以構(gòu)建多樣化且流暢的運(yùn)動(dòng)。

消息一出，有很多人表示歡迎：看看目前的幾個(gè)成品效果不錯(cuò)，大模型技術(shù)發(fā)展的速度也太快了。

有人對(duì)于這個(gè)大模型生成視頻的長(zhǎng)度表示驚訝：

來(lái)源：https://twitter.com/cybersphere_ai/status/1737257729167966353

還有人表示這是一個(gè)革命性的大語(yǔ)言模型。

也有人呼吁，谷歌需要趕緊把 VideoPoet 開(kāi)源了，大趨勢(shì)不等人。

隨著生成式 AI 的發(fā)展，最近出現(xiàn)了一波新的視頻生成模型，這些模型展示了令人驚嘆的畫(huà)面質(zhì)量。當(dāng)前視頻生成的瓶頸之一是產(chǎn)生連貫的大動(dòng)作。但在許多情況下，即使是領(lǐng)先的模型也只能產(chǎn)生較小的運(yùn)動(dòng)，或者當(dāng)產(chǎn)生較大的運(yùn)動(dòng)時(shí)，會(huì)表現(xiàn)出明顯的偽影。

為了探索語(yǔ)言模型在視頻生成中的應(yīng)用，來(lái)自谷歌的研究者引入了一種大語(yǔ)言模型（LLM）VideoPoet，能夠執(zhí)行各種視頻生成任務(wù)，包括文本到視頻、圖像到視頻、視頻風(fēng)格化、視頻修復(fù)和擴(kuò)展，以及視頻轉(zhuǎn)音頻。

VideoPoet 效果展示

文本生成視頻

提示：一只狗戴著耳機(jī)聽(tīng)音樂(lè)，細(xì)節(jié)豐富，8k。

提示（從左到右）：一條從嘴里射出激光束的鯊魚(yú)；泰迪熊手牽著手走在雨天的第五大道上；舉鐵的小雞。

提示（從左到右）：黃色蒲公英花瓣制成的獅子在咆哮；地球表面發(fā)生大規(guī)模爆炸；一匹馬在梵高的星夜中馳騁；穿著盔甲的松鼠騎著鵝；熊貓?jiān)谧耘摹?/span>

圖像生成視頻

對(duì)于圖像到視頻，VideoPoet 可以獲取輸入圖像并通過(guò)提示將其動(dòng)畫(huà)化。

蒙娜麗莎開(kāi)始打哈欠，只要輸入一張圖片，外加一句提示：一個(gè)女人打哈欠。就會(huì)得到下面的效果。

提示（從左到右）：一艘船在波濤洶涌的大海上航行，有雷暴和閃電，油畫(huà)風(fēng)格；飛過(guò)有許多閃爍星星的星云；大風(fēng)天，一個(gè)拄著拐杖站在懸崖上的流浪者，俯視著下面浮動(dòng)的云海。

將視頻風(fēng)格化

VideoPoet 還能夠根據(jù)文本提示對(duì)輸入視頻進(jìn)行風(fēng)格化。

提示（從左到右）：泰迪熊在干凈的冰湖上滑冰；一只金屬色的獅子在熔爐的光芒下咆哮。

生成音頻

VideoPoet 還能夠生成音頻。首先讓模型生成 2 秒的剪輯，然后嘗試在沒(méi)有任何文本指導(dǎo)的情況下預(yù)測(cè)畫(huà)面的音頻。這樣一來(lái)，VideoPoet 能夠從單個(gè)模型生成視頻和音頻。

長(zhǎng)視頻

VideoPoet 還能生成長(zhǎng)視頻，默認(rèn)是 2 秒。通過(guò)調(diào)節(jié)視頻的最后 1 秒并預(yù)測(cè)接下來(lái)的 1 秒，這個(gè)過(guò)程可以無(wú)限地重復(fù)，以生成任意時(shí)長(zhǎng)的視頻。下面是 VideoPoet 從文本輸入生成長(zhǎng)視頻的示例展示。提示：FPV 鏡頭展示了叢林中一座非常鋒利的精靈石城，有明亮的藍(lán)色河流、瀑布和大而陡峭的垂直懸崖面。

擴(kuò)展視頻

用戶可以改變提示，從而擴(kuò)展視頻。原始視頻是兩只浣熊騎著摩托車(chē)在松樹(shù)環(huán)繞的山路上行駛，8k。擴(kuò)展后的視頻是兩只浣熊騎著摩托車(chē)，浣熊身后落下流星，流星撞擊地球并爆炸。

交互式視頻編輯

對(duì)于提供的輸入視頻（最左邊），用戶可以改變物體的運(yùn)動(dòng)來(lái)執(zhí)行不同的動(dòng)作。如下所示，中間三個(gè)沒(méi)有文本提示，最后一個(gè)文本提示為：煙霧背景下啟動(dòng)。

視頻修復(fù)

VideoPoet 可以在視頻被遮住的部分添加細(xì)節(jié)，也可以選擇通過(guò)文本引導(dǎo)進(jìn)行修復(fù)。

為了展示 VideoPoet 的功能，谷歌還制作了一部由 VideoPoet 生成的多個(gè)短片組成的小短片。劇本是 Bard 編寫(xiě)的，是關(guān)于一只旅行浣熊的短篇故事，并附有逐個(gè)場(chǎng)景的分解和附帶的提示列表。然后，谷歌為每個(gè)提示生成視頻剪輯，并將所有生成的剪輯拼接在一起以生成下面的最終視頻。

方法簡(jiǎn)介

如下圖所示，VideoPoet 可以將輸入圖像動(dòng)畫(huà)化以生成一段視頻，并且可以編輯視頻或擴(kuò)展視頻。

在風(fēng)格化方面，該模型接收表征深度和光流的視頻，以文本指導(dǎo)的風(fēng)格繪制內(nèi)容。

視頻生成器

使用 LLM 進(jìn)行訓(xùn)練的一個(gè)關(guān)鍵優(yōu)勢(shì)是，可以重復(fù)使用現(xiàn)有 LLM 訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。然而，LLM 是在離散 token 上運(yùn)行的，這使得視頻生成具有挑戰(zhàn)性。而視頻和音頻 tokenizer 可以用來(lái)將視頻和音頻剪輯編碼為離散 token 序列，并且也可以轉(zhuǎn)換回原始表征形式。

通過(guò)使用多個(gè) tokenizer（用于視頻和圖像的 MAGVIT V2 和用于音頻的 SoundStream），VideoPoet 訓(xùn)練自回歸語(yǔ)言模型來(lái)學(xué)習(xí)跨視頻、圖像、音頻和文本的多個(gè)模態(tài)。一旦模型生成以某些上下文為條件的 token，就可以使用 tokenizer 解碼器將它們轉(zhuǎn)換回可視化的表征形式。

評(píng)估結(jié)果

研究團(tuán)隊(duì)使用各種基準(zhǔn)來(lái)評(píng)估 VideoPoet 在文本到視頻生成方面的表現(xiàn)，以將結(jié)果與其他方法進(jìn)行比較。為了確保中立的評(píng)估，該研究在各種不同的 prompt 下運(yùn)行了所有模型，沒(méi)有挑選示例，并要求人類(lèi)評(píng)估者進(jìn)行偏好評(píng)分。

平均而言，在遵循 prompt 方面，人們認(rèn)為 VideoPoet 中 24-35% 的示例比競(jìng)爭(zhēng)模型更好，而競(jìng)爭(zhēng)模型的這一比例為 8-11%。評(píng)分者還更喜歡 VideoPoet 中 41-54% 的示例，因?yàn)樯梢曨l的動(dòng)作更有趣，而其他模型的這一比例為 11-21%。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 谷歌

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視頻生成可以無(wú)限長(zhǎng)？谷歌VideoPoet大模型上線，網(wǎng)友：革命性技術(shù)

VideoPoet 效果展示

方法簡(jiǎn)介

評(píng)估結(jié)果

視頻生成可以無(wú)限長(zhǎng)？谷歌VideoPoet大模型上線，網(wǎng)友：革命性技術(shù)