偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌搶先手發(fā)布視頻生成類AIGC,網(wǎng)友:可以定制電影了

人工智能 新聞
AIGC 已經(jīng)火了很長時(shí)間了,出現(xiàn)了文本生成圖像、文本生成視頻、圖像生成視頻等廣泛的應(yīng)用場(chǎng)景,如今谷歌研究院的一項(xiàng)新研究可以讓我們根據(jù)輸入視頻生成其他視頻了!

我們知道,生成模型和多模態(tài)視覺語言模型的進(jìn)展已經(jīng)為具備前所未有生成真實(shí)性和多樣性的大型文本到圖像模型鋪平了道路。這些模型提供了新的創(chuàng)作過程,但僅限于合成新圖像而非編輯現(xiàn)有圖像。為了彌合這一差距,基于文本的直觀編輯方法可以對(duì)生成和真實(shí)圖像進(jìn)行基于文本的編輯,并保留這些圖像的一些原始屬性。與圖像類似,近來文本到視頻模型也提出了很多,但使用這些模型進(jìn)行視頻編輯的方法卻很少。?

在文本指導(dǎo)的視頻編輯中,用戶提供輸入視頻以及描述生成視頻預(yù)期屬性的文本 prompt,如下圖 1 所示。目標(biāo)有以下三個(gè)方面,1)對(duì)齊,編輯后的視頻應(yīng)符合輸入文本 prompt;2)保真度,編輯后的視頻應(yīng)保留原始視頻的內(nèi)容,3)質(zhì)量,編輯后的視頻應(yīng)具備高質(zhì)量。

可以看到,視頻編輯比圖像編輯更加具有挑戰(zhàn)性,它需要合成新的動(dòng)作,而不僅僅是修改視覺外觀。此外還需要保持時(shí)間上的一致性。因此,將 SDEdit、Prompt-to-Prompt 等圖像級(jí)別的編輯方法應(yīng)用于視頻幀上不足以實(shí)現(xiàn)很好的效果。

圖片

在近日谷歌研究院等發(fā)表在 arXiv 的一篇論文中,研究者提出了一種新方法 Dreamix,它受到了 UniTune 的啟發(fā),將文本條件視頻擴(kuò)散模型(video diffusion model, VDM)應(yīng)用于視頻編輯。

圖片

  • 論文地址:https://arxiv.org/pdf/2302.01329.pdf
  • 項(xiàng)目主頁:https://dreamix-video-editing.github.io/?

文中方法的核心是通過以下兩種主要思路使文本條件 VDM 保持對(duì)輸入視頻的高保真度。其一不使用純?cè)肼曌鳛槟P统跏蓟?,而是使用原始視頻的降級(jí)版本,通過縮小尺寸和添加噪聲僅保留低時(shí)空信息;其二通過微調(diào)原始視頻上的生成模型來進(jìn)一步提升對(duì)原始視頻的保真度。

微調(diào)確保模型了解原始視頻的高分辨率屬性。對(duì)輸入視頻的簡單微調(diào)會(huì)促成相對(duì)較低的運(yùn)動(dòng)可編輯性,這是因?yàn)槟P蛯W(xué)會(huì)了更傾向于原始運(yùn)動(dòng)而不是遵循文本 prompt。研究者提出了一種新穎的混合微調(diào)方法,其中 VDM 也在輸入視頻各個(gè)幀的集合上進(jìn)行微調(diào),并丟棄了它們的時(shí)序?;旌衔⒄{(diào)顯著提升了運(yùn)動(dòng)編輯的質(zhì)量。

研究者進(jìn)一步利用其視頻編輯模型提出了一個(gè)新的圖像動(dòng)畫框架,如下圖  2 所示。該框架包含了幾個(gè)步驟,比如為圖像中的對(duì)象和背景設(shè)置動(dòng)畫、創(chuàng)建動(dòng)態(tài)相機(jī)運(yùn)動(dòng)等。他們通過幀復(fù)制或幾何圖像變換等簡單的圖像處理操作來實(shí)現(xiàn),從而創(chuàng)建粗糙的視頻。接著使用 Dreamix 視頻編輯器對(duì)視頻進(jìn)行編輯。此外研究者還使用其微調(diào)方法進(jìn)行目標(biāo)驅(qū)動(dòng)的視頻生成,也即 Dreambooth 的視頻版本。

圖片

在實(shí)驗(yàn)展示部分,研究者進(jìn)行了廣泛的定性研究和人工評(píng)估,展示了他們方法的強(qiáng)大能力,具體可參考如下動(dòng)圖。

圖片

圖片

對(duì)于谷歌這項(xiàng)研究,有人表示,3D + 運(yùn)動(dòng)和編輯工具可能是下一波論文的熱門主題。

還有人表示:大家可以很快在預(yù)算內(nèi)制作自己的的電影了,你所需要的只是一個(gè)綠幕以及這項(xiàng)技術(shù):

圖片

方法概覽

本文提出了一種新的方法用于視頻編輯,具體而言:

通過逆向被破壞視頻進(jìn)行文本引導(dǎo)視頻編輯

他們采用級(jí)聯(lián) VDM( Video Diffusion Models ),首先通過下采樣對(duì)輸入視頻就行一定的破壞,后加入噪聲。接下來是級(jí)聯(lián)擴(kuò)散模型用于采樣過程,并以時(shí)間 t 為條件,將視頻升級(jí)到最終的時(shí)間 - 空間分辨率。?

在對(duì)輸入視頻進(jìn)行破壞處理的這一過程中,首先需要進(jìn)行下采樣操作,以得到基礎(chǔ)模型(16 幀 24 × 40),然后加入方差為圖片高斯噪聲,從而進(jìn)一步破壞輸入視頻。?

對(duì)于上述處理好的視頻,接下來的操作是使用級(jí)聯(lián) VDM 將損壞掉的低分辨率視頻映射到與文本對(duì)齊的高分辨率視頻。這里的核心思想是,給定一個(gè)嘈雜的、時(shí)間空間分辨率非常低的視頻,有許多完全可行的、高分辨率的視頻與之對(duì)應(yīng)。本文中基礎(chǔ)模型從損壞的視頻開始,它與時(shí)間 s 的擴(kuò)散過程具有相同的噪聲。然后該研究用 VDM 來逆向擴(kuò)散過程直到時(shí)間 0。最后通過超分辨率模型對(duì)視頻進(jìn)行升級(jí)。

混合視頻圖像微調(diào)

僅利用輸入視頻進(jìn)行視頻擴(kuò)散模型的微調(diào)會(huì)限制物體運(yùn)動(dòng)變化,相反,該研究使用了一種混合目標(biāo),即除了原始目標(biāo)(左下角)之外,本文還對(duì)無序的幀集進(jìn)行了微調(diào),這是通過「masked temporal attention」來完成的,以防止時(shí)間注意力和卷積被微調(diào)(右下)。這種操作允許向靜態(tài)視頻中添加運(yùn)動(dòng)。

圖片

推理?

在應(yīng)用程序預(yù)處理的基礎(chǔ)上(Aapplication Dependent Pre-processing,下圖左),該研究支持多種應(yīng)用,能將輸入內(nèi)容轉(zhuǎn)換為統(tǒng)一的視頻格式。對(duì)于圖像到視頻,輸入圖像被復(fù)制并被變換,合成帶有一些相機(jī)運(yùn)動(dòng)的粗略視頻;對(duì)于目標(biāo)驅(qū)動(dòng)視頻生成,其輸入被省略,單獨(dú)進(jìn)行微調(diào)以維持保真度。然后使用 Dreamix Video Editor(右)編輯這個(gè)粗糙的視頻:即前面講到的,首先通過下采樣破壞視頻,添加噪聲。然后應(yīng)用微調(diào)的文本引導(dǎo)視頻擴(kuò)散模型,將視頻升級(jí)到最終的時(shí)間空間分辨率。

圖片

實(shí)驗(yàn)結(jié)果

視頻編輯:下圖中 Dreamix 將動(dòng)作改為舞蹈,并且外觀由猴子變?yōu)樾埽曨l中主體的基本屬性沒有變:

圖片


Dreamix 還可以生成與輸入視頻時(shí)間信息一致的平滑視覺修改,如下圖會(huì)滑滑板的小鹿:

圖片

圖像到視頻:當(dāng)輸入是一張圖像時(shí),Dreamix 可以使用其視頻先驗(yàn)添加新的移動(dòng)對(duì)象,如下圖中添加了在有霧的森林中出現(xiàn)一頭獨(dú)角獸,并放大。

圖片

小屋旁邊出現(xiàn)企鵝:

圖片

目標(biāo)驅(qū)動(dòng)視頻生成:Dreamix 還可以獲取顯示相同主題的圖像集合,并以該主題為運(yùn)動(dòng)對(duì)象生成新的視頻。如下圖是一條在葉子上蠕動(dòng)的毛毛蟲:

圖片

除了定性分析外,該研究還進(jìn)行了基線比較,主要是將 Dreamix 與 Imagen-Video、 Plug-and-Play (PnP) 兩種基線方法進(jìn)行對(duì)比。下表為評(píng)分結(jié)果:

圖片

圖 8 展示了由 Dreamix 編輯的視頻和兩個(gè)基線示例:文本到視頻模型實(shí)現(xiàn)了低保真度的編輯,因?yàn)樗灰栽家曨l為條件。PnP 保留了場(chǎng)景,但不同幀之間缺乏一致性;Dreamix 在這三個(gè)目標(biāo)上都表現(xiàn)良好。

圖片

更多技術(shù)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-20 15:26:13

AI谷歌

2021-07-28 10:30:09

UPS電源服務(wù)器

2020-11-04 10:18:59

微信

2023-08-15 08:36:20

ChatGPT模型

2025-01-26 10:50:00

模型視頻生成

2024-02-04 19:58:27

谷歌AI視頻生成器

2024-08-22 13:40:08

開發(fā)者GPT-4oepoch

2024-02-19 00:26:34

2023-04-03 10:04:44

開源模型

2024-04-07 14:56:22

技術(shù)應(yīng)用

2025-02-11 09:00:00

2024-07-05 14:29:49

2024-12-23 00:30:12

2024-02-19 07:58:01

OpenAI模型GPT

2024-03-20 12:27:48

模型訓(xùn)練

2025-02-24 10:03:21

2013-07-04 09:46:06

X Phone

2025-03-27 09:24:16

2023-03-10 07:53:10

AI系統(tǒng)AIGC系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)