Adobe與MIT推出自回歸實(shí)時(shí)視頻生成技術(shù)CausVid。AI可以邊生成視頻邊實(shí)時(shí)播放!
本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
傳統(tǒng)的雙向擴(kuò)散模型(頂部)可提供高質(zhì)量的輸出,但存在顯著的延遲,需要 219 秒才能生成 128 幀的視頻。用戶必須等待整個(gè)序列完成才能查看任何結(jié)果。相比之下CausVid將雙向擴(kuò)散模型提煉為幾步自回歸生成器(底部),大大降低了計(jì)算開銷。CausVid的初始延遲僅為1.3秒,之后以大約 9.4 FPS 的速度以流式方式連續(xù)生成幀,從而促進(jìn)了視頻內(nèi)容創(chuàng)建的交互式工作流程。
就像從下載整部電影到直接觀看流媒體的轉(zhuǎn)變,在模型生成首幀畫面后,視頻便可以即時(shí)播放,后續(xù)內(nèi)容則動(dòng)態(tài)生成并無(wú)縫銜接。AI生成視頻,邊生成邊實(shí)時(shí)播放,終于不用等了!
相關(guān)鏈接
- 論文地址:https://arxiv.org/abs/2412.07772
- 項(xiàng)目鏈接:https://causvid.github.io/
論文介紹
當(dāng)前的視頻擴(kuò)散模型實(shí)現(xiàn)了令人印象深刻的生成質(zhì)量,但由于雙向注意力依賴性,在交互式應(yīng)用中表現(xiàn)不佳。生成單個(gè)幀需要模型處理整個(gè)序列,包括未來(lái)。我們通過(guò)將預(yù)訓(xùn)練的雙向擴(kuò)散變壓器調(diào)整為可即時(shí)生成幀的自回歸變壓器來(lái)解決這一限制。為了進(jìn)一步減少延遲,我們將分布匹配蒸餾 (DMD) 擴(kuò)展到視頻,將 50 步擴(kuò)散模型蒸餾為 4 步生成器。為了實(shí)現(xiàn)穩(wěn)定和高質(zhì)量的蒸餾,我們引入了基于教師 ODE 軌跡的學(xué)生初始化方案,以及監(jiān)督具有雙向教師的因果學(xué)生模型的非對(duì)稱蒸餾策略。這種方法有效地減輕了自回歸生成中的錯(cuò)誤積累,盡管在短片段上進(jìn)行訓(xùn)練,但仍允許長(zhǎng)時(shí)間的視頻合成。我們的模型在 VBench-Long 基準(zhǔn)上獲得了 84.27 的總分,超越了所有以前的視頻生成模型。得益于 KV 緩存,它能夠在單 GPU 上以 9.4 FPS 的速度快速流式生成高質(zhì)量視頻。我們的方法還能夠以零樣本方式實(shí)現(xiàn)流式視頻到視頻的轉(zhuǎn)換、圖像到視頻和動(dòng)態(tài)提示。我們將在未來(lái)基于開源模型發(fā)布代碼。
CausVid 方法概述
我們的方法將多步雙向視頻傳播模型的數(shù)據(jù)提煉為4步因果生成器G ?。訓(xùn)練過(guò)程包括兩個(gè)階段:(1)學(xué)生初始化:我們通過(guò)在由雙向教師生成的一小組 ODE 解對(duì)上對(duì)其進(jìn)行預(yù)訓(xùn)練來(lái)初始化因果學(xué)生。此步驟有助于穩(wěn)定后續(xù)的蒸餾訓(xùn)練。(2)非對(duì)稱蒸餾:使用雙向教師模型,我們 通過(guò)分布匹配蒸餾損失 來(lái)訓(xùn)練因果學(xué)生生成器。
一流的文本轉(zhuǎn)視頻生成質(zhì)量
我們的模型在 VBench 上獲得了 84.27 的總分(參見(jiàn) VBench 排行榜),在所有經(jīng)過(guò)驗(yàn)證的提交中排名第一,并以 9.4 FPS 的速度在單個(gè) GPU 上實(shí)現(xiàn)了快速流式推理。雷達(dá)圖直觀地展示了我們的方法在幾個(gè)關(guān)鍵指標(biāo)上的綜合性能優(yōu)勢(shì),包括動(dòng)態(tài)程度、美學(xué)質(zhì)量、成像質(zhì)量、對(duì)象類別、多個(gè)對(duì)象和人類動(dòng)作。此外,根據(jù)我們的人工評(píng)估,我們的快速模型超越了競(jìng)爭(zhēng)方法(例如 CogVideoX、PyramidFlow、MovieGen 和我們的雙向教師),所有這些方法的速度都明顯慢了幾個(gè)數(shù)量級(jí)。
交互式用戶界面
我們展示了一個(gè)交互式用戶界面 (UI),其特點(diǎn)是文本到 10 秒的視頻生成、通過(guò)滑動(dòng)窗口推理的無(wú)限長(zhǎng)視頻生成以及圖像到視頻的生成功能。
效果展示
我們的方法支持多種視頻生成任務(wù)。該模型可以從單個(gè)文本提示(頂行)或附加圖像輸入(第二行)生成視頻。我們的模型還支持交互式應(yīng)用程序,其中生成結(jié)果以低延遲響應(yīng)用戶輸入。例如,它可以為基本游戲引擎渲染的輸出添加逼真的紋理和燈光,該引擎可以動(dòng)態(tài)響應(yīng)用戶輸入(第三行)。此外,它還支持動(dòng)態(tài)提示(第四行),允許用戶在視頻中的任何位置輸入新提示,以構(gòu)建具有不斷發(fā)展的動(dòng)作和環(huán)境的擴(kuò)展敘述。
CausVid 表明自回歸視頻擴(kuò)散可以有效地?cái)U(kuò)展到一般的文本到視頻任務(wù), 實(shí)現(xiàn)與雙向擴(kuò)散模型相當(dāng)?shù)馁|(zhì)量。此外,當(dāng)與蒸餾技術(shù)結(jié)合使用時(shí),它可以提供多個(gè)數(shù)量級(jí)的加速。
CausVid 專門針對(duì)文本到視頻生成進(jìn)行訓(xùn)練,由于其自回歸設(shè)計(jì),可以零樣本應(yīng)用于圖像到視頻任務(wù)。在所示的示例中,第一列表示輸入圖像,而后續(xù)幀表示生成的輸出。