只需一張圖片、一句動作指令,Animate124輕松生成3D視頻
近一年來,DreamFusion 引領(lǐng)了一個新潮流,即 3D 靜態(tài)物體與場景的生成,這在生成技術(shù)領(lǐng)域引發(fā)了廣泛關(guān)注?;仡欉^去一年,我們見證了 3D 靜態(tài)生成技術(shù)在質(zhì)量和控制性方面的顯著進(jìn)步。技術(shù)發(fā)展從基于文本的生成起步,逐漸融入單視角圖像,進(jìn)而發(fā)展到整合多種控制信號。
與此相較,3D 動態(tài)場景生成仍處于起步階段。2023 年初,Meta 推出了 MAV3D,標(biāo)志著首次嘗試基于文本生成 3D 視頻。然而,受限于開源視頻生成模型的缺乏,這一領(lǐng)域的進(jìn)展相對緩慢。
然而,現(xiàn)在,基于圖文結(jié)合的 3D 視頻生成技術(shù)已經(jīng)問世!
盡管基于文本的 3D 視頻生成能夠產(chǎn)生多樣化的內(nèi)容,但在控制物體的細(xì)節(jié)和姿態(tài)方面仍有局限。在 3D 靜態(tài)生成領(lǐng)域,使用單張圖片作為輸入已經(jīng)能夠有效重建 3D 物體。由此受到啟發(fā),來自新加坡國立大學(xué)(NUS)和華為的研究團(tuán)隊(duì)提出了 Animate124 模型。該模型結(jié)合單張圖片和相應(yīng)的動作描述,實(shí)現(xiàn)了對 3D 視頻生成的精準(zhǔn)控制。

- 項(xiàng)目主頁: https://animate124.github.io/
- 論文地址: https://arxiv.org/abs/2311.14603
- Code: https://github.com/HeliosZhao/Animate124

核心方法
方法概括
根據(jù)靜態(tài)和動態(tài),粗糙和精細(xì)優(yōu)化,本文將 3D 視頻生成分為了 3 個階段:1)靜態(tài)生成階段:使用文生圖和 3D 圖生圖擴(kuò)散模型,從單張圖像生成 3D 物體;2)動態(tài)粗糙生成階段:使用文生視頻模型,根據(jù)語言描述優(yōu)化動作;3) 語義優(yōu)化階段:額外使用個性化微調(diào)的 ControlNet,對第二階段語言描述對外觀造成的偏移進(jìn)行優(yōu)化改善。

圖 1. 整體框架
靜態(tài)生成
本文延續(xù) Magic123 的方法,使用文生圖(Stable Diffusion)和 3D 圖生圖(Zero-1-to-3)進(jìn)行基于圖片的靜態(tài)物體生成:

對于條件圖片所對應(yīng)的視角,額外使用損失函數(shù)進(jìn)行優(yōu)化:

通過上述兩個優(yōu)化目標(biāo),得到多視角 3D 一致的靜態(tài)物體(此階段在框架圖中省略)。
動態(tài)粗糙生成
此階段主要使用文生視頻擴(kuò)散模型,將靜態(tài) 3D 視為初始幀,根據(jù)語言描述生成動作。具體來說,動態(tài) 3D 模型(dynamic NeRF)渲染連續(xù)時間戳的多幀視頻,并將此視頻輸入文生視頻擴(kuò)散模型,采用 SDS 蒸餾損失對動態(tài) 3D 模型進(jìn)行優(yōu)化:

僅使用文生視頻的蒸餾損失會導(dǎo)致 3D 模型遺忘圖片的內(nèi)容,并且隨機(jī)采樣會導(dǎo)致視頻的初始和結(jié)束階段訓(xùn)練不充分。因此,本文的研究者們對開始和結(jié)束的時間戳進(jìn)行過采樣。并且,在采樣初始幀時,額外使用靜態(tài)函數(shù)進(jìn)行優(yōu)化(3D 圖生圖的 SDS 蒸餾損失):

因此,此階段的損失函數(shù)為:

語義優(yōu)化
即使采用了初始幀過采樣并且對其額外監(jiān)督,在使用文生視頻擴(kuò)散模型的優(yōu)化過程中,物體的外觀仍然會受到文本的影響,從而偏移參考圖片。因此,本文提出了語義優(yōu)化階段,通過個性化模型對語義偏移進(jìn)行改善。
由于僅有單張圖片,無法對文生視頻模型進(jìn)行個性化訓(xùn)練,本文引入了基于圖文的擴(kuò)散模型,并對此擴(kuò)散模型進(jìn)行個性化微調(diào)。此擴(kuò)散模型應(yīng)不改變原有視頻的內(nèi)容和動作,僅對外觀進(jìn)行調(diào)整。因此,本文采用 ControlNet-Tile 圖文模型,使用上一階段生成的視頻幀作為條件,根據(jù)語言進(jìn)行優(yōu)化。ControlNet 基于 Stable Diffusion 模型,只需要對 Stable Diffusion 進(jìn)行個性化微調(diào)(Textual Inversion),即可提取參考圖像中的語義信息。個性化微調(diào)之后,將視頻視為多幀圖像,使用 ControlNet 對單個圖像進(jìn)行監(jiān)督:

另外,因?yàn)?ControlNet 使用粗糙的圖片作為條件,classifier-free guidance (CFG) 可以使用正常范圍(10 左右),而不用與文生圖以及文生視頻模型一樣使用極大的數(shù)值(通常是 100)。過大的 CFG 會導(dǎo)致圖像過飽和,因此,使用 ControlNet 擴(kuò)散模型可以緩解過飽和現(xiàn)象,實(shí)現(xiàn)更優(yōu)的生成結(jié)果。此階段的監(jiān)督由動態(tài)階段的損失和 ControlNet 監(jiān)督聯(lián)合而成:

實(shí)驗(yàn)結(jié)果
作為第一個基于圖文的 3D 視頻生成模型,本文與兩個 baseline 模型和 MAV3D 進(jìn)行了比較。與其他方法相比,Animate124 有更好的效果。
可視化結(jié)果比較

圖 2. Animate124 與兩個 baseline 比較

圖 3.1. Animate124 與 MAV3D 文生 3D 視頻比較

圖 3.1. Animate124 與 MAV3D 圖生 3D 視頻比較
量化結(jié)果比較
本文使用 CLIP 和人工評價生成的質(zhì)量,CLIP 指標(biāo)包括與文本的相似度和檢索準(zhǔn)確率,與圖片的相似度,以及時域一致性。人工評價指標(biāo)包括與文本的相似度,與圖片的相似度,視頻質(zhì)量,動作真實(shí)程度以及動作幅度。人工評價表現(xiàn)為單個模型與 Animate124 在對應(yīng)指標(biāo)上選擇的比例。
與兩個 baseline 模型相比,Animate124 在 CLIP 和人工評價上均取得更好的效果。

表 1. Animate124 與兩個 baseline 量化比較
總結(jié)
Animate124 是首個根據(jù)文本描述,將任意圖片變成 3D 視頻的方法。其采用多種擴(kuò)散模型進(jìn)行監(jiān)督和引導(dǎo),優(yōu)化 4D 動態(tài)表征網(wǎng)絡(luò),從而生成高質(zhì)量 3D 視頻。



































