生成任意3D和4D場(chǎng)景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國(guó)立&微軟
文章鏈接: https://arxiv.org/pdf/2411.02319
項(xiàng)目鏈接:https://gen-x-d.github.io/
亮點(diǎn)直擊
- 設(shè)計(jì)了一個(gè)數(shù)據(jù)整理流程,從視頻中獲取包含可移動(dòng)物體的高質(zhì)量4D數(shù)據(jù),并為30,000個(gè)視頻標(biāo)注了相機(jī)姿態(tài)。這個(gè)大規(guī)模數(shù)據(jù)集稱為CamVid-30K,將公開供公眾使用。
- 提出了一個(gè)3D-4D聯(lián)合框架GenXD,支持各種設(shè)置下的圖像條件3D和4D生成(見下表1)。在GenXD中,引入了多視角時(shí)序?qū)樱越怦詈腿诤隙嘁暯呛蜁r(shí)序信息。
- 通過使用提出的CamVid-30K和其他現(xiàn)有的3D和4D數(shù)據(jù)集,GenXD在單視角3D對(duì)象生成、少視角3D場(chǎng)景重建、單視角4D生成以及單/多視角4D生成方面達(dá)到了與之前最先進(jìn)的方法和基線方法相當(dāng)或更優(yōu)的性能。
總結(jié)速覽
解決的問題
現(xiàn)有的2D視覺生成已取得顯著進(jìn)展,但3D和4D生成在實(shí)際應(yīng)用中仍然面臨挑戰(zhàn),主要由于缺乏大規(guī)模4D數(shù)據(jù)和有效的模型設(shè)計(jì)。
提出的方案
- 提出了一種數(shù)據(jù)整理流程,從視頻中提取相機(jī)姿態(tài)和物體運(yùn)動(dòng)強(qiáng)度。
- 基于該流程,創(chuàng)建了一個(gè)大規(guī)模的4D場(chǎng)景數(shù)據(jù)集:CamVid-30K。
- 開發(fā)了生成框架GenXD,通過相機(jī)和物體運(yùn)動(dòng)解耦模塊(多視角時(shí)序模塊),在3D和4D數(shù)據(jù)中進(jìn)行無縫學(xué)習(xí)。
- 采用masked隱空間條件,支持多種視角條件生成。
應(yīng)用的技術(shù)
- 數(shù)據(jù)整理流程用于生成4D場(chǎng)景數(shù)據(jù)。
- 多視角時(shí)序模塊用于解耦相機(jī)和物體運(yùn)動(dòng)。
- mask隱空間條件用于支持不同視角的條件生成。
達(dá)到的效果
GenXD能夠生成符合相機(jī)軌跡的視頻,同時(shí)提供一致的3D視圖,并支持生成3D表示形式。通過多種真實(shí)和合成數(shù)據(jù)集上的評(píng)估,驗(yàn)證了GenXD在3D和4D生成中的有效性和多功能性。
CAMVID-30K
大規(guī)模4D場(chǎng)景數(shù)據(jù)的缺乏限制了動(dòng)態(tài)3D任務(wù)的發(fā)展,包括但不限于4D生成、動(dòng)態(tài)相機(jī)姿態(tài)估計(jì)和可控視頻生成。為了解決這一問題,本文引入了一個(gè)高質(zhì)量的4D數(shù)據(jù)集。首先,使用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)的方法來估計(jì)相機(jī)姿態(tài),然后通過提出的運(yùn)動(dòng)強(qiáng)度過濾掉不含物體運(yùn)動(dòng)的數(shù)據(jù)。數(shù)據(jù)流程如下圖2所示:
相機(jī)姿態(tài)估計(jì)
相機(jī)姿態(tài)估計(jì)基于SfM,它通過一系列圖像中的投影重建3D結(jié)構(gòu)。SfM包含三個(gè)主要步驟:
- 特征檢測(cè)和提取
- 特征匹配和幾何驗(yàn)證
- 3D重建和相機(jī)姿態(tài)估計(jì)
在第二步中,匹配的特征必須位于場(chǎng)景的靜態(tài)部分,否則物體運(yùn)動(dòng)會(huì)在特征匹配時(shí)被誤認(rèn)為是相機(jī)運(yùn)動(dòng),影響相機(jī)姿態(tài)估計(jì)的準(zhǔn)確性。
為了解決這一問題,Particle-SfM使用運(yùn)動(dòng)分割模塊將移動(dòng)物體與靜態(tài)背景分開,然后在靜態(tài)部分執(zhí)行SfM以估計(jì)相機(jī)姿態(tài)。然而,當(dāng)相機(jī)本身在運(yùn)動(dòng)時(shí),精確檢測(cè)運(yùn)動(dòng)像素極其困難,通過實(shí)驗(yàn)觀察到Zhao等人的運(yùn)動(dòng)分割模塊缺乏足夠的泛化性,導(dǎo)致假陰性和不準(zhǔn)確的相機(jī)姿態(tài)。為了獲得準(zhǔn)確的相機(jī)姿態(tài),分割出所有移動(dòng)像素是必不可少的。在這種情況下,假陽性錯(cuò)誤比假陰性更為可接受。為此,本文使用實(shí)例分割模型貪婪地分割出所有可能移動(dòng)的像素。實(shí)例分割模型在訓(xùn)練類別上比Zhao等人的運(yùn)動(dòng)分割模塊具有更強(qiáng)的泛化能力。在分割出潛在移動(dòng)像素后,使用Particle-SfM來估計(jì)相機(jī)姿態(tài),從而獲得相機(jī)信息和稀疏點(diǎn)云(上圖2(a))。
物體運(yùn)動(dòng)估計(jì)
分解相機(jī)和物體運(yùn)動(dòng)。 雖然實(shí)例分割可以準(zhǔn)確地將物體與背景分離,但它無法判斷物體本身是否在運(yùn)動(dòng),而靜態(tài)物體會(huì)對(duì)運(yùn)動(dòng)學(xué)習(xí)產(chǎn)生負(fù)面影響。因此,引入了運(yùn)動(dòng)強(qiáng)度來識(shí)別真實(shí)的物體運(yùn)動(dòng),并過濾掉僅包含靜態(tài)物體的視頻。
由于視頻中同時(shí)存在相機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng),基于2D的運(yùn)動(dòng)估計(jì)方法(如光流)無法準(zhǔn)確表示真實(shí)的物體運(yùn)動(dòng)。有兩種方法可以捕捉真實(shí)的物體運(yùn)動(dòng):一是測(cè)量3D空間中的運(yùn)動(dòng),二是將視頻中的運(yùn)動(dòng)投影到相同的相機(jī)視角上。兩種方法都需要與相機(jī)姿態(tài)尺度對(duì)齊的深度圖。稀疏深度圖可以通過將3D點(diǎn)云 投影到相機(jī)視角上獲得:
其中 表示點(diǎn)云 在相機(jī)空間中的坐標(biāo)。 和 分別表示從世界空間到相機(jī)空間的旋轉(zhuǎn)和平移, 是相機(jī)內(nèi)參。通過投影公式,可以在圖像像素 處獲得深度值 ,即 。
如前面圖2(a)所示,由于在3D重建過程中只匹配了靜態(tài)部分的特征,因此只能獲得靜態(tài)區(qū)域的稀疏點(diǎn)云。然而,動(dòng)態(tài)部分的深度信息對(duì)運(yùn)動(dòng)估計(jì)至關(guān)重要。為了解決這一問題,利用一個(gè)預(yù)訓(xùn)練的相對(duì)單目深度估計(jì)模型來預(yù)測(cè)每幀的相對(duì)深度 。然后,應(yīng)用比例因子 和偏移量 使其與SfM的稀疏深度對(duì)齊。
其中 表示中值, 為與SfM深度尺度對(duì)齊的密集深度圖。
物體運(yùn)動(dòng)場(chǎng)。通過對(duì)齊的深度 ,可以將幀中的動(dòng)態(tài)物體投影到3D空間中,從而提供一種直接測(cè)量物體運(yùn)動(dòng)的方法。如圖2(b)所示,如果物體(例如穿綠襯衫的男子)在移動(dòng),則投影的3D點(diǎn)云會(huì)產(chǎn)生位移。然而,由于SfM僅能操作到一定的尺度,直接在3D空間中測(cè)量運(yùn)動(dòng)可能會(huì)導(dǎo)致量級(jí)問題。因此,將動(dòng)態(tài)物體投影到相鄰視圖中并估計(jì)物體運(yùn)動(dòng)場(chǎng)。
具體而言,首先需要在2D視頻中找到匹配點(diǎn)。不同于使用光流等密集表示,為每個(gè)物體實(shí)例采樣關(guān)鍵點(diǎn),并在2D視頻中使用視頻物體分割和關(guān)鍵點(diǎn)跟蹤來建立匹配關(guān)系。然后將每個(gè)關(guān)鍵點(diǎn)投影到相鄰幀中。第幀中的關(guān)鍵點(diǎn) 首先被反投影到世界空間,以獲得3D關(guān)鍵點(diǎn) 。
其中 是對(duì)齊的密集深度圖中的深度值。然后,使用投影方程(公式1)將3D關(guān)鍵點(diǎn)投影到第幀,得到2D投影關(guān)鍵點(diǎn) 。類似于光流,將每個(gè)2D關(guān)鍵點(diǎn)在第二個(gè)相機(jī)視圖上的位移表示為物體運(yùn)動(dòng)場(chǎng)。
其中 和 分別表示圖像的高度和寬度。
通過對(duì)每個(gè)物體的運(yùn)動(dòng)場(chǎng)進(jìn)行處理,可以通過計(jì)算運(yùn)動(dòng)場(chǎng)的絕對(duì)大小的平均值來估計(jì)物體的全局運(yùn)動(dòng)。對(duì)于每個(gè)視頻,運(yùn)動(dòng)強(qiáng)度由所有物體中的最大運(yùn)動(dòng)值表示。如下圖3所示,當(dāng)相機(jī)移動(dòng)而物體保持靜止(第二個(gè)例子)時(shí),運(yùn)動(dòng)強(qiáng)度相比于物體有運(yùn)動(dòng)的視頻要小得多。通過使用運(yùn)動(dòng)強(qiáng)度,進(jìn)一步過濾掉缺乏明顯物體運(yùn)動(dòng)的數(shù)據(jù)。運(yùn)動(dòng)強(qiáng)度值也作為物體運(yùn)動(dòng)尺度的良好指示器,用于時(shí)間層以實(shí)現(xiàn)更好的運(yùn)動(dòng)控制。
GenXD
生成模型
由于大多數(shù)場(chǎng)景級(jí)的3D和4D數(shù)據(jù)是通過視頻捕獲的,這些數(shù)據(jù)缺乏明確的表示(如網(wǎng)格)。因此,本文采用了一種方法,通過與空間相機(jī)姿態(tài)和時(shí)間步對(duì)齊的圖像生成這些數(shù)據(jù)。將隱空間擴(kuò)散模型(Latent Diffusion Model,LDM)融入到本文的框架中,加入了額外的多視角時(shí)間層,包括多視角時(shí)間ResBlocks和多視角時(shí)間變換器,以解耦和融合3D和時(shí)間信息。
Mask隱空間條件擴(kuò)散模型
在GenXD中,隱空間擴(kuò)散模型(LDM)用于生成不同相機(jī)視角和時(shí)間的圖像/視頻。LDM首先通過變分自編碼器(VAE)將圖像/視頻編碼為隱代碼 ,并通過高斯噪聲 擴(kuò)散該隱代碼以獲得 。然后,使用去噪模型 來估計(jì)噪聲,并通過條件反向擴(kuò)散過程。
其中 是用于可控生成的條件,通常是文本或圖像。GenXD生成具有相機(jī)姿態(tài)和參考圖像的多視角圖像和視頻,因此它需要同時(shí)使用相機(jī)條件和圖像條件。相機(jī)條件對(duì)于每張圖像都是獨(dú)立的,可以是條件化的或目標(biāo)化的。因此,可以將相機(jī)條件輕松地附加到每個(gè)潛在空間。這里選擇了普呂克射線作為相機(jī)條件。
其中 和 分別表示相機(jī)中心和從相機(jī)中心到每個(gè)圖像像素的射線方向。因此,普呂克射線是一種密集嵌入編碼,不僅包括像素信息,還包括相機(jī)姿態(tài)和內(nèi)參信息,比全局相機(jī)表示更為精確。
參考圖像條件更為復(fù)雜。GenXD旨在進(jìn)行單視圖和多視圖的3D和4D生成。單視圖生成要求較低,而多視圖生成則能提供更一致的結(jié)果。因此,結(jié)合單視圖和多視圖生成將更適合實(shí)際應(yīng)用。然而,之前的工作通過將條件隱變量與目標(biāo)隱變量連接,并通過跨注意力引入CLIP圖像嵌入來對(duì)圖像進(jìn)行條件化。連接方式需要改變模型的通道,無法處理任意輸入視角。CLIP嵌入支持多條件輸入,但這兩種方法都無法建模多個(gè)條件的位置信息,也無法在輸入視圖之間建模信息。鑒于這些限制,采用了masked隱變量條件化來處理圖像條件。正如下圖4所示,在通過VAE編碼器編碼后,前向擴(kuò)散過程應(yīng)用于目標(biāo)幀(第二和第三幀),并像往常一樣將條件隱變量(第一幀)保持不變。然后,去噪模型估計(jì)兩幀上的噪聲并通過反向過程去除。
Masked隱變量條件化有三個(gè)主要優(yōu)點(diǎn)。首先,模型可以支持任何輸入視圖,而無需修改參數(shù)。其次,對(duì)于序列生成(多視圖圖像或視頻),無需約束條件幀的位置,因?yàn)闂l件幀在序列中保持其位置。與此相反,許多工作要求條件圖像位于序列中的固定位置(通常是第一幀)。第三,由于沒有來自其他模型的條件嵌入,用于集成條件嵌入的跨注意力層可以移除,從而大大減少了模型參數(shù)數(shù)量。為此,在GenXD中采用了masked隱變量條件化方法。
多視圖時(shí)間模塊
由于GenXD旨在在單一模型中生成3D和4D樣本,因此需要將多視圖信息與時(shí)間信息進(jìn)行解耦。在兩個(gè)獨(dú)立的層中建模這兩種信息:多視圖層和時(shí)間層。對(duì)于3D生成,不考慮時(shí)間信息,而4D生成則需要同時(shí)考慮多視圖和時(shí)間信息。因此,如上圖4所示,本文提出了一種α融合策略用于4D生成。具體來說,為4D生成引入了一個(gè)可學(xué)習(xí)的融合權(quán)重α,當(dāng)進(jìn)行3D生成時(shí),α設(shè)置為0。通過這種α融合策略,GenXD可以在多視圖層中保留3D數(shù)據(jù)的多視圖信息,同時(shí)從4D數(shù)據(jù)中學(xué)習(xí)時(shí)間信息。
α融合可以有效地解耦多視圖和時(shí)間信息。然而,沒有任何提示的情況下,運(yùn)動(dòng)較難控制。視頻生成模型使用FPS或運(yùn)動(dòng)ID來控制運(yùn)動(dòng)的幅度,但未考慮相機(jī)運(yùn)動(dòng)。得益于CamVid-30K中的運(yùn)動(dòng)強(qiáng)度,能夠有效地表示物體運(yùn)動(dòng)。由于運(yùn)動(dòng)強(qiáng)度是一個(gè)常量,將其與擴(kuò)散時(shí)間步長(zhǎng)結(jié)合,并將其添加到時(shí)間ResBlock層,如圖4中的多視圖時(shí)間ResBlock所示。通過多視圖時(shí)間模塊,GenXD可以有效地進(jìn)行3D和4D生成。
使用3D表示的生成
GenXD可以使用一個(gè)或多個(gè)條件圖像生成具有不同視角和時(shí)間步長(zhǎng)的圖像。然而,為了呈現(xiàn)任意3D一致的視圖,需要將生成的樣本提升到3D表示。先前的工作通常通過從生成模型中提取知識(shí)來優(yōu)化3D表示。由于GenXD能夠生成高質(zhì)量且一致的結(jié)果,直接使用生成的圖像來優(yōu)化3D表示。使用3D高斯點(diǎn)云(3D-GS)和Zip-NeRF進(jìn)行3D生成,使用4D高斯點(diǎn)云進(jìn)行4D生成。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集
GenXD是在3D和4D數(shù)據(jù)集的結(jié)合下進(jìn)行訓(xùn)練的。對(duì)于3D數(shù)據(jù)集,使用了五個(gè)帶有相機(jī)姿態(tài)注釋的數(shù)據(jù)集:Objaverse 、MVImageNet、Co3D、Re10K 和 ACID。Objaverse是一個(gè)合成數(shù)據(jù)集,包含網(wǎng)格數(shù)據(jù),從12個(gè)視角渲染了80K子集,并按照的方法進(jìn)行渲染。MVImageNet和Co3D是視頻數(shù)據(jù),分別記錄了239個(gè)和50個(gè)類別的物體。Re10K和ACID是記錄現(xiàn)實(shí)世界室內(nèi)和室外場(chǎng)景的視頻數(shù)據(jù)。對(duì)于4D數(shù)據(jù)集,使用了合成數(shù)據(jù)集Objaverse-XL-Animation和CamVid-30K數(shù)據(jù)集。對(duì)于Objaverse-XL-Animation,使用了Liang et al.(2024)篩選的子集,并通過向軌跡攝像機(jī)軌跡中添加噪聲重新渲染了深度圖和圖像。利用地面真值深度,根據(jù)前面的方法估計(jì)物體運(yùn)動(dòng)強(qiáng)度,然后過濾掉沒有明顯物體運(yùn)動(dòng)的數(shù)據(jù)。最后,從Objaverse-XL-Animation中獲得了44K合成數(shù)據(jù),從CamVid-30K中獲得了30K現(xiàn)實(shí)世界數(shù)據(jù)。
實(shí)現(xiàn)細(xì)節(jié)
GenXD部分初始化自Stable Video Diffusion (SVD)的預(yù)訓(xùn)練模型以實(shí)現(xiàn)快速收斂。具體來說,GenXD的多視圖層(多視圖卷積和多視圖自注意力)和時(shí)間層(時(shí)間卷積和時(shí)間自注意力)都來自SVD中的時(shí)間層,而SVD中的跨注意力層被去除。GenXD的訓(xùn)練分為三個(gè)階段。首先,只使用3D數(shù)據(jù)訓(xùn)練UNet模型500K次迭代;然后,在單視圖模式下,使用3D和4D數(shù)據(jù)進(jìn)行500K次迭代的微調(diào);最后,GenXD在所有數(shù)據(jù)上使用單視圖和多視圖模式進(jìn)行500K次迭代的訓(xùn)練。模型在32個(gè)A100 GPU上訓(xùn)練,批量大小為128,分辨率為256×256。采用AdamW優(yōu)化器,學(xué)習(xí)率為。在第一階段,數(shù)據(jù)被中心裁剪為方形。在最終階段,通過中心裁剪或填充將圖像處理為方形,使得GenXD可以很好地處理不同的圖像比例。
4D 生成
4D 場(chǎng)景生成
在此設(shè)置中,評(píng)估需要包含物體和相機(jī)運(yùn)動(dòng)的視頻。因此,引入了Cam-DAVIS基準(zhǔn)來進(jìn)行4D評(píng)估。使用提出的注釋流程來獲取DAVIS數(shù)據(jù)集(Per-dataset)中視頻的相機(jī)姿態(tài)。然后,過濾數(shù)據(jù),得到20個(gè)具有準(zhǔn)確相機(jī)姿態(tài)和明顯物體運(yùn)動(dòng)的視頻。Cam-DAVIS的數(shù)據(jù)相機(jī)軌跡與訓(xùn)練數(shù)據(jù)存在分布外差異,因此它們是評(píng)估相機(jī)運(yùn)動(dòng)魯棒性的良好標(biāo)準(zhǔn)。
將GenXD與開源的相機(jī)條件視頻生成方法——MotionCtrl和 CameraCtrl 進(jìn)行了比較,使用FID 和 FVD 評(píng)估指標(biāo)。將Stable Video Diffusion作為這兩種方法的基礎(chǔ)模型,生成帶有相機(jī)軌跡和第一幀條件的視頻。如下表2所示,使用第一視圖作為條件,GenXD在兩個(gè)指標(biāo)上顯著優(yōu)于CameraCtrl和MotionCtrl。此外,使用3個(gè)視圖作為條件(第一、中央和最后一幀),GenXD相較于之前的工作有了大幅度的提升。這些結(jié)果展示了GenXD在4D生成中的強(qiáng)大泛化能力。在下圖5中,比較了三種方法的定性結(jié)果。在這個(gè)例子中,MotionCtrl無法生成明顯的物體運(yùn)動(dòng),而CameraCtrl生成的視頻既不具有3D特性,也沒有時(shí)間一致性。相反,單視圖條件模型可以生成平滑且一致的4D視頻。使用3個(gè)條件視圖時(shí),GenXD能夠生成相當(dāng)逼真的結(jié)果。
4D 物體生成
根據(jù)Zhao et al.(2023)的方法評(píng)估了4D物體生成的性能。由于GenXD僅使用圖像條件,而不是像Animate124那樣使用圖像-文本條件,下表3中對(duì)比了優(yōu)化時(shí)間和CLIP圖像相似性。與使用分?jǐn)?shù)蒸餾采樣(SDS)優(yōu)化動(dòng)態(tài)NeRF不同,GenXD直接生成軌道相機(jī)軌跡的4D視頻,并使用這些視頻來優(yōu)化4D-GS。這使得本文的方法比Animate124快了100倍。此外,Zhao et al.(2023)中提到的語義漂移問題在GenXD中得到了很好的解決,因?yàn)槭褂昧藞D像條件進(jìn)行4D生成。4D場(chǎng)景和物體生成的結(jié)果展示了GenXD在生成具有3D和時(shí)間一致性的4D視頻方面的優(yōu)越性。
3D 生成
少視圖3D生成
在少視圖3D重建設(shè)置中,在Re10K(分布內(nèi)數(shù)據(jù)集)和LLFF (分布外數(shù)據(jù)集)上評(píng)估了GenXD。從Re10K中選擇了10個(gè)場(chǎng)景,從LLFF中選擇了所有8個(gè)場(chǎng)景,每個(gè)場(chǎng)景使用3個(gè)視圖進(jìn)行訓(xùn)練。性能通過PSNR、SSIM和LPIPS指標(biāo)在渲染的測(cè)試視圖上進(jìn)行評(píng)估。作為一個(gè)生成模型,GenXD可以從稀疏輸入視圖中生成額外視圖,并改善任何重建方法的性能。在這個(gè)實(shí)驗(yàn)中,使用了兩個(gè)基線方法:Zip-NeRF和 3D-GS。這兩個(gè)基線方法是面向多視圖重建的方法,因此調(diào)整了超參數(shù)以便更好地進(jìn)行少視圖重建(更多細(xì)節(jié)請(qǐng)見附錄D)。如下表4所示,Zip-NeRF和3D-GS都可以通過GenXD生成的圖像得到改善,而且在Zip-NeRF基線上的改善更加顯著。具體來說,Re10K(分布內(nèi))和LLFF(分布外)的PSNR分別提高了4.82和5.13。定性比較如下圖6所示。通過生成的視圖,重建場(chǎng)景中的浮動(dòng)和模糊得到了減少。
消融研究
本節(jié)進(jìn)行多視圖-時(shí)間模塊的消融研究。消融研究評(píng)估了在少視圖3D和單視圖4D生成設(shè)置下生成的擴(kuò)散樣本的質(zhì)量(見下表5)。
運(yùn)動(dòng)解纏(α融合)
在4D數(shù)據(jù)中,相機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng)是糾纏在一起的。為了在3D和4D中都能實(shí)現(xiàn)高質(zhì)量生成,GenXD引入了多視圖-時(shí)間模塊,將多視圖和時(shí)間信息分別學(xué)習(xí),然后通過α融合將它們結(jié)合起來。對(duì)于3D生成,α設(shè)置為0,以繞過時(shí)間模塊,而在4D生成中,α在訓(xùn)練過程中學(xué)習(xí)。移除α融合將導(dǎo)致所有3D和4D數(shù)據(jù)都通過時(shí)間模塊,從而使得模型無法將物體運(yùn)動(dòng)從相機(jī)運(yùn)動(dòng)中解纏開來。解纏失敗會(huì)對(duì)3D和4D生成產(chǎn)生不利影響。
運(yùn)動(dòng)強(qiáng)度的有效性
運(yùn)動(dòng)強(qiáng)度可以有效地控制物體運(yùn)動(dòng)的幅度。如下圖7倒數(shù)第二行所示,增加運(yùn)動(dòng)強(qiáng)度可以提高汽車的速度。根據(jù)這些觀察,可以得出結(jié)論,學(xué)習(xí)物體運(yùn)動(dòng)是很重要的,并且在數(shù)據(jù)策劃流程中的物體運(yùn)動(dòng)場(chǎng)和運(yùn)動(dòng)強(qiáng)度能夠準(zhǔn)確地表示真實(shí)的物體運(yùn)動(dòng)。
更多結(jié)果
結(jié)論
本文研究了使用擴(kuò)散模型進(jìn)行通用3D和4D生成。為了增強(qiáng)4D生成的學(xué)習(xí),首先提出了一種數(shù)據(jù)策劃流程,用于注釋視頻中的相機(jī)和物體運(yùn)動(dòng)。在此流程的支持下,本文引入了最大的現(xiàn)實(shí)世界4D場(chǎng)景數(shù)據(jù)集——CamVid-30K。此外,借助大規(guī)模數(shù)據(jù)集,提出了GenXD來處理通用3D和4D生成。GenXD利用多視圖-時(shí)間模塊來解纏相機(jī)和物體運(yùn)動(dòng),并能夠通過masked隱空間條件支持任意數(shù)量的輸入條件視圖。GenXD能夠處理多種應(yīng)用,并且在所有設(shè)置中,單一模型可以實(shí)現(xiàn)可比或更好的性能。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
