無論真實(shí)還是AI視頻,「摩斯卡」都能重建恢復(fù)4D動態(tài)可渲染場景
雷嘉暉,美國賓夕法尼亞大學(xué)計(jì)算機(jī)系博士生 (2020 - 今), 導(dǎo)師為 Kostas Daniilidis 教授,目前主要研究方向?yàn)樗木S動態(tài)場景幾何的建模表示和算法以及應(yīng)用。他在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)頂會 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份發(fā)表文章 7 篇。此前他本科 (2016-2020) 以專業(yè)第一名的成績畢業(yè)于浙江大學(xué)控制系,竺可楨學(xué)院混合班。
從任意單目視頻重建可渲染的動態(tài)場景是計(jì)算機(jī)視覺研究領(lǐng)域的一個圣杯。本文中,賓夕法尼亞大學(xué)和斯坦福大學(xué)研究團(tuán)隊(duì)嘗試向這一目標(biāo)邁進(jìn)一小步。
互聯(lián)網(wǎng)上有海量單目視頻,其中蘊(yùn)含了大量物理世界的信息,但三維視覺仍缺乏行之有效的手段,將三維動態(tài)信息從這些視頻中提取出來,從而支撐未來三維大模型建模及理解動態(tài)物理世界。盡管重要,這個反問題極具挑戰(zhàn)性。
- 其一,真實(shí)拍攝的二維視頻往往缺乏多視角信息,因此不能利用多視角幾何進(jìn)行三維重建,甚至在很多情況下無法通過已有軟件(如 COLMAP)求解相機(jī)位姿和內(nèi)參。
- 其二,動態(tài)場景的自由度極高,其變形和長時間信息融合的四維表示仍然不成熟,使這一困難的反問題更加復(fù)雜。
本文提出了一種新穎的神經(jīng)信息處理系統(tǒng) —— 摩斯卡 (MoSca),只需提供一連串視頻幀圖片,無需任何額外信息,即可從 SORA 生成的視頻、電影電視劇片段、互聯(lián)網(wǎng)視頻和公開數(shù)據(jù)集的單目野生 (in-the-wild) 視頻中重建可渲染的動態(tài)場景。

- ArXiv地址: https://arxiv.org/pdf/2405.17421
- 代碼 (近期將開源):www.github.com/JiahuiLei/MoSca
- 項(xiàng)目網(wǎng)站: www.cis.upenn.edu/~leijh/projects/mosca/
- 視頻 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4
以下為兩個視頻Demo。


方法概覽
為了克服上述的困難,摩斯卡首先利用了存儲在計(jì)算機(jī)視覺基石模型 (foundation models) 中的強(qiáng)先驗(yàn)知識將問題解空間縮小。

具體而言,摩斯卡利用了單目有尺度的深度估計(jì) (mono metric-depth) 模型 UniDepth、 視頻任一點(diǎn)長時間跟蹤 (track any point) 模型 CoTracker、光流估計(jì) (optical flow) 模型 RAFT 計(jì)算出的對極幾何誤差 (epipolar error), 以及預(yù)訓(xùn)練語義模型 DINO-v2 提供的語義特征。詳參論文 3.1 章節(jié).
我們觀察到,大多數(shù)真實(shí)世界的動態(tài)變形本質(zhì)上都是緊湊和稀疏的,其復(fù)雜度往往遠(yuǎn)低于真實(shí)幾何結(jié)構(gòu)的復(fù)雜度。比如,一個硬物體的運(yùn)動可以用旋轉(zhuǎn)和平移表示,一個人的運(yùn)動大致可以用多個關(guān)節(jié)的旋轉(zhuǎn)平移近似。
基于這一觀察,本文提出了一種新穎的緊湊動態(tài)場景表示 —— 四維運(yùn)動腳手架 (4D Motion Scaffold),將上述基石模型輸出從二維提升至四維并進(jìn)行融合,同時也融入物理啟發(fā)的變形正則化 (ARAP) 。
四維運(yùn)動腳手架是一個圖,圖的每一個節(jié)點(diǎn)是一串剛體運(yùn)動 (SE (3)) 軌跡,圖的拓?fù)浣Y(jié)構(gòu)是全局考慮剛體運(yùn)動軌跡曲線距離而構(gòu)建的最近鄰邊。通過使用對偶四元數(shù) (dual-quaternion) 在時空中平滑插值圖上節(jié)點(diǎn)的剛體軌跡,可表示空間中任意一點(diǎn)的變形。這一表示大大簡化了需解的運(yùn)動參數(shù)。(詳見論文 3.2 章節(jié))。

四維運(yùn)動腳手架的另一個巨大優(yōu)勢在于可以直接被單目深度和視頻二維點(diǎn)跟蹤初始化,再通過高效的物理正則項(xiàng)優(yōu)化求解出未知的遮擋點(diǎn)位置以及局部坐標(biāo)系方向。詳參論文 3.3 章節(jié).
有了四維運(yùn)動腳手架,任何時刻的任何一點(diǎn)都可以被變形到任意目標(biāo)時刻,這讓全局融合觀測信息變得可能。具體而言,視頻每一幀都可以利用估計(jì)的深度圖反投影到三維空間并初始化三維高斯 (3DGS)。這些高斯被「綁定」在四維運(yùn)動腳手架上,自由穿梭于任何時刻。想要渲染某一時刻的場景,只需將全局所有其他時刻的高斯通過四維腳手架傳送到當(dāng)前時刻融合即可。這一基于四維運(yùn)動腳手架和高斯的動態(tài)場景表示可高效地被高斯渲染器優(yōu)化(詳見論文 3.4 章節(jié))。
最后值得一提的是,摩斯卡是一個無需相機(jī)內(nèi)外參的系統(tǒng)。通過利用上述基石模型輸出的對極幾何誤差確定靜態(tài)背景掩碼,利用基石模型輸出的深度和點(diǎn)跟蹤,摩斯卡可以高效地優(yōu)化重投影誤差,求解全局集束優(yōu)化 (bundle adjustment),從而直接輸出相機(jī)內(nèi)參和位姿,并通過后續(xù)的渲染持續(xù)優(yōu)化相機(jī)(詳見論文 3.5 章節(jié))。
實(shí)驗(yàn)結(jié)果
摩斯卡可以在 DAVIS 數(shù)據(jù)集視頻中重建動態(tài)場景。值得注意的是,摩斯卡可靈活支持多種基于高斯的渲染器。除了原生的 3DGS 渲染器,本文還測試了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如圖中最右列的火車,GOF 可渲染出更高質(zhì)量的 normal 和 depth。

摩斯卡在極具挑戰(zhàn)性的 IPhone DyCheck 數(shù)據(jù)集上取得了顯著提升,同時也在廣泛對比的 Nvidia 數(shù)據(jù)集上對比了其他方法。




































