高清視頻竟不是真的,幾張照片渲染的3D場景讓你難辨真?zhèn)?/h1>
在開始今天的介紹前,先一起來看看下面的幾個場景。
請注意,上述動圖完全是由多張照片渲染出來的 3D 場景。人類很難發(fā)現(xiàn)它們的破綻。
那讓我們一起看看,這種場景是怎樣實(shí)現(xiàn)的。
網(wǎng)格和點(diǎn)是最常見的三維場景表示法,因?yàn)樗鼈兪秋@式的,非常適合基于 GPU/CUDA 的快速光柵化。相比之下,最新的神經(jīng)輻射場(NeRF)方法建立在連續(xù)場景表征的基礎(chǔ)上,通常使用體積光線渲染優(yōu)化多層感知器(MLP),對捕捉到的場景進(jìn)行新視角合成。雖然這些方法的連續(xù)性有助于優(yōu)化,但渲染所需的隨機(jī)取樣成本很高,而且會產(chǎn)生噪聲。
來自法國蔚藍(lán)海岸大學(xué)的研究者引入了一種新方法,能夠結(jié)合這兩種方法的優(yōu)點(diǎn):3D 高斯表征有著 SOAT 視覺質(zhì)量,并且在訓(xùn)練時間上也進(jìn)行了優(yōu)化,而基于 tile 的拋雪球算法(tile-based splatting)在幾個數(shù)據(jù)集上以 1080p 分辨率實(shí)現(xiàn) SOTA 實(shí)時渲染。
論文地址:https://huggingface.co/papers/2308.04079
研究團(tuán)隊(duì)立下目標(biāo):對多張照片拍攝的場景進(jìn)行實(shí)時渲染,并在典型真實(shí)場景中實(shí)現(xiàn)時間最優(yōu)化。此前,F(xiàn)ridovich-Kei 等人提出的方法雖然實(shí)現(xiàn)了快速訓(xùn)練,但難以達(dá)到當(dāng)前 SOTA NeRF 方法所獲得的視覺質(zhì)量,而后者需要長達(dá) 48 小時的訓(xùn)練時間。還有研究提出快速但質(zhì)量較低的輻射場方法,可以根據(jù)場景實(shí)現(xiàn)交互式渲染(每秒 10-15 幀),但這種方法無法實(shí)現(xiàn)高分辨率下的實(shí)時渲染。
接下來,我們來看本文是如何實(shí)現(xiàn)的。
方法
研究團(tuán)隊(duì)的解決方案主要由三個部分組成。
第一,引入 3D 高斯作為一種靈活而富有表現(xiàn)力的場景表征。輸入與 NeRF 方法類似,即使用結(jié)構(gòu) - 運(yùn)動(SfM)校準(zhǔn)像機(jī),并且使用稀疏點(diǎn)云初始化 3D 高斯集合,點(diǎn)云來自 SfM 過程。此外,該研究只用 SfM 點(diǎn)作為輸入就能獲得高質(zhì)量的結(jié)果。需要注意的是,對于 NeRF 合成數(shù)據(jù)集,即使采用隨機(jī)初始化,本文方法也能獲得高質(zhì)量的結(jié)果。研究表明,3D 高斯是一個很好的選擇。
第二,優(yōu)化 3D 高斯屬性,即 3D 位置、不透明度??、各向異性協(xié)方差和球諧波(SH)系數(shù)。優(yōu)化過程產(chǎn)生了一個相當(dāng)緊湊、非結(jié)構(gòu)化和精確的場景表征。
第三,實(shí)時渲染解決方案,該研究使用快速 GPU 排序算法。不過,由于采用了 3D 高斯表征,可以在遵循可見度排序的情況下進(jìn)行各向異性拼接,這要?dú)w功于排序和??- blending— 并通過跟蹤所需的盡可能多排序拼接的遍歷,實(shí)現(xiàn)快速準(zhǔn)確的向后傳遞。
方法概覽
綜上,本文做出了以下貢獻(xiàn):
- 引入各向異性 3D 高斯作為輻射場的高質(zhì)量、非結(jié)構(gòu)化表征;
- 3D 高斯屬性的優(yōu)化方法,與自適應(yīng)密度控制交織在一起,為捕捉到的場景創(chuàng)建高質(zhì)量的表征;
- 針對 GPU 的快速可微分渲染方法,該方法具有可視性感知功能,允許各向異性拼接和快速反向傳播,以實(shí)現(xiàn)高質(zhì)量的新視圖合成。
實(shí)驗(yàn)
下圖顯示了本文的方法與以往方法效果的比較。
場景自上而下依次為來自 Mip-NeRF360 數(shù)據(jù)集的自行車、花園、柜臺和房間;來自深度混合數(shù)據(jù)集的游戲室(更多對比請閱讀原文)。圖中把不同方法產(chǎn)生的顯著差異已經(jīng)標(biāo)出,如自行車的輻條、花園遠(yuǎn)處的房屋玻璃、鐵籃子的桿子以及玩具小熊。
可以觀察出,本文的方法相比以往的方法在細(xì)節(jié)上更具有優(yōu)勢。
視頻中可以看到更加明顯的區(qū)別
除此之外,在圖 6 中我們可以看到,即使迭代 7K 次(~ 5 分鐘),本文方法也能很好地捕捉列車的細(xì)節(jié)。在迭代 30K 次(~35 分鐘)時,背景偽影明顯減少。對于花園場景,差異幾乎不明顯,7K 次迭代(~8 分鐘)已經(jīng)是非常高的質(zhì)量了。
研究團(tuán)隊(duì)采用 Mip-NeRF360 建議的方法,將數(shù)據(jù)集分為訓(xùn)練 / 測試兩部分,每隔 8 張照片進(jìn)行測試,以便進(jìn)行一致且有意義的比較,從而生成誤差指標(biāo),并使用文獻(xiàn)中最常用的標(biāo)準(zhǔn) PSNR、L-PIPS 和 SSIM 指標(biāo),詳細(xì)數(shù)據(jù)見表 1。
表 1 展現(xiàn)了通過三個數(shù)據(jù)集計(jì)算得出的新方法與之前的工作相比的定量評估。標(biāo)有「?」的結(jié)果直接采用了原論文,其他結(jié)果均為該實(shí)驗(yàn)團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果。
合成 NeRF 的 PSNR 分?jǐn)?shù)??梢钥吹奖疚姆椒ㄔ诙鄶?shù)情況下分?jǐn)?shù)都較好,甚至達(dá)到最優(yōu)。
消融實(shí)驗(yàn)
研究團(tuán)隊(duì)將所做的不同貢獻(xiàn)和算法選擇分離出來,并構(gòu)建了一組實(shí)驗(yàn)來衡量它們的效果。對算法的以下幾個方面進(jìn)行了測試:從 SfM 初始化、致密化策略、各向異性協(xié)方差、允許無限數(shù)量的斑塊具有梯度以及球諧波的使用。下表總結(jié)了每種選擇的定量效果。
我們來看看更直觀的效果。
使用 SfM 點(diǎn)進(jìn)行初始化會產(chǎn)生更好的效果。
Clone 和 Split 兩種情況下的消融致密化策略
限制接受漸變的點(diǎn)的數(shù)量,對視覺質(zhì)量影響是顯著的。左圖:限制接收梯度的 10 個高斯點(diǎn)。右圖:本文的完整方法。
想要了解更多詳細(xì)內(nèi)容,請閱讀原文。