CVPR 2024滿分論文解讀:基于可變形三維高斯的高質量單目動態(tài)重建新方法
單目動態(tài)場景(Monocular Dynamic Scene)是指使用單眼攝像頭觀察并分析的動態(tài)環(huán)境,其中場景中的物體可以自由移動。單目動態(tài)場景重建對于理解環(huán)境中的動態(tài)變化、預測物體運動軌跡以及動態(tài)數字資產生成等任務至關重要。
隨著以神經輻射場(Neural Radiance Field, NeRF)為代表的神經渲染的興起,越來越多的工作開始使用隱式表征(implicit representation)進行動態(tài)場景的三維重建。
盡管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已經取得了令人滿意的渲染質量,他們仍然距離真正的照片級真實渲染(photo-realistic rendering)存在一定的距離。
來自浙江大學、字節(jié)跳動的研究團隊認為,上述問題的根本原因在于基于光線投射(ray casting)的 NeRF pipeline 通過逆向映射(backward-flow)將觀測空間(observation space)映射到規(guī)范空間(canonical space)無法實現(xiàn)準確且干凈的映射。逆向映射并不利于可學習結構的收斂,使得目前的方法在 D-NeRF 數據集上只能取得 30 + 級別的 PSNR 渲染指標。
為了解決這一問題,該研究團隊提出了一種基于光柵化(rasterization)的單目動態(tài)場景建模 pipeline,首次將變形場(Deformation Field)與 3D 高斯(3D Gaussian Splatting)結合,實現(xiàn)了高質量的重建與新視角渲染。
研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被計算機視覺頂級國際學術會議 CVPR 2024 接收。值得一提的是,這是首個使用變形場將 3D 高斯拓展到單目動態(tài)場景的工作。
項目主頁:https://ingra14m.github.io/Deformable-Gaussians/
論文地址:https://arxiv.org/abs/2309.13101
代碼地址:https://github.com/ingra14m/Deformable-3D-Gaussians
實驗結果表明,變形場可以準確地將規(guī)范空間下的 3D 高斯前向映射(forward-flow)到觀測空間,不僅在 D-NeRF 數據集上實現(xiàn)了 10 + 的 PSNR 提高,而且在相機位姿不準確的真實場景也取得了渲染細節(jié)上的增加:
▲ 圖1. HyperNeRF 真實場景的實驗結果
相關工作
動態(tài)場景重建一直以來是三維重建的熱點問題。隨著以 NeRF 為代表的神經渲染實現(xiàn)了高質量的渲染,動態(tài)重建領域涌現(xiàn)出了一系列以隱式表征作為基礎的工作。
D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎上引入了變形場,實現(xiàn)了穩(wěn)健的動態(tài)場景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基礎上引入了網格結構,大大加速了模型的訓練過程,渲染速度有一定的提高。然而這些方法都基于逆向映射,無法真正實現(xiàn)高質量的規(guī)范空間和變形場的解耦。
3D 高斯?jié)姙R是一種基于光柵化的點云渲染 pipeline。其 CUDA 定制的可微高斯光柵化 pipeline 和創(chuàng)新的致密化使得 3D 高斯不僅實現(xiàn)了 SOTA 的渲染質量,還實現(xiàn)了實時渲染。Dynamic 3D 高斯首先將靜態(tài)的 3D 高斯拓展到了動態(tài)領域。然而,其只能處理多目場景非常嚴重地制約了其應用于更通用的情況,如手機拍攝等單目場景。
研究思想
Deformable-GS 的核心在于將靜態(tài)的 3D 高斯拓展到單目動態(tài)場景。每一個 3D 高斯攜帶位置,旋轉,縮放,不透明度和 SH 系數用于圖像層級的渲染。
根據 3D 高斯 alpha-blend 的公式,不難發(fā)現(xiàn),隨時間變化的位置,以及控制高斯形狀的旋轉和縮放是決定動態(tài) 3D 高斯的決定性參數。然而,不同于傳統(tǒng)的基于點云的渲染方法,3D 高斯在初始化之后,位置,透明度等參數會隨著優(yōu)化不斷更新。這給動態(tài)高斯的學習增加了難度。
該研究創(chuàng)新性地提出了變形場與 3D 高斯聯(lián)合優(yōu)化的動態(tài)場景渲染框架。具體來說,該研究將 COLMAP 或隨機點云初始化的 3D 高斯視作規(guī)范空間,隨后通過變形場,以規(guī)范空間中 3D 高斯的坐標信息作為輸入,預測每一個 3D 高斯隨時間變化的位置和形狀參數。
利用變形場,該研究可以將規(guī)范空間的 3D 高斯變換到觀測空間用于光柵化渲染。這一策略并不會影響 3D 高斯的可微光柵化 pipeline,經過其計算得到的梯度可以用于更新規(guī)范空間 3D 高斯的參數。
此外,引入變形場有利于動作幅度較大部分的高斯致密化。這是因為動作幅度較大的區(qū)域變形場的梯度也會相對較高,從而指導相應區(qū)域在致密化的過程中得到更精細的調控。即使規(guī)范空間 3D 高斯的數量和位置參數在初期也在不斷更新,但實驗結果表明,這種聯(lián)合優(yōu)化的策略可以最終得到穩(wěn)健的收斂結果。大約經過 20000 輪迭代,規(guī)范空間的 3D 高斯的位置參數幾乎不再變化。
研究團隊發(fā)現(xiàn)真實場景的相機位姿往往不夠準確,而動態(tài)場景更加劇了這一問題。這對于基于神經輻射場的結構來說并不會產生較大的影響,因為神經輻射場基于多層感知機(Multilayer Perceptron,MLP),是一個非常平滑的結構。但是 3D 高斯是基于點云的顯式結構,略微不準確的相機位姿很難通過高斯?jié)姙R得到較為穩(wěn)健地矯正。
為了緩解這個問題,該研究創(chuàng)新地引入了退火平滑訓練(Annealing Smooth Training,AST)。該訓練機制旨在初期平滑 3D 高斯的學習,在后期增加渲染的細節(jié)。這一機制的引入不僅提高了渲染的質量,而且大幅度提高了時間插值任務的穩(wěn)定性與平滑性。
圖 2 展示了該研究的 pipeline,詳情請參見論文原文。
▲ 圖2. 該研究的 pipeline
結果展示
該研究首先在動態(tài)重建領域被廣泛使用的 D-NeRF 數據集上進行了合成數據集的實驗。從圖 3 的可視化結果中不難看出,Deformable-GS 相比于之前的方法有著非常巨大的渲染質量提升。
▲ 圖3. 該研究在D-NeRF數據集上的定性實驗對比結果
該研究提出的方法不僅在視覺效果上取得了大幅度的提升,在渲染的定量指標上也有著相應的改進。
值得注意的是,研究團隊發(fā)現(xiàn) D-NeRF 數據集的 Lego 場景存在錯誤,即訓練集和測試集的場景具有微小的差別。這體現(xiàn)在 Lego 模型鏟子的翻轉角度不一致。這也是為什么之前方法在 Lego 場景的指標無法提高的根本原因。為了實現(xiàn)有意義的比較,該研究使用了 Lego 的驗證集作為指標測量的基準。
▲ 圖4. 在合成數據集上的定量比較
如圖 4 所示,該研究在全分辨率(800x800)下對比了 SOTA 方法,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。該研究提出的方法在各個渲染指標(PSNR、SSIM、LPIPS),各個場景下都取得了大幅度的提高。
該研究提出的方法不僅能夠適用于合成場景,在相機位姿不夠準確的真實場景也取得了 SOTA 結果。如圖 5 所示,該研究在 NeRF-DS 數據集上與 SOTA 方法進行了對比。實驗結果表明,即使沒有對高光反射表面進行特殊處理,該研究提出的方法依舊能夠超過專為高光反射場景設計的 NeRF-DS,取得了最佳的渲染效果。
▲ 圖5. 真實場景方法對比
雖然 MLP 的引入增加了渲染開銷,但是得益于 3D 高斯極其高效的 CUDA 實現(xiàn)與我們緊湊的 MLP 結構,我們依舊能夠做到實時渲染。在 3090 上 D-NeRF 數據集的平均 FPS 可以達到 85(400x400),68(800x800)。
此外,該研究還首次應用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖 6 所示,該深度也證明了 Deformable-GS 也可以得到魯棒的幾何表示。深度的反向傳播可以推動日后很多需要使用深度監(jiān)督的任務,例如逆向渲染(Inverse Rendering),SLAM 與自動駕駛等。
▲ 圖6. 深度可視化
本文轉載自PaperWeekly,作者:機器之心編輯部
原文鏈接:??https://mp.weixin.qq.com/s/ZDgWA1aYCQah8lSBBZAqfQ??
