CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場(chǎng)景 精華
- 原文鏈接:https://arxiv.org/abs/2403.20018
- 項(xiàng)目鏈接:https://github.com/WU-CVGL/SCINeRF
- 論文標(biāo)題:SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image?
一、引言
傳統(tǒng)的 3D 重建算法需要不同視角拍攝的多張圖片作為輸入從而重建出 3D 場(chǎng)景。近年來(lái),有相當(dāng)多的工作嘗試從單張圖片構(gòu)建 3D 場(chǎng)景。然而,絕大多數(shù)此類工作都依賴生成式模型(如 Stable Diffusion),換句話說(shuō),此類工作仍然需要通過(guò)預(yù)訓(xùn)練的生成式模型推理場(chǎng)景中的 3D 信息。
因此,不依賴任何生成式模型并從單張圖片重建整個(gè) 3D 場(chǎng)景仍然存在巨大挑戰(zhàn)。
本文提出了一種基于單曝光壓縮成像(Snapshot Compressive Imaging, SCI)系統(tǒng)和神經(jīng)輻射場(chǎng)(NeRF)的三維場(chǎng)景拍攝與重建方法,首先將多視角圖像信息記錄到一張壓縮圖像之中,而后在重建階段通過(guò)一個(gè)基于 NeRF 的 3D 重建算法將場(chǎng)景還原。
一個(gè)典型的 SCI 系統(tǒng)使用 2D 傳感器,可以在單次測(cè)量中將高維數(shù)據(jù)(如視頻、多幀圖像、高光譜圖像等)壓縮成一張 2D 圖片。在進(jìn)行測(cè)量后,需要通過(guò)重建算法將 2D 測(cè)量數(shù)據(jù)還原為原始的高維數(shù)據(jù),該過(guò)程涉及求解逆問(wèn)題。近年來(lái),深度學(xué)習(xí)的發(fā)展促進(jìn)了 SCI 重建算法的快速發(fā)展。然而,當(dāng)前的重建算法并沒(méi)有考慮被拍攝場(chǎng)景的 3D 結(jié)構(gòu),只能單純地逐幀還原 2D 圖像。且當(dāng)前的重建算法依然存在準(zhǔn)確性低、穩(wěn)定性差、泛化性不足等問(wèn)題。
和已有的單張圖像生成 3D 方法相比,本文中的方法不需要依賴任何預(yù)訓(xùn)練的模型即可從單張圖片中重建 3D 場(chǎng)景。和傳統(tǒng) SCI 重建方法相比,該工作借助 NeRF 強(qiáng)大的 3D 場(chǎng)景估計(jì)能力和圖像渲染能力,實(shí)現(xiàn)了高質(zhì)量的 3D 場(chǎng)景重建,并可以渲染高幀率的場(chǎng)景圖像。
同時(shí),由于 NeRF 實(shí)行測(cè)試時(shí)間優(yōu)化 (Test-time Optimization, TTO),該方法具有極佳的泛化性。在各種合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)上,對(duì)結(jié)果的定性和定量評(píng)估都證明了該方法優(yōu)異的性能表現(xiàn)。
作為輸入的單張壓縮圖像和從重建的 3D 場(chǎng)景渲染出的新視角圖像
本文的主要貢獻(xiàn)如下:
- 提出了一種全新的基于 SCI 成像與 NeRF 的 3D 場(chǎng)景重建算法,實(shí)現(xiàn)了從單張壓縮圖像端到端重建 3D 場(chǎng)景。
- 進(jìn)行了廣泛的實(shí)驗(yàn),評(píng)估了本文中的方法在 3D 場(chǎng)景重建和 SCI 圖像 / 視頻重建任務(wù)上的性能表現(xiàn)。在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上,該方法均顯著優(yōu)于已有方法。
- 該方法在場(chǎng)景加密與解密、圖像壓縮、高速攝像等領(lǐng)域具有極大的應(yīng)用前景。
二、方法介紹
硬件設(shè)計(jì)
?
受益于新穎的光學(xué)硬件和成像算法的設(shè)計(jì),單曝光壓縮成像系統(tǒng)可以在一次壓縮測(cè)量中,將高維數(shù)據(jù)(例如視頻、高光譜圖像)進(jìn)行采樣和壓縮,從而實(shí)現(xiàn)了通過(guò) 2D 傳感器(如 CCD/CMOS 相機(jī))高效獲取視覺(jué)信號(hào)。本文通過(guò)單次測(cè)量時(shí)間內(nèi)拍攝快速移動(dòng)的場(chǎng)景,將多視角圖像信息壓縮到單張圖像中。
單曝光壓縮成像 (SCI) 系統(tǒng)使用 2D 傳感器在測(cè)量中捕獲高維數(shù)據(jù)
模型架構(gòu)
為從 SCI 圖像中端到端重建 3D 場(chǎng)景,本文提出了一種基于 NeRF 的重建方法。由于傳統(tǒng)的 NeRF 方法需要多視角圖像及其對(duì)應(yīng)的相機(jī)姿態(tài)作為輸入,因此本文對(duì) NeRF 的訓(xùn)練機(jī)制進(jìn)行了大幅度改進(jìn)。
首先,在訓(xùn)練 NeRF 時(shí),將相機(jī)位姿作為優(yōu)化參數(shù),與 NeRF 的神經(jīng)網(wǎng)絡(luò)一同優(yōu)化。由于在拍攝場(chǎng)景時(shí)測(cè)量時(shí)間很短,SCI 系統(tǒng)相對(duì)場(chǎng)景運(yùn)動(dòng)的幅度較小,因此該工作假設(shè)拍攝時(shí)系統(tǒng)作勻速直線運(yùn)動(dòng),大幅降低了訓(xùn)練復(fù)雜度。對(duì)于比較復(fù)雜的運(yùn)動(dòng)軌跡,可以使用更復(fù)雜的運(yùn)動(dòng)模型來(lái)優(yōu)化運(yùn)行軌跡。
其次,通過(guò)模擬 SCI 系統(tǒng)的成像原理,將各個(gè)視角下渲染出的圖像進(jìn)行采樣并壓縮,得到一張合成的 SCI 圖像來(lái)與真實(shí)測(cè)得的 SCI 圖像計(jì)算誤差并進(jìn)行反向傳導(dǎo),從而實(shí)現(xiàn)使用單張圖片進(jìn)行端到端訓(xùn)練。通過(guò)以上訓(xùn)練機(jī)制,可以從 SCI 圖像中直接獲得重建好的 3D 場(chǎng)景(具體推導(dǎo)過(guò)程請(qǐng)見(jiàn)論文)。
最后,當(dāng)場(chǎng)景重建好后,利用 NeRF 強(qiáng)大的圖像渲染能力,可以獲得恢復(fù)的圖像。
本論文中的模型訓(xùn)練機(jī)制。通過(guò)共同優(yōu)化相機(jī)位姿和 NeRF 神經(jīng)網(wǎng)絡(luò),并模擬 SCI 成像機(jī)理,合成一張 SCI 圖像與實(shí)際測(cè)量得到的 SCI 圖像計(jì)算誤差并反向傳導(dǎo),從而實(shí)現(xiàn)基于單張 SCI 圖像的端到端 3D 場(chǎng)景重建
三、實(shí)驗(yàn)
定量實(shí)驗(yàn)
實(shí)驗(yàn)部分,本文基于 3D 重建領(lǐng)域常見(jiàn)的幾個(gè)數(shù)據(jù)集合成了 SCI 數(shù)據(jù)集,并在該數(shù)據(jù)集上對(duì)本文提出的模型和幾種已有的 SCI 圖像重建算法進(jìn)行了對(duì)比實(shí)驗(yàn)。首先通過(guò)實(shí)驗(yàn),比較了幾種方法在 SCI 圖像 / 視頻還原任務(wù)上的性能。
在 SCI 圖像 / 視頻還原任務(wù)上與已有方法的對(duì)比
同時(shí),本文還比較了幾種方法在 3D 場(chǎng)景重建任務(wù)上的性能表現(xiàn)。由于已有方法只能逐幀還原 2D 圖像,因此在進(jìn)行 3D 場(chǎng)景重建任務(wù)比較時(shí),將已有方法輸出的圖片使用 NeRF 重建對(duì)應(yīng)場(chǎng)景并比較性能。
在 3D 場(chǎng)景重建任務(wù)上與已有方法的對(duì)比
實(shí)驗(yàn)結(jié)果表明本文提出的方法性能顯著優(yōu)于已有方法。
定性實(shí)驗(yàn)
除此之外,本文還通過(guò)搭建 SCI 成像系統(tǒng)獲取了真實(shí)數(shù)據(jù)集,并進(jìn)行了定性實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明在真實(shí)數(shù)據(jù)集上本文提出的方法仍顯著優(yōu)于已有方法。
利用搭建的 SCI 成像系統(tǒng),本文在真實(shí)數(shù)據(jù)集上與已有工作進(jìn)行了定性對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明該工作在真實(shí)數(shù)據(jù)集上仍顯著優(yōu)于已有工作
四、結(jié)論
本文提出了一種基于單曝光成像和 NeRF 的 3D 場(chǎng)景重建方法,實(shí)現(xiàn)了不依賴任何預(yù)訓(xùn)練生成模型的端到端單張圖像重建 3D 場(chǎng)景。本文通過(guò)大幅度改進(jìn) NeRF 訓(xùn)練機(jī)制,利用 SCI 圖像中隱含的 3D 信息,成功將其中的 3D 場(chǎng)景進(jìn)行還原,并利用 NeRF 強(qiáng)大的圖像渲染能力從場(chǎng)景中渲染高質(zhì)量、高幀率圖像。
實(shí)驗(yàn)結(jié)果表明,該方法不僅可以重建高質(zhì)量 3D 場(chǎng)景,還在傳統(tǒng)的 SCI 圖像 / 視頻還原任務(wù)上顯著優(yōu)于已有方法。這為未來(lái)在高速 3D 攝像、3D 場(chǎng)景加密與解密、圖像與視頻信息壓縮等領(lǐng)域的應(yīng)用開辟了新的可能性。
本文轉(zhuǎn)自 機(jī)器之心,作者:機(jī)器之心
