借助神經(jīng)結(jié)構(gòu)光,浙大實(shí)現(xiàn)動(dòng)態(tài)三維現(xiàn)象的實(shí)時(shí)采集重建
對(duì)于煙霧等動(dòng)態(tài)三維物理現(xiàn)象的高效高質(zhì)量采集重建是相關(guān)科學(xué)研究中的重要問題,在空氣動(dòng)力學(xué)設(shè)計(jì)驗(yàn)證,氣象三維觀測(cè)等領(lǐng)域有著廣泛的應(yīng)用前景。通過采集重建隨時(shí)間變化的三維密場(chǎng)度序列,可以幫助科學(xué)家更好地理解與驗(yàn)證真實(shí)世界中的各類復(fù)雜物理現(xiàn)象。
圖 1:觀測(cè)動(dòng)態(tài)三維物理現(xiàn)象對(duì)科學(xué)研究至關(guān)重要。圖為全球最大風(fēng)洞 NFAC 對(duì)商用卡車實(shí)體開展空氣動(dòng)力學(xué)實(shí)驗(yàn) [1]。
然而,從真實(shí)世界中快速獲取并高質(zhì)量重建出動(dòng)態(tài)三維密度場(chǎng)相當(dāng)困難。首先,三維信息難以通過常見的二維圖像傳感器(如相機(jī))直接測(cè)量。此外,高速變化的動(dòng)態(tài)現(xiàn)象對(duì)物理采集能力提出了很高的要求:需要在很短的時(shí)間內(nèi)完成對(duì)單個(gè)三維密度場(chǎng)的完整采樣,否則三維密度場(chǎng)本身將發(fā)生變化。這里的根本挑戰(zhàn)是如何解決測(cè)量樣本和動(dòng)態(tài)三維密度場(chǎng)重建結(jié)果之間的信息量差距。
當(dāng)前主流研究工作通過先驗(yàn)知識(shí)彌補(bǔ)測(cè)量樣本信息量不足,計(jì)算代價(jià)高,且當(dāng)先驗(yàn)條件不滿足時(shí)重建質(zhì)量不佳。與主流研究思路不同,浙江大學(xué)計(jì)算機(jī)輔助設(shè)計(jì)與圖形系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室的研究團(tuán)隊(duì)認(rèn)為解決難題的關(guān)鍵在于提高單位測(cè)量樣本的信息量。
該研究團(tuán)隊(duì)不僅利用 AI 優(yōu)化重建算法,還通過 AI 幫助設(shè)計(jì)物理采集方式,實(shí)現(xiàn)同一目標(biāo)驅(qū)動(dòng)的全自動(dòng)軟硬件聯(lián)合優(yōu)化,從本質(zhì)上提高單位測(cè)量樣本關(guān)于目標(biāo)對(duì)象的信息量。通過對(duì)真實(shí)世界中的物理光學(xué)現(xiàn)象進(jìn)行仿真,讓人工智能自己決定如何投射結(jié)構(gòu)光,如何采集對(duì)應(yīng)的圖像,以及如何從采樣樣本中重建出動(dòng)態(tài)三維密度場(chǎng)。最終,研究團(tuán)隊(duì)僅使用包含單投影儀和少量相機(jī)(1 或者 3 臺(tái))的輕量級(jí)硬件原型,把建模單個(gè)三維密度場(chǎng)(空間分辨率 128x128x128)的結(jié)構(gòu)光圖案數(shù)量降到 6 張,實(shí)現(xiàn)每秒 40 個(gè)三維密度場(chǎng)的高效采集。
值得一提的是,團(tuán)隊(duì)在重建算法中創(chuàng)新性地提出輕量級(jí)一維解碼器,將局部入射光作為解碼器輸入的一部分,在不同相機(jī)所拍攝的不同像素下共用了解碼器參數(shù),大幅降低網(wǎng)絡(luò)的復(fù)雜程度,提高計(jì)算速度。為融合不同相機(jī)的解碼結(jié)果,又設(shè)計(jì)結(jié)構(gòu)簡(jiǎn)單的 3D U-Net 聚合網(wǎng)絡(luò)。最終重建單個(gè)三維密度場(chǎng)僅需 9.2ms,相對(duì)于 SOTA 研究工作 [2,3],重建速度提升 2-3 個(gè)數(shù)量級(jí),實(shí)現(xiàn)三維密度場(chǎng)的實(shí)時(shí)高質(zhì)量重建。相關(guān)研究論文《Real-time Acquisition and Reconstruction of Dynamic Volumes with Neural Structured Illumination》已被計(jì)算機(jī)視覺頂級(jí)國(guó)際學(xué)術(shù)會(huì)議 CVPR 2024 接收。
- 論文鏈接:https://svbrdf.github.io/publications/realtimedynamic/realtimedynamic.pdf
- 研究主頁:https://svbrdf.github.io/publications/realtimedynamic/project.html
相關(guān)工作
根據(jù)采集過程中是否控制光照可以把相關(guān)工作分為以下兩大類。
第一類基于非可控光照的工作不需要專門的光源,在采集過程中不控制光照,因此對(duì)采集條件要求較寬松 [2,3]。由于單視角相機(jī)拍攝到的是三維結(jié)構(gòu)的二維投影,因此難以高質(zhì)量區(qū)分不同的三維結(jié)構(gòu)。對(duì)此,一種思路是增加采集視角采樣數(shù),如使用密集相機(jī)陣列或光場(chǎng)相機(jī),這會(huì)導(dǎo)致高昂的硬件成本。另一種思路仍然在視角域稀疏采樣,通過各類先驗(yàn)信息來填補(bǔ)信息量缺口,如啟發(fā)式先驗(yàn)、物理規(guī)則或從現(xiàn)有數(shù)據(jù)中學(xué)習(xí)的先驗(yàn)知識(shí)。一旦先驗(yàn)條件在實(shí)際中不滿足,這類方法的重建結(jié)果會(huì)質(zhì)量下降。此外,其計(jì)算開銷過于昂貴,無法支持實(shí)時(shí)重建。
第二類工作采用可控光照,在采集過程中對(duì)光照條件進(jìn)行主動(dòng)控制 [4,5]。此類工作對(duì)光照進(jìn)行編碼以更主動(dòng)地探測(cè)物理世界,還減少對(duì)先驗(yàn)的依賴,從而獲得更高的重建質(zhì)量。根據(jù)同時(shí)使用單燈還是多燈,相關(guān)工作可以進(jìn)一步分類為掃描方法和光照多路復(fù)用方法。對(duì)于動(dòng)態(tài)的物理對(duì)象,前者必須通過使用昂貴的硬件來達(dá)到高掃描速度,或者犧牲結(jié)果的完整性來減少采集負(fù)擔(dān)。后者通過同時(shí)對(duì)多個(gè)光源進(jìn)行編程,顯著提高了采集效率。但是對(duì)于高質(zhì)量的快速實(shí)時(shí)密度場(chǎng),已有方法的采樣效率仍然不足 [5]。
浙大團(tuán)隊(duì)的工作屬于第二類。和大多數(shù)現(xiàn)有工作不同的是,本研究工作利用人工智能來聯(lián)合優(yōu)化物理采集(即神經(jīng)結(jié)構(gòu)光)與計(jì)算重建,從而實(shí)現(xiàn)高效高質(zhì)量動(dòng)態(tài)三維密度場(chǎng)建模。
硬件原型
研究團(tuán)隊(duì)搭建由單個(gè)商用投影儀(BenQ X3000:分辨率 1920×1080, 速度 240fps)和三個(gè)工業(yè)相機(jī)(Basler acA1440-220umQGR:分辨率 1440×1080, 速度 240fps)組成的簡(jiǎn)單硬件原型(如圖 3 所示)。通過投影儀循環(huán)投射 6 個(gè)預(yù)訓(xùn)練得到的結(jié)構(gòu)光圖案,三個(gè)相機(jī)同步進(jìn)行拍攝,并基于相機(jī)采集到的圖像進(jìn)行動(dòng)態(tài)三維密度場(chǎng)重建。四個(gè)設(shè)備相對(duì)于采集對(duì)象的角度是由不同仿真實(shí)驗(yàn)?zāi)M后所選出的最優(yōu)排布。
圖 3:采集硬件原型。(a)硬件原型實(shí)拍圖,其中載物臺(tái)上的三個(gè)白色標(biāo)記(tags)用于同步相機(jī)和投影儀。(b)相機(jī)、投影儀與拍攝對(duì)象之間幾何關(guān)系的示意圖(頂部視角)。
軟件處理
研發(fā)團(tuán)隊(duì)設(shè)計(jì)由編碼器、解碼器和聚合模塊組成的深度神經(jīng)網(wǎng)絡(luò)。其編碼器中的權(quán)重直接對(duì)應(yīng)采集期間的結(jié)構(gòu)光照亮度分布。解碼器以單像素上測(cè)量樣本為輸入,預(yù)測(cè)一維密度分布并插值到三維密度場(chǎng)。聚合模塊將每個(gè)相機(jī)所對(duì)應(yīng)解碼器預(yù)測(cè)的多個(gè)三維密度場(chǎng)組合成最終的結(jié)果。通過使用可訓(xùn)練結(jié)構(gòu)光以及和輕量級(jí)一維解碼器,本研究更容易學(xué)習(xí)到結(jié)構(gòu)光圖案,二維拍攝照片和三維密度場(chǎng)三者之間的本質(zhì)聯(lián)系,不容易過擬合到訓(xùn)練數(shù)據(jù)中。以下圖 4 展示整體流水線,圖 5 展示相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)。
圖 4:整體采集重建流水線 (a),以及從結(jié)構(gòu)光圖案到一維局部入射光 (b) 和從預(yù)測(cè)的一維密度分布回到三維密度場(chǎng) (c) 的重采樣過程。該研究從仿真 / 真實(shí)的三維密度場(chǎng)開始,首先將預(yù)先優(yōu)化的結(jié)構(gòu)光圖案(即編碼器中的權(quán)重)投影到該密度場(chǎng)。對(duì)于每個(gè)相機(jī)視圖中的每個(gè)有效像素,將其所有測(cè)量值以及重采樣的局部入射光送給解碼器,以預(yù)測(cè)對(duì)應(yīng)相機(jī)光線上的一維密度分布。然后收集一臺(tái)相機(jī)的所有密度分布并將其重采樣到單個(gè)三維密度場(chǎng)中。在多相機(jī)情況下,該研究融合每臺(tái)相機(jī)的預(yù)測(cè)密度場(chǎng)以獲得最終結(jié)果。
圖 5:網(wǎng)絡(luò) 3 個(gè)主要部件的架構(gòu):編碼器、解碼器和聚合模塊。
結(jié)果展示
圖 6 展示本方法對(duì)四個(gè)不同動(dòng)態(tài)場(chǎng)景的部分重建結(jié)果。為生成動(dòng)態(tài)水霧,研究人員將干冰添加到裝有液態(tài)水的瓶子中制造水霧,并通過閥門控制流量,并使用橡膠管將其進(jìn)一步引導(dǎo)至采集裝置。
圖 6:不同動(dòng)態(tài)場(chǎng)景的重建結(jié)果。每一行是某水霧序列中選取部分重建幀的可視化結(jié)果,從上到下場(chǎng)景水霧源個(gè)數(shù)分別為:1,1,3 和 2。如左上方的橙色標(biāo)注所示,A,B,C 分別對(duì)應(yīng)三個(gè)輸入相機(jī)所采集的圖像,D 為和重建結(jié)果渲染視角類似的實(shí)拍參考圖像。時(shí)間戳在左下角展示。詳細(xì)的動(dòng)態(tài)重建結(jié)果請(qǐng)參見論文視頻。
為了驗(yàn)證本研究的正確性和質(zhì)量,研究團(tuán)隊(duì)在真實(shí)靜態(tài)物體上把本方法和相關(guān) SOTA 方法進(jìn)行對(duì)比(如圖 7 所示)。圖 7 也同時(shí)對(duì)不同相機(jī)數(shù)量下的重建質(zhì)量進(jìn)行對(duì)比。所有重建結(jié)果在相同的未采集過的新視角下繪制,并由三個(gè)評(píng)價(jià)指標(biāo)進(jìn)行定量評(píng)估。由圖 7 可知,得益于對(duì)采集效率的優(yōu)化,本方法的重建質(zhì)量?jī)?yōu)于 SOTA 方法。
圖 7:不同技術(shù)在真實(shí)靜態(tài)物體上的比較。從左到右是光學(xué)層切方法 [4],本方法(三相機(jī)),本方法(雙相機(jī)),本方法(單相機(jī)),單相機(jī)下使用手工設(shè)計(jì)的結(jié)構(gòu)光 [5],SOTA 的 PINF [3] 和 GlobalTrans [2] 方法的重建結(jié)果可視化。以光學(xué)層切結(jié)果為基準(zhǔn),對(duì)于所有其他結(jié)果,其定量誤差列在相應(yīng)圖像的右下角,用三種指標(biāo) SSIM/PSNR/RMSE (×0.01) 來評(píng)估。所有重建密度場(chǎng)均使用非輸入視圖進(jìn)行渲染,#v 表示采集的視圖數(shù)量,#p 表示所用結(jié)構(gòu)光圖案的數(shù)量。
研究團(tuán)隊(duì)也在動(dòng)態(tài)仿真數(shù)據(jù)上對(duì)不同方法的重建質(zhì)量進(jìn)行定量對(duì)比。圖 8 展示仿真煙霧序列的重建質(zhì)量對(duì)比。詳細(xì)的逐幀重建結(jié)果請(qǐng)參見論文視頻。
圖 8:仿真煙霧序列上不同方法的比較。從左到右依次為真實(shí)值,本方法,PINF [3] 和 GlobalTrans [2] 重建結(jié)果。輸入視圖和新視圖的渲染結(jié)果分別顯示在第一行和第二行中。定量誤差 SSIM/PSNR/RMSE (×0.01) 展示在相應(yīng)圖像的右下角。整個(gè)重建序列的誤差平均值請(qǐng)參考論文補(bǔ)充材料。另外,整個(gè)序列的動(dòng)態(tài)重建結(jié)果請(qǐng)參見論文視頻。
未來展望
研究團(tuán)隊(duì)計(jì)劃在更先進(jìn)的采集設(shè)備(如光場(chǎng)投影儀 [6])上應(yīng)用本方法開展動(dòng)態(tài)采集重建。團(tuán)隊(duì)也期望通過采集更豐富的光學(xué)信息(如偏振狀態(tài)),從而進(jìn)一步減少采集所需的結(jié)構(gòu)光圖案數(shù)量和相機(jī)數(shù)量。除此之外,將本方法與神經(jīng)表達(dá)(如 NeRF)結(jié)合也是團(tuán)隊(duì)感興趣的未來發(fā)展方向之一。最后,讓 AI 更主動(dòng)地參與對(duì)物理采集與計(jì)算重建的設(shè)計(jì),不局限于后期軟件處理,這可能能為進(jìn)一步提升物理感知能力提供新的思路,最終實(shí)現(xiàn)不同復(fù)雜物理現(xiàn)象的高效高質(zhì)量建模。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
原文鏈接:??https://mp.weixin.qq.com/s/TB0PNPfrL4NsKG0NkGdvIQ??
