LidaRF：研究用于街景神經(jīng)輻射場的激光雷達(dá)數(shù)據(jù)（CVPR'24）

作者：自動駕駛之心 2024-05-09 09:34:53

LidaRF提出了幾個見解，允許更好地利用激光雷達(dá)數(shù)據(jù)來改善街景中NeRF的質(zhì)量。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

光真實感模擬在自動駕駛等應(yīng)用中發(fā)揮著關(guān)鍵作用，其中神經(jīng)輻射場（NeRFs）的進(jìn)步可能通過自動創(chuàng)建數(shù)字3D資產(chǎn)來實現(xiàn)更好的可擴(kuò)展性。然而，由于街道上相機(jī)運(yùn)動的高度共線性和在高速下的稀疏采樣，街景的重建質(zhì)量受到影響。另一方面，該應(yīng)用通常需要從偏離輸入視角的相機(jī)視角進(jìn)行渲染，以準(zhǔn)確模擬如變道等行為。LidaRF提出了幾個見解，允許更好地利用激光雷達(dá)數(shù)據(jù)來改善街景中NeRF的質(zhì)量。首先，框架從激光雷達(dá)數(shù)據(jù)中學(xué)習(xí)幾何場景表示，這些表示與基于隱式網(wǎng)格的輻射解碼表示相結(jié)合，從而提供了由顯式點云提供的更強(qiáng)幾何信息。其次，提出了一種魯棒的遮擋感知深度監(jiān)督方案，允許通過累積使用密集的激光雷達(dá)點。第三，根據(jù)激光雷達(dá)點生成增強(qiáng)的訓(xùn)練視角，以進(jìn)一步改進(jìn)，方法在真實駕駛場景下的新視角合成中取得了顯著改進(jìn)。

LidaRF的貢獻(xiàn)主要體現(xiàn)在三個方面：

（i）融合激光雷達(dá)編碼和網(wǎng)格特征以增強(qiáng)場景表示。雖然激光雷達(dá)已被用作自然的深度監(jiān)督源，但將激光雷達(dá)納入NeRF輸入中，為幾何歸納偏置提供了巨大的潛力，但實現(xiàn)起來并不簡單。為此，采用了基于網(wǎng)格的表示法，但將從點云中學(xué)習(xí)的特征融合到網(wǎng)格中，以繼承顯式點云表示法的優(yōu)勢。受到3D感知框架成功的啟發(fā)，利用3D稀疏卷積網(wǎng)絡(luò)作為一種有效且高效的架構(gòu)，從激光雷達(dá)點云的局部和全局上下文中提取幾何特征。

（ii）魯棒的遮擋感知深度監(jiān)督。與現(xiàn)有工作類似，這里也使用激光雷達(dá)作為深度監(jiān)督的來源，但更加深入。由于激光雷達(dá)點的稀疏性限制了其效用，尤其是在低紋理區(qū)域，通過跨鄰近幀密集化激光雷達(dá)點來生成更密集的深度圖。然而，這樣獲得的深度圖沒有考慮到遮擋，產(chǎn)生了錯誤的深度監(jiān)督。因此，提出了一種健壯的深度監(jiān)督方案，采用class學(xué)習(xí)的方式——從近場到遠(yuǎn)場逐步監(jiān)督深度，并在NeRF訓(xùn)練過程中逐漸過濾掉錯誤的深度，從而更有效地從激光雷達(dá)中學(xué)習(xí)深度。

（iii）基于激光雷達(dá)的視圖增強(qiáng)。此外，鑒于駕駛場景中的視圖稀疏性和覆蓋有限，利用激光雷達(dá)來密集化訓(xùn)練視圖。也就是說，將累積的激光雷達(dá)點投影到新的訓(xùn)練視圖中；請注意，這些視圖可能與駕駛軌跡有一定的偏離。這些從激光雷達(dá)投影的視圖被添加到訓(xùn)練數(shù)據(jù)集中，它們并沒有考慮到遮擋。然而，我們應(yīng)用了前面提到的監(jiān)督方案來解決遮擋問題，從而提高了性能。雖然我們的見解也適用于一般場景，但在這項工作中，更專注于街道場景的評估，與現(xiàn)有技術(shù)相比，無論是定量還是定性，都取得了顯著的改進(jìn)。

LidaRF在需要更大程度偏離輸入視圖的有趣應(yīng)用（如變道）中也顯示出優(yōu)勢，在具有挑戰(zhàn)性的街道場景應(yīng)用中顯著提高了NeRF的質(zhì)量。

LidaRF整體框架一覽

LidaRF概述如下所示，它以采樣的3D位置x和射線方向d作為輸入，并輸出對應(yīng)的密度α和顏色c。它采用稀疏UNet融合了哈希編碼和激光雷達(dá)編碼。此外，通過激光雷達(dá)投影生成增強(qiáng)的訓(xùn)練數(shù)據(jù)，并使用提出的健壯深度監(jiān)督方案訓(xùn)練幾何預(yù)測。

1）激光雷達(dá)編碼的混合表示法

激光雷達(dá)點云具有強(qiáng)大的幾何指導(dǎo)潛力，這對NeRF（神經(jīng)輻射場）來說極具價值。然而，僅依賴激光雷達(dá)特征來進(jìn)行場景表示，由于激光雷達(dá)點的稀疏性（盡管有時間累積），會導(dǎo)致低分辨率的渲染。此外，由于激光雷達(dá)的視野有限，例如它不能捕獲超過一定高度的建筑物表面，因此在這些區(qū)域中會出現(xiàn)空白渲染。相比之下，本文的框架融合了激光雷達(dá)特征和高分辨率的空間網(wǎng)格特征，以利用兩者的優(yōu)勢，并共同學(xué)習(xí)以實現(xiàn)高質(zhì)量和完整的場景渲染。

激光雷達(dá)特征提取。在這里詳細(xì)描述了每個激光雷達(dá)點的幾何特征提取過程，參照圖2，首先將整個序列的所有幀的激光雷達(dá)點云聚合起來，以構(gòu)建更密集的點云集合。然后將點云體素化為體素網(wǎng)格，其中每個體素單元內(nèi)的點的空間位置進(jìn)行平均，為每個體素單元生成一個3維特征。受到3D感知框架廣泛成功的啟發(fā)，在體素網(wǎng)格上使用3D稀疏UNet對場景幾何特征進(jìn)行編碼，這允許從場景幾何的全局上下文中學(xué)習(xí)。3D稀疏UNet將體素網(wǎng)格及其3維特征作為輸入，并輸出neural volumetric 特征，每個被占用的體素由n維特征組成。

激光雷達(dá)特征查詢。對于沿著要渲染的射線上的每個樣本點x，如果在搜索半徑R內(nèi)有至少K個附近的激光雷達(dá)點，則查詢其激光雷達(dá)特征；否則，其激光雷達(dá)特征被設(shè)置為空（即全零）。具體來說，采用固定半徑最近鄰（FRNN）方法來搜索與x相關(guān)的K個最近的激光雷達(dá)點索引集，記作。與[9]中在啟動訓(xùn)練過程之前預(yù)先確定射線采樣點的方法不同，本文的方法在執(zhí)行FRNN搜索時是實時的，因為隨著NeRF訓(xùn)練的收斂，來自region網(wǎng)絡(luò)的樣本點分布會動態(tài)地趨向于集中在表面上。遵循Point-NeRF的方法，我們的方法利用一個多層感知機(jī)（MLP）F，將每個點的激光雷達(dá)特征映射到神經(jīng)場景描述中。對于x的第i個鄰近點，F(xiàn)將激光雷達(dá)特征和相對位置作為輸入，并輸出神經(jīng)場景描述作為:

為了獲得采樣位置x處的最終激光雷達(dá)編碼?，使用標(biāo)準(zhǔn)的反距離權(quán)重法來聚合其K個鄰近點的神經(jīng)場景描述

輻射解碼的特征融合。將激光雷達(dá)編碼?L與哈希編碼?h進(jìn)行拼接，并應(yīng)用一個多層感知機(jī)Fα來預(yù)測每個樣本的密度α和密度嵌入h。最后，通過另一個多層感知機(jī)Fc，根據(jù)觀察方向d的球面諧波編碼SH和密度嵌入h來預(yù)測相應(yīng)的顏色c。

2）魯棒深度監(jiān)督

除了特征編碼外，還通過將激光雷達(dá)點投影到圖像平面上來從它們中獲取深度監(jiān)督。然而，由于激光雷達(dá)點的稀疏性，所得益處有限，不足以重建低紋理區(qū)域，如路面。在這里，我們提出累積相鄰的激光雷達(dá)幀以增加密度。盡管3D點能夠準(zhǔn)確地捕獲場景結(jié)構(gòu)，但在將它們投影到圖像平面以進(jìn)行深度監(jiān)督時，需要考慮點之間的遮擋。遮擋是由于相機(jī)與激光雷達(dá)及其相鄰幀之間的位移增加而產(chǎn)生的，從而產(chǎn)生虛假的深度監(jiān)督，如圖3所示。由于即使累積后激光雷達(dá)的稀疏性，處理這個問題也非常困難，使得諸如z緩沖之類的基本原理圖形技術(shù)無法應(yīng)用。在這項工作中，提出了一種魯棒的監(jiān)督方案，以在訓(xùn)練NeRF時自動過濾掉虛假的深度監(jiān)督。

遮擋感知的魯棒監(jiān)督方案。本文設(shè)計了一個class訓(xùn)練策略，使得模型最初使用更近、更可靠的深度數(shù)據(jù)進(jìn)行訓(xùn)練，這些數(shù)據(jù)更不容易受到遮擋的影響。隨著訓(xùn)練的進(jìn)行，模型逐漸開始融合更遠(yuǎn)的深度數(shù)據(jù)。同時，模型還具備了丟棄與其預(yù)測相比異常遙遠(yuǎn)的深度監(jiān)督的能力。

回想一下，由于車載攝像頭的向前運(yùn)動，它產(chǎn)生的訓(xùn)練圖像是稀疏的，視野覆蓋有限，這給NeRF重建帶來了挑戰(zhàn)，尤其是當(dāng)新視圖偏離車輛軌跡時。在這里，我們提出利用激光雷達(dá)來增強(qiáng)訓(xùn)練數(shù)據(jù)。首先，我們通過將每個激光雷達(dá)幀的點云投影到其同步的攝像頭上并為RGB值進(jìn)行插值來為其上色。累積上色的點云，并將其投影到一組合成增強(qiáng)的視圖上，生成如圖2所示的合成圖像和深度圖。