解鎖SLAM新紀(jì)元!基于NeRF和3D GS方法綜述
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫(xiě)在前面&筆者的個(gè)人理解
在過(guò)去的二十年里,SLAM領(lǐng)域的研究經(jīng)歷了重大的發(fā)展,突出了其在實(shí)現(xiàn)未知環(huán)境的自主探索方面的關(guān)鍵作用。這種演變從手工制作的方法到深度學(xué)習(xí)時(shí)代,再到最近專注于神經(jīng)輻射場(chǎng)(NeRFs)和3D高斯?jié)姙R(3DGS)表示的發(fā)展。我們意識(shí)到越來(lái)越多的研究和缺乏對(duì)該主題的全面調(diào)查,本文旨在通過(guò)輻射場(chǎng)的最新進(jìn)展,首次全面概述SLAM的進(jìn)展。它揭示了背景、進(jìn)化路徑、固有優(yōu)勢(shì)和局限性,并作為突出動(dòng)態(tài)進(jìn)展和具體挑戰(zhàn)的基本參考。
相關(guān)背景
現(xiàn)有SLAM綜述回顧
SLAM有了顯著的增長(zhǎng),誕生了各種各樣的綜合論文。在早期階段,達(dá)蘭特-懷特和貝利介紹了SLAM問(wèn)題的概率性質(zhì),并強(qiáng)調(diào)了關(guān)鍵方法。Grisetti等人進(jìn)一步深入研究了基于圖的SLAM問(wèn)題,強(qiáng)調(diào)了它在未知環(huán)境中導(dǎo)航的作用。在視覺(jué)SLAM領(lǐng)域,Yousif概述了定位和映射技術(shù),結(jié)合了視覺(jué)里程計(jì)和SLAM的基本方法和進(jìn)展。多機(jī)器人系統(tǒng)的出現(xiàn)使Saeedi和Clark回顧了最先進(jìn)的方法,重點(diǎn)關(guān)注多機(jī)器人SLAM的挑戰(zhàn)和解決方案。
在現(xiàn)有文獻(xiàn)中,出現(xiàn)了兩種主要的SLAM策略,即frame-to-frame和frame-to-model跟蹤方法。通常,前一種策略用于實(shí)時(shí)系統(tǒng),通常涉及通過(guò)閉環(huán)(LC)或全局束調(diào)整(BA)對(duì)估計(jì)的姿態(tài)進(jìn)行進(jìn)一步優(yōu)化,而后一種策略從重建的3D模型中估計(jì)相機(jī)姿態(tài),通常避免進(jìn)一步優(yōu)化,但導(dǎo)致對(duì)大場(chǎng)景的可擴(kuò)展性較低。這些策略構(gòu)成了我們即將深入研究的方法論的基礎(chǔ)。
雖然現(xiàn)有的調(diào)查涵蓋了傳統(tǒng)的和基于深度學(xué)習(xí)的方法,但最近的文獻(xiàn)缺乏對(duì)SLAM技術(shù)前沿的全面探索,這些前沿植根于輻射領(lǐng)域的最新進(jìn)展。
圖2展示了輻射場(chǎng)的三種表達(dá)形式
輻射場(chǎng)理論的演進(jìn)
基于神經(jīng)場(chǎng)的表面重建
盡管NeRF及其變體有可能捕捉場(chǎng)景的3D幾何結(jié)構(gòu),但這些模型是在神經(jīng)網(wǎng)絡(luò)的權(quán)重中隱含定義的。通過(guò)3D網(wǎng)格獲得場(chǎng)景的顯式表示對(duì)于3D重建應(yīng)用是可取的。從NeRF開(kāi)始,實(shí)現(xiàn)粗略場(chǎng)景幾何的基本方法是對(duì)MLP預(yù)測(cè)的密度進(jìn)行閾值設(shè)置。更高級(jí)的解決方案探討了三種主要表示形式。
占用情況。該表示通過(guò)用學(xué)習(xí)的離散函數(shù)o(x)∈{0,1}代替沿射線的α值αi,對(duì)自由空間和占用空間進(jìn)行建模。具體而言,通過(guò)運(yùn)行行進(jìn)立方體算法來(lái)估計(jì)占有概率∈[0,1],并獲得表面。
符號(hào)距離函數(shù)(SDF)。場(chǎng)景幾何體的另一種方法是從任意點(diǎn)到最近曲面的符號(hào)距離,在對(duì)象內(nèi)部產(chǎn)生負(fù)值,在對(duì)象外部產(chǎn)生正值。NeuS是第一個(gè)重新訪問(wèn)NeRF體積渲染引擎的人,用MLP預(yù)測(cè)SDF為f(r(t)),并用ρ(t)代替α,從SDF推導(dǎo)如下:
截?cái)嘤蟹?hào)距離函數(shù)(TSDF)。最后,使用MLP預(yù)測(cè)截?cái)嗟腟DF允許在渲染過(guò)程中消除任何SDF值離單個(gè)表面太遠(yuǎn)的貢獻(xiàn)。像素顏色是作為沿射線采樣的顏色的加權(quán)和獲得的:
3D Gaussian Splatting
3DGS由Kerbl于2023年推出,是一種用于高效、高質(zhì)量渲染3D場(chǎng)景的顯式輻射場(chǎng)技術(shù)。與傳統(tǒng)的顯式體積表示(如體素網(wǎng)格)不同,它提供了一種連續(xù)而靈活的表示,用于根據(jù)可微分的3D高斯形狀基元對(duì)3D場(chǎng)景進(jìn)行建模。這些基元用于參數(shù)化輻射場(chǎng),并可以進(jìn)行渲染以生成新的視圖。此外,與依賴于計(jì)算昂貴的體積射線采樣的NeRF相比,3DGS通過(guò)基于瓦片的光柵化器實(shí)現(xiàn)實(shí)時(shí)渲染。這種概念上的差異在圖3中突出顯示。這種方法在不依賴神經(jīng)組件的情況下提供了改進(jìn)的視覺(jué)質(zhì)量和更快的訓(xùn)練,同時(shí)也避免了在空白空間中進(jìn)行計(jì)算。更具體地說(shuō),從具有已知相機(jī)姿勢(shì)的多視圖圖像開(kāi)始,3DGS學(xué)習(xí)一組3D高斯。這允許將單個(gè)高斯基元的空間影響緊湊地表示為:
相反對(duì)于優(yōu)化,該過(guò)程從SfM點(diǎn)云或隨機(jī)值的參數(shù)初始化開(kāi)始,然后使用L1和D-SSIM損失函數(shù)對(duì)GT和渲染視圖進(jìn)行隨機(jī)梯度下降(SGD)。此外,周期性自適應(yīng)致密化通過(guò)調(diào)整具有顯著梯度的點(diǎn)和移除低不透明度點(diǎn)來(lái)處理欠重建和過(guò)重建,優(yōu)化場(chǎng)景表示并減少渲染錯(cuò)誤。
數(shù)據(jù)集
本節(jié)總結(jié)了最近SLAM方法中常用的數(shù)據(jù)集,涵蓋了室內(nèi)和室外環(huán)境中的各種屬性,如傳感器、GT準(zhǔn)確性和其他關(guān)鍵因素。圖4展示了來(lái)自不同數(shù)據(jù)集的定性示例,這些示例將在剩余部分中介紹。
TUM RGB-D數(shù)據(jù)集包括帶有注釋的相機(jī)軌跡的RGB-D序列,使用兩個(gè)平臺(tái)記錄:手持和機(jī)器人,提供不同的運(yùn)動(dòng)范圍。該數(shù)據(jù)集有39個(gè)序列,其中一些帶有循環(huán)閉包。核心元素包括來(lái)自微軟Kinect傳感器的彩色和深度圖像,以30赫茲和640×480分辨率拍攝。GT軌跡來(lái)源于一個(gè)運(yùn)動(dòng)捕捉系統(tǒng),該系統(tǒng)有八臺(tái)高速攝像機(jī),工作頻率為100赫茲。數(shù)據(jù)集的多功能性通過(guò)典型辦公環(huán)境和工業(yè)大廳中的各種軌跡得到了證明,包括不同的平移和角速度。
ScanNet數(shù)據(jù)集提供了真實(shí)世界室內(nèi)RGB-D采集的集合,其中包括707個(gè)獨(dú)特空間中1513次掃描的250萬(wàn)張圖像。特別地,它包括估計(jì)的校準(zhǔn)參數(shù)、相機(jī)姿態(tài)、3D表面重建、紋理網(wǎng)格、對(duì)象級(jí)別的詳細(xì)語(yǔ)義分割以及對(duì)齊的CAD模型。
開(kāi)發(fā)過(guò)程包括創(chuàng)建一個(gè)用戶友好的捕獲管道,使用定制的RGB-D捕獲設(shè)置,將結(jié)構(gòu)傳感器連接到iPad等手持設(shè)備上。隨后的離線處理階段導(dǎo)致了全面的3D場(chǎng)景重建,包括可用的6-DoF相機(jī)姿勢(shì)和語(yǔ)義標(biāo)簽。請(qǐng)注意,ScanNet中的相機(jī)姿勢(shì)源自BundleFusion系統(tǒng),該系統(tǒng)可能不如TUM RGB-D等替代系統(tǒng)準(zhǔn)確。
Replica數(shù)據(jù)集具有18個(gè)照片級(jí)真實(shí)感3D室內(nèi)場(chǎng)景,具有密集網(wǎng)格、HDR紋理、語(yǔ)義數(shù)據(jù)和反射表面。它跨越不同的場(chǎng)景類別,包括88個(gè)語(yǔ)義類,并結(jié)合了單個(gè)空間的6次掃描,捕捉不同的家具布置和時(shí)間快照。重建涉及定制的RGB-D捕捉設(shè)備,該設(shè)備具有同步IMU、RGB、IR和廣角灰度傳感器,通過(guò)6個(gè)自由度(DoF)姿勢(shì)準(zhǔn)確融合原始深度數(shù)據(jù)。盡管原始數(shù)據(jù)是在現(xiàn)實(shí)世界中捕獲的,但用于SLAM評(píng)估的數(shù)據(jù)集部分是由重建過(guò)程中產(chǎn)生的精確網(wǎng)格綜合生成的。因此,合成序列缺乏真實(shí)世界的特性,如鏡面反射高光、自動(dòng)曝光、模糊等。
KITTI數(shù)據(jù)集是評(píng)估雙目、光流、視覺(jué)里程計(jì)/SLAM算法等的流行基準(zhǔn)。該數(shù)據(jù)集來(lái)自一輛配備了雙目攝像頭、Velodyne LiDAR、GPS和慣性傳感器的汽車,包含來(lái)自61個(gè)代表自動(dòng)駕駛場(chǎng)景的場(chǎng)景的42000個(gè)立體對(duì)和LiDAR點(diǎn)云。KITTI里程計(jì)數(shù)據(jù)集包含22個(gè)激光雷達(dá)掃描序列,有助于評(píng)估使用激光雷達(dá)數(shù)據(jù)的里程計(jì)方法。
Newer College數(shù)據(jù)集包括在牛津新學(xué)院周圍2.2公里步行過(guò)程中采集的傳感器數(shù)據(jù)。它包括來(lái)自立體慣性相機(jī)、帶慣性測(cè)量的多波束3D激光雷達(dá)和三腳架安裝的勘測(cè)級(jí)激光雷達(dá)掃描儀的信息,生成了一張包含約2.9億個(gè)點(diǎn)的詳細(xì)3D地圖。該數(shù)據(jù)集為每次激光雷達(dá)掃描提供了6 DoFGT姿態(tài),精確到約3厘米。該數(shù)據(jù)集涵蓋了各種環(huán)境,包括建筑空間、開(kāi)放區(qū)域和植被區(qū)。
其他數(shù)據(jù)集
此外,在最近的SLAM研究中,我們提請(qǐng)注意利用率較低的替代數(shù)據(jù)集。
ETH3D-SLAM數(shù)據(jù)集包括來(lái)自定制相機(jī)設(shè)備的視頻,適用于評(píng)估視覺(jué)慣性單目、雙目和RGB-D SLAM。它具有56個(gè)訓(xùn)練數(shù)據(jù)集、35個(gè)測(cè)試數(shù)據(jù)集和5個(gè)使用GTSfM技術(shù)獨(dú)立捕獲的訓(xùn)練序列。
EuRoC MAV數(shù)據(jù)集為微型飛行器提供同步立體圖像、IMU和準(zhǔn)確的GT。它支持在各種條件下進(jìn)行視覺(jué)慣性算法設(shè)計(jì)和評(píng)估,包括具有毫米精度GT的工業(yè)環(huán)境和用于3D環(huán)境重建的房間。
為重新定位性能評(píng)估而創(chuàng)建的7場(chǎng)景數(shù)據(jù)集使用Kinect以640×480的分辨率進(jìn)行記錄。GT姿勢(shì)是通過(guò)KinectFusion獲得的。來(lái)自不同用戶的序列被分為兩組——一組用于模擬關(guān)鍵幀采集,另一組用于誤差計(jì)算。該數(shù)據(jù)集帶來(lái)了諸如鏡面反射、運(yùn)動(dòng)模糊、照明條件、平坦表面和傳感器噪聲等挑戰(zhàn)。
ScanNet++數(shù)據(jù)集包括460個(gè)高分辨率3D室內(nèi)場(chǎng)景重建、密集語(yǔ)義注釋、單反圖像和iPhone RGB-D序列。使用亞毫米分辨率的高端激光掃描儀拍攝,每個(gè)場(chǎng)景都包括1000多個(gè)語(yǔ)義類的注釋,解決標(biāo)簽歧義,并為3D語(yǔ)義場(chǎng)景理解和新穎視圖合成引入新的基準(zhǔn)。
SLAM
本節(jié)介紹利用輻射場(chǎng)表示的最新進(jìn)展的最新SLAM系統(tǒng)。這些論文以基于方法的分類法進(jìn)行組織,按其方法進(jìn)行分類,為讀者提供清晰有序的展示。本節(jié)首先對(duì)RGB-D、RGB和激光雷達(dá)方法進(jìn)行基本分類,為特定子類別的發(fā)展奠定基礎(chǔ)。每個(gè)類別都按發(fā)表日期列出了在會(huì)議/期刊上正式發(fā)表的論文,然后是arXiv按其初始預(yù)印本日期排列的預(yù)印本。
為了全面了解,表1提供了調(diào)查方法的詳細(xì)概述。此表提供了深入的摘要,突出顯示了每種方法的關(guān)鍵功能,并包括對(duì)項(xiàng)目頁(yè)面或源代碼的引用(只要可用)。有關(guān)更多細(xì)節(jié)或方法細(xì)節(jié),請(qǐng)參閱原始論文。
RGB-D SLAM
在這里,我們重點(diǎn)關(guān)注密集SLAM技術(shù)使用RGB-D相機(jī),捕捉彩色圖像和逐像素的深度信息的環(huán)境。這些技術(shù)分為不同的類別:NeRF風(fēng)格的SLAM解決方案和基于3D高斯飛濺表示的替代方案。從這兩種方法派生的專門(mén)解決方案包括用于大型場(chǎng)景的基于子映射的SLAM方法、處理語(yǔ)義的框架以及為動(dòng)態(tài)場(chǎng)景量身定制的框架。在這種分類中,一些技術(shù)通過(guò)不確定性來(lái)評(píng)估可靠性,而另一些技術(shù)則探索集成其他傳感器,如基于事件的相機(jī)。
NeRF-style RGB-D SLAM
隱式神經(jīng)表示的最新進(jìn)展已經(jīng)實(shí)現(xiàn)了精確和密集的3D表面重建。這導(dǎo)致了源自NeRF或受其啟發(fā)的新型SLAM系統(tǒng),最初設(shè)計(jì)用于已知相機(jī)姿勢(shì)的離線使用。在本節(jié)中,我們描述了這些密集神經(jīng)VSLAM方法,分析了它們的主要特征,并對(duì)它們的優(yōu)勢(shì)和劣勢(shì)進(jìn)行了清晰的概述。
iMAP。這項(xiàng)工作標(biāo)志著首次嘗試?yán)肧LAM的隱式神經(jīng)表示。這一突破性的成就不僅突破了SLAM的界限,而且為該領(lǐng)域確立了新的方向。特別地,iMAP展示了MLP動(dòng)態(tài)創(chuàng)建特定場(chǎng)景的隱式3D模型的潛力。
NICE-SLAM。與iMAP使用單個(gè)MLP作為場(chǎng)景表示不同,NICE-SLAM采用了集成多層次局部數(shù)據(jù)的分層策略。這種方法有效地解決了諸如過(guò)度平滑的重建和較大場(chǎng)景中的可擴(kuò)展性限制等問(wèn)題。
Vox Fusion。這項(xiàng)工作將傳統(tǒng)的體積融合方法與神經(jīng)隱式表示相結(jié)合。具體而言,它利用基于體素的神經(jīng)隱式表面表示來(lái)編碼和優(yōu)化每個(gè)體素內(nèi)的場(chǎng)景。雖然與NICE-SLAM有相似之處,但其獨(dú)特之處在于采用了基于八叉樹(shù)的結(jié)構(gòu)來(lái)實(shí)現(xiàn)動(dòng)態(tài)體素分配策略。
ESLAM。ESLAM的核心是實(shí)現(xiàn)了與傳統(tǒng)體素網(wǎng)格不同的多尺度軸對(duì)齊特征平面。這種方法通過(guò)二次縮放優(yōu)化內(nèi)存使用,與基于體素的模型所表現(xiàn)出的三次增長(zhǎng)形成對(duì)比。
其他工作如Co-SLAM、GO-SLAM、Point-SLAM、ToF-SLAM、ADFP、MLM-SLAM、Plenoxel-SLAM、Structerf-SLAM、iDF-SLAM、NeuV-SLAM可以參考具體論文。
3DGS-style RGB-D SLAM
在這里,我們概述了使用基于3D高斯飛濺的顯式體積表示來(lái)開(kāi)發(fā)SLAM解決方案的開(kāi)創(chuàng)性框架。這些方法通常利用3DGS的優(yōu)勢(shì),例如與其他現(xiàn)有場(chǎng)景表示相比,更快、更真實(shí)的渲染。它們還提供了通過(guò)添加更多高斯基元、完全利用每像素密集光度損失和直接參數(shù)梯度流來(lái)提高地圖容量的靈活性,以促進(jìn)快速優(yōu)化。到目前為止,3DGS表示主要用于離線系統(tǒng),該離線系統(tǒng)致力于從已知相機(jī)姿勢(shì)合成新的視圖。在下一節(jié)中,我們將介紹開(kāi)創(chuàng)性的SLAM方法,這些方法能夠同時(shí)優(yōu)化場(chǎng)景幾何結(jié)構(gòu)和相機(jī)姿態(tài)。
GS-SLAM。GS-SLAM通過(guò)利用3D高斯作為表示,結(jié)合飛濺渲染技術(shù),引入了一種范式轉(zhuǎn)變。與依賴神經(jīng)隱式表示的方法相比,GS-SLAM通過(guò)采用一種新方法,利用3D高斯以及不透明度和球面諧波來(lái)封裝場(chǎng)景幾何結(jié)構(gòu)和外觀,從而大大加速了地圖優(yōu)化和重新渲染,如圖6所示。
Photo-SLAM。這項(xiàng)工作將顯式幾何特征和隱式紋理表示集成在超基元地圖中。該方法結(jié)合了ORB特征、旋轉(zhuǎn)、縮放、密度和球面諧波系數(shù),以優(yōu)化相機(jī)姿態(tài)和貼圖精度,同時(shí)最大限度地減少光度損失。
SplaTAM。這種方法將場(chǎng)景表示為簡(jiǎn)化的3D高斯圖的集合,從而實(shí)現(xiàn)高質(zhì)量的彩色和深度圖像渲染。SLAM管道包括幾個(gè)關(guān)鍵步驟:相機(jī)跟蹤-高斯稠密化-地圖更新。
GSSLAM。該系統(tǒng)采用3D高斯飛濺作為其唯一的表示,使用單個(gè)移動(dòng)的RGB或RGB-D相機(jī)進(jìn)行在線3D重建。該框架包括幾個(gè)關(guān)鍵組件,如跟蹤和相機(jī)姿態(tài)優(yōu)化、高斯形狀驗(yàn)證和正則化、建圖和關(guān)鍵幀以及資源分配和修剪。
高斯SLAM。該框架采用了涉及地圖構(gòu)建和優(yōu)化的管道,創(chuàng)建由單獨(dú)的3D高斯點(diǎn)云表示的單獨(dú)的子地圖,以防止災(zāi)難性遺忘并保持計(jì)算效率。
Submaps-based SLAM
在這一類別中,我們專注于解決災(zāi)難性遺忘的挑戰(zhàn)以及先前討論的受密集輻射場(chǎng)啟發(fā)的SLAM系統(tǒng)在大型環(huán)境中面臨的適用性問(wèn)題的方法。
MeSLAM。MeSLAM引入了一種新的SLAM算法,用于具有最小內(nèi)存占用的大規(guī)模環(huán)境映射。這是通過(guò)將神經(jīng)隱式映射表示與新的網(wǎng)絡(luò)分布策略相結(jié)合來(lái)實(shí)現(xiàn)的。具體而言,通過(guò)使用分布式MLP網(wǎng)絡(luò),全局映射模塊有助于將環(huán)境分割成不同的區(qū)域,并在重建過(guò)程中協(xié)調(diào)這些區(qū)域的縫合。
CP-SLAM。這項(xiàng)工作是一種協(xié)作的神經(jīng)隱式SLAM方法,其特點(diǎn)是包含前端和后端模塊的統(tǒng)一框架。其核心是利用與關(guān)鍵幀相關(guān)的基于神經(jīng)點(diǎn)的3D場(chǎng)景表示。這允許在姿勢(shì)優(yōu)化過(guò)程中進(jìn)行無(wú)縫調(diào)整,并增強(qiáng)協(xié)作建圖功能。
NISB地圖。NISB Map采用多個(gè)小型MLP網(wǎng)絡(luò),遵循iMAP的設(shè)計(jì),以緊湊的空間塊表示大規(guī)模環(huán)境。與具有深度先驗(yàn)的側(cè)面稀疏光線采樣一起,這實(shí)現(xiàn)了低內(nèi)存使用率的可擴(kuò)展室內(nèi)映射。
多個(gè)SLAM。本文介紹了一種新的協(xié)作隱式SLAM框架來(lái)解決災(zāi)難性遺忘問(wèn)題。通過(guò)使用多個(gè)SLAM代理來(lái)處理塊中的場(chǎng)景,它最大限度地減少了軌跡和建圖錯(cuò)誤。
MIPS-Fusion。如圖8所示,這項(xiàng)工作引入了一種用于在線密集RGB-D重建的分治映射方案,使用了一種無(wú)網(wǎng)格的純神經(jīng)方法,該方法具有增量分配和多個(gè)神經(jīng)子映射的動(dòng)態(tài)學(xué)習(xí)。
NEWTON。大多數(shù)神經(jīng)SLAM系統(tǒng)使用具有單個(gè)神經(jīng)場(chǎng)模型的以世界為中心的地圖表示。然而,這種方法在捕捉動(dòng)態(tài)和實(shí)時(shí)場(chǎng)景方面面臨挑戰(zhàn),因?yàn)樗蕾囉跍?zhǔn)確和固定的先前場(chǎng)景信息。這在廣泛的映射場(chǎng)景中可能特別有問(wèn)題。
NGEL-SLAM。該系統(tǒng)利用兩個(gè)模塊,即跟蹤和映射模塊,將ORB-SLAM3的魯棒跟蹤能力與多個(gè)隱式神經(jīng)映射提供的場(chǎng)景表示相結(jié)合。
PLGSLAM。本工作中提出的漸進(jìn)式場(chǎng)景表示方法將整個(gè)場(chǎng)景劃分為多個(gè)局部場(chǎng)景表示,允許對(duì)更大的室內(nèi)場(chǎng)景進(jìn)行可擴(kuò)展性,并提高魯棒性。
Loopy-SLAM。該系統(tǒng)利用子地圖形式的神經(jīng)點(diǎn)云進(jìn)行局部建圖和跟蹤。該方法采用幀到模型跟蹤和數(shù)據(jù)驅(qū)動(dòng)的基于點(diǎn)的子地圖生成方法,在場(chǎng)景探索過(guò)程中基于相機(jī)運(yùn)動(dòng)動(dòng)態(tài)生長(zhǎng)子地圖。
Semantic RGB-D SLAM
作為SLAM系統(tǒng)運(yùn)行,這些方法本身包括映射和跟蹤過(guò)程,同時(shí)還包含語(yǔ)義信息以增強(qiáng)環(huán)境的真實(shí)性。這些框架針對(duì)對(duì)象識(shí)別或語(yǔ)義分割等任務(wù)量身定制,為場(chǎng)景分析提供了一種整體方法——識(shí)別和分類對(duì)象和/或有效地將圖像區(qū)域分類為特定的語(yǔ)義類(如桌子、椅子等)。
iLabel。該框架是一個(gè)用于交互理解和分割3D場(chǎng)景的新穎系統(tǒng)。它使用神經(jīng)場(chǎng)表示將三維坐標(biāo)映射到顏色、體積密度和語(yǔ)義值。
FR-Fusion。該方法將神經(jīng)特征融合系統(tǒng)無(wú)縫集成到iMAP框架中。通過(guò)結(jié)合2D圖像特征提取器(基于EfficientNet或DINO)并使用潛在體積繪制技術(shù)增強(qiáng)iMAP,該系統(tǒng)可以有效地融合高維特征圖,同時(shí)降低計(jì)算和內(nèi)存需求。
其他算法如vMap、NIDS-SLAM、SNI-SLAM、DNS SLAM、SGS-SLAM可以參考具體論文。
SLAM in Dynamic Environments
到目前為止,大多數(shù)SLAM方法都是基于以剛性、不移動(dòng)物體為特征的靜態(tài)環(huán)境的基本假設(shè)。雖然這些技術(shù)在靜態(tài)場(chǎng)景中表現(xiàn)良好,但它們?cè)趧?dòng)態(tài)環(huán)境中的性能面臨重大挑戰(zhàn),限制了它們?cè)诂F(xiàn)實(shí)世界場(chǎng)景中的適用性。因此,在本節(jié)中,我們概述了專門(mén)為應(yīng)對(duì)動(dòng)態(tài)環(huán)境中精確映射和定位估計(jì)的挑戰(zhàn)而設(shè)計(jì)的方法。
DN-SLAM。這項(xiàng)工作集成了各種組件,以解決動(dòng)態(tài)環(huán)境中準(zhǔn)確位置估計(jì)和地圖一致性方面的挑戰(zhàn)。DN-SLAM利用ORB特征進(jìn)行對(duì)象跟蹤,并采用語(yǔ)義分割、光流和分段任意模型(SAM),有效地識(shí)別和隔離場(chǎng)景中的動(dòng)態(tài)對(duì)象,同時(shí)保留靜態(tài)區(qū)域,增強(qiáng)SLAM性能。具體而言,該方法包括利用語(yǔ)義分割進(jìn)行對(duì)象識(shí)別,通過(guò)SAM細(xì)化動(dòng)態(tài)對(duì)象分割,提取靜態(tài)特征,以及使用NeRF生成密集地圖。
DynaMoN。該框架建立在DROID-SLAM的基礎(chǔ)上,通過(guò)運(yùn)動(dòng)和語(yǔ)義分割對(duì)其進(jìn)行了增強(qiáng)。該方法將這些元素集成到密集BA過(guò)程中,利用運(yùn)動(dòng)和分割掩碼對(duì)優(yōu)化過(guò)程進(jìn)行加權(quán),并忽略潛在的動(dòng)態(tài)像素。通過(guò)預(yù)先訓(xùn)練的DeepLabV3網(wǎng)絡(luò),語(yǔ)義分割有助于細(xì)化已知對(duì)象類的掩碼,并結(jié)合了基于運(yùn)動(dòng)的過(guò)濾來(lái)處理未知的動(dòng)態(tài)元素。
其他算法如DDN-SLAM、NID-SLAM可以參考具體論文。
不確定性估計(jì)
分析輸入數(shù)據(jù)中的不確定性,尤其是深度傳感器噪聲,對(duì)于魯棒系統(tǒng)處理至關(guān)重要。這包括過(guò)濾不可靠的傳感器測(cè)量值或?qū)⑸疃炔淮_定性納入優(yōu)化過(guò)程等任務(wù)。總體目標(biāo)是防止SLAM過(guò)程中可能嚴(yán)重影響系統(tǒng)準(zhǔn)確性的不準(zhǔn)確。同時(shí),承認(rèn)神經(jīng)模型重建中的內(nèi)在不確定性為評(píng)估系統(tǒng)可靠性增加了一個(gè)關(guān)鍵層,尤其是在具有挑戰(zhàn)性的場(chǎng)景中。本節(jié)標(biāo)志著神經(jīng)SLAM不確定性探索的開(kāi)始,強(qiáng)調(diào)將認(rèn)知(基于知識(shí))和預(yù)測(cè)(基于環(huán)境噪聲)不確定性信息作為提高SLAM系統(tǒng)整體性能的重要組成部分。
OpenWorld-SLAM。這項(xiàng)工作改進(jìn)了NICE-SLAM。解決其非實(shí)時(shí)執(zhí)行、有限的軌跡估計(jì)以及由于依賴預(yù)定義網(wǎng)格而適應(yīng)新場(chǎng)景的挑戰(zhàn)。為了增強(qiáng)在開(kāi)放世界場(chǎng)景中的適用性,這項(xiàng)工作引入了新的改進(jìn),包括從RGB-D圖像中集成深度不確定性以進(jìn)行局部精度細(xì)化,來(lái)自慣性測(cè)量單元(IMU)的運(yùn)動(dòng)信息利用以及用于不同環(huán)境處理的有限前景網(wǎng)格和背景球面網(wǎng)格的NeRF的劃分。這些增強(qiáng)提高了跟蹤精度和地圖表示,同時(shí)保持了基于NeRF的SLAM優(yōu)勢(shì)。這項(xiàng)工作強(qiáng)調(diào)了對(duì)支持基于NeRF的SLAM的專業(yè)數(shù)據(jù)集的需求,特別是那些提供戶外網(wǎng)格模型、運(yùn)動(dòng)數(shù)據(jù)和特征良好的傳感器的數(shù)據(jù)集。
UncLe-SLAM。UncLe-SLAM在飛行中聯(lián)合學(xué)習(xí)場(chǎng)景幾何和任意深度的不確定性。這是通過(guò)采用與輸入深度傳感器相關(guān)聯(lián)的拉普拉斯誤差分布來(lái)實(shí)現(xiàn)的。與缺乏深度不確定性建模集成的現(xiàn)有方法不同,UncLeSLAM采用了一種學(xué)習(xí)范式,根據(jù)不同圖像區(qū)域的估計(jì)置信度,自適應(yīng)地為其分配權(quán)重,而無(wú)需地面實(shí)況深度或3D。
Event-based SLAM
雖然輻射場(chǎng)啟發(fā)的VSLAM方法在精確的密集重建中具有優(yōu)勢(shì),但涉及運(yùn)動(dòng)模糊和照明變化的實(shí)際場(chǎng)景帶來(lái)了重大挑戰(zhàn),影響了映射和跟蹤過(guò)程的穩(wěn)健性。在本節(jié)中,我們將探討一類系統(tǒng),這些系統(tǒng)利用事件攝像機(jī)捕獲的數(shù)據(jù)來(lái)利用其動(dòng)態(tài)范圍和時(shí)間分辨率。由給定像素的亮度對(duì)數(shù)變化觸發(fā)的異步事件生成機(jī)制在低延遲和高時(shí)間分辨率方面顯示出潛在的優(yōu)勢(shì)。這有可能提高神經(jīng)VSLAM在極端環(huán)境中的魯棒性、效率和準(zhǔn)確性。盡管基于事件相機(jī)的SLAM系統(tǒng)仍處于研究的早期階段,但我們相信,正在進(jìn)行的研究有望克服傳統(tǒng)基于RGB的方法的局限性。
EN-SLAM。該框架通過(guò)隱式神經(jīng)范式將事件數(shù)據(jù)與RGB-D無(wú)縫集成,引入了一種新的范式轉(zhuǎn)變。它旨在克服現(xiàn)有SLAM方法在以運(yùn)動(dòng)模糊和照明變化等問(wèn)題為特征的非理想環(huán)境中操作時(shí)遇到的挑戰(zhàn)。
RGB-based SLAM
本節(jié)探討RGB密集SLAM方法,該方法僅依賴于彩色圖像的視覺(jué)提示,從而消除了對(duì)深度傳感器的需求,這些傳感器通常是光敏的、有噪聲的,在大多數(shù)情況下僅適用于室內(nèi)。因此,使用單目或雙目相機(jī)的僅RGB SLAM在RGB-D相機(jī)不切實(shí)際或成本高昂的情況下越來(lái)越受到關(guān)注,使RGB相機(jī)成為適用于更廣泛的室內(nèi)和室外環(huán)境的更可行的解決方案。然而,這些方法經(jīng)常面臨挑戰(zhàn),特別是在單目設(shè)置中,因?yàn)樗鼈內(nèi)狈缀蜗闰?yàn),導(dǎo)致深度模糊問(wèn)題。因此,由于較少的約束優(yōu)化,它們往往表現(xiàn)出較慢的優(yōu)化收斂。
NeRF-style RGB SLAM
DIM-SLAM。本文介紹了第一個(gè)使用神經(jīng)隱式映射表示的RGB SLAM系統(tǒng)。與NICE-SLAM類似,它結(jié)合了可學(xué)習(xí)的多分辨率體積編碼和用于深度和顏色預(yù)測(cè)的MLP解碼器。該系統(tǒng)動(dòng)態(tài)學(xué)習(xí)場(chǎng)景特征和解碼器。此外,DIM-SLAM通過(guò)跨尺度融合特征,在一步中優(yōu)化占用率,提高了優(yōu)化速度。值得注意的是,它引入了受多視圖立體啟發(fā)的光度扭曲損失,通過(guò)解決與視圖相關(guān)的強(qiáng)度變化,加強(qiáng)了合成圖像和觀測(cè)圖像之間的對(duì)齊,以提高準(zhǔn)確性。與其他RGB-D方法類似,DIM-SLAM利用并行跟蹤和映射線程來(lái)同時(shí)優(yōu)化相機(jī)姿勢(shì)和隱含場(chǎng)景表示。
其他算法Orbeez-SLAM、FMapping、TT-HO-SLAM、Hi-Map可以參考具體論文。
輔助監(jiān)督
在本節(jié)中,我們探討了基于RGB的SLAM方法,該方法使用外部框架將正則化信息集成到優(yōu)化過(guò)程中,稱為輔助監(jiān)督。這些框架包括各種技術(shù),例如從從單視圖或多視圖圖像獲得的深度估計(jì)導(dǎo)出的監(jiān)督、表面法線估計(jì)、光流等等。外部信號(hào)的結(jié)合對(duì)于消除優(yōu)化過(guò)程的歧義至關(guān)重要,并且有助于顯著提高僅使用RGB圖像作為輸入的SLAM系統(tǒng)的性能。
iMODE。該系統(tǒng)通過(guò)由三個(gè)核心進(jìn)程組成的多線程體系結(jié)構(gòu)運(yùn)行。首先,定位過(guò)程利用ORB-SLAM2稀疏SLAM系統(tǒng)在CPU上進(jìn)行實(shí)時(shí)相機(jī)姿態(tài)估計(jì),為后續(xù)映射選擇關(guān)鍵幀。其次,受iMAP的啟發(fā),半密集映射過(guò)程通過(guò)監(jiān)督深度渲染幾何體的實(shí)時(shí)訓(xùn)練來(lái)提高重建精度。
其他算法Hi-SLAM、NICER-SLAM、NeRF-VO、MoD-SLAM可以參考具體論文。
Semantic RGB SLAM
RO-MAP。RO-MAP是一種實(shí)時(shí)多目標(biāo)建圖系統(tǒng),無(wú)需深度先驗(yàn),利用神經(jīng)輻射場(chǎng)進(jìn)行目標(biāo)表示。這種方法將輕量級(jí)的以對(duì)象為中心的SLAM與NeRF模型相結(jié)合,用于從單目RGB輸入中同時(shí)定位和重建對(duì)象。該系統(tǒng)有效地為每個(gè)對(duì)象訓(xùn)練單獨(dú)的NeRF模型,展示了語(yǔ)義對(duì)象建圖和形狀重建的實(shí)時(shí)性能。主要貢獻(xiàn)包括開(kāi)發(fā)了第一個(gè)3D先驗(yàn)免費(fèi)單目多目標(biāo)映射管道,一個(gè)為目標(biāo)量身定制的高效損失函數(shù),以及一個(gè)高性能CUDA實(shí)現(xiàn)。
不確定性估計(jì)
NeRF SLAM。通過(guò)采用DROID-SLAM作為跟蹤模塊和Instant NGP作為分層體積神經(jīng)輻射場(chǎng)圖的實(shí)時(shí)實(shí)現(xiàn),該方法在給定RGB圖像作為輸入的情況下成功地實(shí)現(xiàn)了實(shí)時(shí)操作效率。此外,結(jié)合深度不確定性估計(jì)解決了深度圖中的固有噪聲,通過(guò)對(duì)神經(jīng)輻射場(chǎng)的深度損失監(jiān)督(權(quán)重由深度的邊際協(xié)方差確定)改善了結(jié)果。具體來(lái)說(shuō),管道涉及兩個(gè)實(shí)時(shí)同步的線程:跟蹤和建圖。跟蹤線程最大限度地減少了滑動(dòng)關(guān)鍵幀窗口的BA重新投影錯(cuò)誤。映射線程在沒(méi)有滑動(dòng)窗口的情況下優(yōu)化跟蹤線程中的所有關(guān)鍵幀。只有當(dāng)跟蹤線程創(chuàng)建新的關(guān)鍵幀,共享關(guān)鍵幀數(shù)據(jù)、姿勢(shì)、深度估計(jì)和協(xié)變量時(shí),才會(huì)發(fā)生通信。
LiDAR-Based SLAM
雖然到目前為止討論的VSLAM系統(tǒng)在RGB和密集深度數(shù)據(jù)都可用的較小室內(nèi)場(chǎng)景中成功運(yùn)行,但它們的局限性在RGB-D相機(jī)不切實(shí)際的大型室外環(huán)境中變得明顯。激光雷達(dá)傳感器在長(zhǎng)距離和各種戶外條件下提供稀疏而準(zhǔn)確的深度信息,在確保這些環(huán)境中的穩(wěn)健映射和定位方面發(fā)揮著關(guān)鍵作用。然而,激光雷達(dá)數(shù)據(jù)的稀疏性和RGB信息的缺乏對(duì)先前概述的密集SLAM方法在戶外環(huán)境中的應(yīng)用提出了挑戰(zhàn)。我們現(xiàn)在的重點(diǎn)是利用3D增量激光雷達(dá)數(shù)據(jù)的精度來(lái)改善戶外場(chǎng)景中的自主導(dǎo)航的新方法,同時(shí)利用基于輻射場(chǎng)的場(chǎng)景表示,即使在傳感器覆蓋范圍稀疏的區(qū)域中,也有可能實(shí)現(xiàn)密集、平滑的環(huán)境地圖重建。
NeRF-style LiDAR-based SLAM
NeRF-LOAM。NeRF LOAM引入了第一種神經(jīng)隱式方法來(lái)聯(lián)合確定傳感器的位置和方向,同時(shí)使用激光雷達(dá)數(shù)據(jù)構(gòu)建大規(guī)模環(huán)境的綜合3D表示。該框架包括三個(gè)相互連接的模塊:神經(jīng)里程計(jì)、神經(jīng)建圖和網(wǎng)格重建。神經(jīng)里程計(jì)模塊通過(guò)固定的隱式網(wǎng)絡(luò)最小化SDF誤差,為每次進(jìn)入的激光雷達(dá)掃描估計(jì)6-DoF姿態(tài)。隨后通過(guò)反向投影對(duì)姿態(tài)進(jìn)行優(yōu)化。并行地,神經(jīng)映射模塊在基于八叉樹(shù)的架構(gòu)中使用動(dòng)態(tài)體素嵌入,熟練地捕捉局部幾何。這種動(dòng)態(tài)分配策略確保了計(jì)算資源的有效利用,避免了預(yù)分配嵌入或時(shí)間密集型哈希表搜索的復(fù)雜性。該方法使用動(dòng)態(tài)體素嵌入查找表,提高了效率并消除了計(jì)算瓶頸。關(guān)鍵掃描細(xì)化策略提高了重建質(zhì)量,并解決了增量映射過(guò)程中的災(zāi)難性遺忘問(wèn)題,從而在最后一步中生成詳細(xì)的3D網(wǎng)格表示。
其他算法LONER、PIN-SLAM可以參考具體論文。
3DGS-style LiDAR-based SLAM
LIV-GaussMap。所提出的激光雷達(dá)慣性視覺(jué)(LIV)融合輻射場(chǎng)映射系統(tǒng)將硬件同步激光雷達(dá)慣性傳感器與相機(jī)集成,以實(shí)現(xiàn)精確的數(shù)據(jù)對(duì)齊。該方法從激光雷達(dá)慣性里程計(jì)開(kāi)始,利用尺寸自適應(yīng)體素來(lái)表示平面表面。激光雷達(dá)點(diǎn)云被分割成體素,并計(jì)算初始橢圓飛濺估計(jì)的協(xié)方差矩陣。該系統(tǒng)是通過(guò)使用視覺(jué)衍生的光度梯度優(yōu)化球面諧波系數(shù)和激光雷達(dá)高斯結(jié)構(gòu)來(lái)改進(jìn)的,提高了映射精度和視覺(jué)真實(shí)性。高斯的初始化涉及大小自適應(yīng)體素分割,并基于指定參數(shù)進(jìn)行進(jìn)一步細(xì)分。3D高斯圖的自適應(yīng)控制通過(guò)結(jié)構(gòu)細(xì)化和光度梯度優(yōu)化來(lái)解決重建不足和過(guò)密場(chǎng)景。該系統(tǒng)使用光柵化和阿爾法混合實(shí)現(xiàn)實(shí)時(shí)渲染。
實(shí)驗(yàn)及分析
在本節(jié)中,我們比較了數(shù)據(jù)集之間的方法,重點(diǎn)是跟蹤和3D重建。此外,我們還探索了新穎的視圖合成,并分析了運(yùn)行時(shí)和內(nèi)存使用方面的性能。在隨后的每個(gè)表中,我們使用粗體強(qiáng)調(diào)子類別中的最佳結(jié)果,并用紫色突出顯示絕對(duì)最佳結(jié)果。在我們的分析中,我們使用通用評(píng)估協(xié)議組織了論文中的定量數(shù)據(jù),并對(duì)結(jié)果進(jìn)行了交叉驗(yàn)證。我們的首要任務(wù)是納入具有一致基準(zhǔn)的論文,確保為多個(gè)來(lái)源的比較提供可靠的基礎(chǔ)。盡管這種方法并非詳盡無(wú)遺,但它保證了在我們的表格中包含具有可驗(yàn)證結(jié)果和共享評(píng)估框架的方法。為了進(jìn)行性能分析,我們使用了具有可用代碼的方法來(lái)報(bào)告通用硬件平臺(tái)(單個(gè)NVIDIA 3090 GPU)上的運(yùn)行時(shí)和內(nèi)存需求。關(guān)于每種方法的具體實(shí)施細(xì)節(jié),鼓勵(lì)讀者參考原始論文。
Visual SLAM評(píng)測(cè)
表2提供了對(duì)TUM RGB-D數(shù)據(jù)集的三個(gè)場(chǎng)景的相機(jī)跟蹤結(jié)果的全面分析,這些場(chǎng)景以具有挑戰(zhàn)性的條件為標(biāo)志,例如稀疏的深度傳感器信息和RGB圖像中的高運(yùn)動(dòng)模糊。關(guān)鍵基準(zhǔn)包括Kintinous、BAD-SLAM和ORB-SLAM2等已建立的方法,這些方法表示傳統(tǒng)的手工制作的基線。
表3給出了對(duì)ScanNet數(shù)據(jù)集的六個(gè)場(chǎng)景的相機(jī)跟蹤方法的評(píng)估。
表4評(píng)估了Replica中八個(gè)場(chǎng)景的相機(jī)跟蹤,與ScanNet和TUM RGB-D等具有挑戰(zhàn)性的同行相比,使用了更高質(zhì)量的圖像。評(píng)估包括報(bào)告每個(gè)場(chǎng)景的ATE RMSE結(jié)果以及平均結(jié)果。
在表5中,我們提供了建圖結(jié)果,突出了Replica數(shù)據(jù)集在3D重建和2D深度估計(jì)方面的性能。
在表6中,我們顯示了Replica的訓(xùn)練輸入視圖上的渲染質(zhì)量,遵循Point SLAM和NICE-SLAM的標(biāo)準(zhǔn)評(píng)估方法。
LiDAR SLAM/Odometry評(píng)測(cè)
表7顯示了對(duì)KITTI數(shù)據(jù)集上的激光雷達(dá)SLAM策略的評(píng)估,詳細(xì)說(shuō)明了頂部的里程計(jì)準(zhǔn)確性和底部的SLAM性能指標(biāo)。
表8報(bào)告了根據(jù)ATE RMSE測(cè)量的Newer College數(shù)據(jù)集的跟蹤精度。
圖片
表9收集了關(guān)于New College數(shù)據(jù)集上的3D重建質(zhì)量的結(jié)果。
性能分析
我們通過(guò)考慮迄今為止綜述的SLAM系統(tǒng)的效率來(lái)結(jié)束實(shí)驗(yàn)研究。為此,我們使用公開(kāi)的源代碼運(yùn)行方法,并測(cè)量1)GPU內(nèi)存需求(以GB為單位的峰值內(nèi)存使用量)和2)在單個(gè)NVIDIA RTX 3090板上實(shí)現(xiàn)的平均FPS(計(jì)算為處理單個(gè)序列所需的總時(shí)間,除以其中的幀總數(shù))。表10收集了我們?cè)赗eplica上運(yùn)行的RGB-D和RGB系統(tǒng)的基準(zhǔn)測(cè)試結(jié)果,按平均FPS的升序排序。最重要的是,我們考慮RGB-D框架:我們可以注意到,盡管SplaTAM在渲染圖像方面效率很高,但在同時(shí)處理跟蹤和映射方面卻慢得多。使用分層特征網(wǎng)格的混合方法也是如此,另一方面,所需的GPU內(nèi)存要少得多——與SplaTAM相比低4到5倍。最后,使用更高級(jí)的表示,如散列網(wǎng)格或點(diǎn)特征,可以實(shí)現(xiàn)更快的處理。這也通過(guò)對(duì)僅RGB方法的研究得到了證實(shí),在中間,NeRF-SLAM比DIM-SLAM快6倍。最后,關(guān)于激光雷達(dá)SLAM系統(tǒng),我們可以觀察到PIN-SLAM是如何比Nerf LOAM高效得多的,在以近7 FPS的速度運(yùn)行時(shí)只需要7 GB的GPU內(nèi)存,而Nerf LOAM需要近12 GB和每幀4秒。
該分析強(qiáng)調(diào)了盡管新一代SLAM系統(tǒng)帶來(lái)了巨大的前景,但它們中的大多數(shù)在硬件和運(yùn)行時(shí)要求方面仍然不令人滿意,使它們還沒(méi)有準(zhǔn)備好用于實(shí)時(shí)應(yīng)用。
討論
本節(jié)中,我們重點(diǎn)強(qiáng)調(diào)調(diào)查的主要發(fā)現(xiàn)。我們將概述通過(guò)所審查的最新方法取得的主要進(jìn)展,同時(shí)確定該領(lǐng)域當(dāng)前的挑戰(zhàn)和未來(lái)研究的潛在途徑。
場(chǎng)景表示。場(chǎng)景表示的選擇在當(dāng)前的SLAM解決方案中至關(guān)重要,它會(huì)顯著影響映射/跟蹤精度、渲染質(zhì)量和計(jì)算。早期的方法,如iMAP,使用基于網(wǎng)絡(luò)的方法,使用基于坐標(biāo)的MLP隱式地對(duì)場(chǎng)景進(jìn)行建模。雖然這些提供了緊湊、連續(xù)的場(chǎng)景建模,但由于在更新局部區(qū)域和縮放大型場(chǎng)景方面的挑戰(zhàn),它們難以進(jìn)行實(shí)時(shí)重建。此外,它們往往會(huì)產(chǎn)生過(guò)度平滑的場(chǎng)景重建。隨后的研究探索了基于網(wǎng)格的表示,如多分辨率分層和稀疏八叉樹(shù)網(wǎng)格,這些網(wǎng)格已經(jīng)很受歡迎。網(wǎng)格允許快速查找鄰居,但需要預(yù)先指定的網(wǎng)格分辨率,這導(dǎo)致在空閑空間中內(nèi)存使用效率低下,并且捕獲受分辨率限制的精細(xì)細(xì)節(jié)的能力有限。最近的進(jìn)展,如Point SLAM,支持基于混合神經(jīng)點(diǎn)的表示。與柵格不同,點(diǎn)密度自然變化,無(wú)需預(yù)先指定。與基于網(wǎng)絡(luò)的方法相比,點(diǎn)可以有效地集中在曲面周圍,同時(shí)為細(xì)節(jié)分配更高的密度,從而促進(jìn)可擴(kuò)展性和本地更新。然而,與其他NeRF風(fēng)格的方法類似,體積射線采樣顯著限制了其效率。有前景的技術(shù)包括基于3D高斯飛濺范式的顯式表示,與以前的表示相比,這種表示表現(xiàn)出更快的渲染/優(yōu)化。然而,在各種限制中,它們嚴(yán)重依賴初始化,對(duì)未觀察到的區(qū)域的原始生長(zhǎng)缺乏控制。
盡管在過(guò)去三年中取得了重大進(jìn)展,但正在進(jìn)行的研究仍在積極克服現(xiàn)有的場(chǎng)景表示限制,并尋找更有效的替代方案來(lái)提高SLAM的準(zhǔn)確性和實(shí)時(shí)性能。
災(zāi)難性遺忘?,F(xiàn)有的方法往往表現(xiàn)出忘記先前學(xué)習(xí)的信息的趨勢(shì),特別是在大型場(chǎng)景或擴(kuò)展視頻序列中。在基于網(wǎng)絡(luò)的方法的情況下,這歸因于它們依賴于單個(gè)神經(jīng)網(wǎng)絡(luò)或具有固定容量的全局模型,這些網(wǎng)絡(luò)或模型在優(yōu)化過(guò)程中會(huì)受到全局變化的影響。緩解這一問(wèn)題的一種常見(jiàn)方法是在從歷史數(shù)據(jù)中回放關(guān)鍵幀的同時(shí),使用當(dāng)前觀測(cè)的稀疏射線采樣來(lái)訓(xùn)練網(wǎng)絡(luò)。然而,在大規(guī)模增量映射中,這種策略會(huì)導(dǎo)致數(shù)據(jù)的累積增加,需要復(fù)雜的重新采樣過(guò)程來(lái)提高內(nèi)存效率。遺忘問(wèn)題延伸到基于網(wǎng)格的方法。盡管努力解決這一問(wèn)題,但由于二次或三次空間復(fù)雜性,仍存在障礙,這對(duì)可擴(kuò)展性提出了挑戰(zhàn)。同樣,雖然顯式表示(如3DGS風(fēng)格的解決方案)為災(zāi)難性遺忘提供了一種實(shí)用的解決方案,但由于內(nèi)存需求增加和處理速度緩慢,尤其是在大型場(chǎng)景中,它們面臨著挑戰(zhàn)。一些方法試圖通過(guò)使用稀疏幀采樣來(lái)減輕這些限制,但這會(huì)導(dǎo)致整個(gè)3D空間的信息采樣效率低下,與集成稀疏射線采樣的方法相比,導(dǎo)致模型更新速度較慢且不太均勻。
最終,一些策略建議將環(huán)境劃分為子圖,并將局部SLAM任務(wù)分配給不同的代理。然而,這在處理多個(gè)分布式模型和設(shè)計(jì)有效策略來(lái)管理重疊區(qū)域同時(shí)防止地圖融合偽影的發(fā)生方面帶來(lái)了額外的挑戰(zhàn)。
實(shí)時(shí)限制。所審查的許多技術(shù)在實(shí)現(xiàn)實(shí)時(shí)處理方面面臨挑戰(zhàn),通常無(wú)法與傳感器幀速率相匹配。這種限制主要是由于所選擇的地圖數(shù)據(jù)結(jié)構(gòu)或基于計(jì)算密集型光線渲染的優(yōu)化,這在NeRF風(fēng)格的SLAM方法中尤為明顯。特別地,使用分層網(wǎng)格的混合方法需要較少的GPU內(nèi)存,但表現(xiàn)出較慢的運(yùn)行時(shí)性能。另一方面,散列網(wǎng)格或稀疏體素等高級(jí)表示允許更快的計(jì)算,但對(duì)內(nèi)存的要求更高。最后,盡管目前的3DGS風(fēng)格的方法在快速圖像渲染方面具有優(yōu)勢(shì),但它們?nèi)噪y以有效處理多時(shí)間跟蹤和映射處理,阻礙了它們?cè)趯?shí)時(shí)應(yīng)用中的有效使用。
全局優(yōu)化。實(shí)現(xiàn)LC和全局BA需要大量的計(jì)算資源,冒著性能瓶頸的風(fēng)險(xiǎn),尤其是在實(shí)時(shí)應(yīng)用程序中。由于更新整個(gè)3D模型的計(jì)算復(fù)雜性過(guò)高,許多已綜述的幀到模型方法都面臨著閉環(huán)和全局束調(diào)整的挑戰(zhàn)。相比之下,幀對(duì)幀技術(shù)通過(guò)在背景線程中執(zhí)行全局BA來(lái)促進(jìn)全局校正,這顯著提高了跟蹤精度,如所報(bào)道的實(shí)驗(yàn)所示,盡管與實(shí)時(shí)速率相比計(jì)算速度較慢。對(duì)于這兩種方法,計(jì)算成本很大程度上是由于潛在特征網(wǎng)格缺乏靈活性,無(wú)法適應(yīng)環(huán)路閉合的姿態(tài)校正。事實(shí)上,這需要重新分配特征網(wǎng)格,并在校正循環(huán)和更新姿勢(shì)后重新訓(xùn)練整個(gè)地圖。然而,隨著處理幀數(shù)的增加,這一挑戰(zhàn)變得更加明顯,導(dǎo)致相機(jī)漂移誤差的累積,最終導(dǎo)致不一致的3D重建或重建過(guò)程的快速崩潰。
SLAM中NeRF vs. 3DGS。NeRF風(fēng)格的SLAM主要依賴于MLP,非常適合于新的視圖合成、映射和跟蹤,但由于其依賴于每像素光線行進(jìn),因此面臨著過(guò)度平滑、易發(fā)生災(zāi)難性遺忘和計(jì)算效率低下等挑戰(zhàn)。3DGS繞過(guò)每像素光線行進(jìn),并通過(guò)基元上的可微分光柵化來(lái)利用稀疏性。這有利于SLAM的顯式體積表示、快速渲染、豐富的優(yōu)化、直接梯度流、增加的地圖容量和顯式的空間范圍控制。因此,盡管NeRF顯示出非凡的合成新視圖的能力,但其訓(xùn)練速度慢和難以適應(yīng)SLAM是顯著的缺點(diǎn)。3DGS以其高效的渲染、明確的表示和豐富的優(yōu)化能力,成為一種強(qiáng)大的替代品。盡管有其優(yōu)點(diǎn),但當(dāng)前3DGS風(fēng)格的SLAM方法仍有局限性。這些問(wèn)題包括大型場(chǎng)景的可擴(kuò)展性問(wèn)題、缺乏直接的網(wǎng)格提取算法、無(wú)法準(zhǔn)確編碼精確的幾何體,以及無(wú)法控制的高斯增長(zhǎng)到未觀察到的區(qū)域的可能性,從而導(dǎo)致渲染視圖和底層3D結(jié)構(gòu)中的偽影。
評(píng)估不一致。缺乏標(biāo)準(zhǔn)化的基準(zhǔn)或具有明確評(píng)估協(xié)議的在線服務(wù)器,導(dǎo)致評(píng)估方法不一致,難以在方法之間進(jìn)行公平比較,并在不同研究論文中提出的方法中出現(xiàn)不一致。ScanNet等數(shù)據(jù)集的挑戰(zhàn)就是例證,其中地面實(shí)況姿態(tài)是從Bundle Fusion中得出的,這引發(fā)了人們對(duì)評(píng)估結(jié)果的可靠性和可推廣性的擔(dān)憂。此外,使用訓(xùn)練視圖作為輸入來(lái)評(píng)估渲染性能會(huì)引發(fā)對(duì)特定圖像過(guò)擬合風(fēng)險(xiǎn)的合理?yè)?dān)憂。我們強(qiáng)調(diào)有必要探索在SLAM背景下評(píng)估新視圖渲染的替代方法,并強(qiáng)調(diào)解決這些問(wèn)題對(duì)更穩(wěn)健的研究結(jié)果的重要性。
其他挑戰(zhàn)。SLAM方法,無(wú)論是傳統(tǒng)的、基于深度學(xué)習(xí)的,還是受輻射場(chǎng)表示的影響,都面臨著共同的挑戰(zhàn)。一個(gè)值得注意的障礙是動(dòng)態(tài)場(chǎng)景的處理,由于靜態(tài)環(huán)境的基本假設(shè),這被證明是困難的,導(dǎo)致重建場(chǎng)景中的偽影和跟蹤過(guò)程中的錯(cuò)誤。雖然一些方法試圖解決這個(gè)問(wèn)題,但仍有很大的改進(jìn)空間,尤其是在高度動(dòng)態(tài)的環(huán)境中。
另一個(gè)挑戰(zhàn)是對(duì)傳感器噪聲的敏感性,包括運(yùn)動(dòng)模糊、深度噪聲和劇烈旋轉(zhuǎn),所有這些都會(huì)影響跟蹤和映射的準(zhǔn)確性。場(chǎng)景中存在的非朗伯對(duì)象(如玻璃或金屬表面)進(jìn)一步加劇了這種情況,由于其反射特性的變化,這些對(duì)象會(huì)帶來(lái)額外的復(fù)雜性。在這些挑戰(zhàn)的背景下,值得注意的是,許多方法往往忽視了對(duì)輸入模式的明確不確定性估計(jì),阻礙了對(duì)系統(tǒng)可靠性的全面理解。
此外,缺乏外部傳感器,特別是深度信息,給僅RGB的SLAM帶來(lái)了一個(gè)根本問(wèn)題,導(dǎo)致深度模糊和3D重建優(yōu)化收斂問(wèn)題。
一個(gè)不那么關(guān)鍵但具體的問(wèn)題是場(chǎng)景的渲染圖像的質(zhì)量。由于缺乏對(duì)模型中的視圖方向進(jìn)行建模,從而影響渲染質(zhì)量,因此已審查的技術(shù)通常難以處理與視圖相關(guān)的外觀元素,如鏡面反射。
結(jié)論
總之,這篇綜述開(kāi)創(chuàng)了受輻射場(chǎng)表示最新進(jìn)展影響的SLAM方法的探索。從iMap等開(kāi)創(chuàng)性作品到最新進(jìn)展,這篇綜述揭示了在短短三年內(nèi)出現(xiàn)的大量文獻(xiàn)。通過(guò)結(jié)構(gòu)化的分類和分析,它突出了關(guān)鍵的局限性和創(chuàng)新,提供了有價(jià)值的見(jiàn)解和跟蹤、繪制和渲染的比較結(jié)果。它還確定了當(dāng)前懸而未決的挑戰(zhàn),為未來(lái)的探索提供了有趣的途徑。
因此,這項(xiàng)調(diào)查旨在為新手和經(jīng)驗(yàn)豐富的專家提供重要指南,使其成為這一快速發(fā)展領(lǐng)域的綜合參考。