偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

優(yōu)于各種駕駛場景SOTA!利用約束GS打破視覺重建壁壘,AutoSplat敲門駕駛場景重構(gòu)

人工智能 智能汽車
今天為大家分享多倫多大學&華為諾亞最新的工作AutoSplat!自動駕駛視覺場景重建SOTA,新視角合成能力超越MARS等!

寫在前面&出發(fā)點

真實的場景重建和視圖合成對于通過模擬安全關(guān)鍵場景來推動自動駕駛系統(tǒng)的發(fā)展至關(guān)重要。3DGaussian Splatting在實時渲染和靜態(tài)場景重建方面表現(xiàn)優(yōu)異,但由于復雜的背景、動態(tài)目標和稀疏的視圖,它在模擬駕駛場景時遇到了挑戰(zhàn)。這里提出了AutoSplat,這是一個采用Gaussian Splatting技術(shù)的框架,以實現(xiàn)自動駕駛場景的高度逼真的重建。通過對代表道路和天空區(qū)域的高斯函數(shù)施加幾何約束,方法能夠?qū)崿F(xiàn)對包括車道變更在內(nèi)的挑戰(zhàn)性場景的多視圖一致模擬。利用3D模板,引入了一種反射高斯一致性約束,以監(jiān)督前景目標的可見面和不可見面。此外,為了建模前景目標的動態(tài)外觀,為每個前景高斯函數(shù)估計了殘差球諧函數(shù)。在Pandaset和KITTI數(shù)據(jù)集上進行的廣泛實驗表明,AutoSplat在場景重建和新視圖合成方面優(yōu)于各種駕駛場景下的最先進方法。項目頁面位于:https://autosplat.github.io/。

領(lǐng)域背景介紹

從捕獲的圖像中進行視圖合成和場景重建是計算機圖形學和計算機視覺中的基本挑戰(zhàn),對自動駕駛和機器人技術(shù)至關(guān)重要。從移動車輛上的稀疏傳感器數(shù)據(jù)中重建詳細的3D場景在高速行駛時尤其具有挑戰(zhàn)性,因為此時無論是自動駕駛車輛還是周圍物體都處于運動狀態(tài)。這些技術(shù)通過模擬逼真的駕駛場景,特別是成本高昂或危險的極端情況,增強了安全性。

神經(jīng)輻射場(NeRFs)的出現(xiàn)通過多層感知器(MLP)隱式表示場景,徹底改變了視圖合成和重建領(lǐng)域。眾多研究致力于解決NeRF面臨的挑戰(zhàn),如訓練和渲染速度慢,以及渲染質(zhì)量,特別是在重建有界靜態(tài)場景方面。同時,也探索了無界場景和大規(guī)模城市區(qū)域的擴展。各種方法已針對自動駕駛場景中的動態(tài)場景建模進行了研究。然而,基于NeRF的方法在訓練和渲染包含多個動態(tài)目標的大規(guī)模場景時仍面臨重大障礙。

與基于NeRF的方法相比,3D Gaussian Splatting(3DGS)使用各向異性的3D高斯函數(shù)明確表示場景,這使得它能夠更快地進行訓練,實現(xiàn)高質(zhì)量的新視圖合成,并進行實時光柵化。盡管3DGS在處理純靜態(tài)場景方面表現(xiàn)出色,但它無法重建包含動態(tài)目標的場景。此外,3DGS并非為重建自動駕駛場景而設(shè)計,而在自動駕駛場景中,視圖通常是稀疏的。這導致在前景目標重建和新視圖合成時出現(xiàn)扭曲,如圖1所示的自動駕駛車輛變道場景。

圖片

這里提出了AutoSplat,一個專為自動駕駛場景模擬而設(shè)計的基于3DGS的框架。為了確保在背景重建過程中新視圖的一致性和高質(zhì)量合成,我們將道路和天空區(qū)域與其他背景區(qū)分開來。對這些區(qū)域的高斯函數(shù)施加約束,使其變得平坦,從而保證多視圖的一致性。這在變道場景中尤為明顯,如圖1所示。此外,表示前景目標的3D點無法通過運動結(jié)構(gòu)(SfM)方法捕獲,且激光雷達點云稀疏且不完整。因此,我們利用密集的3D模板作為高斯函數(shù)初始化的先驗,并對這些高斯函數(shù)進行微調(diào)以重建場景中的前景目標。這使我們能夠引入反射高斯一致性約束,該約束通過利用真實相機視圖將前景目標所有高斯函數(shù)反射到其對稱平面上來監(jiān)督前景目標的不可見部分。最后,為了捕捉前景目標的動態(tài)外觀,估計了不同時間步長下每個高斯函數(shù)的殘差球諧函數(shù)。總的來說,主要貢獻有四個方面:

  1. 將背景進行分解,并對道路和天空區(qū)域施加幾何約束,以實現(xiàn)多視圖一致的光柵化;
  2. 利用3D模板對前景高斯函數(shù)進行初始化,并結(jié)合反射高斯一致性約束,通過從對稱可見視圖中重建不可見部分;
  3. 通過估計時間依賴的殘差球諧函數(shù)來捕捉前景目標的動態(tài)視覺特征;
  4. 在Pandaset和KITTI數(shù)據(jù)集上將AutoSplat與最先進(SOTA)方法進行了全面比較;

相關(guān)工作

隱式表示與神經(jīng)渲染:體渲染技術(shù),特別是NeRF,已經(jīng)在3D重建和新視圖合成方面取得了顯著進展。然而,NeRF面臨著一些挑戰(zhàn),包括訓練和渲染速度慢、內(nèi)存使用率高以及幾何估計不準確,特別是在視點稀疏的情況下。為了解決訓練速度慢的問題,已經(jīng)探索了不同的方法,如體素網(wǎng)格、張量分解以及哈希編碼。為了改善渲染延遲,F(xiàn)asterNeRF設(shè)計了一種受圖形啟發(fā)的分解方法,以緊湊地緩存空間中每個位置的深度輻射圖,并使用射線方向有效地查詢該圖。MobileNeRF和BasedSDF通過將隱式體轉(zhuǎn)換為顯式紋理網(wǎng)格來實現(xiàn)快速的渲染速度。為了解決NeRF渲染質(zhì)量低的問題,Mip-NeRF有效地渲染了抗鋸齒的圓錐形截錐體而不是射線。Mip-NeRF 360通過采用非線性場景參數(shù)化、在線提煉和基于失真的正則化器,解決了從小型圖像集重建大型(無界)場景時固有的模糊性問題。

使用NeRF進行城市場景重建:建模城市級場景具有挑戰(zhàn)性,因為需要處理成千上萬張具有不同光照條件的圖像,每張圖像僅捕捉到場景的一小部分,這帶來了巨大的計算需求。MegaNeRF和BlockNeRF將場景劃分為多個塊,并為每個塊訓練單獨的NeRF模型。然而,這些方法并沒有對自動駕駛場景中常見的動態(tài)目標進行建模。NSG和MARS通過引入場景圖來進行動態(tài)場景建模。與NSG不同,SUDS解決了在自動駕駛車輛運動過程中的重建問題,利用激光雷達數(shù)據(jù)來改善深度感知,并利用光流來減輕對目標標注的嚴格要求。EmerNeRF通過學習駕駛場景的空間時間表示,并通過分層場景和使用誘導流場來提高動態(tài)目標的渲染精度。盡管進行了優(yōu)化努力和采用了創(chuàng)新策略,但基于NeRF的方法仍然計算量大,并且需要密集重疊的視圖。此外,模型容量的限制使得在建模具有多個目標的長期動態(tài)場景時難以保證準確性,從而導致視覺偽影。

3D Gaussian Splatting(3DGS):3DGS利用了一種顯式的場景表示方法。其核心在于優(yōu)化各向異性的3D高斯函數(shù),這些高斯函數(shù)負責場景的忠實重建,同時結(jié)合了快速、可見性感知的光柵化算法。這不僅加速了訓練過程,還促進了實時光柵化。然而,由于3DGS假設(shè)場景是靜態(tài)的,并且可用的相機視角有限,因此它在重建大規(guī)模自動駕駛場景時仍面臨相當大的障礙。此外,3DGS中背景區(qū)域缺乏幾何約束,導致在合成新視圖時質(zhì)量顯著下降,如圖1所示。最近,PVG在3DGS的基礎(chǔ)上,通過使用基于周期性振動的時間動態(tài)來模擬自動駕駛場景中的動態(tài)場景。然而,該方法并沒有解決新場景的模擬問題,例如自動駕駛車輛的車道變換和物體軌跡的調(diào)整。相比之下,我們的方法在重建動態(tài)場景和模擬多種新場景方面表現(xiàn)出色,包括改變自動駕駛車輛和前景物體的軌跡。

AutoSplat方法介紹

3DGS通過使用從一組3D點初始化的各向異性3D高斯函數(shù)來顯式地表示一個場景。它被定義為:

圖片

其中,μ   分別表示每個3D高斯函數(shù)的中心向量和協(xié)方差矩陣。此外,在3DGS中,每個高斯函數(shù)都被賦予了一個不透明度o和顏色c屬性,其中顏色c使用球諧系數(shù)來表示。為了優(yōu)化方便,協(xié)方差矩陣Σ被分解為縮放矩陣S和旋轉(zhuǎn)矩陣R:

圖片

對于可微渲染,3D高斯函數(shù)通過近似其在二維空間中的投影位置和協(xié)方差,被涂抹到圖像平面上。通過根據(jù)高斯函數(shù)在相機空間中的深度進行排序,查詢每個高斯函數(shù)的屬性,并通過混合N個重疊高斯函數(shù)的貢獻來計算像素的最終光柵化顏色C,如下所示:

圖片

給定按順序捕獲和校準的多傳感器數(shù)據(jù),其中包括由相機拍攝的N個圖像序列(Ii),以及相應的內(nèi)參(Ki)和外參(Ei)矩陣,還有3D激光雷達點云Li和對應的動態(tài)物體軌跡Ti,我們的目標是利用3DGS來重建3D場景,并在任何相機姿態(tài)下合成新的視圖,同時賦予新的物體軌跡。提出的方法的概述如圖2所示。首先從重建一個具有幾何感知的靜態(tài)背景開始。然后,從3D模板中重建前景物體,在建模其動態(tài)外觀的同時,確??梢妳^(qū)域和不可見區(qū)域之間的一致性。最后將前景和背景高斯函數(shù)融合,以產(chǎn)生精細且統(tǒng)一的表示。

圖片

1)Background重建

自動駕駛場景既廣闊又無邊界,而傳感器的觀測數(shù)據(jù)則相對稀疏。單純地使用3DGS從這些有限的觀測數(shù)據(jù)中表示背景,對于實現(xiàn)逼真的重建和模擬是不夠的。此外,用于重建道路和天空區(qū)域的高斯函數(shù)存在幾何上的錯誤,并會產(chǎn)生浮動偽影。雖然這些高斯函數(shù)能夠根據(jù)真實視圖重建場景,但由于其幾何形狀不正確,在模擬新場景(如圖1所示的自動駕駛車輛橫向移動)時會產(chǎn)生明顯的失真。

為了解決這些問題,提出的框架中背景訓練分為兩個階段進行。在第一階段,使用現(xiàn)成的預訓練分割模型獲得的語義掩碼,將道路和天空區(qū)域從背景的其他部分中分解出來。通過在校準矩陣的幫助下將每個時間步i的LiDAR點投影到圖像平面上,每個高斯函數(shù)都被分配到道路、天空或其他類別之一。這種分解有兩個目的。首先,這可以防止非天空和非道路的高斯函數(shù)重建天空和道路區(qū)域。其次,當涂抹天空和道路高斯函數(shù)時,可以約束它們產(chǎn)生多視圖一致的結(jié)果。由于LiDAR點不包括天空點,我們在最大場景高度以上添加了一個代表天空的平面點集。上述區(qū)域使用和損失項進行監(jiān)督。為了確保在涂抹道路和天空高斯函數(shù)時跨視圖的一致性,這些高斯函數(shù)被約束為平坦的。這是通過最小化它們的翻滾角和俯仰角以及垂直尺度來實現(xiàn)的。因此,第一階段背景訓練的整體損失項定義為:

圖片

其中,和分別表示區(qū)域g的語義掩碼真實圖像和光柵化圖像,g可以是道路、天空或其他。Cg是對道路和天空區(qū)域施加的約束,其中?i、θi和szi分別表示第i個高斯函數(shù)的翻滾角、俯仰角以及垂直尺度(沿Z軸)。此外,β用于加權(quán)幾何約束。提出的約束保證了無論視點如何變化,道路和天空高斯函數(shù)的光柵化都能保持一致。

在背景重建的第二階段,將所有高斯函數(shù)合并在一起,并使用LBG對整個圖像進行監(jiān)督,其中g(shù)∈{road ∪ sky ∪ other}。在這一階段,背景的道路、天空和其他區(qū)域被混合以優(yōu)化最終的背景圖像。需要指出的是,在訓練的兩個階段中,都屏蔽了動態(tài)前景區(qū)域。

2)前景重建

盡管自動駕駛場景中存在遮擋和動態(tài)外觀等挑戰(zhàn),但前景重建對于實現(xiàn)逼真的模擬至關(guān)重要。在此,我們介紹了在3DGS范式中解決這些復雜性的新策略。

構(gòu)建模板高斯函數(shù) 3DGS在重建前景目標時面臨挑戰(zhàn),因為它依賴于為靜態(tài)場景量身定制的運動恢復結(jié)構(gòu)(SfM)技術(shù),并且缺乏運動建模能力。為了克服這些限制,我們需要一種替代方法來初始化代表這些前景目標的高斯函數(shù)并優(yōu)化其屬性。這可以通過利用隨機初始化的點、累積的LiDAR掃描或使用單幀或少量幀的3D重建方法來實現(xiàn)。盡管LiDAR能夠捕獲詳細的幾何形狀,但它存在盲點,并且對于遠距離物體的表面細節(jié)捕捉不夠。因此,我們使用具有真實車輛幾何形狀的3D模板來建模前景目標。在提出的方法中,給定包含K個前景目標的幀序列,模板將被復制K次,并根據(jù)目標軌跡放置在場景中。每個前景目標的高斯函數(shù)都從這個模板初始化,并計算每個軸上的縮放因子以調(diào)整模板的大小,以匹配目標目標3D邊界框的尺寸。在訓練過程中,這些模板相關(guān)聯(lián)的高斯函數(shù)會經(jīng)過迭代優(yōu)化,以收斂到目標外觀。通過利用模板中豐富的幾何信息,提出的方法提高了前景重建的真實感和保真度。同時,保留了對模板高斯函數(shù)位置的明確控制,使我們能夠通過修改前景目標的軌跡來生成新場景。

圖片

反射高斯一致性:前景目標在其結(jié)構(gòu)上展現(xiàn)出對稱性。利用這一假設(shè)有助于提高重建質(zhì)量,特別是在視角受限的場景中。通過在3DGS范式中強制執(zhí)行前景目標可見面和對稱不可見面之間的一致性來拓寬這一假設(shè)的應用范圍。此過程如圖3所示。更具體地說,對于每個前景目標,其高斯函數(shù)會在目標的對稱平面上進行反射。然后,根據(jù)真實視圖對反射后的高斯函數(shù)進行光柵化和監(jiān)督。這將為不可見的高斯函數(shù)提供監(jiān)督。高斯函數(shù)的反射矩陣M可以定義為:

圖片

其中,a表示反射軸,I表示單位矩陣。每個高斯函數(shù)的位置x、旋轉(zhuǎn)R和球諧特征通過以下方式進行反射:

圖片

其中,是一個Wigner D-矩陣,用于描述反射,而x?、R?、f?SH分別表示高斯函數(shù)的反射位置、旋轉(zhuǎn)和球諧特征。這種反射一致性約束強制要求目標兩側(cè)對稱面的高斯函數(shù)的渲染結(jié)果相似。在推理階段,這使我們的方法能夠在其對稱視圖中光柵化出高質(zhì)量的前景。

動態(tài)外觀建模:捕捉前景目標的動態(tài)外觀對于自動駕駛模擬至關(guān)重要。這包括指示燈、前大燈和尾燈等重要信號,它們傳達意圖并影響駕駛行為。此外,逼真的模擬還需要模擬各種光照條件的變化,如陰影。為了捕捉動態(tài)外觀,通過為每個高斯函數(shù)學習殘差球諧特征來學習前景目標外觀的4D表示。換句話說,估計的殘差特征被用于將動態(tài)外觀賦予靜態(tài)表示。在這里使用一個簡單的多層感知機(MLP)來模擬動態(tài)外觀,更具體地說,利用時間嵌入,認識到外觀的變化與時間的演變密切相關(guān)。在每個時間步,將相應的時間嵌入、高斯位置和球諧特征輸入到模型中。然后,將估計的殘差特征添加到原始的球諧特征中。因此,前景目標在每個時間步的動態(tài)外觀通過以下方式建模:

圖片圖片

3) Scene-Level Fusion

場景級融合包括將前景和背景高斯函數(shù)進行混合。當分別優(yōu)化時,這兩組高斯函數(shù)在光柵化到一起時會出現(xiàn)失真,特別是在前景目標邊界附近尤為明顯。為了解決這些失真問題,將前景和背景高斯函數(shù)一起進行微調(diào),并在整個圖像上進行監(jiān)督。這將生成一個融合的前景-背景圖像,其中兩個組件的失真都得到緩解。此外,為了解決目標軌跡中的噪聲問題,我們對每個目標優(yōu)化了一個變換校正,包括旋轉(zhuǎn)和平移偏移。這些校正被應用于前景目標軌跡,以克服3D邊界框中的噪聲。最終的損失項計算如下:

圖片

實驗對比

圖片圖片圖片圖片圖片圖片

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-12-26 09:29:12

自動駕駛數(shù)據(jù)

2023-12-28 09:35:59

2024-08-13 12:39:23

2024-12-26 09:17:27

2025-04-03 08:40:00

自動駕駛AI模型

2022-02-18 10:34:58

自動駕駛

2021-06-02 06:24:05

計算機視覺3D無人駕駛

2024-05-21 09:46:35

視覺自動駕駛

2024-04-29 08:46:33

2024-05-20 09:52:55

自動駕駛場景

2021-11-12 14:36:00

智能駕駛汽車

2021-11-03 09:48:08

智能自動駕駛汽車

2024-10-28 13:30:00

2022-12-30 14:24:38

自動駕駛

2023-03-14 09:40:33

自動駕駛

2023-05-06 10:02:37

深度學習算法

2024-01-31 08:29:30

2024-11-28 09:31:44

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2023-01-12 09:25:11

自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號