偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

重塑路側(cè)BEV感知!BEVSpread:全新體素化暴力漲點(diǎn)(浙大&百度)

人工智能 智能汽車
今天為大家分享浙大&百度最新的工作—BEVSpread!路側(cè)BEV感知最新SOTA!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

基于視覺的路側(cè)3D目標(biāo)檢測(cè)在自動(dòng)駕駛領(lǐng)域引起了越來越多的關(guān)注,因其在減少盲點(diǎn)和擴(kuò)大感知范圍方面具有不可忽略的優(yōu)勢(shì)。而先前的工作主要集中在準(zhǔn)確估計(jì)2D到3D映射的深度或高度,忽略了體素化過程中的位置近似誤差。受此啟發(fā),我們提出了一種新的體素化策略來減少這種誤差,稱為BEVSpread。具體而言,BEVSpread不是將包含在截頭體點(diǎn)中的圖像特征帶到單個(gè)BEV網(wǎng)格,而是將每個(gè)截頭體點(diǎn)作為源,并使用自適應(yīng)權(quán)重將圖像特征擴(kuò)展到周圍的BEV網(wǎng)格。為了實(shí)現(xiàn)更好的特征傳遞性能,設(shè)計(jì)了一個(gè)特定的權(quán)重函數(shù),根據(jù)距離和深度動(dòng)態(tài)控制權(quán)重的衰減速度。在定制的CUDA并行加速的幫助下,BEVSpread實(shí)現(xiàn)了與原始體素化相當(dāng)?shù)耐评頃r(shí)間。在兩個(gè)大型路側(cè)基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)表明,作為一種插件,BEVSpread可以顯著提高現(xiàn)有基于frustum的BEV方法。在車輛、行人和騎行人幾類中,提升幅度為(1.12,5.26,3.01)AP。

開源鏈接:https://github.com/DaTongjie/BEVSpread

圖片

介紹

以視覺為中心的3D目標(biāo)檢測(cè)在自動(dòng)駕駛感知中發(fā)揮著關(guān)鍵作用,有助于準(zhǔn)確估計(jì)周圍環(huán)境的狀態(tài),并以低成本為預(yù)測(cè)和規(guī)劃提供可靠的觀測(cè)結(jié)果。現(xiàn)有的大多數(shù)工作都集中在自車輛系統(tǒng)上,由于缺乏全局視角和遠(yuǎn)程感知能力的限制,該系統(tǒng)面臨著安全挑戰(zhàn)。近年來,路側(cè)3D目標(biāo)檢測(cè)引起了越來越多的關(guān)注。由于路邊攝像頭安裝在離地幾米的電線桿上,它們?cè)跍p少盲點(diǎn)、提高遮擋魯棒性和擴(kuò)展全局感知能力方面具有固有優(yōu)勢(shì)。因此,作為提高自動(dòng)駕駛安全性的補(bǔ)充,提高道路側(cè)感知性能是很有希望的。

最近,鳥瞰圖(BEV)已成為處理3D目標(biāo)檢測(cè)任務(wù)的主流范式,其中基于frustum的方法是一個(gè)重要的分支,其流程如圖1a所示。它首先通過估計(jì)深度或高度將圖像特征映射到3D frustum,然后通過降低Z軸自由度將frustum匯集到BEV網(wǎng)格上。廣泛的工作集中在提高深度估計(jì)或高度估計(jì)的精度,以提高2D到3D映射的性能。然而,很少考慮由體素化過程引起的近似誤差。如圖1a所示,預(yù)測(cè)點(diǎn)通常不位于BEV網(wǎng)格中心。為了提高計(jì)算效率,先前的工作將預(yù)測(cè)點(diǎn)中包含的圖像特征近似累積到單個(gè)對(duì)應(yīng)的BEV網(wǎng)格中心,導(dǎo)致位置近似誤差,并且該誤差是不可恢復(fù)的。增加BEV網(wǎng)格的密度可以減輕這種誤差,但會(huì)顯著增加計(jì)算工作量。特別是在路邊場(chǎng)景中,由于感知范圍大,計(jì)算資源有限,BEV網(wǎng)格只能設(shè)計(jì)得相對(duì)稀疏,以確保實(shí)時(shí)檢測(cè),這恰恰加劇了這種誤差的影響。因此,我們提出了一個(gè)問題:我們?nèi)绾卧诒3钟?jì)算復(fù)雜性的同時(shí)減少這種誤差?

在這項(xiàng)工作中,我們提出了一種新的體素化策略來減少這種位置近似誤差,稱為BEVSpread。BEVSpread不是將包含在截頭體點(diǎn)中的圖像特征添加到單個(gè)BEV網(wǎng)格,而是將每個(gè)截頭體點(diǎn)將視為源,并使用自適應(yīng)權(quán)重將圖像特征擴(kuò)展到周圍的BEV網(wǎng)格。我們發(fā)現(xiàn),分配給周圍BEV網(wǎng)格的權(quán)重應(yīng)該與距離和深度有關(guān)。首先,權(quán)重隨著距離的衰減可以有效地保留更多的位置信息,這有利于后續(xù)的網(wǎng)絡(luò)學(xué)習(xí)。其次,我們注意到,具有更深深度的相同大小的圖像塊表示較大3D尺度的目標(biāo),這導(dǎo)致遠(yuǎn)處的目標(biāo)包含很少的圖像特征。因此,為遠(yuǎn)處目標(biāo)的周圍BEV網(wǎng)格分配更大的權(quán)重是合理的。受此啟發(fā),設(shè)計(jì)了一個(gè)特定的權(quán)重函數(shù)來實(shí)現(xiàn)卓越的擴(kuò)展性能,其中權(quán)重和距離遵循高斯分布。這種高斯分布的方差與控制衰減速度的深度信息呈正相關(guān)。特別是,BEVSpread是一個(gè)插件,可以直接部署在現(xiàn)有的基于截頭體的BEV方法上。

為了驗(yàn)證BEVSpread的有效性,在兩個(gè)具有挑戰(zhàn)性的基于視覺的路邊感知基準(zhǔn)DAIR-V2X-I和Repo3D上進(jìn)行了廣泛的實(shí)驗(yàn)。在部署擴(kuò)展體素化策略后,BEVHeight和BEVDepth的3D平均精度在三個(gè)主要類別中平均提高了3.1和4.0。

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  • 我們指出,當(dāng)前的體素化方法存在位置近似誤差,嚴(yán)重影響了路邊場(chǎng)景中3D目標(biāo)檢測(cè)的性能,而這一問題在以前的工作中被忽略了。
  • 我們提出了一種新的擴(kuò)展體素化方法,即BEVSpread,該方法在擴(kuò)展過程中考慮了距離和深度效應(yīng),以減少位置近似誤差,同時(shí)通過CUDA并行加速保持可比較的推理時(shí)間。
  • 大量實(shí)驗(yàn)表明,作為一種插件,BEVSpread在車輛、行人和騎自行車的類別中分別以(1.12、5.26、3.01)AP的大幅度顯著提高了現(xiàn)有基于截頭體的BEV方法的性能。

相關(guān)工作回顧

近年來,鳥瞰圖(BEV)為多傳感器提供了統(tǒng)一的特征空間,清晰地呈現(xiàn)了目標(biāo)的位置和尺度,成為自動(dòng)駕駛中3D目標(biāo)檢測(cè)的主流范式。在本節(jié)中,我們?cè)敿?xì)介紹了BEV感知、路邊BEV感知和體素化策略。

BEV感知。根據(jù)傳感器類型,BEV方法主要可分為三部分,包括基于視覺的方法、基于激光雷達(dá)的方法和基于融合的方法?;谝曈X的BEV方法由于其低部署成本而成為一個(gè)具有重要意義的話題,它又分為基于Transformer和基于Frustum的方案?;赥ransformer的方法引入了3D目標(biāo)查詢或BEV網(wǎng)格查詢來回歸3D邊界框?;诮仡^體的方法首先通過估計(jì)深度或高度將圖像特征映射到3D截頭體,然后通過體素化生成BEV特征。這項(xiàng)工作側(cè)重于基于截頭體的方法中的體素化化過程,這一過程很少被探索,但至關(guān)重要。

路測(cè)BEV感知。路測(cè)BEV感知是一個(gè)新興領(lǐng)域,但尚未得到充分的探索。BEVHeight首先關(guān)注路邊感知,它預(yù)測(cè)高度分布以取代深度分布。CBR側(cè)重于設(shè)備的魯棒性,它在沒有外部校準(zhǔn)的情況下生成BEV特征,而精度有限。CoBEV融合了以幾何為中心的深度和以語義為中心的高度線索,以進(jìn)一步提高性能。MonoGAE考慮地平面的先驗(yàn)知識(shí)。與這些方法不同的是,本文提出了一種插件來提高現(xiàn)有基于截頭體的BEV方法的性能。

體素化策略。LSS是基于frustum的BEV方法的開創(chuàng)性工作,其中首次提出了體素化。大量的工作遵循這一設(shè)置。SA-BEV提出了一種新的體素化策略,即SA-BEVPool,用于過濾背景信息。而未過濾出的截頭體點(diǎn)采用與LSS相同的體素化化方法。在這項(xiàng)工作中,我們重點(diǎn)消除LSS體素化化過程中的位置近似誤差。

方法詳解

網(wǎng)絡(luò)整體框架如下圖所示:

圖片

Top-k Nearest BEV Grids:定義來表示BEV網(wǎng)格中任意位置的集合,來代表BEV網(wǎng)格中心的集合。

圖片

Spread Voxel Pooling:在擴(kuò)展體素池化階段,我們首先通過減小Z軸自由度來計(jì)算3D幾何體中每個(gè)點(diǎn)在BEV空間中的對(duì)應(yīng)位置p。我們不是將包含的上下文特征累積到相應(yīng)的單個(gè)BEV網(wǎng)格中心,而是將具有特定權(quán)重的fC傳播到其鄰居Ω,這些鄰居Ω是p周圍的n個(gè)最近的BEV網(wǎng)格。具體而言,擴(kuò)展體素池化的過程可以公式化為:

圖片

權(quán)重函數(shù)。我們發(fā)現(xiàn),在傳播過程中,權(quán)重應(yīng)該與距離和深度有關(guān)。(a) 權(quán)重隨距離衰減可以保留更多的位置信息,有利于通過后續(xù)的網(wǎng)絡(luò)學(xué)習(xí)恢復(fù)p∈PBEV的準(zhǔn)確位置,從而消除原始體素池化過程中的位置近似誤差。此外,我們還設(shè)計(jì)了一個(gè)直觀的實(shí)驗(yàn)來證明這一點(diǎn)。(b) 如圖3所示,具有較深深度的相同大小的圖像塊表示較大3D尺度的目標(biāo),導(dǎo)致較遠(yuǎn)的目標(biāo)包含很少的圖像特征。因此,為遠(yuǎn)處目標(biāo)的周圍BEV網(wǎng)格分配更大的權(quán)重是合理的,這表明權(quán)重隨著距離的推移衰減得更慢,如圖2所示。

圖片

為此,我們?cè)O(shè)計(jì)了一個(gè)特定的權(quán)重函數(shù),巧妙地使用高斯函數(shù)來整合距離和深度信息。函數(shù)定義為:

圖片

總之,擴(kuò)展體素池策略的偽代碼如算法1所示。

圖片

實(shí)驗(yàn)

本文在DAIR-V2X-I和Rope3D上展開實(shí)驗(yàn)。

Comparison with state-of-the-art

為了進(jìn)行全面評(píng)估,我們將所提出的BEVSpread與DAIR-V2X-I和Rope3D上最先進(jìn)的BEV探測(cè)器進(jìn)行了比較。由于所提出的擴(kuò)展體素池策略是一個(gè)插件,我們將其部署到BEVHeight,稱為BEVSpread。結(jié)果描述如下。

DAIR-V2X-I的結(jié)果。表1說明了DAIR-V2X-I的性能比較。我們將我們的BEVSpread與最先進(jìn)的基于視覺的方法進(jìn)行了比較,包括ImVoxelNet、BEVFormer、BEVDepth和BEVHeight,以及傳統(tǒng)的基于激光雷達(dá)的方法,包括PointPillars、SECOND和MVXNet。結(jié)果表明,BEVSpread在車輛、行人和騎自行車的類別中分別以(1.12、5.26和3.01)AP的顯著優(yōu)勢(shì)優(yōu)于最先進(jìn)的方法。我們注意到,以前的方法僅在0-100m中進(jìn)行訓(xùn)練,而DAIR-V2X-I包含0-200m的標(biāo)簽。為此,我們涵蓋了更長范圍的3D目標(biāo)檢測(cè),將目標(biāo)定位在0-200m內(nèi),在表1中表示為DAIR-V2X-I*。

圖片

Rope3D上的結(jié)果。我們將BEVSpread與最先進(jìn)的以視覺為中心的方法進(jìn)行了比較,包括在同源設(shè)置中的Rope3D驗(yàn)證集上的BEVDepth和BEVHeight。如表1所示,BEVSpread全面優(yōu)于所有其他方法,在車輛、行人和騎自行車的情況下分別顯著提高了(2.59、3.44和2.14)AP。

可視化結(jié)果。如圖4所示,我們?cè)趫D像和BEV視圖中顯示了BEVHeight和BEVSpread的可視化結(jié)果。在上半部分可以觀察到,BEVSpread在多個(gè)場(chǎng)景中檢測(cè)到BEVHeight未命中的目標(biāo)。主要原因顯示在下半部分。圖像特征表明,BEVSpread將更多的注意力集中在前景區(qū)域。并且BEVSpread生成的BEV特征比BEVHeight生成的特征更平滑。BEVHeight錯(cuò)過了行人,因?yàn)闆]有相應(yīng)的圖像特征被投影到正確的BEV網(wǎng)格上。而BEV將圖像特征擴(kuò)展到周圍的BEV網(wǎng)格,并準(zhǔn)確地覆蓋正確的BEV柵格,從而成功地檢測(cè)到目標(biāo)。

圖片圖片

Proof Experiment for Position Recovery

我們?cè)O(shè)計(jì)了一個(gè)直觀的實(shí)驗(yàn)來證明所提出的擴(kuò)展體素池策略可以在BEV空間中實(shí)現(xiàn)精確的位置恢復(fù)。最初,隨機(jī)生成表示圖像特征的10個(gè)C維隨機(jī)矢量。然后,我們隨機(jī)生成3D點(diǎn),并為這10個(gè)特征進(jìn)行分配?;谠俭w素池和擴(kuò)展體素池,將3D點(diǎn)投影到16×16邊界元網(wǎng)格上,以獲得邊界元特征。U-Net編碼器網(wǎng)絡(luò)用于回歸第一圖像特征在BEV空間中的準(zhǔn)確位置,并使用MSE損失。請(qǐng)注意,訓(xùn)練過程包含5000次迭代,并且每次迭代的批量大小設(shè)置為128。每次迭代的輸入都是隨機(jī)的。實(shí)驗(yàn)過程如圖1所示。如圖5所示,當(dāng)鄰居數(shù)量≥3時(shí),我們的擴(kuò)展體素池恢復(fù)了具有0.003 MSE損失的隨機(jī)點(diǎn)位置,而原始體素池獲得0.095 MSE損失。

圖片

消融實(shí)驗(yàn)

作為插件的性能。所提出的擴(kuò)展體素池策略作為一種插件,可以顯著提高現(xiàn)有基于截頭體的BEV方法的性能。如表3所示,部署到BEVDepth[16]后,性能在三個(gè)類別中顯著提高了(4.17、8.93和8.2)AP。在部署到BEVHeight[44]后,性能在三個(gè)類別中提高了(1.55、5.58和7.56)AP。值得注意的是,兒科醫(yī)生和自行車手的識(shí)別能力有了很大提高。

圖片

鄰居選擇分析。圖6顯示了三個(gè)類別的mAP如何隨著鄰居數(shù)量k而變化。對(duì)于每個(gè)超參數(shù)選擇,我們重復(fù)3次,淺藍(lán)色區(qū)域表示誤差范圍。可以觀察到,k≥2的性能明顯優(yōu)于k B11(基線)。隨著k的增加,性能逐漸提高并變得穩(wěn)定。

圖片

權(quán)重函數(shù)分析。我們?cè)诒?中驗(yàn)證了權(quán)重函數(shù)的深度和可學(xué)習(xí)參數(shù)α的有效性。在三個(gè)主要類別中的改進(jìn)證明了深度和可學(xué)習(xí)參數(shù)α的應(yīng)用允許更好的擴(kuò)展性能。兩者兼而有之時(shí),中等難度的三個(gè)類別的綜合表現(xiàn)分別為65.80%、31.00%和56.34%。

圖片

對(duì)不同骨干的分析。我們使用不同的主鏈進(jìn)一步比較了BEVSpread和BEVHeight。ResuNet-50/101的結(jié)果列于表1和表3,ConvNeXt-B的實(shí)驗(yàn)列于表5。結(jié)果表明,更強(qiáng)的主干會(huì)帶來更高的性能,我們的方法可以進(jìn)一步提高它。

圖片

Limitations and Analysis

所提出的擴(kuò)展體素池帶來了一定的計(jì)算量,導(dǎo)致延遲增加。雖然我們的方法可以靈活地通過調(diào)整擴(kuò)展范圍來平衡精度和速度,擴(kuò)展范圍表示為相鄰大小k。如表6所示,當(dāng)k=2時(shí),BEVSpread仍然在沒有延遲增加的情況下實(shí)現(xiàn)了Avg AP的顯著改進(jìn),這得益于我們的CUDA優(yōu)化。此外,這些擴(kuò)散點(diǎn)的坐標(biāo)在本版本中是在線計(jì)算的。在實(shí)際部署階段,BEVSpread可以使用類似于BEVPoolv2的預(yù)處理查找表來增強(qiáng)加速。

圖片

結(jié)論

在本文中,我們指出了當(dāng)前體素池化方法中的一個(gè)近似誤差。我們提出了一種稱為BEVSpread的新的體素池策略來減少這種誤差。BEVSpread將每個(gè)截頭體點(diǎn)視為一個(gè)源,并使用自適應(yīng)權(quán)重將圖像特征擴(kuò)展到周圍的BEV網(wǎng)格。此外,還設(shè)計(jì)了一個(gè)特定的權(quán)重函數(shù),用于根據(jù)距離和深度動(dòng)態(tài)控制衰減速度。在DAIR-V2X-I和Rope3D中的實(shí)驗(yàn)表明,BEVSpread顯著提高了現(xiàn)有基于截頭體的BEV方法的性能。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-26 09:24:37

AI算法

2013-04-22 15:19:24

百度LBS

2014-04-29 15:29:28

百度聯(lián)盟大數(shù)據(jù)

2016-03-25 11:18:23

中華網(wǎng)

2021-06-03 15:22:37

百度智能云AI原生

2024-12-03 09:49:07

2013-08-22 17:08:50

2014-07-25 17:12:39

數(shù)據(jù)庫WOT2014MongoDB

2016-03-22 15:17:32

物聯(lián)網(wǎng)百度開放云

2013-09-13 15:39:03

2020-09-16 13:57:27

百度世界2020百度大腦

2020-12-11 22:05:30

百度Apollo小度

2010-05-20 17:20:15

百度

2024-07-26 09:22:36

2012-05-28 22:51:53

百度

2018-09-06 18:37:45

百度云

2010-05-11 17:48:38

百度百科世博模塊

2020-12-11 22:02:00

百度地圖Apollo
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)