超越BEVFormer!CR3DT:RV融合助力3D檢測(cè)&跟蹤新SOTA(ETH)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
本文介紹了一種用于3D目標(biāo)檢測(cè)和多目標(biāo)跟蹤的相機(jī)-毫米波雷達(dá)融合方法(CR3DT)。基于激光雷達(dá)的方法已經(jīng)為這一領(lǐng)域奠定了一個(gè)高標(biāo)準(zhǔn),但是其高算力、高成本的缺陷制約了該方案在自動(dòng)駕駛領(lǐng)域的發(fā)展;基于相機(jī)的3D目標(biāo)檢測(cè)和跟蹤方案由于它的成本較低,也吸引了許多學(xué)者的關(guān)注,但是檢測(cè)效果較差。因此,將相機(jī)與毫米波雷達(dá)融合正在成為一個(gè)很有前景的方案。作者在現(xiàn)有的相機(jī)框架BEVDet下,融合毫米波雷達(dá)的空間和速度信息,結(jié)合CC-3DT++跟蹤頭,顯著提高了3D目標(biāo)檢測(cè)和跟蹤的精度,中和了性能和成本之間的矛盾。
主要貢獻(xiàn)
傳感器融合架構(gòu) 提出的CR3DT在BEV編碼器的前后均使用中間融合技術(shù)來集成毫米波雷達(dá)數(shù)據(jù);而在跟蹤上,采用一種準(zhǔn)密集外觀嵌入頭,使用毫米波雷達(dá)的速度估計(jì)來進(jìn)行目標(biāo)關(guān)聯(lián)。
檢測(cè)性能評(píng)估 CR3DT在nuScenes 3D檢測(cè)驗(yàn)證集上實(shí)現(xiàn)了35.1%的mAP和45.6%的nuScenes檢測(cè)分?jǐn)?shù)(NDS)。利用雷達(dá)數(shù)據(jù)中包含的豐富的速度信息,與SOTA相機(jī)檢測(cè)器相比,檢測(cè)器的平均速度誤差(mAVE)降低了45.3%。
跟蹤性能評(píng)估 CR3DT在nuScenes跟蹤驗(yàn)證集上的跟蹤性能為38.1% AMOTA,與僅使用相機(jī)的SOTA跟蹤模型相比,AMOTA提高了14.9%,跟蹤器中速度信息的明確使用和進(jìn)一步改進(jìn)顯著減少了約43%IDS的數(shù)量。
模型架構(gòu)
該方法基于BEVDet架構(gòu),融合RADAR的空間與速度信息,結(jié)合CC-3DT++跟蹤頭,該頭在其數(shù)據(jù)關(guān)聯(lián)中明確使用了改進(jìn)的毫米波雷達(dá)增強(qiáng)檢測(cè)器的速度估計(jì),最終實(shí)現(xiàn)了3D目標(biāo)檢測(cè)和跟蹤。
圖1 整體架構(gòu)。檢測(cè)和跟蹤分別以淺藍(lán)色和綠色突出顯示。
BEV 空間中的傳感器融合
如圖2所示是聚合到BEV空間以進(jìn)行融合操作的Radar點(diǎn)云可視化結(jié)果,其中的LiDAR點(diǎn)云僅用于可視化對(duì)比。該模塊采用類似PointPillars的融合方法,包括其中的聚合和連接,BEV網(wǎng)格設(shè)置為[-51.2, 51.2],分辨率為0.8,從而得到一個(gè)(128×128)的特征網(wǎng)格。將圖像特征直接投射到BEV空間中,每個(gè)網(wǎng)格單元的通道數(shù)是64,繼而得到圖像BEV特征是(64×128×128);同樣的,將Radar的18個(gè)維度信息都聚合到每個(gè)網(wǎng)格單元中,這其中包括了點(diǎn)的x,y,z坐標(biāo),并且不對(duì)Radar數(shù)據(jù)做任何增強(qiáng)。作者認(rèn)為Radar點(diǎn)云已經(jīng)包含比LiDAR點(diǎn)云更多的信息,因此得到了Radar BEV特征是(18×128×128)。最后將圖像BEV特征(64×128×128)和Radar BEV特征(18×128×128)直接連接起來((64+18)×128×128)作為BEV特征編碼層的輸入。在后續(xù)的消融實(shí)驗(yàn)中發(fā)現(xiàn),在維度為(256×128×128)的BEV特征編碼層的輸出中添加殘量連接是有益的,從而使CenterPoint檢測(cè)頭的最終輸入大小為((256+18)×128×128)。

圖2 聚合到BEV空間進(jìn)行融合操作的Radar點(diǎn)云可視化
跟蹤模塊架構(gòu)
跟蹤就是基于運(yùn)動(dòng)相關(guān)性和視覺特征相似性將兩個(gè)不同幀的目標(biāo)關(guān)聯(lián)起來。在訓(xùn)練過程中,通過準(zhǔn)密集多元正對(duì)比學(xué)習(xí)獲得一維視覺特征嵌入向量,然后在CC-3DT的跟蹤階段同時(shí)使用檢測(cè)和特征嵌入。對(duì)數(shù)據(jù)關(guān)聯(lián)步驟(圖1中DA模塊)進(jìn)行了修改,以利用改進(jìn)的CR3DT位置檢測(cè)和速度估計(jì)。具體如下:

實(shí)驗(yàn)及結(jié)果
基于nuScenes數(shù)據(jù)集完成,且所有訓(xùn)練均沒有使用CBGS。
受限制模型
因?yàn)樽髡哒麄€(gè)模型是在一臺(tái)3090顯卡的電腦上進(jìn)行的,所以稱之為受限制模型。該模型的目標(biāo)檢測(cè)部分以BEVDet為檢測(cè)基線,圖像編碼的backbone是ResNet50,并且將圖像的輸入設(shè)置為(3×256×704),在模型中不使用過去或者未來的時(shí)間圖像信息,batchsize設(shè)置為8。為了緩解Radar數(shù)據(jù)的稀疏性,使用了五次掃描以增強(qiáng)數(shù)據(jù)。在融合模型中也沒有使用額外的時(shí)間信息。
對(duì)于目標(biāo)檢測(cè),采用mAP、NDS、mAVE的分?jǐn)?shù)來評(píng)估;對(duì)于跟蹤,使用AMOTA、AMOTP、IDS來評(píng)估。
目標(biāo)檢測(cè)結(jié)果

表1 在nuScenes驗(yàn)證集上的檢測(cè)結(jié)果
表1顯示了CR3DT與僅使用相機(jī)的基線BEVDet (R50)架構(gòu)相比的檢測(cè)性能。很明顯,Radar的加入顯著提高了檢測(cè)性能。在小分辨率和時(shí)間幀的限制下,與僅使用相機(jī)的BEVDet相比,CR3DT成功地實(shí)現(xiàn)了5.3%的mAP和7.7%的NDS的改進(jìn)。但是由于算力的限制,論文中并沒有實(shí)現(xiàn)高分辨率、合并時(shí)間信息等的實(shí)驗(yàn)結(jié)果。此外在表1中最后一列還給出了推理時(shí)間。

表2 檢測(cè)框架的消融實(shí)驗(yàn)
在表2中比較了不同的融合架構(gòu)對(duì)于檢測(cè)指標(biāo)的影響。這里的融合方法分為兩種:第一種是論文中提到的,放棄了z維的體素化和隨后的3D卷積,直接將提升的圖像特征和純RADAR數(shù)據(jù)聚合成柱,從而得到已知的特征尺寸為((64+18)×128×128);另一種是將提升的圖像特征和純RADAR數(shù)據(jù)體素化為尺寸為0.8×0.8×0.8 m的立方體,從而得到替代特征尺寸為((64+18)×10×128×128),因此需要以3D卷積的形式使用BEV壓縮器模塊。由表2(a)中可以看到,BEV壓縮器數(shù)量的增加會(huì)導(dǎo)致性能下降,由此可以看到第一種方案表現(xiàn)得更為優(yōu)越。而從表2(b)中也可以看到,加入了Radar數(shù)據(jù)的殘差塊同樣能夠提升性能,也印證了前面模型架構(gòu)中提到的,在BEV特征編碼層的輸出中添加殘量連接是有益的。
表3 基于基線BEVDet和CR3DT的不同配置在nuScenes驗(yàn)證集上的跟蹤結(jié)果
表3給出了改進(jìn)的CC3DT++跟蹤模型在nuScenes驗(yàn)證集上的跟蹤結(jié)果,給出了跟蹤器在基線和在CR3DT檢測(cè)模型上的性能。CR3DT模型使AMOTA的性能在基線上提高了14.9%,而在AMOTP中降低了0.11 m。此外,與基線相比,可以看到IDS降低了約43%。

表4 在CR3DT檢測(cè)骨干上進(jìn)行了跟蹤架構(gòu)消融實(shí)驗(yàn)

結(jié)論
這項(xiàng)工作提出了一種高效的相機(jī)-雷達(dá)融合模型——CR3DT,專門用于3D目標(biāo)檢測(cè)和多目標(biāo)跟蹤。通過將Radar數(shù)據(jù)融合到只有相機(jī)的BEVDet架構(gòu)中,并引入CC-3DT++跟蹤架構(gòu),CR3DT在3D目標(biāo)檢測(cè)和跟蹤精度方面都有了大幅提高,mAP和AMOTA分別提高了5.35%和14.9%。
相機(jī)和毫米波雷達(dá)融合的方案,相較于純LiDAR或者是LiDAR和相機(jī)融合的方案,具有低成本的優(yōu)勢(shì),貼近當(dāng)前自動(dòng)駕駛汽車的發(fā)展。另外毫米波雷達(dá)還有在惡劣天氣下魯棒的優(yōu)勢(shì),能夠面對(duì)多種多樣的應(yīng)用場(chǎng)景,當(dāng)前比較大的問題就是毫米波雷達(dá)點(diǎn)云的稀疏性以及無法檢測(cè)高度信息。但是隨著4D毫米波雷達(dá)的不斷發(fā)展,相信未來相機(jī)和毫米波雷達(dá)融合的方案會(huì)更上一層樓,取得更為優(yōu)異的成果!



































