偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越BEVFormer!CR3DT:RV融合助力3D檢測(cè)&跟蹤新SOTA(ETH)

人工智能 智能汽車
相機(jī)和毫米波雷達(dá)融合的方案,相較于純LiDAR或者是LiDAR和相機(jī)融合的方案,具有低成本的優(yōu)勢(shì),貼近當(dāng)前自動(dòng)駕駛汽車的發(fā)展。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

本文介紹了一種用于3D目標(biāo)檢測(cè)和多目標(biāo)跟蹤的相機(jī)-毫米波雷達(dá)融合方法(CR3DT)。基于激光雷達(dá)的方法已經(jīng)為這一領(lǐng)域奠定了一個(gè)高標(biāo)準(zhǔn),但是其高算力、高成本的缺陷制約了該方案在自動(dòng)駕駛領(lǐng)域的發(fā)展;基于相機(jī)的3D目標(biāo)檢測(cè)和跟蹤方案由于它的成本較低,也吸引了許多學(xué)者的關(guān)注,但是檢測(cè)效果較差。因此,將相機(jī)與毫米波雷達(dá)融合正在成為一個(gè)很有前景的方案。作者在現(xiàn)有的相機(jī)框架BEVDet下,融合毫米波雷達(dá)的空間和速度信息,結(jié)合CC-3DT++跟蹤頭,顯著提高了3D目標(biāo)檢測(cè)和跟蹤的精度,中和了性能和成本之間的矛盾。

主要貢獻(xiàn)

傳感器融合架構(gòu) 提出的CR3DT在BEV編碼器的前后均使用中間融合技術(shù)來集成毫米波雷達(dá)數(shù)據(jù);而在跟蹤上,采用一種準(zhǔn)密集外觀嵌入頭,使用毫米波雷達(dá)的速度估計(jì)來進(jìn)行目標(biāo)關(guān)聯(lián)。

檢測(cè)性能評(píng)估 CR3DT在nuScenes 3D檢測(cè)驗(yàn)證集上實(shí)現(xiàn)了35.1%的mAP和45.6%的nuScenes檢測(cè)分?jǐn)?shù)(NDS)。利用雷達(dá)數(shù)據(jù)中包含的豐富的速度信息,與SOTA相機(jī)檢測(cè)器相比,檢測(cè)器的平均速度誤差(mAVE)降低了45.3%。

跟蹤性能評(píng)估 CR3DT在nuScenes跟蹤驗(yàn)證集上的跟蹤性能為38.1% AMOTA,與僅使用相機(jī)的SOTA跟蹤模型相比,AMOTA提高了14.9%,跟蹤器中速度信息的明確使用和進(jìn)一步改進(jìn)顯著減少了約43%IDS的數(shù)量。

模型架構(gòu)

該方法基于BEVDet架構(gòu),融合RADAR的空間與速度信息,結(jié)合CC-3DT++跟蹤頭,該頭在其數(shù)據(jù)關(guān)聯(lián)中明確使用了改進(jìn)的毫米波雷達(dá)增強(qiáng)檢測(cè)器的速度估計(jì),最終實(shí)現(xiàn)了3D目標(biāo)檢測(cè)和跟蹤。

圖片圖1 整體架構(gòu)。檢測(cè)和跟蹤分別以淺藍(lán)色和綠色突出顯示。

BEV 空間中的傳感器融合

如圖2所示是聚合到BEV空間以進(jìn)行融合操作的Radar點(diǎn)云可視化結(jié)果,其中的LiDAR點(diǎn)云僅用于可視化對(duì)比。該模塊采用類似PointPillars的融合方法,包括其中的聚合和連接,BEV網(wǎng)格設(shè)置為[-51.2, 51.2],分辨率為0.8,從而得到一個(gè)(128×128)的特征網(wǎng)格。將圖像特征直接投射到BEV空間中,每個(gè)網(wǎng)格單元的通道數(shù)是64,繼而得到圖像BEV特征是(64×128×128);同樣的,將Radar的18個(gè)維度信息都聚合到每個(gè)網(wǎng)格單元中,這其中包括了點(diǎn)的x,y,z坐標(biāo),并且不對(duì)Radar數(shù)據(jù)做任何增強(qiáng)。作者認(rèn)為Radar點(diǎn)云已經(jīng)包含比LiDAR點(diǎn)云更多的信息,因此得到了Radar BEV特征是(18×128×128)。最后將圖像BEV特征(64×128×128)和Radar BEV特征(18×128×128)直接連接起來((64+18)×128×128)作為BEV特征編碼層的輸入。在后續(xù)的消融實(shí)驗(yàn)中發(fā)現(xiàn),在維度為(256×128×128)的BEV特征編碼層的輸出中添加殘量連接是有益的,從而使CenterPoint檢測(cè)頭的最終輸入大小為((256+18)×128×128)。

圖2 聚合到BEV空間進(jìn)行融合操作的Radar點(diǎn)云可視化

跟蹤模塊架構(gòu)

跟蹤就是基于運(yùn)動(dòng)相關(guān)性和視覺特征相似性將兩個(gè)不同幀的目標(biāo)關(guān)聯(lián)起來。在訓(xùn)練過程中,通過準(zhǔn)密集多元正對(duì)比學(xué)習(xí)獲得一維視覺特征嵌入向量,然后在CC-3DT的跟蹤階段同時(shí)使用檢測(cè)和特征嵌入。對(duì)數(shù)據(jù)關(guān)聯(lián)步驟(圖1中DA模塊)進(jìn)行了修改,以利用改進(jìn)的CR3DT位置檢測(cè)和速度估計(jì)。具體如下:

實(shí)驗(yàn)及結(jié)果

基于nuScenes數(shù)據(jù)集完成,且所有訓(xùn)練均沒有使用CBGS。

受限制模型

因?yàn)樽髡哒麄€(gè)模型是在一臺(tái)3090顯卡的電腦上進(jìn)行的,所以稱之為受限制模型。該模型的目標(biāo)檢測(cè)部分以BEVDet為檢測(cè)基線,圖像編碼的backbone是ResNet50,并且將圖像的輸入設(shè)置為(3×256×704),在模型中不使用過去或者未來的時(shí)間圖像信息,batchsize設(shè)置為8。為了緩解Radar數(shù)據(jù)的稀疏性,使用了五次掃描以增強(qiáng)數(shù)據(jù)。在融合模型中也沒有使用額外的時(shí)間信息。

對(duì)于目標(biāo)檢測(cè),采用mAP、NDS、mAVE的分?jǐn)?shù)來評(píng)估;對(duì)于跟蹤,使用AMOTA、AMOTP、IDS來評(píng)估。

目標(biāo)檢測(cè)結(jié)果

表1 在nuScenes驗(yàn)證集上的檢測(cè)結(jié)果

表1顯示了CR3DT與僅使用相機(jī)的基線BEVDet (R50)架構(gòu)相比的檢測(cè)性能。很明顯,Radar的加入顯著提高了檢測(cè)性能。在小分辨率和時(shí)間幀的限制下,與僅使用相機(jī)的BEVDet相比,CR3DT成功地實(shí)現(xiàn)了5.3%的mAP和7.7%的NDS的改進(jìn)。但是由于算力的限制,論文中并沒有實(shí)現(xiàn)高分辨率、合并時(shí)間信息等的實(shí)驗(yàn)結(jié)果。此外在表1中最后一列還給出了推理時(shí)間。

圖片

表2 檢測(cè)框架的消融實(shí)驗(yàn)

在表2中比較了不同的融合架構(gòu)對(duì)于檢測(cè)指標(biāo)的影響。這里的融合方法分為兩種:第一種是論文中提到的,放棄了z維的體素化和隨后的3D卷積,直接將提升的圖像特征和純RADAR數(shù)據(jù)聚合成柱,從而得到已知的特征尺寸為((64+18)×128×128);另一種是將提升的圖像特征和純RADAR數(shù)據(jù)體素化為尺寸為0.8×0.8×0.8 m的立方體,從而得到替代特征尺寸為((64+18)×10×128×128),因此需要以3D卷積的形式使用BEV壓縮器模塊。由表2(a)中可以看到,BEV壓縮器數(shù)量的增加會(huì)導(dǎo)致性能下降,由此可以看到第一種方案表現(xiàn)得更為優(yōu)越。而從表2(b)中也可以看到,加入了Radar數(shù)據(jù)的殘差塊同樣能夠提升性能,也印證了前面模型架構(gòu)中提到的,在BEV特征編碼層的輸出中添加殘量連接是有益的。

圖片表3 基于基線BEVDet和CR3DT的不同配置在nuScenes驗(yàn)證集上的跟蹤結(jié)果

表3給出了改進(jìn)的CC3DT++跟蹤模型在nuScenes驗(yàn)證集上的跟蹤結(jié)果,給出了跟蹤器在基線和在CR3DT檢測(cè)模型上的性能。CR3DT模型使AMOTA的性能在基線上提高了14.9%,而在AMOTP中降低了0.11 m。此外,與基線相比,可以看到IDS降低了約43%。

圖片

表4 在CR3DT檢測(cè)骨干上進(jìn)行了跟蹤架構(gòu)消融實(shí)驗(yàn)

結(jié)論

這項(xiàng)工作提出了一種高效的相機(jī)-雷達(dá)融合模型——CR3DT,專門用于3D目標(biāo)檢測(cè)和多目標(biāo)跟蹤。通過將Radar數(shù)據(jù)融合到只有相機(jī)的BEVDet架構(gòu)中,并引入CC-3DT++跟蹤架構(gòu),CR3DT在3D目標(biāo)檢測(cè)和跟蹤精度方面都有了大幅提高,mAP和AMOTA分別提高了5.35%和14.9%。

相機(jī)和毫米波雷達(dá)融合的方案,相較于純LiDAR或者是LiDAR和相機(jī)融合的方案,具有低成本的優(yōu)勢(shì),貼近當(dāng)前自動(dòng)駕駛汽車的發(fā)展。另外毫米波雷達(dá)還有在惡劣天氣下魯棒的優(yōu)勢(shì),能夠面對(duì)多種多樣的應(yīng)用場(chǎng)景,當(dāng)前比較大的問題就是毫米波雷達(dá)點(diǎn)云的稀疏性以及無法檢測(cè)高度信息。但是隨著4D毫米波雷達(dá)的不斷發(fā)展,相信未來相機(jī)和毫米波雷達(dá)融合的方案會(huì)更上一層樓,取得更為優(yōu)異的成果!

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-09-25 14:53:55

3D檢測(cè)

2023-12-12 10:23:54

自動(dòng)駕駛雷達(dá)視覺

2024-08-21 10:04:14

2025-01-13 10:00:00

模型生成3D

2023-11-24 09:56:19

自動(dòng)駕駛訓(xùn)練

2024-10-15 13:07:38

2023-12-07 13:07:59

3D模型訓(xùn)練

2023-11-29 11:45:54

模型智能

2023-09-27 09:59:53

自動(dòng)駕駛訓(xùn)練

2025-03-11 13:13:28

2025-01-07 09:11:07

2023-12-29 13:18:23

模型NeRFTICD

2024-03-20 15:53:28

模型技術(shù)

2011-10-06 13:30:45

宏碁投影儀

2012-11-26 12:51:44

木材3D打

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2025-10-27 09:09:00

2025-06-09 15:25:43

3D生成AI

2024-04-02 10:23:56

雷達(dá)自動(dòng)駕駛

2011-05-26 10:05:07

優(yōu)派投影機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)