如何利用Transformer有效關(guān)聯(lián)激光雷達(dá)-毫米波雷達(dá)-視覺(jué)特征?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
筆者個(gè)人理解
自動(dòng)駕駛的基礎(chǔ)任務(wù)之一是三維目標(biāo)檢測(cè),而現(xiàn)在許多方法都是基于多傳感器融合的方法實(shí)現(xiàn)的。那為什么要進(jìn)行多傳感器融合?無(wú)論是激光雷達(dá)和相機(jī)融合,又或者是毫米波雷達(dá)和相機(jī)融合,其最主要的目的就是利用點(diǎn)云和圖像之間的互補(bǔ)聯(lián)系,從而提高目標(biāo)檢測(cè)的準(zhǔn)確度。隨著Transformer架構(gòu)在計(jì)算機(jī)視覺(jué)領(lǐng)域的不斷應(yīng)用,基于注意力機(jī)制的方法提高了多傳感器之間融合的精度。分享的兩篇論文便是基于此架構(gòu),提出了新穎的融合方式,以更大程度地利用各自模態(tài)的有用信息,實(shí)現(xiàn)更好的融合。
TransFusion:
主要貢獻(xiàn)
激光雷達(dá)和相機(jī)是自動(dòng)駕駛中兩種重要的三維目標(biāo)檢測(cè)傳感器,但是在傳感器融合上,主要面臨著圖像條件差導(dǎo)致檢測(cè)精度較低的問(wèn)題?;邳c(diǎn)的融合方法是將激光雷達(dá)和相機(jī)通過(guò)硬關(guān)聯(lián)(hard association)進(jìn)行融合,會(huì)導(dǎo)致一些問(wèn)題:a)簡(jiǎn)單地拼接點(diǎn)云和圖像特征,在低質(zhì)量的圖像特征下,檢測(cè)性能會(huì)嚴(yán)重下降;b)尋找稀疏點(diǎn)云和圖像的硬關(guān)聯(lián)會(huì)浪費(fèi)高質(zhì)量的圖像特征并且難以對(duì)齊。
因此,此論文提出一種激光雷達(dá)和相機(jī)的融合框架TransFusion,來(lái)解決兩種傳感器之間的關(guān)聯(lián)問(wèn)題,主要貢獻(xiàn)如下:
- 提出一種基于transformer的激光雷達(dá)和相機(jī)的3D檢測(cè)融合模型,對(duì)較差的圖像質(zhì)量和傳感器未對(duì)齊表現(xiàn)出優(yōu)異的魯棒性;
- 為對(duì)象查詢引入了幾個(gè)簡(jiǎn)單而有效的調(diào)整,以提高圖像融合的初始邊界框預(yù)測(cè)的質(zhì)量,還設(shè)計(jì)了一個(gè)圖像引導(dǎo)查詢初始化模塊來(lái)處理在點(diǎn)云中難以檢測(cè)到的對(duì)象;
- 不僅在nuScenes實(shí)現(xiàn)了先進(jìn)的三維檢測(cè)性能,還將模型擴(kuò)展到三維跟蹤任務(wù),并取得了不錯(cuò)的成果。
模塊詳解
圖1 TransFusion的整體框架
為了解決上述的圖像條件差以及不同傳感器之間的關(guān)聯(lián)問(wèn)題,提出了一個(gè)基于Transformer的融合框架——TransFusion。該模型依賴標(biāo)準(zhǔn)的3D和2D主干網(wǎng)絡(luò)提取LiDAR BEV特征和圖像特征,然后檢測(cè)頭上采用兩層transformer解碼器組成:第一層解碼器利用稀疏的點(diǎn)云生成初始邊界框;第二層解碼器將第一層的對(duì)象查詢與圖像特征相關(guān)聯(lián),以獲得更好的檢測(cè)結(jié)果。其中還引入了空間調(diào)制交叉注意力機(jī)制(SMCA)和圖像引導(dǎo)的查詢初始化策略以提高檢測(cè)精度。
Query Initialization(查詢初始化)
LiDAR-Camera Fusion
如果一個(gè)物體只包含少量的激光雷達(dá)點(diǎn)時(shí),那么只能獲得相同數(shù)量的圖像特征,浪費(fèi)了高質(zhì)量的圖像語(yǔ)義信息。所以該論文保留所有的圖像特征,使用Transformer中交叉注意機(jī)制和自適應(yīng)的方式進(jìn)行特征融合,使網(wǎng)絡(luò)能夠自適應(yīng)地從圖像中提取位置和信息。為了緩解LiDAR BEV特征和圖像特征來(lái)自不同的傳感器的空間不對(duì)齊問(wèn)題,設(shè)計(jì)了一個(gè)空間調(diào)制交叉注意模塊(SMCA),該模塊通過(guò)圍繞每個(gè)查詢投影的二維中心的二維圓形高斯掩模對(duì)交叉注意進(jìn)行加權(quán)。
Image-Guided Query Initialization(圖像引導(dǎo)查詢初始化)
圖2 圖像引導(dǎo)查詢模塊
該模塊同時(shí)利用激光雷達(dá)和圖像信息作為對(duì)象查詢,就是通過(guò)將圖像特征和激光雷達(dá)BEV特征送入交叉關(guān)注機(jī)制網(wǎng)絡(luò),投射到BEV平面上,生成融合的BEV特征。具體如圖2所示,首先沿著高度軸折疊多視圖圖像特征作為交叉注意機(jī)制網(wǎng)絡(luò)的鍵值,而激光雷達(dá)BEV特征作為查詢送入注意力網(wǎng)絡(luò),得到融合的BEV特征,使用進(jìn)行熱圖預(yù)測(cè),并與僅激光雷達(dá)的熱圖?做平均得到最終的熱圖?來(lái)選擇和初始化目標(biāo)查詢。這樣的操作使得模型能夠檢測(cè)到在激光雷達(dá)點(diǎn)云中難以檢測(cè)到的目標(biāo)。
實(shí)驗(yàn)
數(shù)據(jù)集和指標(biāo)
nuScenes數(shù)據(jù)集是一個(gè)用于3D檢測(cè)和跟蹤的大規(guī)模自動(dòng)駕駛數(shù)據(jù)集,包含700、150和150個(gè)場(chǎng)景,分別用于訓(xùn)練、驗(yàn)證和測(cè)試。每幀包含一個(gè)激光雷達(dá)點(diǎn)云和六個(gè)覆蓋360度水平視場(chǎng)的校準(zhǔn)圖像。對(duì)于3D檢測(cè),主要指標(biāo)是平均平均精度(mAP)和nuScenes檢測(cè)分?jǐn)?shù)(NDS)。mAP是由BEV中心距離而不是3D IoU定義的,最終mAP是通過(guò)對(duì)10個(gè)類別的0.5m, 1m, 2m, 4m的距離閾值進(jìn)行平均來(lái)計(jì)算的。NDS是mAP和其他屬性度量的綜合度量,包括平移、比例、方向、速度和其他方框?qū)傩??!?/p>
Waymo數(shù)據(jù)集包括798個(gè)用于訓(xùn)練的場(chǎng)景和202個(gè)用于驗(yàn)證的場(chǎng)景。官方的指標(biāo)是mAP和mAPH (mAP按航向精度加權(quán))。mAP和mAPH是基于3D IoU閾值定義的,車輛為0.7,行人和騎自行車者為0.5。這些指標(biāo)被進(jìn)一步分解為兩個(gè)難度級(jí)別:LEVEL1用于超過(guò)5個(gè)激光雷達(dá)點(diǎn)的邊界框,LEVEL2用于至少有一個(gè)激光雷達(dá)點(diǎn)的邊界框。與nuScenes的360度攝像頭不同,Waymo的攝像頭只能覆蓋水平方向的250度左右。
訓(xùn)練 在nuScenes數(shù)據(jù)集上,使用DLA34作為圖像的2D骨干網(wǎng)絡(luò)并凍結(jié)其權(quán)重,將圖像大小設(shè)置為448×800;選擇VoxelNet作為激光雷達(dá)的3D骨干網(wǎng)絡(luò)。訓(xùn)練過(guò)程分成兩個(gè)階段:第一階段僅以激光雷達(dá)數(shù)據(jù)作為輸入,以第一層解碼器和FFN前饋網(wǎng)絡(luò)訓(xùn)練3D骨干20次,產(chǎn)生初始的3D邊界框預(yù)測(cè);第二階段對(duì)LiDAR-Camera融合和圖像引導(dǎo)查詢初始化模塊進(jìn)行6次訓(xùn)練。左圖是用于初始邊界框預(yù)測(cè)的transformer解碼器層架構(gòu);右圖是用于LiDAR-Camera融合的transformer解碼器層架構(gòu)。
圖3 解碼器層設(shè)計(jì)
與最先進(jìn)方法比較
首先比較TransFusion和其他SOTA方法在3D目標(biāo)檢測(cè)任務(wù)的性能,如下表1所示的是在nuScenes測(cè)試集中的結(jié)果,可以看到該方法已經(jīng)達(dá)到了當(dāng)時(shí)的最佳性能(mAP為68.9%,NDS為71.7%)。而TransFusion-L是僅使用激光雷達(dá)進(jìn)行檢測(cè)的,其檢測(cè)的性能明顯優(yōu)于先前的單模態(tài)檢測(cè)方法,甚于超過(guò)了一些多模態(tài)的方法,這主要是由于新的關(guān)聯(lián)機(jī)制和查詢初始化策略。而在表2中則是展示了在Waymo驗(yàn)證集上LEVEL 2 mAPH的結(jié)果。
表1 與SOTA方法在nuScenes測(cè)試中的比較
表2 Waymo驗(yàn)證集上的LEVEL 2 mAPH
對(duì)惡劣圖像條件的魯棒性
以TransFusion-L為基準(zhǔn),設(shè)計(jì)不同的融合框架來(lái)驗(yàn)證魯棒性。其中三種融合框架分別是逐點(diǎn)拼接融合激光雷達(dá)和圖像特征(CC)、點(diǎn)增強(qiáng)融合策略(PA)和TransFusion。如表3中顯示,將nuScenes數(shù)據(jù)集劃分成白天和黑夜,TransFusion的方法在夜間將會(huì)帶來(lái)更大的性能提升。在推理過(guò)程中將圖像的特征設(shè)置為零,以達(dá)到在每一幀隨機(jī)丟棄若干圖像的效果,那么在表4中可以看到,在推理過(guò)程中某些圖像不可用時(shí),檢測(cè)的性能會(huì)顯著下降,其中CC和PA的mAP分別下降23.8%和17.2%,而TransFusion仍保持在61.7%。傳感器未校準(zhǔn)的情況也會(huì)大大影響3D目標(biāo)檢測(cè)的性能,實(shí)驗(yàn)設(shè)置從相機(jī)到激光雷達(dá)的變換矩陣中隨機(jī)添加平移偏移量,如圖4所示,當(dāng)兩個(gè)傳感器偏離1m時(shí),TransFusion的mAP僅下降0.49%,而PA和CC的mAP分別下降2.33%和2.85%。
表3 白天和夜間的mAP
表4 在不同數(shù)量的圖像下的mAP
圖4 在傳感器未對(duì)齊情況下的mAP
消融實(shí)驗(yàn)
由表5 d)-f)的結(jié)果可看出,在沒(méi)有進(jìn)行查詢初始化的情況下,檢測(cè)的性能下降很多,雖然增加訓(xùn)練輪數(shù)和解碼器層數(shù)可以提高性能,但是仍舊達(dá)不到理想效果,這也從側(cè)面證明了所提出來(lái)的初始化查詢策略能夠減小網(wǎng)絡(luò)層數(shù)。而如表6所示,圖像特征融合和圖像引導(dǎo)查詢初始化分別帶來(lái)4.8%和1.6%的mAP增益。在表7中,通過(guò)在不同范圍內(nèi)精度的比較,TransFusion與僅激光雷達(dá)的檢測(cè)相比,在難以檢測(cè)的物體或者遙遠(yuǎn)區(qū)域的檢測(cè)的性能都得到了提升。
表5 查詢初始化模塊的消融實(shí)驗(yàn)
表6 融合部分的消融實(shí)驗(yàn)
表7 物體中心到自我車輛之間的距離(以米為單位)
結(jié)論
設(shè)計(jì)了一個(gè)有效且穩(wěn)健的基于Transformer的激光雷達(dá)相機(jī)3D檢測(cè)框架,該框架具有軟關(guān)聯(lián)機(jī)制,可以自適應(yīng)地確定應(yīng)該從圖像中獲取的位置和信息。TransFusion在nuScenes檢測(cè)和跟蹤排行榜上達(dá)到最新的最先進(jìn)的結(jié)果,并在Waymo檢測(cè)基準(zhǔn)上顯示了具有競(jìng)爭(zhēng)力的結(jié)果。大量的消融實(shí)驗(yàn)證明了該方法對(duì)較差圖像條件的魯棒性。
DeepInteraction:
主要貢獻(xiàn):
主要解決的問(wèn)題是現(xiàn)有的多模態(tài)融合策略忽略了特定于模態(tài)的有用信息,最終阻礙了模型的性能。點(diǎn)云在低分辨率下提供必要的定位和幾何信息,圖像在高分辨率下提供豐富的外觀信息,因此跨模態(tài)的信息融合對(duì)于增強(qiáng)3D目標(biāo)目標(biāo)檢測(cè)性能尤為重要?,F(xiàn)有的融合模塊如圖1(a)所示,將兩個(gè)模態(tài)的信息整合到一個(gè)統(tǒng)一的網(wǎng)絡(luò)空間中,但是這樣做會(huì)使得部分信息無(wú)法融合到統(tǒng)一的表示里,降低了一部分特定于模態(tài)的表示優(yōu)勢(shì)。為了克服上述限制,文章提出了一種新的模態(tài)交互模塊(圖1(b)),其關(guān)鍵思想是學(xué)習(xí)并維護(hù)兩種特定于模態(tài)的表示,從而實(shí)現(xiàn)模態(tài)間的交互。主要貢獻(xiàn)如下:
- 提出了一種新的多模態(tài)三維目標(biāo)檢測(cè)的模態(tài)交互策略,旨在解決以前模態(tài)融合策略在每個(gè)模態(tài)中丟失有用信息的基本限制;
- 設(shè)計(jì)了一個(gè)帶有多模態(tài)特征交互編碼器和多模態(tài)特征預(yù)測(cè)交互解碼器的DeepInteraction架構(gòu)。
圖1 不同的融合策略
模塊詳解
多模態(tài)表征交互編碼器 將編碼器定制為多輸入多輸出(MIMO)結(jié)構(gòu):將激光雷達(dá)和相機(jī)主干獨(dú)立提取的兩個(gè)模態(tài)特定場(chǎng)景信息作為輸入,并生成兩個(gè)增強(qiáng)后的特征信息。每一層編碼器都包括:i)多模態(tài)特征交互(MMRI);ii)模態(tài)內(nèi)特征學(xué)習(xí);iii)表征集成。
圖2 多模態(tài)表征交互模塊
圖3 多模態(tài)預(yù)測(cè)交互模塊
實(shí)驗(yàn)
數(shù)據(jù)集和指標(biāo)同TransFusion的nuScenes數(shù)據(jù)集部分。
實(shí)驗(yàn)細(xì)節(jié) 圖像的主干網(wǎng)絡(luò)是ResNet50,為了節(jié)省計(jì)算成本,在輸入網(wǎng)絡(luò)之前將輸入圖像重新調(diào)整為原始大小的1/2,并在訓(xùn)練時(shí)凍結(jié)圖像分支的權(quán)重。體素大小設(shè)置為(0.075m,0.075m,0.2m),檢測(cè)范圍設(shè)為X軸和Y軸是[-54m,54m],Z軸是[-5m,3m],設(shè)計(jì)2層編碼器層和5層級(jí)聯(lián)的解碼器層。另外還設(shè)置了兩種在線提交測(cè)試模型:測(cè)試時(shí)間增加(TTA)和模型集成,將兩個(gè)設(shè)置分別稱為DeepInteraction-large和DeepInteraction-e。其中DeepInteraction-large使用Swin-Tiny作為圖像骨干網(wǎng)絡(luò),并且將激光雷達(dá)骨干網(wǎng)絡(luò)中卷積塊的通道數(shù)量增加一倍,體素大小設(shè)置為[0.5m,0.5m,0.2m],使用雙向翻轉(zhuǎn)和旋轉(zhuǎn)偏航角度[0°,±6.25°,±12.5°]以增加測(cè)試時(shí)間。DeepInteraction-e集成了多個(gè)DeepInteraction-large模型,輸入的激光雷達(dá)BEV網(wǎng)格尺寸為[0.5m,0.5m]和[1.5m,1.5m]。
根據(jù)TransFusion的配置進(jìn)行數(shù)據(jù)增強(qiáng):使用范圍為[-π/4,π/4]的隨機(jī)旋轉(zhuǎn),隨機(jī)縮放系數(shù)為[0.9,1.1],標(biāo)準(zhǔn)差為0.5的三軸隨機(jī)平移和隨機(jī)水平翻轉(zhuǎn),還在CBGS中使用類平衡重采樣來(lái)平衡nuScenes的類分布。和TransFusion一樣采用兩階段訓(xùn)練的方法,以TransFusion-L作為僅激光雷達(dá)訓(xùn)練的基線。使用單周期學(xué)習(xí)率策略的Adam優(yōu)化器,最大學(xué)習(xí)率1×10?3,權(quán)衰減0.01,動(dòng)量0.85 ~ 0.95,遵循CBGS。激光雷達(dá)基線訓(xùn)練為20輪,激光雷達(dá)圖像融合為6輪,批量大小為16個(gè),使用8個(gè)NVIDIA V100 GPU進(jìn)行訓(xùn)練。
與最先進(jìn)方法比較
表1 在nuScenes測(cè)試集上與最先進(jìn)方法的比較
如表1所示,DeepInteraction在所有設(shè)置下都實(shí)現(xiàn)了最先進(jìn)的性能。而在表2中分別比較了在NVIDIA V100、A6000和A100上測(cè)試的推理速度??梢钥吹剑谌〉酶咝阅艿那疤嵯?,仍舊保持著較高的推理速度,驗(yàn)證了該方法在檢測(cè)性能和推理速度之間實(shí)現(xiàn)了優(yōu)越權(quán)衡。
表2 推理速度比較
消融實(shí)驗(yàn)
解碼器的消融實(shí)驗(yàn)
在表3(a)中比較了多模態(tài)交互預(yù)測(cè)解碼器和DETR解碼器層的設(shè)計(jì),并且使用了混合設(shè)計(jì):使用普通的DETR解碼器層來(lái)聚合激光雷達(dá)表示中的特征,使用多模態(tài)交互預(yù)測(cè)解碼器(MMPI)來(lái)聚合圖像表示中的特征(第二行)。MMPI明顯優(yōu)于DETR,提高了1.3% mAP和1.0% NDS,具有設(shè)計(jì)上的組合靈活性。表3(c)進(jìn)一步探究了不同的解碼器層數(shù)對(duì)于檢測(cè)性能的影響,可以發(fā)現(xiàn)增加到5層解碼器時(shí)性能是不斷提升的。最后還比較了訓(xùn)練和測(cè)試時(shí)采用的查詢數(shù)的不同組合,在不同的選擇下,性能上穩(wěn)定的,但以200/300作為訓(xùn)練/測(cè)試的最佳設(shè)置。
表3 解碼器的消融實(shí)驗(yàn)
編碼器的消融實(shí)驗(yàn)
從表4(a)中可以觀察到:(1)與IML相比,多模態(tài)表征交互編碼器(MMRI)可以顯著提高性能;(2) MMRI和IML可以很好地協(xié)同工作以進(jìn)一步提高性能。從表4(b)中可以看出,堆疊編碼器層用于迭代MMRI是有益的。
表4 編碼器的消融實(shí)驗(yàn)
激光雷達(dá)骨干網(wǎng)絡(luò)的消融實(shí)驗(yàn)
使用兩種不同的激光雷達(dá)骨干網(wǎng)絡(luò):PointPillar和VoxelNet來(lái)檢查框架的一般性。對(duì)于PointPillars,將體素大小設(shè)置為(0.2m, 0.2m),同時(shí)保持與DeepInteraction-base相同的其余設(shè)置。由于提出的多模態(tài)交互策略,DeepInteraction在使用任何一種骨干網(wǎng)時(shí)都比僅使用lidar基線表現(xiàn)出一致的改進(jìn)(基于體素的骨干網(wǎng)提高5.5% mAP,基于支柱的骨干網(wǎng)提高4.4% mAP)。這體現(xiàn)了DeepInteraction在不同點(diǎn)云編碼器中的通用性。
表5不同激光雷達(dá)主干網(wǎng)的評(píng)估
結(jié)論
在這項(xiàng)工作中,提出了一種新的3D目標(biāo)檢測(cè)方法DeepInteraction,用于探索固有的多模態(tài)互補(bǔ)性質(zhì)。這一關(guān)鍵思想是維持兩種特定于模態(tài)的表征,并在它們之間建立表征學(xué)習(xí)和預(yù)測(cè)解碼的相互作用。該策略是專門為解決現(xiàn)有單側(cè)融合方法的基本限制而設(shè)計(jì)的,即由于其輔助源角色處理,圖像表示未得到充分利用。
兩篇論文的總結(jié):
以上的兩篇論文均是基于激光雷達(dá)和相機(jī)融合的三維目標(biāo)檢測(cè),從DeepInteraction中也可以看到它是借鑒了TransFusion的進(jìn)一步工作。從這兩篇論文中可以總結(jié)出多傳感器融合的一個(gè)方向,就是探究更高效的動(dòng)態(tài)融合方式,以關(guān)注到更多不同模態(tài)的有效信息。當(dāng)然了,這一切建立在兩種模態(tài)均有著高質(zhì)量的信息。多模態(tài)融合在未來(lái)的自動(dòng)駕駛、智能機(jī)器人等領(lǐng)域都會(huì)有很重要的應(yīng)用,隨著不同模態(tài)提取的信息逐漸豐富起來(lái),我們能夠利用到的信息將會(huì)越來(lái)越多,那么如何將這些數(shù)據(jù)更高效的運(yùn)用起來(lái)也是一個(gè)值得思考的問(wèn)題。