MonoLSS:用于視覺3D檢測(cè)訓(xùn)練中的樣本選擇
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
MonoLSS: Learnable Sample Selection For Monocular 3D Detection
論文鏈接:https://arxiv.org/pdf/2312.14474.pdf
在自動(dòng)駕駛領(lǐng)域,單目3D檢測(cè)是一個(gè)關(guān)鍵任務(wù),它在單個(gè)RGB圖像中估計(jì)物體的3D屬性(深度、尺寸和方向)。先前的工作以一種啟發(fā)式的方式使用特征來學(xué)習(xí)3D屬性,而沒有考慮不適當(dāng)?shù)奶卣骺赡墚a(chǎn)生不良影響。在本文中,引入了樣本選擇,只有適合的樣本才應(yīng)該用于回歸3D屬性。為了自適應(yīng)地選擇樣本,提出了一個(gè)可學(xué)習(xí)的樣本選擇(LSS)模塊,該模塊基于Gumbel-Softmax和相對(duì)距離樣本劃分。LSS模塊在warmup策略下工作,提高了訓(xùn)練穩(wěn)定性。此外,由于專用于3D屬性樣本選擇的LSS模塊依賴于目標(biāo)級(jí)特征,進(jìn)一步開發(fā)了一種名為MixUp3D的數(shù)據(jù)增強(qiáng)方法,用于豐富符合成像原理的3D屬性樣本而不引入歧義。作為兩種正交的方法,LSS模塊和MixUp3D可以獨(dú)立或結(jié)合使用。充分的實(shí)驗(yàn)證明它們的聯(lián)合使用可以產(chǎn)生協(xié)同效應(yīng),產(chǎn)生超越各自應(yīng)用之和的改進(jìn)。借助LSS模塊和MixUp3D,無需額外數(shù)據(jù),方法MonoLSS在KITTI 3D目標(biāo)檢測(cè)基準(zhǔn)的所有三個(gè)類別(汽車、騎行者和行人)中均排名第一,并在Waymo數(shù)據(jù)集和KITTI-nuScenes跨數(shù)據(jù)集評(píng)估中取得了有競(jìng)爭(zhēng)力的結(jié)果。
MonoLSS主要貢獻(xiàn):
論文強(qiáng)調(diào),并非所有特征對(duì)學(xué)習(xí)3D屬性都同樣有效,并首先將其重新表述為樣本選擇問題。相應(yīng)地,開發(fā)了一種新的可學(xué)習(xí)樣本選擇(LSS)模塊,該模塊可以自適應(yīng)地選擇樣本。
為了豐富3D屬性樣本,設(shè)計(jì)了MixUp3D數(shù)據(jù)增強(qiáng),它模擬了空間重疊,并顯著提高了3D檢測(cè)性能。
在不引入任何額外信息的情況下,MonoLSS在KITTI基準(zhǔn)的所有三個(gè)類別中排名第一,在汽車類別的中等和中等水平上,超過了當(dāng)前的最佳方法11.73%和12.19%。它還實(shí)現(xiàn)了Waymo數(shù)據(jù)集和KITTI nuScenes跨數(shù)據(jù)集評(píng)估的SOTA結(jié)果。
MonoLSS主要思路
MonoLSS框架如下圖所示。首先,使用與ROI Align相結(jié)合的2D檢測(cè)器來生成目標(biāo)特征。然后,六個(gè)Head分別預(yù)測(cè)3D特性(深度、尺寸、方向和3D中心投影偏移)、深度不確定性和對(duì)數(shù)概率。最后,可學(xué)習(xí)樣本選擇(LSS)模塊自適應(yīng)地選擇樣本并進(jìn)行損失計(jì)算。
Learnable Sample Selection
假設(shè)U~Uniform(0,1),則可以使用逆變換采樣通過計(jì)算G=?log(?log(U))來生成Gumbel分布G。通過用Gumbel分布獨(dú)立地?cái)_動(dòng)對(duì)數(shù)概率,并使用argmax函數(shù)找到最大元素,Gumbel Max技巧實(shí)現(xiàn)了無需隨機(jī)選擇的概率采樣?;谶@項(xiàng)工作,Gumbel Softmax使用Softmax函數(shù)作為argmax的連續(xù)可微近似,并在重新參數(shù)化的幫助下實(shí)現(xiàn)了整體可微性。
GumbelTop-k通過在沒有替換的情況下繪制大小為k的有序采樣,將采樣點(diǎn)的數(shù)量從Top-1擴(kuò)展到Top-k,其中k是一個(gè)超參數(shù)。然而,相同的k并不適用于所有目標(biāo),例如,被遮擋的目標(biāo)應(yīng)該比正常目標(biāo)具有更少的正樣本。為此,我們?cè)O(shè)計(jì)了一個(gè)基于超參數(shù)相對(duì)距離的模塊來自適應(yīng)地劃分樣本。總之,作者提出了一個(gè)可學(xué)習(xí)樣本選擇(LSS)模塊來解決三維屬性學(xué)習(xí)中的樣本選擇問題,該模塊由Gumbel Softmax和相對(duì)距離樣本除法器組成。LSS模塊的示意圖如圖2的右側(cè)所示。
Mixup3D數(shù)據(jù)增強(qiáng)
由于嚴(yán)格的成像約束,數(shù)據(jù)增強(qiáng)方法在單目3D檢測(cè)中受到限制。除了光度失真和水平翻轉(zhuǎn)之外,大多數(shù)數(shù)據(jù)增強(qiáng)方法由于破壞了成像原理而引入了模糊特征。此外,由于LSS模塊專注于目標(biāo)級(jí)特性,因此不修改目標(biāo)本身特性的方法對(duì)LSS模塊來說并不足夠有效。
由于MixUp的優(yōu)勢(shì),可以增強(qiáng)目標(biāo)的像素級(jí)特征。作者提出了MixUp3D,它為2D MixUp添加了物理約束,使新生成的圖像基本上是空間重疊的合理成像。具體而言,MixUp3D僅違反物理世界中對(duì)象的碰撞約束,同時(shí)確保生成的圖像符合成像原理,從而避免任何歧義!
實(shí)驗(yàn)結(jié)果
KITTI測(cè)試集上汽車類的單目3D檢測(cè)性能。與KITTI排行榜相同,方法排名在中等難度以下。我們以粗體突出顯示最佳結(jié)果,以下劃線突出顯示第二個(gè)結(jié)果。對(duì)于額外的數(shù)據(jù):1)LIDAR表示在訓(xùn)練過程中使用額外的LIDAR云點(diǎn)的方法。2) 深度是指利用在另一深度估計(jì)數(shù)據(jù)集下預(yù)先訓(xùn)練的深度圖或模型。3) CAD表示使用由CAD模型提供的密集形狀注釋。4) 無表示不使用額外數(shù)據(jù)。
Wamyo上數(shù)據(jù)集測(cè)試結(jié)果:
KITTI-val模型在深度為MAE的KITTI-val和nuScenes前臉val汽車上的跨數(shù)據(jù)集評(píng)估:
原文鏈接:https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg