RoboFusion:通過SAM實(shí)現(xiàn)穩(wěn)健的多模態(tài)3D檢測
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
論文鏈接:https://arxiv.org/pdf/2401.03907.pdf
多模態(tài)3D檢測器致力于探索安全可靠的自動駕駛感知系統(tǒng)。然而,盡管在干凈的基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的(SOTA)性能,但它們往往忽略了現(xiàn)實(shí)世界環(huán)境的復(fù)雜性和惡劣條件。同時(shí),隨著視覺基礎(chǔ)模型(VFM)的出現(xiàn),在自動駕駛中提高多模態(tài)三維檢測的魯棒性和泛化能力也面臨著機(jī)遇和挑戰(zhàn)。因此,作者提出了RoboFusion,這是一個(gè)強(qiáng)大的框架,它利用像SAM這樣的VFM來解決分布外(OOD)噪聲場景。
首先將最初的SAM應(yīng)用于名為SAM-AD的自動駕駛場景,為了將SAM或SAMAD與多模態(tài)方法對齊,引入AD-FPN來對SAM提取的圖像特征進(jìn)行上采樣。采用小波分解對深度引導(dǎo)圖像進(jìn)行去噪,以進(jìn)一步降低噪聲和天氣干擾。最后,使用自注意機(jī)制來自適應(yīng)地重新加權(quán)融合的特征,增強(qiáng)信息特征,同時(shí)抑制過量噪聲。RoboFusion通過利用VFM的泛化和魯棒性逐漸降低噪聲,從而增強(qiáng)了多模式3D目標(biāo)檢測的彈性。因此,RoboFusion在噪聲場景中實(shí)現(xiàn)了最先進(jìn)的性能,正如KITTIC和nuScenes-C基準(zhǔn)測試所證明的那樣!
論文提出了一個(gè)穩(wěn)健的框架,RoboFusion,它利用像SAM這樣的VFM來將3D多模態(tài)目標(biāo)檢測器從干凈場景調(diào)整為OOD噪聲場景。特別是,SAM的適應(yīng)策略如下。
1) 使用從SAM中提取的特征,而不是推理分割結(jié)果。
2) 提出了SAM-AD,這是針對AD場景的預(yù)訓(xùn)練SAM。
3) 介紹了一種新的AD-FPN來解決用于將VFM與多模式3D檢測器對準(zhǔn)的特征上采樣問題。
4) 為了進(jìn)一步減少噪聲干擾并保留基本信號特征,設(shè)計(jì)了一個(gè)深度引導(dǎo)小波注意(DGWA)模塊,該模塊可以有效地衰減高頻和低頻噪聲。
5) 在融合點(diǎn)云特征和圖像特征后,提出了自適應(yīng)融合,通過自關(guān)注自適應(yīng)地重新加權(quán)融合后的特征,進(jìn)一步增強(qiáng)特征的魯棒性和抗噪性。
RoboFusion網(wǎng)絡(luò)結(jié)構(gòu)
RoboFusion框架如下所示,激光雷達(dá)分支遵循基線[Chen et al.,2022;Bai et al.,2022]來生成激光雷達(dá)特征。在相機(jī)分支中,首先使用高度優(yōu)化的SAM-AD提取穩(wěn)健的圖像特征,并使用AD-FPN獲取多尺度特征。其次,由原始點(diǎn)生成稀疏深度圖S,并將其輸入深度編碼器以獲得深度特征,并與多尺度圖像特征融合以獲得深度引導(dǎo)圖像特征。然后使用波動注意力來去除突變噪聲。最后,自適應(yīng)融合通過自注意機(jī)制將點(diǎn)云特征與具有深度信息的魯棒圖像特征相結(jié)合。
SAM-AD:為了進(jìn)一步使SAM適應(yīng)AD(自動駕駛)場景,對SAM進(jìn)行預(yù)訓(xùn)練以獲得SAM-AD。具體而言,我們從成熟的數(shù)據(jù)集(即KITTI和nuScenes)中收集了大量圖像樣本,形成了基礎(chǔ)的AD數(shù)據(jù)集。在DMAE之后,對SAM進(jìn)行預(yù)訓(xùn)練,以獲得AD場景中的SAM-AD,如圖3所示。將x表示為來自AD數(shù)據(jù)集的干凈圖像(即KITTI和nuScenes),將η表示為基于x生成的噪聲圖像。噪聲類型和嚴(yán)重程度分別從四種天氣(即雨、雪、霧和陽光)和1-5的五種嚴(yán)重程度中隨機(jī)選擇。使用SAM、MobileSAM的圖像編碼器作為我們的編碼器,而解碼器和重建損失與DMAE相同。
AD-FPN。作為一種可提示的分割模型,SAM由三個(gè)部分組成:圖像編碼器、提示編碼器和掩碼解碼器。一般來說,有必要將圖像編碼器推廣到訓(xùn)練VFM,然后再訓(xùn)練解碼器。換言之,圖像編碼器可以為下游模型提供高質(zhì)量和高度魯棒的圖像嵌入,而掩碼解碼器僅被設(shè)計(jì)為提供用于語義分割的解碼服務(wù)。此外,我們需要的是魯棒的圖像特征,而不是提示編碼器對提示信息的處理。因此,我們使用SAM的圖像編碼器來提取穩(wěn)健的圖像特征。然而,SAM利用ViT系列作為其圖像編碼器,其排除了多尺度特征,僅提供高維低分辨率特征。為了生成目標(biāo)檢測所需的多尺度特征,受[Li et al.,2022a]的啟發(fā),設(shè)計(jì)了一種AD-FPN,它提供基于ViT的多尺度特性!
盡管SAM-AD或SAM具有提取穩(wěn)健圖像特征的能力,但2D域和3D域之間的差距仍然存在,并且在損壞的環(huán)境中缺乏幾何信息的相機(jī)經(jīng)常放大噪聲并引起負(fù)遷移問題。為了緩解這個(gè)問題,我們提出了深度引導(dǎo)小波注意(DGWA)模塊,該模塊可以分為以下兩個(gè)步驟。1) 設(shè)計(jì)了一個(gè)深度引導(dǎo)網(wǎng)絡(luò),通過結(jié)合點(diǎn)云的圖像特征和深度特征,在圖像特征之前添加幾何體。2) 使用Haar小波變換將圖像的特征分解為四個(gè)子帶,然后注意力機(jī)制允許對子帶中的信息特征進(jìn)行去噪!
實(shí)驗(yàn)對比
原文鏈接:https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng