多模態(tài)融合全新框架 | FusionFormer:BEV時(shí)空融合新高度!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
我們這篇論文解讀介紹了一種名為FusionFormer的多模態(tài)融合框架,用于三維目標(biāo)檢測(cè)。該框架旨在解決自動(dòng)駕駛中的一些挑戰(zhàn),包括傳感器之間的差異以及信息融合的有效性。
在自動(dòng)駕駛技術(shù)中,通常會(huì)使用多個(gè)傳感器來(lái)提高安全性,例如激光雷達(dá)、攝像頭和雷達(dá)。這些傳感器具有不同的特點(diǎn),例如激光雷達(dá)可以提供準(zhǔn)確但稀疏的三維點(diǎn)云信息,而圖像具有密集的特征但缺乏深度信息。為了提高性能,可以使用多模態(tài)融合來(lái)整合這些傳感器的優(yōu)點(diǎn)。通過(guò)結(jié)合多個(gè)傳感器的信息,自動(dòng)駕駛系統(tǒng)可以實(shí)現(xiàn)更高的準(zhǔn)確性和魯棒性,從而在實(shí)際應(yīng)用中更可靠。
傳統(tǒng)的多模態(tài)特征融合方法通常使用簡(jiǎn)單的拼接操作將不同傳感器的特征在鳥(niǎo)瞰圖空間中進(jìn)行拼接。然而,這些方法存在一些局限性。首先,在這些方法中,為了得到點(diǎn)云的鳥(niǎo)瞰圖特征,點(diǎn)云的Z軸信息被壓縮到通道維度中,這可能導(dǎo)致高度信息的丟失。這可能會(huì)影響涉及高度信息的下游任務(wù)的性能,例如需要預(yù)測(cè)邊界框的高度的三維目標(biāo)檢測(cè)。其次,目前的方法獨(dú)立地獲取來(lái)自圖像和點(diǎn)云的鳥(niǎo)瞰圖特征,沒(méi)有充分利用每種模態(tài)的互補(bǔ)優(yōu)勢(shì)。例如,將圖像特征轉(zhuǎn)換為鳥(niǎo)瞰圖特征的過(guò)程嚴(yán)重依賴于準(zhǔn)確的深度預(yù)測(cè)。然而,單目深度預(yù)測(cè)是一個(gè)不適定問(wèn)題,很難實(shí)現(xiàn)高精度。不準(zhǔn)確的深度預(yù)測(cè)可能導(dǎo)致視角變換錯(cuò)誤,影響檢測(cè)性能。實(shí)際上,稀疏的激光雷達(dá)點(diǎn)云特征可以提供補(bǔ)充的深度信息,以提高視角變換的準(zhǔn)確性。然而,目前的方法未能有效地利用這個(gè)潛力。
為了解決這些問(wèn)題,我們提出了一種名為FusionFormer的新型多模態(tài)融合框架。FusionFormer通過(guò)使用可變形注意力順序地融合激光雷達(dá)和圖像特征,可以生成融合的鳥(niǎo)瞰圖特征。通過(guò)開(kāi)發(fā)一種統(tǒng)一的采樣策略,F(xiàn)usionFormer可以同時(shí)從二維圖像和三維體素特征中進(jìn)行采樣,從而在不同模態(tài)輸入之間展現(xiàn)出靈活的適應(yīng)性。因此,多模態(tài)特征可以以它們的原始形式輸入,避免了轉(zhuǎn)換為鳥(niǎo)瞰圖特征時(shí)的信息損失。在融合編碼過(guò)程中,點(diǎn)云特征可以作為圖像特征的視角變換的深度參考,而來(lái)自圖像的稠密語(yǔ)義特征則互補(bǔ)了點(diǎn)云特征的稀疏性,從而生成更準(zhǔn)確和更密集的融合的鳥(niǎo)瞰圖特征。值得注意的是,多模態(tài)融合編碼器采用了殘差結(jié)構(gòu),確保了模型在缺失點(diǎn)云或圖像特征的情況下的魯棒性。此外,F(xiàn)usionFormer還支持歷史鳥(niǎo)瞰圖特征的時(shí)間融合,使用了基于可變形注意力的插件式時(shí)間融合模塊。當(dāng)與三維目標(biāo)檢測(cè)頭部結(jié)合時(shí),F(xiàn)usionFormer可以進(jìn)行端到端的訓(xùn)練,并具有最先進(jìn)的性能。此外,基于FusionFormer對(duì)輸入模態(tài)表示的靈活適應(yīng)性,論文還提出了一種方法,利用單目深度預(yù)測(cè)結(jié)果而不是激光雷達(dá)分支來(lái)提高基于攝像頭的三維目標(biāo)檢測(cè)的性能。
我們的方法
1 MULTI-MODAL BRANCHES
MULTI-MODAL BRANCHES是FusionFormer方法中用于處理多模態(tài)特征的分支。
- Camera Branch:該分支用于從多視圖相機(jī)圖像中提取圖像特征。通常使用諸如ResNet-101等骨干網(wǎng)絡(luò)提取圖像特征。提取的圖像特征經(jīng)過(guò)Feature Pyramid Network (FPN)處理,生成多尺度的圖像特征。
- LiDAR Branch:FusionFormer方法支持多種多模態(tài)特征的表示形式。該研究探索了兩種不同的LiDAR特征表示形式,具體是BEV(Bird's Eye View)特征和體素特征。原始的點(diǎn)云數(shù)據(jù)經(jīng)過(guò)體素化處理,并通過(guò)稀疏的三維卷積操作進(jìn)行處理。在一種情況下,通過(guò)使用三維卷積操作對(duì)體積表示進(jìn)行編碼,得到體素特征。在另一種情況下,將特征的Z軸壓縮到通道維度,并使用二維卷積操作獲取BEV特征。
通過(guò)這些多模態(tài)分支,F(xiàn)usionFormer方法能夠同時(shí)處理來(lái)自相機(jī)和LiDAR的多模態(tài)特征,為后續(xù)的融合和目標(biāo)檢測(cè)任務(wù)提供豐富的輸入信息。
2 MULTI-MODAL FUSION ENCODER
Multi-modal Fusion Encoder是FusionFormer方法中的一個(gè)模塊,用于融合多模態(tài)特征。該模塊包含6個(gè)編碼層,每個(gè)編碼層都包括自注意力(self-attention)、點(diǎn)云交叉注意力(points cross-attention)和圖像交叉注意力(image cross-attention)。下面對(duì)Multi-modal Fusion Encoder的各個(gè)部分進(jìn)行介紹:
- BEV Queries(BEV查詢):首先,將BEV(Bird's Eye View)空間劃分為網(wǎng)格,每個(gè)網(wǎng)格單元對(duì)應(yīng)一個(gè)BEV查詢。在輸入到融合編碼器之前,對(duì)BEV查詢進(jìn)行位置編碼,根據(jù)其對(duì)應(yīng)的BEV空間坐標(biāo)進(jìn)行操作。
- Self-Attention(自注意力):為了減少計(jì)算資源的使用,采用了基于可變形注意力的自注意力機(jī)制。每個(gè)BEV查詢只與其在ROI范圍內(nèi)的相應(yīng)查詢進(jìn)行交互。通過(guò)在每個(gè)查詢的2D參考點(diǎn)進(jìn)行特征采樣來(lái)實(shí)現(xiàn)交互。
- Points Cross-Attention(點(diǎn)云交叉注意力):該層也采用了可變形注意力機(jī)制,但根據(jù)LiDAR特征的形式的不同,實(shí)現(xiàn)點(diǎn)云交叉注意力的方式有所不同。當(dāng)使用BEV特征作為輸入時(shí),點(diǎn)云交叉注意力層的實(shí)現(xiàn)如下所示。它將BEV特征作為輸入,并在LiDAR分支輸出的BEV特征上執(zhí)行可變形注意力操作。
- Image Cross-Attention(圖像交叉注意力):圖像交叉注意力的實(shí)現(xiàn)方式與點(diǎn)云交叉注意力類(lèi)似,但是針對(duì)使用體素特征作為輸入的情況。由于圖像具有多個(gè)視角,每個(gè)查詢的3D參考點(diǎn)只能投影到一部分相機(jī)視圖上。因此,在圖像交叉注意力過(guò)程中,僅將可投影的相機(jī)視圖作為參與計(jì)算的對(duì)象。
通過(guò)這些編碼層的多次迭代,最終得到融合了多模態(tài)特征的BEV特征。Multi-modal Fusion Encoder模塊的目標(biāo)是通過(guò)自注意力、點(diǎn)云交叉注意力和圖像交叉注意力相互作用,充分利用不同模態(tài)的信息,提高特征的表達(dá)能力和融合效果。
3 TEMPORAL FUSION ENCODER
TFE包括三個(gè)層,每個(gè)層都包括BEV時(shí)間注意力(BEV temporal-attention)和前饋網(wǎng)絡(luò)(feedforward networks)。在第一層,查詢(queries)使用當(dāng)前幀的BEV特征進(jìn)行初始化,并通過(guò)歷史BEV特征的時(shí)間注意力進(jìn)行更新。得到的查詢通過(guò)前饋網(wǎng)絡(luò)進(jìn)行處理,并作為下一層的輸入。經(jīng)過(guò)三層融合編碼后,得到最終的時(shí)間融合BEV特征。
時(shí)間注意力的過(guò)程可以表示為:
其中,表示時(shí)間時(shí)刻的BEV特征。
上述公式表示,在時(shí)間注意力過(guò)程中,通過(guò)對(duì)歷史幀的BEV特征與當(dāng)前查詢進(jìn)行自注意力操作,得到加權(quán)的歷史特征表示。
TFE模塊通過(guò)多層的時(shí)間注意力和前饋網(wǎng)絡(luò),實(shí)現(xiàn)了時(shí)間序列數(shù)據(jù)的融合編碼。它充分利用了歷史幀的信息,通過(guò)自注意力機(jī)制對(duì)查詢進(jìn)行更新,從而得到更準(zhǔn)確的時(shí)間融合BEV特征。TFE模塊的輸出可以作為后續(xù)的3D檢測(cè)頭(3D Detection Head)的輸入,用于直接生成BEV特征的3D檢測(cè)框和速度預(yù)測(cè),無(wú)需進(jìn)行后處理的非最大抑制(NMS)操作。
4 3D DETECTION HEAD
論文提出了基于Deformable DETR的3D檢測(cè)頭,它可以直接從BEV特征輸出3D檢測(cè)框和速度預(yù)測(cè),無(wú)需進(jìn)行NMS后處理。為了解決類(lèi)似DETR檢測(cè)頭中遇到的不穩(wěn)定匹配問(wèn)題并加快訓(xùn)練收斂速度,論文提出了一種受DN-DETR啟發(fā)的新方法。在訓(xùn)練過(guò)程中,論文使用帶有噪聲的真實(shí)編碼(ground-truth encodings)增強(qiáng)查詢,并通過(guò)將預(yù)測(cè)結(jié)果與真實(shí)值進(jìn)行直接比較來(lái)計(jì)算損失,而無(wú)需進(jìn)行匹配過(guò)程。
5 FUSION WITH DEPTH PREDICTION
為了在僅有相機(jī)圖像的場(chǎng)景中近似點(diǎn)云分支,F(xiàn)usionFormer具有很高的靈活性,可以添加基于圖像的單目深度預(yù)測(cè)分支。如圖所示,我們提出了一個(gè)深度預(yù)測(cè)網(wǎng)絡(luò),用于從輸入圖像特征生成基于區(qū)間的深度預(yù)測(cè)。利用3D卷積將深度預(yù)測(cè)結(jié)果編碼為每個(gè)相機(jī)視錐體中的體素特征。然后,采用深度交叉注意力來(lái)融合深度特征。深度交叉注意力的過(guò)程定義如下:
其中,表示第j個(gè)相機(jī)的編碼深度預(yù)測(cè)特征,表示查詢的第i個(gè)三維參考點(diǎn)在第j個(gè)相機(jī)的視錐體坐標(biāo)系上的投影點(diǎn)。上述公式表示,在深度交叉注意力過(guò)程中,通過(guò)將查詢與每個(gè)相機(jī)視錐體中的投影點(diǎn)進(jìn)行自注意力操作,對(duì)深度特征進(jìn)行加權(quán)融合。Fusion with Depth Prediction模塊利用深度預(yù)測(cè)網(wǎng)絡(luò)生成的深度特征,并通過(guò)深度交叉注意力機(jī)制將其與其他模態(tài)的特征進(jìn)行融合。這樣,即使只有相機(jī)圖像,也能夠近似地捕捉到點(diǎn)云的信息,并與其他模態(tài)的特征相結(jié)合,提高最終的融合特征的表達(dá)能力。
實(shí)驗(yàn)對(duì)比分析
根據(jù)提供的實(shí)驗(yàn)結(jié)果表格,我們可以進(jìn)行以下結(jié)果分析:
- 模態(tài)對(duì)比:從表格中可以看出,使用多模態(tài)數(shù)據(jù)(Camera和LiDAR)的方法(如BEVFusion、CMT和DeepInteraction)在大多數(shù)評(píng)估指標(biāo)上表現(xiàn)較好。單獨(dú)使用相機(jī)或LiDAR數(shù)據(jù)的方法(如BEVFusion和BEVFusion4D)相對(duì)而言表現(xiàn)較差。這說(shuō)明多模態(tài)信息的融合可以提高3D檢測(cè)的性能。
- 時(shí)間信息對(duì)比:與只使用當(dāng)前幀信息的方法相比,使用時(shí)間序列信息的方法(如BEVFusion4D和FusionFormer)在NDS、mATE和mAOE等指標(biāo)上取得了更好的結(jié)果。這表明引入時(shí)間序列數(shù)據(jù)有助于改善3D檢測(cè)的穩(wěn)定性和準(zhǔn)確性。
- FusionFormer性能:FusionFormer在大多數(shù)評(píng)估指標(biāo)上都達(dá)到了最佳結(jié)果。它在NDS指標(biāo)上超過(guò)了其他方法,并在mAAE指標(biāo)上達(dá)到了最低值。這表明FusionFormer在綜合性能和平均角度誤差方面優(yōu)于其他方法。
也就是說(shuō)FusionFormer方法在多模態(tài)數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的融合上取得了良好的效果,具有較高的性能和穩(wěn)定性,能夠直接從BEV特征中輸出3D檢測(cè)框和速度預(yù)測(cè),無(wú)需進(jìn)行后處理的非最大抑制(NMS)操作。
根據(jù)實(shí)驗(yàn)結(jié)果表格的數(shù)據(jù)對(duì)比,在nuScenes數(shù)據(jù)集的驗(yàn)證集上,我們對(duì)比了多種方法的性能。多模態(tài)數(shù)據(jù)融合方法,如BEVFusion、CMT和DeepInteraction,展現(xiàn)了相對(duì)較好的mAP和NDS指標(biāo),說(shuō)明多模態(tài)信息的綜合利用對(duì)于3D檢測(cè)的性能至關(guān)重要。同時(shí),引入時(shí)間序列信息的方法,如BEVFusion4D和FusionFormer,在mAP和NDS指標(biāo)上取得了更好的結(jié)果,這表明時(shí)間序列數(shù)據(jù)對(duì)于提高3D檢測(cè)的準(zhǔn)確性和穩(wěn)定性具有積極影響。
在這些方法中,F(xiàn)usionFormer在綜合性能上表現(xiàn)出色。它通過(guò)有效地融合相機(jī)、LiDAR和時(shí)間序列數(shù)據(jù),能夠直接從BEV特征中輸出3D檢測(cè)結(jié)果,無(wú)需進(jìn)行后處理的非最大抑制(NMS)操作。FusionFormer在mAP和NDS指標(biāo)上均取得最佳結(jié)果,超過(guò)了其他方法。這顯示出FusionFormer在復(fù)雜場(chǎng)景下具有強(qiáng)大的檢測(cè)能力和魯棒性。
因此,綜合考慮多模態(tài)數(shù)據(jù)融合和時(shí)間序列信息的重要性,以及FusionFormer在綜合性能上的優(yōu)勢(shì),我們可以得出結(jié)論:FusionFormer方法在nuScenes數(shù)據(jù)集上展現(xiàn)出卓越的性能,為3D檢測(cè)任務(wù)提供了一種效果優(yōu)秀且高效的解決方案。
一些討論
我們這個(gè)工作的優(yōu)點(diǎn)之一是它對(duì)多模態(tài)數(shù)據(jù)融合和時(shí)間序列信息的重要性進(jìn)行了深入的研究和探討。通過(guò)將相機(jī)和LiDAR數(shù)據(jù)進(jìn)行融合,并引入時(shí)間序列信息,論文提出了一種名為FusionFormer的方法,該方法在3D檢測(cè)任務(wù)中取得了出色的性能。這種綜合利用多模態(tài)數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的策略,能夠提高檢測(cè)的精度和魯棒性,使得系統(tǒng)能夠在復(fù)雜場(chǎng)景下更好地理解和預(yù)測(cè)物體的行為。
另一個(gè)優(yōu)點(diǎn)是FusionFormer方法的直接輸出特征,避免了后處理的非最大抑制(NMS)操作。這種設(shè)計(jì)簡(jiǎn)化了系統(tǒng)流程,提高了實(shí)時(shí)性和效率,并且有助于減少信息損失和誤差傳播。此外,F(xiàn)usionFormer還能夠直接從BEV特征中輸出3D檢測(cè)結(jié)果,進(jìn)一步簡(jiǎn)化了系統(tǒng)架構(gòu)。
然而,論文也存在一些潛在的缺點(diǎn)。首先,盡管FusionFormer在實(shí)驗(yàn)中展現(xiàn)了出色的性能,但其在其他數(shù)據(jù)集或場(chǎng)景中的泛化能力仍需進(jìn)一步驗(yàn)證。其次,論文可能沒(méi)有充分探索模型的可解釋性和推理過(guò)程,缺乏對(duì)于模型決策的解釋和可視化分析。此外,論文可能沒(méi)有對(duì)實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)顯著性進(jìn)行詳細(xì)的討論,如假設(shè)檢驗(yàn)或置信區(qū)間分析,以確認(rèn)結(jié)果的可靠性和一致性。
總體而言,這篇論文通過(guò)提出FusionFormer方法,系統(tǒng)地探索了多模態(tài)數(shù)據(jù)融合和時(shí)間序列信息在3D檢測(cè)任務(wù)中的重要性,并在實(shí)驗(yàn)中取得了令人滿意的結(jié)果。然而,在進(jìn)一步研究中,應(yīng)該考慮驗(yàn)證其泛化能力、加強(qiáng)模型的可解釋性分析,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行更全面的統(tǒng)計(jì)推斷。
結(jié)論
本論文提出了一種名為FusionFormer的方法,通過(guò)綜合利用多模態(tài)數(shù)據(jù)融合和時(shí)間序列信息,實(shí)現(xiàn)了在3D檢測(cè)任務(wù)中的優(yōu)秀性能。FusionFormer能夠直接從BEV特征中輸出3D檢測(cè)結(jié)果,避免了后處理的非最大抑制(NMS)操作,簡(jiǎn)化了系統(tǒng)架構(gòu)并提高了實(shí)時(shí)性和效率。實(shí)驗(yàn)結(jié)果表明,F(xiàn)usionFormer在多模態(tài)數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的融合上取得了出色的性能,在mAP和NDS等指標(biāo)上超過(guò)了其他方法。然而,進(jìn)一步的研究還需要驗(yàn)證其泛化能力、加強(qiáng)模型的可解釋性分析,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行更全面的統(tǒng)計(jì)推斷??傮w而言,F(xiàn)usionFormer為3D檢測(cè)任務(wù)提供了一種有效且高效的解決方案,具有廣闊的應(yīng)用前景。