DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
這篇論文探討了在自動(dòng)駕駛中,從不同視角(如透視圖和鳥瞰圖)準(zhǔn)確檢測(cè)物體的問(wèn)題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉(zhuǎn)換特征,這一轉(zhuǎn)換是通過(guò)視覺轉(zhuǎn)換(VT)模塊實(shí)施的。現(xiàn)有的方法大致分為兩種策略:2D到3D和3D到2D轉(zhuǎn)換。2D到3D的方法通過(guò)預(yù)測(cè)深度概率來(lái)提升密集的2D特征,但深度預(yù)測(cè)的固有不確定性,尤其是在遠(yuǎn)處區(qū)域,可能會(huì)引入不準(zhǔn)確性。而3D到2D的方法通常使用3D查詢來(lái)采樣2D特征,并通過(guò)Transformer學(xué)習(xí)3D和2D特征之間對(duì)應(yīng)關(guān)系的注意力權(quán)重,這增加了計(jì)算和部署的復(fù)雜性。
論文指出,現(xiàn)有的方法如HeightFormer和FB-BEV嘗試結(jié)合這兩種VT策略,但這些方法通常采用兩階段策略,由于雙VT的特征轉(zhuǎn)換不同,受到初始特征性能的限制,從而阻礙了雙VT之間的無(wú)縫融合。此外,這些方法在實(shí)現(xiàn)自動(dòng)駕駛的實(shí)時(shí)部署方面仍面臨挑戰(zhàn)。
針對(duì)這些問(wèn)題,論文提出了一種統(tǒng)一的特征轉(zhuǎn)換方法,適用于2D到3D和3D到2D的視覺轉(zhuǎn)換,通過(guò)三種概率測(cè)量來(lái)評(píng)估3D和2D特征之間的對(duì)應(yīng)關(guān)系:BEV概率、投影概率和圖像概率。這一新方法旨在減輕BEV網(wǎng)格中空白區(qū)域?qū)μ卣鳂?gòu)建的影響,區(qū)分多個(gè)對(duì)應(yīng)關(guān)系,并在特征轉(zhuǎn)換過(guò)程中排除背景特征。
通過(guò)應(yīng)用這種統(tǒng)一的特征轉(zhuǎn)換,論文探索了使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行3D到2D視覺轉(zhuǎn)換的新方法,并引入了稱為HeightTrans的方法。除了展示了其卓越的性能外,還展示了通過(guò)預(yù)計(jì)算加速的潛力,使其適用于實(shí)時(shí)自動(dòng)駕駛應(yīng)用。同時(shí),通過(guò)整合這種特征轉(zhuǎn)換,增強(qiáng)了傳統(tǒng)的LSS流程,展示了其對(duì)當(dāng)前檢測(cè)器的普適性。
結(jié)合HeightTrans和Prob-LSS,論文介紹了DualBEV,這是一種創(chuàng)新的方法,它在一階段內(nèi)就考慮并融合了來(lái)自BEV和透視視圖的對(duì)應(yīng)關(guān)系,消除了對(duì)初始特征的依賴。此外,提出了一個(gè)強(qiáng)大的BEV特征融合模塊,稱為雙特征融合(DFF)模塊,通過(guò)利用通道注意力模塊和空間注意力模塊,進(jìn)一步幫助精細(xì)化BEV概率預(yù)測(cè)。DualBEV遵循“廣泛輸入,嚴(yán)格輸出”的原則,通過(guò)利用精確的雙視圖概率對(duì)應(yīng)關(guān)系來(lái)理解和表示場(chǎng)景的概率分布。
論文的主要貢獻(xiàn)如下:
- 揭示了3D到2D和2D到3D視覺轉(zhuǎn)換之間的內(nèi)在相似性,并提出了一種統(tǒng)一的特征轉(zhuǎn)換方法,能夠從BEV和透視視圖兩個(gè)方面準(zhǔn)確建立對(duì)應(yīng)關(guān)系,顯著縮小了雙策略之間的差距。
- 提出了一種新的基于CNN的3D到2D視覺轉(zhuǎn)換方法HeightTrans,通過(guò)概率采樣和查找表的預(yù)計(jì)算,有效且高效地建立精確的3D-2D對(duì)應(yīng)關(guān)系。
- 引入了DFF用于雙視圖特征融合,這種融合策略在一階段內(nèi)捕獲近遠(yuǎn)區(qū)域的信息,從而生成全面的BEV特征。
- 他們的高效框架DualBEV在nuScenes測(cè)試集上實(shí)現(xiàn)了55.2%的mAP和63.4%的NDS,即使沒(méi)有使用Transformer,也突顯了捕獲精確雙視圖對(duì)應(yīng)關(guān)系對(duì)視圖轉(zhuǎn)換的重要性。
通過(guò)這些創(chuàng)新,論文提供了一種克服現(xiàn)有方法限制,實(shí)現(xiàn)高效、準(zhǔn)確物體檢測(cè)的新策略,特別是在自動(dòng)駕駛等實(shí)時(shí)應(yīng)用場(chǎng)景中。
詳解DualBEV
這篇論文提出的方法旨在通過(guò)統(tǒng)一的特征轉(zhuǎn)換框架,DualBEV,解決自動(dòng)駕駛中的BEV(鳥瞰圖)對(duì)象檢測(cè)問(wèn)題。以下是方法部分的主要內(nèi)容,概括了其不同子部分和關(guān)鍵創(chuàng)新。
DualBEV概述
DualBEV的處理流程從多個(gè)相機(jī)獲取的圖像特征 開始,接著使用SceneNet生成實(shí)例mask 和深度圖 . 接下來(lái),通過(guò)HeightTrans模塊和Prob-LSS流水線提取和轉(zhuǎn)換特征,最后這些特征被融合并用于預(yù)測(cè)BEV空間的概率分布 ,以得到最終的BEV特征 ,用于后續(xù)任務(wù)。
HeightTrans
HeightTrans是基于3D到2D視覺轉(zhuǎn)換的原理,通過(guò)選擇3D位置并投影到圖像空間,以及評(píng)估這些3D-2D對(duì)應(yīng)關(guān)系。這個(gè)方法首先在預(yù)定義的BEV圖中采樣一組3D點(diǎn),然后仔細(xì)考慮和過(guò)濾這些對(duì)應(yīng)關(guān)系以生成BEV特征。HeightTrans通過(guò)采用多分辨率采樣策略和概率采樣方法來(lái)增強(qiáng)對(duì)小物體的關(guān)注,并解決背景像素帶來(lái)的誤導(dǎo)問(wèn)題。此外,通過(guò)引入BEV概率 來(lái)解決空白BEV網(wǎng)格的問(wèn)題。HeightTrans模塊是論文提出的關(guān)鍵技術(shù)之一,專注于通過(guò)3D到2D視覺轉(zhuǎn)換(VT)來(lái)處理和轉(zhuǎn)換特征。它基于從預(yù)定義的鳥瞰圖(BEV)地圖中選擇3D位置,并將這些位置投影到圖像空間,從而評(píng)估3D和2D之間的對(duì)應(yīng)關(guān)系。以下是HeightTrans工作原理的詳細(xì)介紹:
BEV Height
HeightTrans方法在處理高度時(shí)采用了一種多分辨率采樣策略,覆蓋整個(gè)高度范圍(從-5米到3米),在興趣區(qū)域(ROI,定義為-2米到2米內(nèi))的分辨率為0.5米,在此范圍外的分辨率為1.0米。這種策略有助于增加對(duì)小物體的關(guān)注,這些小物體可能會(huì)在更粗糙的分辨率采樣中被遺漏。
Prob-Sampling
HeightTrans在概率采樣方面采用了以下步驟:
- 定義3D采樣點(diǎn):預(yù)定義一組3D采樣點(diǎn) ,每個(gè)點(diǎn)由其在3D空間中的位置 定義。
- 投影到2D空間:利用相機(jī)的外參矩陣 和內(nèi)參矩陣 ,將3D點(diǎn)投影到2D圖像空間中的點(diǎn) ,其中 表示點(diǎn)的深度。
- 特征采樣:使用雙線性網(wǎng)格采樣器 在投影位置 處采樣圖像特征 :
- 利用實(shí)例mask:為了避免投影位置落在背景像素上,利用SceneNet生成的實(shí)例mask 來(lái)代表圖像概率 ,并將其應(yīng)用于圖像特征,以減少誤導(dǎo)性信息的影響:
- 處理多重對(duì)應(yīng)關(guān)系:使用三線性網(wǎng)格采樣器 在深度圖 中評(píng)估多個(gè)3D點(diǎn)映射到同一2D位置的情況,即投影概率 :
- 引入BEV概率:為了解決BEV網(wǎng)格中空白格不提供有用信息的問(wèn)題,引入BEV概率 來(lái)表示BEV網(wǎng)格的占用概率,其中 是BEV空間中的位置:
加速
通過(guò)預(yù)計(jì)算3D點(diǎn)在BEV空間中的索引,并在推理期間固定圖像特征索引和深度圖索引,HeightTrans能夠加速視覺轉(zhuǎn)換過(guò)程。最終的HeightTrans特征通過(guò)對(duì)每個(gè)BEV網(wǎng)格中預(yù)定義
Prob-LSS
Prob-LSS擴(kuò)展了傳統(tǒng)的LSS(Lift, Splat, Shoot)管道,通過(guò)預(yù)測(cè)每個(gè)像素的深度概率來(lái)促進(jìn)其投影到BEV空間。該方法進(jìn)一步整合了BEV概率,通過(guò)以下公式構(gòu)建LSS特征:
這樣做可以更好地處理深度估計(jì)中的不確定性,從而減少BEV空間中的冗余信息。
雙特征融合(Dual Feature Fusion, DFF)
DFF模塊旨在融合來(lái)自HeightTrans和Prob-LSS的特征,并有效地預(yù)測(cè)BEV概率。通過(guò)結(jié)合通道注意力模塊和空間注意力增強(qiáng)的ProbNet,DFF能夠優(yōu)化特征選擇和BEV概率預(yù)測(cè),以增強(qiáng)對(duì)近處和遠(yuǎn)處對(duì)象的表征。這種融合策略考慮了來(lái)自兩個(gè)流的特征的互補(bǔ)性,同時(shí)也通過(guò)計(jì)算局部和全局注意力來(lái)增強(qiáng)BEV概率的準(zhǔn)確性。
總之,這篇論文提出的DualBEV框架通過(guò)結(jié)合HeightTrans和Prob-LSS,以及創(chuàng)新的雙特征融合模塊,實(shí)現(xiàn)了對(duì)3D和2D特征之間對(duì)應(yīng)關(guān)系的高效評(píng)估和轉(zhuǎn)換。這不僅橋接了2D到3D和3D到2D轉(zhuǎn)換策略之間的差距,而且還通過(guò)預(yù)計(jì)算和概率測(cè)量加速了特征轉(zhuǎn)換過(guò)程,使其適合實(shí)時(shí)自動(dòng)駕駛應(yīng)用。
該方法的關(guān)鍵在于對(duì)不同視角下的特征進(jìn)行精確對(duì)應(yīng)和高效融合,從而在BEV對(duì)象檢測(cè)中實(shí)現(xiàn)了出色的性能。
實(shí)驗(yàn)
DualBEV方法的變體(帶星號(hào)的DualBEV* )在單幀輸入條件下表現(xiàn)最佳,達(dá)到了35.2%的mAP和42.5%的NDS,這表明它在準(zhǔn)確性和綜合性能上都超過(guò)了其他方法。特別是在mAOE上,DualBEV*實(shí)現(xiàn)了0.542的分?jǐn)?shù),這是單幀方法中最好的。然而,它在mATE和mASE上的表現(xiàn)并沒(méi)有明顯優(yōu)于其他方法。
當(dāng)輸入幀數(shù)增加到兩幀時(shí),DualBEV的表現(xiàn)進(jìn)一步提升,mAP達(dá)到38.0%,NDS達(dá)到50.4%,這是所有列出方法中最高的NDS,表明DualBEV在處理更復(fù)雜的輸入時(shí)能夠更全面地理解場(chǎng)景。在多幀方法中,它在mATE、mASE、和mAAE上也展現(xiàn)了較強(qiáng)的性能,特別是在mAOE上有明顯的改善,顯示出其在估計(jì)物體方向上的優(yōu)勢(shì)。
從這些結(jié)果可以分析得出,DualBEV及其變體在多個(gè)重要的性能指標(biāo)上均有出色表現(xiàn),尤其是在多幀設(shè)置下,表明其對(duì)BEV對(duì)象檢測(cè)任務(wù)具有較好的準(zhǔn)確性和魯棒性。此外,這些結(jié)果還強(qiáng)調(diào)了使用多幀數(shù)據(jù)的重要性,可以提高模型的整體性能和估計(jì)準(zhǔn)確性。
下面是對(duì)各個(gè)消融實(shí)驗(yàn)結(jié)果的分析:
- 添加ProbNet、HeightTrans、CAF(Channel Attention Fusion)、SAE(Spatial Attention Enhanced)等組件逐步提升了Baseline的性能。
- HeightTrans的加入顯著提高了mAP和NDS,這表明在視覺轉(zhuǎn)換中引入高度信息是有效的。
- CAF進(jìn)一步提升了mAP,但略微增加了延遲。
- SAE的引入提升了NDS到最高的42.5%,同時(shí)對(duì)mAP也有提升,說(shuō)明空間注意力機(jī)制有效地增強(qiáng)了模型性能。
- 不同的概率措施(投影概率 ,圖像概率 ,BEV概率 )逐步加入對(duì)比試驗(yàn)。
- 當(dāng)全部三種概率同時(shí)使用時(shí),模型達(dá)到了最高的mAP和NDS,這表明這些概率的結(jié)合對(duì)于模型性能至關(guān)重要。
- Prob-Sampling在相似的延遲下(0.32ms),比其他的VT操作具有更高的NDS(39.0%),這強(qiáng)調(diào)了概率采樣在性能上的優(yōu)越性。
- 多分辨率(MR)采樣策略相對(duì)于均勻采樣策略,在使用相同數(shù)量的采樣點(diǎn)時(shí)能達(dá)到相似或更好的性能。
- 通過(guò)將投影概率、圖像概率和BEV概率加入到LSS流程,Prob-LSS的表現(xiàn)超過(guò)了其他的LSS變體,提高了mAP和NDS,顯示了結(jié)合這些概率的有效性。
- 與多階段的精細(xì)化(Refine)策略相比,單階段的添加(Add)策略和DFF模塊都能取得更高的NDS,而DFF在mAP上也有輕微的提升,這表明DFF作為一種單階段的融合策略,在效率和性能上都是有益的。
消融實(shí)驗(yàn)表明了HeightTrans、概率措施、Prob-Sampling和DFF等組件及策略對(duì)提高模型性能至關(guān)重要。此外,多分辨率采樣策略在高度信息上的使用也證明了其有效性。這些發(fā)現(xiàn)支持了作者在方法部分提出的每一項(xiàng)技術(shù)都對(duì)模型性能有正面貢獻(xiàn)的論點(diǎn)。
討論
這篇論文通過(guò)一系列消融實(shí)驗(yàn)展示了其方法的性能。從實(shí)驗(yàn)結(jié)果可以看出,論文提出的DualBEV框架和它的各個(gè)組成部分均對(duì)提高鳥瞰圖(BEV)對(duì)象檢測(cè)的準(zhǔn)確性具有積極影響。
論文的方法通過(guò)將ProbNet、HeightTrans、CAF(Channel Attention Fusion)、和SAE(Spatial Attention Enhanced)模塊逐步引入到基線模型中,顯示出在mAP和NDS兩個(gè)指標(biāo)上均有顯著提升,這證明了每個(gè)組件在整個(gè)架構(gòu)中都發(fā)揮了重要作用。尤其是引入SAE后,NDS得分提高到了最高點(diǎn)42.5%,同時(shí)延遲只有輕微增加,這表明了該方法在精度和延遲之間取得了良好的平衡。
概率消融實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了投影概率、圖像概率和BEV概率在提高檢測(cè)性能方面的重要性。當(dāng)這些概率被逐一引入時(shí),系統(tǒng)的mAP和NDS得分穩(wěn)步提升,這表明了將這些概率措施集成到BEV對(duì)象檢測(cè)任務(wù)中的重要性。
在視覺轉(zhuǎn)換(VT)操作的比較中,論文提出的Prob-Sampling方法與其他操作如SCAda和Bilinear-Sampling相比,顯示出較低的延遲和更高的NDS得分,這強(qiáng)調(diào)了其在效率和性能上的優(yōu)勢(shì)。此外,對(duì)于不同的高度采樣策略,采用多分辨率(MR)策略而不是統(tǒng)一采樣能夠進(jìn)一步提高NDS得分,這表明了考慮場(chǎng)景中不同高度的信息對(duì)于提升檢測(cè)性能的重要性。
此外,對(duì)于不同的特征融合策略,論文展示了DFF方法在簡(jiǎn)化模型的同時(shí),依然能夠維持高NDS得分的能力,這意味著在一階段處理流程中融合雙流特征是有效的。
然而,盡管論文提出的方法在多個(gè)方面表現(xiàn)出色,每項(xiàng)改進(jìn)也都會(huì)導(dǎo)致系統(tǒng)復(fù)雜度和計(jì)算成本的增加。例如,每引入一個(gè)新的組件(如ProbNet、HeightTrans等),系統(tǒng)的延遲都會(huì)有所增加,盡管延遲的增加是微小的,但在實(shí)時(shí)或低延遲要求的應(yīng)用中,這可能成為考慮因素。此外,雖然概率措施有助于性能提升,但也需要額外的計(jì)算資源來(lái)估計(jì)這些概率,可能導(dǎo)致更高的資源消耗。
論文提出的DualBEV方法在提高BEV對(duì)象檢測(cè)的精度和綜合性能方面取得了顯著的成果,特別是在將深度學(xué)習(xí)的最新進(jìn)展與視覺轉(zhuǎn)換技術(shù)相結(jié)合的方面。但這些進(jìn)步是以輕微增加計(jì)算延遲和資源消耗為代價(jià)的,實(shí)際應(yīng)用時(shí)需要根據(jù)具體情況權(quán)衡這些因素。
結(jié)論
該方法在BEV對(duì)象檢測(cè)任務(wù)中表現(xiàn)出色,顯著提高了準(zhǔn)確性和綜合性能。通過(guò)引入概率采樣、高度轉(zhuǎn)換、注意力機(jī)制和空間關(guān)注增強(qiáng)網(wǎng)絡(luò),DualBEV成功地提升了多個(gè)關(guān)鍵性能指標(biāo),特別是在鳥瞰圖(BEV)的精度和場(chǎng)景理解方面。實(shí)驗(yàn)結(jié)果表明,論文的方法在處理復(fù)雜場(chǎng)景和不同視角數(shù)據(jù)時(shí)尤為有效,這對(duì)于自動(dòng)駕駛和其他實(shí)時(shí)監(jiān)控應(yīng)用至關(guān)重要。