偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

人工智能 智能汽車
DualBEV成功地提升了多個(gè)關(guān)鍵性能指標(biāo),特別是在鳥瞰圖(BEV)的精度和場(chǎng)景理解方面。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

圖片

這篇論文探討了在自動(dòng)駕駛中,從不同視角(如透視圖和鳥瞰圖)準(zhǔn)確檢測(cè)物體的問(wèn)題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉(zhuǎn)換特征,這一轉(zhuǎn)換是通過(guò)視覺轉(zhuǎn)換(VT)模塊實(shí)施的。現(xiàn)有的方法大致分為兩種策略:2D到3D和3D到2D轉(zhuǎn)換。2D到3D的方法通過(guò)預(yù)測(cè)深度概率來(lái)提升密集的2D特征,但深度預(yù)測(cè)的固有不確定性,尤其是在遠(yuǎn)處區(qū)域,可能會(huì)引入不準(zhǔn)確性。而3D到2D的方法通常使用3D查詢來(lái)采樣2D特征,并通過(guò)Transformer學(xué)習(xí)3D和2D特征之間對(duì)應(yīng)關(guān)系的注意力權(quán)重,這增加了計(jì)算和部署的復(fù)雜性。

圖片

論文指出,現(xiàn)有的方法如HeightFormer和FB-BEV嘗試結(jié)合這兩種VT策略,但這些方法通常采用兩階段策略,由于雙VT的特征轉(zhuǎn)換不同,受到初始特征性能的限制,從而阻礙了雙VT之間的無(wú)縫融合。此外,這些方法在實(shí)現(xiàn)自動(dòng)駕駛的實(shí)時(shí)部署方面仍面臨挑戰(zhàn)。

針對(duì)這些問(wèn)題,論文提出了一種統(tǒng)一的特征轉(zhuǎn)換方法,適用于2D到3D和3D到2D的視覺轉(zhuǎn)換,通過(guò)三種概率測(cè)量來(lái)評(píng)估3D和2D特征之間的對(duì)應(yīng)關(guān)系:BEV概率、投影概率和圖像概率。這一新方法旨在減輕BEV網(wǎng)格中空白區(qū)域?qū)μ卣鳂?gòu)建的影響,區(qū)分多個(gè)對(duì)應(yīng)關(guān)系,并在特征轉(zhuǎn)換過(guò)程中排除背景特征。

通過(guò)應(yīng)用這種統(tǒng)一的特征轉(zhuǎn)換,論文探索了使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行3D到2D視覺轉(zhuǎn)換的新方法,并引入了稱為HeightTrans的方法。除了展示了其卓越的性能外,還展示了通過(guò)預(yù)計(jì)算加速的潛力,使其適用于實(shí)時(shí)自動(dòng)駕駛應(yīng)用。同時(shí),通過(guò)整合這種特征轉(zhuǎn)換,增強(qiáng)了傳統(tǒng)的LSS流程,展示了其對(duì)當(dāng)前檢測(cè)器的普適性。

結(jié)合HeightTrans和Prob-LSS,論文介紹了DualBEV,這是一種創(chuàng)新的方法,它在一階段內(nèi)就考慮并融合了來(lái)自BEV和透視視圖的對(duì)應(yīng)關(guān)系,消除了對(duì)初始特征的依賴。此外,提出了一個(gè)強(qiáng)大的BEV特征融合模塊,稱為雙特征融合(DFF)模塊,通過(guò)利用通道注意力模塊和空間注意力模塊,進(jìn)一步幫助精細(xì)化BEV概率預(yù)測(cè)。DualBEV遵循“廣泛輸入,嚴(yán)格輸出”的原則,通過(guò)利用精確的雙視圖概率對(duì)應(yīng)關(guān)系來(lái)理解和表示場(chǎng)景的概率分布。

論文的主要貢獻(xiàn)如下:

  1. 揭示了3D到2D和2D到3D視覺轉(zhuǎn)換之間的內(nèi)在相似性,并提出了一種統(tǒng)一的特征轉(zhuǎn)換方法,能夠從BEV和透視視圖兩個(gè)方面準(zhǔn)確建立對(duì)應(yīng)關(guān)系,顯著縮小了雙策略之間的差距。
  2. 提出了一種新的基于CNN的3D到2D視覺轉(zhuǎn)換方法HeightTrans,通過(guò)概率采樣和查找表的預(yù)計(jì)算,有效且高效地建立精確的3D-2D對(duì)應(yīng)關(guān)系。
  3. 引入了DFF用于雙視圖特征融合,這種融合策略在一階段內(nèi)捕獲近遠(yuǎn)區(qū)域的信息,從而生成全面的BEV特征。
  4. 他們的高效框架DualBEV在nuScenes測(cè)試集上實(shí)現(xiàn)了55.2%的mAP和63.4%的NDS,即使沒(méi)有使用Transformer,也突顯了捕獲精確雙視圖對(duì)應(yīng)關(guān)系對(duì)視圖轉(zhuǎn)換的重要性。

通過(guò)這些創(chuàng)新,論文提供了一種克服現(xiàn)有方法限制,實(shí)現(xiàn)高效、準(zhǔn)確物體檢測(cè)的新策略,特別是在自動(dòng)駕駛等實(shí)時(shí)應(yīng)用場(chǎng)景中。

詳解DualBEV

圖片

這篇論文提出的方法旨在通過(guò)統(tǒng)一的特征轉(zhuǎn)換框架,DualBEV,解決自動(dòng)駕駛中的BEV(鳥瞰圖)對(duì)象檢測(cè)問(wèn)題。以下是方法部分的主要內(nèi)容,概括了其不同子部分和關(guān)鍵創(chuàng)新。

DualBEV概述

DualBEV的處理流程從多個(gè)相機(jī)獲取的圖像特征  開始,接著使用SceneNet生成實(shí)例mask  和深度圖 . 接下來(lái),通過(guò)HeightTrans模塊和Prob-LSS流水線提取和轉(zhuǎn)換特征,最后這些特征被融合并用于預(yù)測(cè)BEV空間的概率分布 ,以得到最終的BEV特征 ,用于后續(xù)任務(wù)。

HeightTrans

HeightTrans是基于3D到2D視覺轉(zhuǎn)換的原理,通過(guò)選擇3D位置并投影到圖像空間,以及評(píng)估這些3D-2D對(duì)應(yīng)關(guān)系。這個(gè)方法首先在預(yù)定義的BEV圖中采樣一組3D點(diǎn),然后仔細(xì)考慮和過(guò)濾這些對(duì)應(yīng)關(guān)系以生成BEV特征。HeightTrans通過(guò)采用多分辨率采樣策略和概率采樣方法來(lái)增強(qiáng)對(duì)小物體的關(guān)注,并解決背景像素帶來(lái)的誤導(dǎo)問(wèn)題。此外,通過(guò)引入BEV概率  來(lái)解決空白BEV網(wǎng)格的問(wèn)題。HeightTrans模塊是論文提出的關(guān)鍵技術(shù)之一,專注于通過(guò)3D到2D視覺轉(zhuǎn)換(VT)來(lái)處理和轉(zhuǎn)換特征。它基于從預(yù)定義的鳥瞰圖(BEV)地圖中選擇3D位置,并將這些位置投影到圖像空間,從而評(píng)估3D和2D之間的對(duì)應(yīng)關(guān)系。以下是HeightTrans工作原理的詳細(xì)介紹:

BEV Height

HeightTrans方法在處理高度時(shí)采用了一種多分辨率采樣策略,覆蓋整個(gè)高度范圍(從-5米到3米),在興趣區(qū)域(ROI,定義為-2米到2米內(nèi))的分辨率為0.5米,在此范圍外的分辨率為1.0米。這種策略有助于增加對(duì)小物體的關(guān)注,這些小物體可能會(huì)在更粗糙的分辨率采樣中被遺漏。

Prob-Sampling

HeightTrans在概率采樣方面采用了以下步驟:

  1. 定義3D采樣點(diǎn):預(yù)定義一組3D采樣點(diǎn) ,每個(gè)點(diǎn)由其在3D空間中的位置  定義。
  2. 投影到2D空間:利用相機(jī)的外參矩陣  和內(nèi)參矩陣 ,將3D點(diǎn)投影到2D圖像空間中的點(diǎn) ,其中  表示點(diǎn)的深度。
  3. 特征采樣:使用雙線性網(wǎng)格采樣器  在投影位置  處采樣圖像特征 
  4. 利用實(shí)例mask:為了避免投影位置落在背景像素上,利用SceneNet生成的實(shí)例mask  來(lái)代表圖像概率 ,并將其應(yīng)用于圖像特征,以減少誤導(dǎo)性信息的影響:
  5. 處理多重對(duì)應(yīng)關(guān)系:使用三線性網(wǎng)格采樣器  在深度圖  中評(píng)估多個(gè)3D點(diǎn)映射到同一2D位置的情況,即投影概率 
  6. 引入BEV概率:為了解決BEV網(wǎng)格中空白格不提供有用信息的問(wèn)題,引入BEV概率  來(lái)表示BEV網(wǎng)格的占用概率,其中  是BEV空間中的位置:

加速

通過(guò)預(yù)計(jì)算3D點(diǎn)在BEV空間中的索引,并在推理期間固定圖像特征索引和深度圖索引,HeightTrans能夠加速視覺轉(zhuǎn)換過(guò)程。最終的HeightTrans特征通過(guò)對(duì)每個(gè)BEV網(wǎng)格中預(yù)定義

Prob-LSS

Prob-LSS擴(kuò)展了傳統(tǒng)的LSS(Lift, Splat, Shoot)管道,通過(guò)預(yù)測(cè)每個(gè)像素的深度概率來(lái)促進(jìn)其投影到BEV空間。該方法進(jìn)一步整合了BEV概率,通過(guò)以下公式構(gòu)建LSS特征:

這樣做可以更好地處理深度估計(jì)中的不確定性,從而減少BEV空間中的冗余信息。

雙特征融合(Dual Feature Fusion, DFF)

DFF模塊旨在融合來(lái)自HeightTrans和Prob-LSS的特征,并有效地預(yù)測(cè)BEV概率。通過(guò)結(jié)合通道注意力模塊和空間注意力增強(qiáng)的ProbNet,DFF能夠優(yōu)化特征選擇和BEV概率預(yù)測(cè),以增強(qiáng)對(duì)近處和遠(yuǎn)處對(duì)象的表征。這種融合策略考慮了來(lái)自兩個(gè)流的特征的互補(bǔ)性,同時(shí)也通過(guò)計(jì)算局部和全局注意力來(lái)增強(qiáng)BEV概率的準(zhǔn)確性。

總之,這篇論文提出的DualBEV框架通過(guò)結(jié)合HeightTrans和Prob-LSS,以及創(chuàng)新的雙特征融合模塊,實(shí)現(xiàn)了對(duì)3D和2D特征之間對(duì)應(yīng)關(guān)系的高效評(píng)估和轉(zhuǎn)換。這不僅橋接了2D到3D和3D到2D轉(zhuǎn)換策略之間的差距,而且還通過(guò)預(yù)計(jì)算和概率測(cè)量加速了特征轉(zhuǎn)換過(guò)程,使其適合實(shí)時(shí)自動(dòng)駕駛應(yīng)用。

該方法的關(guān)鍵在于對(duì)不同視角下的特征進(jìn)行精確對(duì)應(yīng)和高效融合,從而在BEV對(duì)象檢測(cè)中實(shí)現(xiàn)了出色的性能。

實(shí)驗(yàn)

圖片

DualBEV方法的變體(帶星號(hào)的DualBEV* )在單幀輸入條件下表現(xiàn)最佳,達(dá)到了35.2%的mAP和42.5%的NDS,這表明它在準(zhǔn)確性和綜合性能上都超過(guò)了其他方法。特別是在mAOE上,DualBEV*實(shí)現(xiàn)了0.542的分?jǐn)?shù),這是單幀方法中最好的。然而,它在mATE和mASE上的表現(xiàn)并沒(méi)有明顯優(yōu)于其他方法。

當(dāng)輸入幀數(shù)增加到兩幀時(shí),DualBEV的表現(xiàn)進(jìn)一步提升,mAP達(dá)到38.0%,NDS達(dá)到50.4%,這是所有列出方法中最高的NDS,表明DualBEV在處理更復(fù)雜的輸入時(shí)能夠更全面地理解場(chǎng)景。在多幀方法中,它在mATE、mASE、和mAAE上也展現(xiàn)了較強(qiáng)的性能,特別是在mAOE上有明顯的改善,顯示出其在估計(jì)物體方向上的優(yōu)勢(shì)。

從這些結(jié)果可以分析得出,DualBEV及其變體在多個(gè)重要的性能指標(biāo)上均有出色表現(xiàn),尤其是在多幀設(shè)置下,表明其對(duì)BEV對(duì)象檢測(cè)任務(wù)具有較好的準(zhǔn)確性和魯棒性。此外,這些結(jié)果還強(qiáng)調(diào)了使用多幀數(shù)據(jù)的重要性,可以提高模型的整體性能和估計(jì)準(zhǔn)確性。

圖片

下面是對(duì)各個(gè)消融實(shí)驗(yàn)結(jié)果的分析:

  • 添加ProbNet、HeightTrans、CAF(Channel Attention Fusion)、SAE(Spatial Attention Enhanced)等組件逐步提升了Baseline的性能。
  • HeightTrans的加入顯著提高了mAP和NDS,這表明在視覺轉(zhuǎn)換中引入高度信息是有效的。
  • CAF進(jìn)一步提升了mAP,但略微增加了延遲。
  • SAE的引入提升了NDS到最高的42.5%,同時(shí)對(duì)mAP也有提升,說(shuō)明空間注意力機(jī)制有效地增強(qiáng)了模型性能。
  • 不同的概率措施(投影概率 ,圖像概率 ,BEV概率 )逐步加入對(duì)比試驗(yàn)。
  • 當(dāng)全部三種概率同時(shí)使用時(shí),模型達(dá)到了最高的mAP和NDS,這表明這些概率的結(jié)合對(duì)于模型性能至關(guān)重要。
  • Prob-Sampling在相似的延遲下(0.32ms),比其他的VT操作具有更高的NDS(39.0%),這強(qiáng)調(diào)了概率采樣在性能上的優(yōu)越性。
  • 多分辨率(MR)采樣策略相對(duì)于均勻采樣策略,在使用相同數(shù)量的采樣點(diǎn)時(shí)能達(dá)到相似或更好的性能。
  • 通過(guò)將投影概率、圖像概率和BEV概率加入到LSS流程,Prob-LSS的表現(xiàn)超過(guò)了其他的LSS變體,提高了mAP和NDS,顯示了結(jié)合這些概率的有效性。
  • 與多階段的精細(xì)化(Refine)策略相比,單階段的添加(Add)策略和DFF模塊都能取得更高的NDS,而DFF在mAP上也有輕微的提升,這表明DFF作為一種單階段的融合策略,在效率和性能上都是有益的。

消融實(shí)驗(yàn)表明了HeightTrans、概率措施、Prob-Sampling和DFF等組件及策略對(duì)提高模型性能至關(guān)重要。此外,多分辨率采樣策略在高度信息上的使用也證明了其有效性。這些發(fā)現(xiàn)支持了作者在方法部分提出的每一項(xiàng)技術(shù)都對(duì)模型性能有正面貢獻(xiàn)的論點(diǎn)。

討論

圖片

這篇論文通過(guò)一系列消融實(shí)驗(yàn)展示了其方法的性能。從實(shí)驗(yàn)結(jié)果可以看出,論文提出的DualBEV框架和它的各個(gè)組成部分均對(duì)提高鳥瞰圖(BEV)對(duì)象檢測(cè)的準(zhǔn)確性具有積極影響。

論文的方法通過(guò)將ProbNet、HeightTrans、CAF(Channel Attention Fusion)、和SAE(Spatial Attention Enhanced)模塊逐步引入到基線模型中,顯示出在mAP和NDS兩個(gè)指標(biāo)上均有顯著提升,這證明了每個(gè)組件在整個(gè)架構(gòu)中都發(fā)揮了重要作用。尤其是引入SAE后,NDS得分提高到了最高點(diǎn)42.5%,同時(shí)延遲只有輕微增加,這表明了該方法在精度和延遲之間取得了良好的平衡。

概率消融實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了投影概率、圖像概率和BEV概率在提高檢測(cè)性能方面的重要性。當(dāng)這些概率被逐一引入時(shí),系統(tǒng)的mAP和NDS得分穩(wěn)步提升,這表明了將這些概率措施集成到BEV對(duì)象檢測(cè)任務(wù)中的重要性。

在視覺轉(zhuǎn)換(VT)操作的比較中,論文提出的Prob-Sampling方法與其他操作如SCAda和Bilinear-Sampling相比,顯示出較低的延遲和更高的NDS得分,這強(qiáng)調(diào)了其在效率和性能上的優(yōu)勢(shì)。此外,對(duì)于不同的高度采樣策略,采用多分辨率(MR)策略而不是統(tǒng)一采樣能夠進(jìn)一步提高NDS得分,這表明了考慮場(chǎng)景中不同高度的信息對(duì)于提升檢測(cè)性能的重要性。

此外,對(duì)于不同的特征融合策略,論文展示了DFF方法在簡(jiǎn)化模型的同時(shí),依然能夠維持高NDS得分的能力,這意味著在一階段處理流程中融合雙流特征是有效的。

然而,盡管論文提出的方法在多個(gè)方面表現(xiàn)出色,每項(xiàng)改進(jìn)也都會(huì)導(dǎo)致系統(tǒng)復(fù)雜度和計(jì)算成本的增加。例如,每引入一個(gè)新的組件(如ProbNet、HeightTrans等),系統(tǒng)的延遲都會(huì)有所增加,盡管延遲的增加是微小的,但在實(shí)時(shí)或低延遲要求的應(yīng)用中,這可能成為考慮因素。此外,雖然概率措施有助于性能提升,但也需要額外的計(jì)算資源來(lái)估計(jì)這些概率,可能導(dǎo)致更高的資源消耗。

論文提出的DualBEV方法在提高BEV對(duì)象檢測(cè)的精度和綜合性能方面取得了顯著的成果,特別是在將深度學(xué)習(xí)的最新進(jìn)展與視覺轉(zhuǎn)換技術(shù)相結(jié)合的方面。但這些進(jìn)步是以輕微增加計(jì)算延遲和資源消耗為代價(jià)的,實(shí)際應(yīng)用時(shí)需要根據(jù)具體情況權(quán)衡這些因素。

結(jié)論

該方法在BEV對(duì)象檢測(cè)任務(wù)中表現(xiàn)出色,顯著提高了準(zhǔn)確性和綜合性能。通過(guò)引入概率采樣、高度轉(zhuǎn)換、注意力機(jī)制和空間關(guān)注增強(qiáng)網(wǎng)絡(luò),DualBEV成功地提升了多個(gè)關(guān)鍵性能指標(biāo),特別是在鳥瞰圖(BEV)的精度和場(chǎng)景理解方面。實(shí)驗(yàn)結(jié)果表明,論文的方法在處理復(fù)雜場(chǎng)景和不同視角數(shù)據(jù)時(shí)尤為有效,這對(duì)于自動(dòng)駕駛和其他實(shí)時(shí)監(jiān)控應(yīng)用至關(guān)重要。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-04-24 11:23:11

3D檢測(cè)雷達(dá)

2024-03-26 09:27:56

算法3D

2025-05-30 07:40:56

2023-09-15 11:01:51

人工智能

2024-06-11 09:20:48

2011-04-21 10:14:55

Firefox 4

2024-06-11 14:53:19

2022-06-23 15:54:15

NLP訓(xùn)練

2022-01-11 10:59:46

智能自動(dòng)駕駛汽車

2010-04-21 09:23:09

.NET 4

2010-02-06 09:27:17

Opera 10.5

2021-12-24 10:00:19

自動(dòng)駕駛數(shù)據(jù)汽車

2023-11-29 13:52:00

模型訓(xùn)練

2024-03-27 13:32:00

AI數(shù)據(jù)

2024-12-03 09:36:52

2024-04-08 10:12:20

GPT4AgentAI

2025-03-11 13:13:28

2011-05-16 14:45:47

項(xiàng)目經(jīng)理超越
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)