偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="54gfy"><strike id="54gfy"><input id="54gfy"></input></strike></pre><cite id="54gfy"><rp id="54gfy"></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DualBEV：大幅超越BEVFormer、BEVDet4D，開卷！

作者：Peidong Li 2024-03-20 15:53:28

人工智能智能汽車

DualBEV成功地提升了多個(gè)關(guān)鍵性能指標(biāo)，特別是在鳥瞰圖（BEV）的精度和場(chǎng)景理解方面。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

這篇論文探討了在自動(dòng)駕駛中，從不同視角（如透視圖和鳥瞰圖）準(zhǔn)確檢測(cè)物體的問(wèn)題，特別是如何有效地從透視圖（PV）到鳥瞰圖（BEV）空間轉(zhuǎn)換特征，這一轉(zhuǎn)換是通過(guò)視覺轉(zhuǎn)換（VT）模塊實(shí)施的。現(xiàn)有的方法大致分為兩種策略：2D到3D和3D到2D轉(zhuǎn)換。2D到3D的方法通過(guò)預(yù)測(cè)深度概率來(lái)提升密集的2D特征，但深度預(yù)測(cè)的固有不確定性，尤其是在遠(yuǎn)處區(qū)域，可能會(huì)引入不準(zhǔn)確性。而3D到2D的方法通常使用3D查詢來(lái)采樣2D特征，并通過(guò)Transformer學(xué)習(xí)3D和2D特征之間對(duì)應(yīng)關(guān)系的注意力權(quán)重，這增加了計(jì)算和部署的復(fù)雜性。

論文指出，現(xiàn)有的方法如HeightFormer和FB-BEV嘗試結(jié)合這兩種VT策略，但這些方法通常采用兩階段策略，由于雙VT的特征轉(zhuǎn)換不同，受到初始特征性能的限制，從而阻礙了雙VT之間的無(wú)縫融合。此外，這些方法在實(shí)現(xiàn)自動(dòng)駕駛的實(shí)時(shí)部署方面仍面臨挑戰(zhàn)。

針對(duì)這些問(wèn)題，論文提出了一種統(tǒng)一的特征轉(zhuǎn)換方法，適用于2D到3D和3D到2D的視覺轉(zhuǎn)換，通過(guò)三種概率測(cè)量來(lái)評(píng)估3D和2D特征之間的對(duì)應(yīng)關(guān)系：BEV概率、投影概率和圖像概率。這一新方法旨在減輕BEV網(wǎng)格中空白區(qū)域?qū)μ卣鳂?gòu)建的影響，區(qū)分多個(gè)對(duì)應(yīng)關(guān)系，并在特征轉(zhuǎn)換過(guò)程中排除背景特征。

通過(guò)應(yīng)用這種統(tǒng)一的特征轉(zhuǎn)換，論文探索了使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行3D到2D視覺轉(zhuǎn)換的新方法，并引入了稱為HeightTrans的方法。除了展示了其卓越的性能外，還展示了通過(guò)預(yù)計(jì)算加速的潛力，使其適用于實(shí)時(shí)自動(dòng)駕駛應(yīng)用。同時(shí)，通過(guò)整合這種特征轉(zhuǎn)換，增強(qiáng)了傳統(tǒng)的LSS流程，展示了其對(duì)當(dāng)前檢測(cè)器的普適性。

結(jié)合HeightTrans和Prob-LSS，論文介紹了DualBEV，這是一種創(chuàng)新的方法，它在一階段內(nèi)就考慮并融合了來(lái)自BEV和透視視圖的對(duì)應(yīng)關(guān)系，消除了對(duì)初始特征的依賴。此外，提出了一個(gè)強(qiáng)大的BEV特征融合模塊，稱為雙特征融合（DFF）模塊，通過(guò)利用通道注意力模塊和空間注意力模塊，進(jìn)一步幫助精細(xì)化BEV概率預(yù)測(cè)。DualBEV遵循“廣泛輸入，嚴(yán)格輸出”的原則，通過(guò)利用精確的雙視圖概率對(duì)應(yīng)關(guān)系來(lái)理解和表示場(chǎng)景的概率分布。

論文的主要貢獻(xiàn)如下：

揭示了3D到2D和2D到3D視覺轉(zhuǎn)換之間的內(nèi)在相似性，并提出了一種統(tǒng)一的特征轉(zhuǎn)換方法，能夠從BEV和透視視圖兩個(gè)方面準(zhǔn)確建立對(duì)應(yīng)關(guān)系，顯著縮小了雙策略之間的差距。
提出了一種新的基于CNN的3D到2D視覺轉(zhuǎn)換方法HeightTrans，通過(guò)概率采樣和查找表的預(yù)計(jì)算，有效且高效地建立精確的3D-2D對(duì)應(yīng)關(guān)系。
引入了DFF用于雙視圖特征融合，這種融合策略在一階段內(nèi)捕獲近遠(yuǎn)區(qū)域的信息，從而生成全面的BEV特征。
他們的高效框架DualBEV在nuScenes測(cè)試集上實(shí)現(xiàn)了55.2%的mAP和63.4%的NDS，即使沒(méi)有使用Transformer，也突顯了捕獲精確雙視圖對(duì)應(yīng)關(guān)系對(duì)視圖轉(zhuǎn)換的重要性。

通過(guò)這些創(chuàng)新，論文提供了一種克服現(xiàn)有方法限制，實(shí)現(xiàn)高效、準(zhǔn)確物體檢測(cè)的新策略，特別是在自動(dòng)駕駛等實(shí)時(shí)應(yīng)用場(chǎng)景中。

詳解DualBEV

這篇論文提出的方法旨在通過(guò)統(tǒng)一的特征轉(zhuǎn)換框架，DualBEV，解決自動(dòng)駕駛中的BEV（鳥瞰圖）對(duì)象檢測(cè)問(wèn)題。以下是方法部分的主要內(nèi)容，概括了其不同子部分和關(guān)鍵創(chuàng)新。

DualBEV概述

DualBEV的處理流程從多個(gè)相機(jī)獲取的圖像特征開始，接著使用SceneNet生成實(shí)例mask 和深度圖 . 接下來(lái)，通過(guò)HeightTrans模塊和Prob-LSS流水線提取和轉(zhuǎn)換特征，最后這些特征被融合并用于預(yù)測(cè)BEV空間的概率分布，以得到最終的BEV特征，用于后續(xù)任務(wù)。

HeightTrans

HeightTrans是基于3D到2D視覺轉(zhuǎn)換的原理，通過(guò)選擇3D位置并投影到圖像空間，以及評(píng)估這些3D-2D對(duì)應(yīng)關(guān)系。這個(gè)方法首先在預(yù)定義的BEV圖中采樣一組3D點(diǎn)，然后仔細(xì)考慮和過(guò)濾這些對(duì)應(yīng)關(guān)系以生成BEV特征。HeightTrans通過(guò)采用多分辨率采樣策略和概率采樣方法來(lái)增強(qiáng)對(duì)小物體的關(guān)注，并解決背景像素帶來(lái)的誤導(dǎo)問(wèn)題。此外，通過(guò)引入BEV概率來(lái)解決空白BEV網(wǎng)格的問(wèn)題。HeightTrans模塊是論文提出的關(guān)鍵技術(shù)之一，專注于通過(guò)3D到2D視覺轉(zhuǎn)換（VT）來(lái)處理和轉(zhuǎn)換特征。它基于從預(yù)定義的鳥瞰圖（BEV）地圖中選擇3D位置，并將這些位置投影到圖像空間，從而評(píng)估3D和2D之間的對(duì)應(yīng)關(guān)系。以下是HeightTrans工作原理的詳細(xì)介紹：

BEV Height

HeightTrans方法在處理高度時(shí)采用了一種多分辨率采樣策略，覆蓋整個(gè)高度范圍（從-5米到3米），在興趣區(qū)域（ROI，定義為-2米到2米內(nèi)）的分辨率為0.5米，在此范圍外的分辨率為1.0米。這種策略有助于增加對(duì)小物體的關(guān)注，這些小物體可能會(huì)在更粗糙的分辨率采樣中被遺漏。

Prob-Sampling

HeightTrans在概率采樣方面采用了以下步驟：

定義3D采樣點(diǎn)：預(yù)定義一組3D采樣點(diǎn) ，每個(gè)點(diǎn)由其在3D空間中的位置定義。
投影到2D空間：利用相機(jī)的外參矩陣和內(nèi)參矩陣，將3D點(diǎn)投影到2D圖像空間中的點(diǎn) ，其中表示點(diǎn)的深度。
特征采樣：使用雙線性網(wǎng)格采樣器在投影位置處采樣圖像特征：
利用實(shí)例mask：為了避免投影位置落在背景像素上，利用SceneNet生成的實(shí)例mask 來(lái)代表圖像概率，并將其應(yīng)用于圖像特征，以減少誤導(dǎo)性信息的影響：
處理多重對(duì)應(yīng)關(guān)系：使用三線性網(wǎng)格采樣器在深度圖中評(píng)估多個(gè)3D點(diǎn)映射到同一2D位置的情況，即投影概率：
引入BEV概率：為了解決BEV網(wǎng)格中空白格不提供有用信息的問(wèn)題，引入BEV概率來(lái)表示BEV網(wǎng)格的占用概率，其中是BEV空間中的位置：

加速

通過(guò)預(yù)計(jì)算3D點(diǎn)在BEV空間中的索引，并在推理期間固定圖像特征索引和深度圖索引，HeightTrans能夠加速視覺轉(zhuǎn)換過(guò)程。最終的HeightTrans特征通過(guò)對(duì)每個(gè)BEV網(wǎng)格中預(yù)定義

Prob-LSS

Prob-LSS擴(kuò)展了傳統(tǒng)的LSS（Lift, Splat, Shoot）管道，通過(guò)預(yù)測(cè)每個(gè)像素的深度概率來(lái)促進(jìn)其投影到BEV空間。該方法進(jìn)一步整合了BEV概率，通過(guò)以下公式構(gòu)建LSS特征：

這樣做可以更好地處理深度估計(jì)中的不確定性，從而減少BEV空間中的冗余信息。

雙特征融合（Dual Feature Fusion, DFF）

DFF模塊旨在融合來(lái)自HeightTrans和Prob-LSS的特征，并有效地預(yù)測(cè)BEV概率。通過(guò)結(jié)合通道注意力模塊和空間注意力增強(qiáng)的ProbNet，DFF能夠優(yōu)化特征選擇和BEV概率預(yù)測(cè)，以增強(qiáng)對(duì)近處和遠(yuǎn)處對(duì)象的表征。這種融合策略考慮了來(lái)自兩個(gè)流的特征的互補(bǔ)性，同時(shí)也通過(guò)計(jì)算局部和全局注意力來(lái)增強(qiáng)BEV概率的準(zhǔn)確性。

總之，這篇論文提出的DualBEV框架通過(guò)結(jié)合HeightTrans和Prob-LSS，以及創(chuàng)新的雙特征融合模塊，實(shí)現(xiàn)了對(duì)3D和2D特征之間對(duì)應(yīng)關(guān)系的高效評(píng)估和轉(zhuǎn)換。這不僅橋接了2D到3D和3D到2D轉(zhuǎn)換策略之間的差距，而且還通過(guò)預(yù)計(jì)算和概率測(cè)量加速了特征轉(zhuǎn)換過(guò)程，使其適合實(shí)時(shí)自動(dòng)駕駛應(yīng)用。

該方法的關(guān)鍵在于對(duì)不同視角下的特征進(jìn)行精確對(duì)應(yīng)和高效融合，從而在BEV對(duì)象檢測(cè)中實(shí)現(xiàn)了出色的性能。

實(shí)驗(yàn)

DualBEV方法的變體（帶星號(hào)的DualBEV* ）在單幀輸入條件下表現(xiàn)最佳，達(dá)到了35.2%的mAP和42.5%的NDS，這表明它在準(zhǔn)確性和綜合性能上都超過(guò)了其他方法。特別是在mAOE上，DualBEV*實(shí)現(xiàn)了0.542的分?jǐn)?shù)，這是單幀方法中最好的。然而，它在mATE和mASE上的表現(xiàn)并沒(méi)有明顯優(yōu)于其他方法。

當(dāng)輸入幀數(shù)增加到兩幀時(shí)，DualBEV的表現(xiàn)進(jìn)一步提升，mAP達(dá)到38.0%，NDS達(dá)到50.4%，這是所有列出方法中最高的NDS，表明DualBEV在處理更復(fù)雜的輸入時(shí)能夠更全面地理解場(chǎng)景。在多幀方法中，它在mATE、mASE、和mAAE上也展現(xiàn)了較強(qiáng)的性能，特別是在mAOE上有明顯的改善，顯示出其在估計(jì)物體方向上的優(yōu)勢(shì)。

從這些結(jié)果可以分析得出，DualBEV及其變體在多個(gè)重要的性能指標(biāo)上均有出色表現(xiàn)，尤其是在多幀設(shè)置下，表明其對(duì)BEV對(duì)象檢測(cè)任務(wù)具有較好的準(zhǔn)確性和魯棒性。此外，這些結(jié)果還強(qiáng)調(diào)了使用多幀數(shù)據(jù)的重要性，可以提高模型的整體性能和估計(jì)準(zhǔn)確性。

下面是對(duì)各個(gè)消融實(shí)驗(yàn)結(jié)果的分析：

添加ProbNet、HeightTrans、CAF（Channel Attention Fusion）、SAE（Spatial Attention Enhanced）等組件逐步提升了Baseline的性能。
HeightTrans的加入顯著提高了mAP和NDS，這表明在視覺轉(zhuǎn)換中引入高度信息是有效的。
CAF進(jìn)一步提升了mAP，但略微增加了延遲。
SAE的引入提升了NDS到最高的42.5%，同時(shí)對(duì)mAP也有提升，說(shuō)明空間注意力機(jī)制有效地增強(qiáng)了模型性能。
不同的概率措施（投影概率，圖像概率，BEV概率）逐步加入對(duì)比試驗(yàn)。
當(dāng)全部三種概率同時(shí)使用時(shí)，模型達(dá)到了最高的mAP和NDS，這表明這些概率的結(jié)合對(duì)于模型性能至關(guān)重要。
Prob-Sampling在相似的延遲下（0.32ms），比其他的VT操作具有更高的NDS（39.0%），這強(qiáng)調(diào)了概率采樣在性能上的優(yōu)越性。
多分辨率（MR）采樣策略相對(duì)于均勻采樣策略，在使用相同數(shù)量的采樣點(diǎn)時(shí)能達(dá)到相似或更好的性能。
通過(guò)將投影概率、圖像概率和BEV概率加入到LSS流程，Prob-LSS的表現(xiàn)超過(guò)了其他的LSS變體，提高了mAP和NDS，顯示了結(jié)合這些概率的有效性。
與多階段的精細(xì)化（Refine）策略相比，單階段的添加（Add）策略和DFF模塊都能取得更高的NDS，而DFF在mAP上也有輕微的提升，這表明DFF作為一種單階段的融合策略，在效率和性能上都是有益的。

消融實(shí)驗(yàn)表明了HeightTrans、概率措施、Prob-Sampling和DFF等組件及策略對(duì)提高模型性能至關(guān)重要。此外，多分辨率采樣策略在高度信息上的使用也證明了其有效性。這些發(fā)現(xiàn)支持了作者在方法部分提出的每一項(xiàng)技術(shù)都對(duì)模型性能有正面貢獻(xiàn)的論點(diǎn)。

討論

這篇論文通過(guò)一系列消融實(shí)驗(yàn)展示了其方法的性能。從實(shí)驗(yàn)結(jié)果可以看出，論文提出的DualBEV框架和它的各個(gè)組成部分均對(duì)提高鳥瞰圖（BEV）對(duì)象檢測(cè)的準(zhǔn)確性具有積極影響。

論文的方法通過(guò)將ProbNet、HeightTrans、CAF（Channel Attention Fusion）、和SAE（Spatial Attention Enhanced）模塊逐步引入到基線模型中，顯示出在mAP和NDS兩個(gè)指標(biāo)上均有顯著提升，這證明了每個(gè)組件在整個(gè)架構(gòu)中都發(fā)揮了重要作用。尤其是引入SAE后，NDS得分提高到了最高點(diǎn)42.5%，同時(shí)延遲只有輕微增加，這表明了該方法在精度和延遲之間取得了良好的平衡。

概率消融實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了投影概率、圖像概率和BEV概率在提高檢測(cè)性能方面的重要性。當(dāng)這些概率被逐一引入時(shí)，系統(tǒng)的mAP和NDS得分穩(wěn)步提升，這表明了將這些概率措施集成到BEV對(duì)象檢測(cè)任務(wù)中的重要性。

在視覺轉(zhuǎn)換（VT）操作的比較中，論文提出的Prob-Sampling方法與其他操作如SCAda和Bilinear-Sampling相比，顯示出較低的延遲和更高的NDS得分，這強(qiáng)調(diào)了其在效率和性能上的優(yōu)勢(shì)。此外，對(duì)于不同的高度采樣策略，采用多分辨率（MR）策略而不是統(tǒng)一采樣能夠進(jìn)一步提高NDS得分，這表明了考慮場(chǎng)景中不同高度的信息對(duì)于提升檢測(cè)性能的重要性。

此外，對(duì)于不同的特征融合策略，論文展示了DFF方法在簡(jiǎn)化模型的同時(shí)，依然能夠維持高NDS得分的能力，這意味著在一階段處理流程中融合雙流特征是有效的。

然而，盡管論文提出的方法在多個(gè)方面表現(xiàn)出色，每項(xiàng)改進(jìn)也都會(huì)導(dǎo)致系統(tǒng)復(fù)雜度和計(jì)算成本的增加。例如，每引入一個(gè)新的組件（如ProbNet、HeightTrans等），系統(tǒng)的延遲都會(huì)有所增加，盡管延遲的增加是微小的，但在實(shí)時(shí)或低延遲要求的應(yīng)用中，這可能成為考慮因素。此外，雖然概率措施有助于性能提升，但也需要額外的計(jì)算資源來(lái)估計(jì)這些概率，可能導(dǎo)致更高的資源消耗。

論文提出的DualBEV方法在提高BEV對(duì)象檢測(cè)的精度和綜合性能方面取得了顯著的成果，特別是在將深度學(xué)習(xí)的最新進(jìn)展與視覺轉(zhuǎn)換技術(shù)相結(jié)合的方面。但這些進(jìn)步是以輕微增加計(jì)算延遲和資源消耗為代價(jià)的，實(shí)際應(yīng)用時(shí)需要根據(jù)具體情況權(quán)衡這些因素。

結(jié)論

該方法在BEV對(duì)象檢測(cè)任務(wù)中表現(xiàn)出色，顯著提高了準(zhǔn)確性和綜合性能。通過(guò)引入概率采樣、高度轉(zhuǎn)換、注意力機(jī)制和空間關(guān)注增強(qiáng)網(wǎng)絡(luò)，DualBEV成功地提升了多個(gè)關(guān)鍵性能指標(biāo)，特別是在鳥瞰圖（BEV）的精度和場(chǎng)景理解方面。實(shí)驗(yàn)結(jié)果表明，論文的方法在處理復(fù)雜場(chǎng)景和不同視角數(shù)據(jù)時(shí)尤為有效，這對(duì)于自動(dòng)駕駛和其他實(shí)時(shí)監(jiān)控應(yīng)用至關(guān)重要。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

模型技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)