偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

人工智能 智能汽車
我們?nèi)嬖u估了自動(dòng)駕駛中3D物體檢測算法的穩(wěn)健性。確定了評估檢測穩(wěn)健性的三個(gè)關(guān)鍵因素:環(huán)境變化性、傳感器噪聲和誤對準(zhǔn)。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

0. 寫在前面&&個(gè)人理解

自動(dòng)駕駛系統(tǒng)依賴于先進(jìn)的感知、決策和控制技術(shù),通過使用各種傳感器(如相機(jī)、激光雷達(dá)、雷達(dá)等)來感知周圍環(huán)境,并利用算法和模型進(jìn)行實(shí)時(shí)分析和決策。這使得車輛能夠識(shí)別道路標(biāo)志、檢測和跟蹤其他車輛、預(yù)測行人行為等,從而安全地操作和適應(yīng)復(fù)雜的交通環(huán)境.這項(xiàng)技術(shù)目前引起了廣泛的關(guān)注,并認(rèn)為是未來交通領(lǐng)域的重要發(fā)展領(lǐng)域之一。但是,讓自動(dòng)駕駛變得困難的是弄清楚如何讓汽車了解周圍發(fā)生的事情。這需要自動(dòng)駕駛系統(tǒng)中的三維物體檢測算法可以準(zhǔn)確地感知和描述周圍環(huán)境中的物體,包括它們的位置、形狀、大小和類別。這種全面的環(huán)境意識(shí)有助于自動(dòng)駕駛系統(tǒng)更好地了解駕駛環(huán)境,并做出更精確的決策。

我們?nèi)嬖u估了自動(dòng)駕駛中3D物體檢測算法的穩(wěn)健性。確定了評估檢測穩(wěn)健性的三個(gè)關(guān)鍵因素:環(huán)境變化性、傳感器噪聲和誤對準(zhǔn)。這些因素至關(guān)重要,因?yàn)樗鼈冇绊懥藱z測算法在真實(shí)世界多變條件下的表現(xiàn)。

  1. 環(huán)境變化性: 文章強(qiáng)調(diào)檢測算法需要適應(yīng)不同的環(huán)境條件,如光照、天氣和季節(jié)的變化。
  2. 傳感器噪聲: 算法必須有效處理傳感器的噪聲,可能包括攝像機(jī)的運(yùn)動(dòng)模糊等問題。
  3. 誤對準(zhǔn): 對于由校準(zhǔn)錯(cuò)誤或其他因素引起的誤對準(zhǔn),算法需要考慮到這些因素,無論是外部的(如不平坦的路面)還是內(nèi)部的(例如系統(tǒng)時(shí)鐘誤對準(zhǔn))。

還深入探討了性能評估的三個(gè)關(guān)鍵領(lǐng)域:準(zhǔn)確性、延遲和穩(wěn)健性。

  • 準(zhǔn)確性:盡管研究通常將準(zhǔn)確性作為關(guān)鍵性能指標(biāo),但在復(fù)雜和極端條件下的表現(xiàn)需要更深入的理解,以確保真實(shí)世界的可靠性。
  • 延遲: 自動(dòng)駕駛中的實(shí)時(shí)能力至關(guān)重要。檢測方法的延遲影響系統(tǒng)及時(shí)決策的能力,特別是在緊急情況下。
  • 穩(wěn)健性: 呼吁對系統(tǒng)在不同條件下的穩(wěn)定性進(jìn)行更全面的評估,因?yàn)樵S多當(dāng)前的評估可能沒有完全考慮到真實(shí)世界場景的多樣性。

在分析中,論文指出了多模態(tài)3D檢測方法在安全感知方面的顯著優(yōu)勢。這些方法結(jié)合了來自不同傳感器的數(shù)據(jù),為自動(dòng)駕駛系統(tǒng)提供了更豐富、更多樣化的感知能力。

1. 數(shù)據(jù)集

上述概述了自動(dòng)駕駛系統(tǒng)中用于3D物體檢測的數(shù)據(jù)集,重點(diǎn)在于評估不同傳感器模式下的優(yōu)勢和局限性,以及公共數(shù)據(jù)集的特點(diǎn)。

首先,表格展示了camera、點(diǎn)云和多模態(tài)(相機(jī)和激光雷達(dá))三種類型的傳感器。對于每種類型,列出了硬件成本、優(yōu)點(diǎn)和局限性。例如,相機(jī)數(shù)據(jù)的優(yōu)點(diǎn)在于提供豐富的顏色和紋理信息,但局限于缺乏深度信息且易受光線和天氣影響。而激光雷達(dá)則提供準(zhǔn)確的深度信息,但成本高且沒有顏色信息。

接下來,另一個(gè)表格詳細(xì)列出了用于自動(dòng)駕駛中3D物體檢測的多個(gè)公共數(shù)據(jù)集,如KITTI、nuScenes和Waymo等。這些數(shù)據(jù)集涵蓋了不同年份發(fā)布的數(shù)據(jù),使用的傳感器類型,數(shù)據(jù)規(guī)模(包括幀數(shù)和注釋數(shù)量),場景的多樣性(包括場景數(shù)量和類別),以及場景類型(如白天、晴天、夜晚、雨天等)。

此外,還提到了關(guān)于“干凈”自動(dòng)駕駛數(shù)據(jù)集的研究,并強(qiáng)調(diào)了在噪聲場景下評估模型穩(wěn)健性的重要性。一些研究關(guān)注在惡劣條件下的相機(jī)單模態(tài)方法,而其他的多模態(tài)數(shù)據(jù)集則專注于噪聲問題。例如,GROUNDED數(shù)據(jù)集關(guān)注在不同天氣條件下地面穿透雷達(dá)的定位,而ApolloScape開放數(shù)據(jù)集包括了激光雷達(dá)、相機(jī)和GPS數(shù)據(jù),涵蓋了多種天氣和光照條件。

由于在真實(shí)世界中收集大規(guī)模噪聲數(shù)據(jù)的成本過高,許多研究轉(zhuǎn)向使用合成數(shù)據(jù)集。例如,ImageNet-C是在圖像分類模型中對抗常見擾動(dòng)的基準(zhǔn)研究。這一研究方向隨后擴(kuò)展到為自動(dòng)駕駛中的3D物體檢測量身定制的穩(wěn)健性數(shù)據(jù)集。

2. 基于視覺的3D目標(biāo)檢測

2.1 Monocular 3D object detection

在這部分內(nèi)容中,討論了單目3D物體檢測的概念以及三種主要的方法:基于先驗(yàn)的單目3D物體檢測、僅相機(jī)的單目3D物體檢測和深度輔助的單目3D物體檢測。

Prior-guided monocular 3D object detection

這種方法利用隱藏在圖像中的物體形狀和場景幾何學(xué)的先驗(yàn)知識(shí)來解決單目3D物體檢測的挑戰(zhàn)。通過引入預(yù)訓(xùn)練的子網(wǎng)絡(luò)或輔助任務(wù),先驗(yàn)知識(shí)可以提供額外信息或約束來幫助精確定位3D物體,增強(qiáng)檢測的精度和穩(wěn)健性。常見的先驗(yàn)知識(shí)包括物體形狀、幾何一致性、時(shí)間約束和分割信息。例如,Mono3D算法首先假設(shè)3D物體位于固定的地面平面上,然后使用物體的先驗(yàn)3D形狀來在3D空間中重建邊界框。

圖片

Camera-only monocular 3D object detection

這種方法僅使用單個(gè)相機(jī)捕獲的圖像來檢測和定位3D物體。它采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)直接從圖像中回歸3D邊界框參數(shù),從而估計(jì)物體在三維空間中的尺寸和姿態(tài)。這種直接回歸方法可以以端到端的方式進(jìn)行訓(xùn)練,促進(jìn)了3D物體的整體學(xué)習(xí)和推斷。例如,Smoke算法摒棄了2D邊界框的回歸,通過結(jié)合單個(gè)關(guān)鍵點(diǎn)的估計(jì)和3D變量的回歸來預(yù)測每個(gè)檢測目標(biāo)的3D框。

Depth-assisted monocular 3D object detection

深度估計(jì)在深度輔助的單目3D物體檢測中扮演著關(guān)鍵角色。為了實(shí)現(xiàn)更準(zhǔn)確的單目檢測結(jié)果,許多研究利用預(yù)訓(xùn)練的輔助深度估計(jì)網(wǎng)絡(luò)。這個(gè)過程首先通過使用預(yù)訓(xùn)練的深度估計(jì)器(如MonoDepth)將單目圖像轉(zhuǎn)換為深度圖像。然后,采用兩種主要方法來處理深度圖像和單目圖像。例如,Pseudo-LiDAR檢測器使用預(yù)訓(xùn)練的深度估計(jì)網(wǎng)絡(luò)生成Pseudo-LiDAR表示,但由于圖像到LiDAR生成的錯(cuò)誤,Pseudo-LiDAR與基于LiDAR的檢測器之間存在巨大的性能差距。

通過這些方法的探索和應(yīng)用,單目3D物體檢測在計(jì)算機(jī)視覺和智能系統(tǒng)領(lǐng)域取得了顯著進(jìn)展,為這些領(lǐng)域帶來了突破和機(jī)遇。

2.2 Stereo-based 3D object detection

圖片

在這部分內(nèi)容中,討論了基于立體視覺的3D物體檢測技術(shù)。立體視覺3D物體檢測利用一對立體圖像來識(shí)別和定位3D物體。通過利用立體攝像機(jī)捕獲的雙重視角,這些方法在通過立體匹配和校準(zhǔn)獲取高精度深度信息方面表現(xiàn)出色,這是它們與單目攝像機(jī)設(shè)置不同的特點(diǎn)。盡管存在這些優(yōu)勢,與基于激光雷達(dá)的方法相比,立體視覺方法仍存在相當(dāng)大的性能差距。此外,從立體圖像中進(jìn)行3D物體檢測的領(lǐng)域相對較少被探索,僅有限的研究工作致力于這一領(lǐng)域。

  1. 2D-detection based methods:傳統(tǒng)的2D物體檢測框架可以修改以解決立體檢測問題。例如,Stereo R-CNN使用基于圖像的2D檢測器來預(yù)測2D提議,為相應(yīng)的左右圖像生成左右感興趣區(qū)域(RoIs)。隨后,在第二階段,它直接估計(jì)基于之前生成的RoIs的3D物體參數(shù)。這種范式被后續(xù)的工作廣泛采用。
  2. Pseudo-LiDAR based methods:從立體圖像預(yù)測的視差圖可以轉(zhuǎn)換為深度圖,進(jìn)一步轉(zhuǎn)換為偽激光雷達(dá)點(diǎn)。因此,類似于單目檢測方法,偽激光雷達(dá)表示也可以用于基于立體視覺的3D物體檢測方法。這些方法旨在增強(qiáng)立體匹配中的視差估計(jì),以實(shí)現(xiàn)更準(zhǔn)確的深度預(yù)測。例如,Wang等人是引入偽激光雷達(dá)表示的先驅(qū)。這種表示是由具有深度圖的圖像生成的,要求模型執(zhí)行深度估計(jì)任務(wù)以協(xié)助檢測。隨后的工作遵循了這一范式,并通過引入額外的顏色信息來增強(qiáng)偽點(diǎn)云、輔助任務(wù)(如實(shí)例分割、前景和背景分割、領(lǐng)域適應(yīng))和坐標(biāo)變換方案進(jìn)行了優(yōu)化。值得注意的是,Ma等人提出的PatchNet挑戰(zhàn)了利用偽激光雷達(dá)表示進(jìn)行單目3D物體檢測的傳統(tǒng)觀念。通過為每個(gè)像素編碼3D坐標(biāo),PatchNet可以在沒有偽激光雷達(dá)表示的情況下獲得可比較的單目檢測結(jié)果。這一觀察表明,偽激光雷達(dá)表示的力量來源于坐標(biāo)變換,而不是點(diǎn)云表示本身。

圖片

2.3 Multi-view 3D object detection

最近,多視圖3D物體檢測在精度和穩(wěn)健性方面相較于前述的單目和立體視覺3D物體檢測方法表現(xiàn)出了優(yōu)越性。與基于激光雷達(dá)的3D物體檢測不同,最新的全景鳥瞰視圖(BEV)方法消除了對高精度地圖的需求,將檢測從2D提升到3D。這一進(jìn)展帶來了多視角3D物體檢測的重大發(fā)展。在多攝像頭3D物體檢測中,關(guān)鍵挑戰(zhàn)在于識(shí)別不同圖像中的同一物體并從多視角輸入中聚合物體特征。目前的方法涉及將多視角統(tǒng)一映射到鳥瞰視圖(BEV)空間,這是一種常見的做法。

Depth-based Multi-view methods:

從2D到BEV空間的直接轉(zhuǎn)換構(gòu)成了一個(gè)重大挑戰(zhàn)。LSS是首個(gè)提出基于深度的方法的,它利用3D空間作為中介。這種方法首先預(yù)測2D特征的網(wǎng)格深度分布,然后將這些特征提升到體素空間。這種方法為更有效地實(shí)現(xiàn)從2D到BEV空間的轉(zhuǎn)換提供了希望。繼LSS之后,CaDDN采用了類似的深度表示方法。通過將體素空間特征壓縮到BEV空間,它執(zhí)行最終的3D檢測。值得注意的是,CaDDN并不是多視角3D物體檢測的一部分,而是單視角3D物體檢測,它對隨后的深度研究產(chǎn)生了影響。LSS和CaDDN的主要區(qū)別在于CaDDN使用實(shí)際的地面真實(shí)深度值來監(jiān)督其分類深度分布的預(yù)測,從而創(chuàng)建了一個(gè)能夠更準(zhǔn)確地從2D空間提取3D信息的出色深度網(wǎng)絡(luò)。

Query-based Multi-view methods

在Transformer技術(shù)的影響下,基于query的多視角方法從3D空間檢索2D空間特征。DETR3D引入了3D物體query來解決多視角特征的聚合問題。它通過從不同視角剪輯圖像特征,并使用學(xué)習(xí)到的3D參考點(diǎn)將它們投影到2D空間,從而在鳥瞰視圖(BEV)空間獲得圖像特征。與基于深度的多視角方法不同,基于query的多視角方法通過使用反向query技術(shù)獲得稀疏BEV特征,從根本上影響了后續(xù)基于query的發(fā)展。然而,由于與顯式3D參考點(diǎn)相關(guān)的潛在不準(zhǔn)確性,PETR采用了隱式位置編碼方法來構(gòu)建BEV空間,影響了后續(xù)的工作。

2.4 Analysis: Accuracy, Latency, Robustness

當(dāng)前,基于鳥瞰視圖(BEV)感知的3D物體檢測解決方案正在迅速發(fā)展。盡管存在許多綜述文章,但對這一領(lǐng)域的全面回顧仍然不足。上海AI實(shí)驗(yàn)室和商湯研究院提供了對BEV解決方案技術(shù)路線圖的深入回顧。然而,與現(xiàn)有的綜述不同,我們考慮了自動(dòng)駕駛安全感知等關(guān)鍵方面。在分析了基于相機(jī)解決方案的技術(shù)路線圖和當(dāng)前發(fā)展?fàn)顟B(tài)之后,我們打算基于`準(zhǔn)確性、延遲、穩(wěn)健性'的基本原則進(jìn)行討論。我們將整合安全感知的視角,以指導(dǎo)自動(dòng)駕駛中安全感知的實(shí)際實(shí)施。

  1. 準(zhǔn)確度:大多數(shù)研究文章和綜述中都非常關(guān)注準(zhǔn)確性,這確實(shí)非常重要。雖然準(zhǔn)確性可以通過AP(平均精度)來反映,但僅考慮AP可能無法提供全面的視角,因?yàn)椴煌姆椒ㄓ捎诓煌姆妒娇赡鼙憩F(xiàn)出顯著的差異。如圖所示,我們選擇了10種代表性方法進(jìn)行比較,結(jié)果表明單目3D物體檢測與立體視覺3D物體檢測之間存在顯著的度量差異。目前的情況表明,單目3D物體檢測的準(zhǔn)確性遠(yuǎn)低于立體視覺3D物體檢測。立體視覺3D物體檢測利用從同一場景的兩個(gè)不同視角捕獲的圖像來獲取深度信息。相機(jī)之間的基線越大,捕獲的深度信息范圍越廣。隨著時(shí)間的推移,多視角(鳥瞰視圖感知)3D物體檢測逐漸取代了單目方法,顯著提高了mAP。傳感器數(shù)量的增加對mAP產(chǎn)生了重大影響。
  2. 延遲:在自動(dòng)駕駛領(lǐng)域,延遲至關(guān)重要。它指的是系統(tǒng)對輸入信號(hào)做出反應(yīng)所需的時(shí)間,包括從傳感器數(shù)據(jù)采集到系統(tǒng)決策制定和執(zhí)行動(dòng)作的整個(gè)過程。在自動(dòng)駕駛中,對延遲的要求非常嚴(yán)格,因?yàn)槿魏涡问降难舆t都可能導(dǎo)致嚴(yán)重的后果。延遲在自動(dòng)駕駛中的重要性體現(xiàn)在以下幾個(gè)方面:實(shí)時(shí)響應(yīng)性、安全性、用戶體驗(yàn)、互動(dòng)性和緊急響應(yīng)。在3D物體檢測領(lǐng)域,延遲(每秒幀數(shù),F(xiàn)PS)和準(zhǔn)確性是評估算法性能的關(guān)鍵指標(biāo)。如圖所示,單目和立體視覺3D物體檢測的圖表顯示了KITTI數(shù)據(jù)集中等難度級(jí)別的平均精度(AP)與FPS的關(guān)系。對于自動(dòng)駕駛的實(shí)現(xiàn),3D物體檢測算法必須在延遲和準(zhǔn)確性之間取得平衡。雖然單目檢測速度快,但缺乏精確度;相反,立體和多視角方法準(zhǔn)確但速度較慢。未來的研究不僅應(yīng)保持高精度,還應(yīng)更加重視提高FPS和降低延遲,以滿足自動(dòng)駕駛中實(shí)時(shí)響應(yīng)性和安全性的雙重要求。
  3. 穩(wěn)健性:穩(wěn)健性是自動(dòng)駕駛安全感知的一個(gè)關(guān)鍵因素,代表了一個(gè)在綜合回顧中以前被忽視的重要話題。在當(dāng)前精心設(shè)計(jì)的干凈數(shù)據(jù)集和基準(zhǔn)測試中,如KITTI、nuScenes和Waymo,這一方面通常沒有得到解決。目前,像RoboBEV、Robo3D這樣的研究作品在3D物體檢測中納入了穩(wěn)健性的考慮,例如傳感器缺失等因素。它們采用了一種方法論,包括在與3D物體檢測相關(guān)的數(shù)據(jù)集中引入干擾,以評估穩(wěn)健性。這包括引入各種類型的噪聲,如天氣條件變化、傳感器故障、運(yùn)動(dòng)干擾和與物體相關(guān)的擾動(dòng),旨在揭示不同噪聲源對模型的不同影響。通常,大多數(shù)研究穩(wěn)健性的論文通過向干凈數(shù)據(jù)集的驗(yàn)證集(如KITTI、nuScenes和Waymo)引入噪聲進(jìn)行評估。另外,我們強(qiáng)調(diào)了參考文獻(xiàn)中的發(fā)現(xiàn),其中強(qiáng)調(diào)了KITTI-C和nuScenes-C作為相機(jī)僅3D物體檢測方法的例子。表格提供了總體比較,顯示總體上,相機(jī)僅方法的穩(wěn)健性低于激光雷達(dá)僅和多模型融合方法。它們非常容易受到各種類型的噪聲的影響。在KITTI-C中,三個(gè)代表性的作品——SMOKE、PGD和ImVoxelNet——顯示出一致較低的整體性能和對噪聲的減少穩(wěn)健性。在nuScenes-C中,值得注意的方法如DETR3D和BEVFormer與FCOS3D和PGD相比表現(xiàn)出更大的穩(wěn)健性,表明隨著傳感器數(shù)量的增加,整體穩(wěn)健性提高??傊?,未來的相機(jī)僅方法需要考慮不僅是成本因素和準(zhǔn)確性指標(biāo)(mAP、NDS等),還有與安全感知和穩(wěn)健性相關(guān)的因素。我們的分析旨在為未來自動(dòng)駕駛系統(tǒng)的安全提供有價(jià)值的見解。

3. 基于Lidar的3D目標(biāo)檢測

圖片

基于體素的3D物體檢測方法提出了將稀疏點(diǎn)云分割并分配到規(guī)則體素中,從而形成密集的數(shù)據(jù)表示,這個(gè)過程稱為體素化。與基于視圖的方法相比,基于體素的方法利用空間卷積有效感知3D空間信息,實(shí)現(xiàn)更高的檢測精度,這對自動(dòng)駕駛中的安全感知至關(guān)重要。然而,這些方法仍面臨以下挑戰(zhàn):

  1. 高計(jì)算復(fù)雜性:與基于相機(jī)的方法相比,基于體素的方法需要大量的內(nèi)存和計(jì)算資源,因?yàn)橛糜诒硎?D空間的體素?cái)?shù)量巨大。
  2. 空間信息丟失:由于體素的離散化特性,在體素化過程中細(xì)節(jié)和形狀信息可能丟失或模糊,同時(shí)體素有限的分辨率使得難以準(zhǔn)確檢測小物體。
  3. 尺度和密度不一致性:基于體素的方法通常需要在不同尺度和密度的體素網(wǎng)格上進(jìn)行檢測,但由于不同場景中目標(biāo)的尺度和密度變化很大,選擇合適的尺度和密度來適應(yīng)不同目標(biāo)成為挑戰(zhàn)。

為了克服這些挑戰(zhàn),需要解決數(shù)據(jù)表示的局限性、提高網(wǎng)絡(luò)特征能力和目標(biāo)定位精度,并加強(qiáng)算法對復(fù)雜場景的理解。盡管優(yōu)化策略各不相同,但通常都旨在從數(shù)據(jù)表示和模型結(jié)構(gòu)方面進(jìn)行優(yōu)化。

3.1 Voxel-based 3D object detection

得益于PC在深度學(xué)習(xí)中的繁榮,基于點(diǎn)的三維對象檢測繼承了其許多框架,并提出在不進(jìn)行預(yù)處理的情況下直接從原始點(diǎn)檢測三維對象。與voxel-based方法相比,原始點(diǎn)云保留了最大量的原始信息,這有利于細(xì)粒度的特征獲取,result high accuracy。同時(shí),PointNet的一系列工作自然為基于點(diǎn)的方法提供了強(qiáng)大的基礎(chǔ)?;邳c(diǎn)的3D對象檢測器有兩個(gè)基本組成部分:點(diǎn)云采樣和特征學(xué)習(xí) %截至目前,Point-based方法的性能仍被兩個(gè)因素所影響:上下文點(diǎn)的數(shù)量和特征學(xué)習(xí)中采用的上下文半徑。e.g.增加上下文點(diǎn)的數(shù)量可以獲得更細(xì)致的3D信息,但會(huì)顯著增加模型的推理時(shí)間。類似地,縮小上下文半徑可以獲得同樣地效果。因此,為這兩個(gè)因素選擇合適的值,可以使模型在精度和速度之間達(dá)到一個(gè)平衡。此外,由于需要對點(diǎn)云中每一個(gè)點(diǎn)進(jìn)行計(jì)算,點(diǎn)云采樣過程是限制point-based方法實(shí)時(shí)運(yùn)行的主要因素。具體來說,為解決以上問題,現(xiàn)有的方法大多圍繞基于點(diǎn)的3D對象檢測器的兩個(gè)基本組成部分進(jìn)行優(yōu)化:1) Point Sampling 2) feature learning

3.2 Point-based 3D object detection

基于點(diǎn)的3D物體檢測方法繼承了許多深度學(xué)習(xí)框架,并提出直接從原始點(diǎn)云中檢測3D物體,而不進(jìn)行預(yù)處理。與基于體素的方法相比,原始點(diǎn)云最大限度地保留了原始信息,有利于細(xì)粒度特征的獲取,從而實(shí)現(xiàn)高精度。同時(shí),PointNet系列工作為基于點(diǎn)的方法提供了強(qiáng)大的基礎(chǔ)。然而,到目前為止,基于點(diǎn)的方法的性能仍受兩個(gè)因素的影響:上下文點(diǎn)的數(shù)量和特征學(xué)習(xí)中使用的上下文半徑。例如,增加上下文點(diǎn)的數(shù)量可以獲得更細(xì)致的3D信息,但會(huì)顯著增加模型的推理時(shí)間。類似地,縮小上下文半徑可以達(dá)到同樣的效果。因此,為這兩個(gè)因素選擇適當(dāng)?shù)闹悼梢允鼓P驮诰群退俣戎g實(shí)現(xiàn)平衡。此外,由于需要對點(diǎn)云中的每個(gè)點(diǎn)進(jìn)行計(jì)算,點(diǎn)云采樣過程是限制基于點(diǎn)方法實(shí)時(shí)運(yùn)行的主要因素。為解決這些問題,現(xiàn)有方法主要圍繞基于點(diǎn)的3D物體檢測器的兩個(gè)基本組成部分進(jìn)行優(yōu)化:1) 點(diǎn)云采樣;2) 特征學(xué)習(xí)。

最遠(yuǎn)點(diǎn)采樣(FPS)源自PointNet++,是一種在基于點(diǎn)的方法中廣泛使用的點(diǎn)云采樣方法。它的目標(biāo)是從原始點(diǎn)云中選擇一組具有代表性的點(diǎn),使它們之間的距離最大化,以最好地覆蓋整個(gè)點(diǎn)云的空間分布。PointRCNN是基于點(diǎn)的方法中的開創(chuàng)性的兩階段檢測器,使用PointNet++作為骨干網(wǎng)絡(luò)。在第一階段,它以自下而上的方式從點(diǎn)云中生成3D提議。在第二階段,通過結(jié)合語義特征和局部空間特征來對提議進(jìn)行精煉。然而,現(xiàn)有基于FPS的方法仍面臨一些問題:1) 與檢測無關(guān)的點(diǎn)同樣參與采樣過程,帶來額外的計(jì)算負(fù)擔(dān);2) 點(diǎn)在物體的不同部分分布不均勻,導(dǎo)致次優(yōu)的采樣策略。為了解決這些問題,后續(xù)工作采用了類似FPS的設(shè)計(jì)范式,并進(jìn)行了改進(jìn),例如,通過分割引導(dǎo)的背景點(diǎn)過濾、隨機(jī)采樣、特征空間采樣、基于體素的采樣和基于光線分組的采樣。

基于點(diǎn)的3D物體檢測方法的特征學(xué)習(xí)階段旨在從稀疏點(diǎn)云數(shù)據(jù)中提取具有判別性的特征表示。在特征學(xué)習(xí)階段使用的神經(jīng)網(wǎng)絡(luò)應(yīng)具備以下特性:1) 不變性,點(diǎn)云骨干網(wǎng)絡(luò)應(yīng)對輸入點(diǎn)云的排列順序不敏感;2) 具有局部感知能力,能夠?qū)植繀^(qū)域進(jìn)行感知和建模,提取局部特征;3) 具有整合上下文信息的能力,能夠從全局和局部的上下文信息中提取特征?;谏鲜鎏匦?,大量的檢測器被設(shè)計(jì)用于處理原始點(diǎn)云。大多數(shù)方法可以根據(jù)所使用的核心算子分為:1) 基于PointNet的方法;2) 基于圖神經(jīng)網(wǎng)絡(luò)的方法;3) 基于Transformer的方法。

基于PointNet的方法

基于PointNet的方法主要依賴集合抽象來對原始點(diǎn)進(jìn)行降采樣,聚合局部信息,并整合上下文信息,同時(shí)保持原始點(diǎn)的對稱不變性。Point-RCNN是基于點(diǎn)的方法中的第一個(gè)兩階段工作,取得了出色的性能,但仍面臨高計(jì)算成本的問題。后續(xù)工作通過在檢測過程中引入額外的語義分割任務(wù)來過濾掉對檢測貢獻(xiàn)最小的背景點(diǎn),解決了這個(gè)問題。

基于圖神經(jīng)網(wǎng)絡(luò)的方法

圖神經(jīng)網(wǎng)絡(luò)(GNN)具有自適應(yīng)結(jié)構(gòu)、動(dòng)態(tài)鄰域、構(gòu)建局部和全局上下文關(guān)系的能力以及對不規(guī)則采樣的魯棒性。Point-GNN是一項(xiàng)開創(chuàng)性的工作,設(shè)計(jì)了一個(gè)單階段圖神經(jīng)網(wǎng)絡(luò),通過自動(dòng)注冊機(jī)制、合并和評分操作來預(yù)測對象的類別和形狀,展示了使用圖神經(jīng)網(wǎng)絡(luò)作為3D物體檢測新方法的潛力。

基于Transformer的方法

近年來,Transformer(Transformer)在點(diǎn)云分析中得到了探索,并在許多任務(wù)上表現(xiàn)出色。例如,Pointformer引入了局部和全局注意模塊來處理3D點(diǎn)云,局部Transformer模塊用于對局部區(qū)域中的點(diǎn)之間的交互進(jìn)行建模,而全局Transformer旨在學(xué)習(xí)場景級(jí)別的上下文感知表示。Group-free直接利用點(diǎn)云中的所有點(diǎn)來計(jì)算每個(gè)對象候選的特征,其中每個(gè)點(diǎn)的貢獻(xiàn)由自動(dòng)學(xué)習(xí)的注意模塊決定。這些方法展示了基于Transformer的方法在處理非結(jié)構(gòu)化和無序的原始點(diǎn)云方面的潛力。

3.3  Point-Voxel based 3D object detection

點(diǎn)云基礎(chǔ)的3D物體檢測方法提供高分辨率并保留了原始數(shù)據(jù)的空間結(jié)構(gòu),但它們在處理稀疏數(shù)據(jù)時(shí)面臨高計(jì)算復(fù)雜性和低效率。相比之下,基于體素的方法提供了結(jié)構(gòu)化的數(shù)據(jù)表示,提高了計(jì)算效率,并促進(jìn)了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用。然而,由于離散化過程,它們通常會(huì)丟失細(xì)微的空間細(xì)節(jié)。為了解決這些問題,開發(fā)了點(diǎn)-體素(PV)基礎(chǔ)的方法。點(diǎn)-體素方法旨在利用基于點(diǎn)的方法的細(xì)粒度信息捕獲能力和基于體素的方法的計(jì)算效率。通過整合這些方法,點(diǎn)-體素基礎(chǔ)的方法能夠更詳細(xì)地處理點(diǎn)云數(shù)據(jù),捕獲全局結(jié)構(gòu)和微觀幾何細(xì)節(jié)。這對于自動(dòng)駕駛中的安全感知至關(guān)重要,因?yàn)樽詣?dòng)駕駛系統(tǒng)的決策精度取決于高精度的檢測結(jié)果。

點(diǎn)-體素方法的關(guān)鍵目標(biāo)是通過點(diǎn)到體素或體素到點(diǎn)的轉(zhuǎn)換,實(shí)現(xiàn)體素和點(diǎn)之間的特征互動(dòng)。許多工作已經(jīng)探索了在骨干網(wǎng)絡(luò)中利用點(diǎn)-體素特征融合的思想。這些方法可分為兩類:1) 早期融合;2) 后期融合。

a) 早期融合:一些方法已經(jīng)探索了使用新的卷積運(yùn)算符來融合體素和點(diǎn)特征,PVCNN可能是這方向的首個(gè)工作。在這種方法中,基于體素的分支首先將點(diǎn)轉(zhuǎn)換為低分辨率的體素網(wǎng)格,并通過卷積聚合鄰近體素特征。然后,通過稱為去體素化的過程,將體素級(jí)特征轉(zhuǎn)換回點(diǎn)級(jí)特征,并與基于點(diǎn)的分支獲得的特征融合?;邳c(diǎn)的分支為每個(gè)單獨(dú)的點(diǎn)提取特征。由于它不聚合鄰近信息,該方法可以以更高的速度運(yùn)行。接著,SPVCNN在PVCNN的基礎(chǔ)上擴(kuò)展到物體檢測領(lǐng)域。其他方法試圖從不同的角度進(jìn)行改進(jìn),如輔助任務(wù)或多尺度特征融合。

b) 后期融合:這一系列方法主要采用兩階段檢測框架。首先,使用基于體素的方法生成初步的物體提議。接著,利用點(diǎn)級(jí)特征對檢測框進(jìn)行精確劃分。Shi等人提出的PV-RCNN是點(diǎn)-體素基礎(chǔ)方法中的一個(gè)里程碑。它使用SECOND作為第一階段檢測器,并提出了帶有RoI網(wǎng)格池的第二階段精煉階段,用于關(guān)鍵點(diǎn)特征的融合。后續(xù)工作主要遵循上述范式,專注于第二階段檢測的進(jìn)展。值得注意的發(fā)展包括注意力機(jī)制、尺度感知池化和點(diǎn)密度感知精煉模塊。

點(diǎn)-體素基礎(chǔ)的方法同時(shí)具有基于體素方法的計(jì)算效率和基于點(diǎn)方法捕獲細(xì)粒度信息的能力。然而,構(gòu)建點(diǎn)到體素或體素到點(diǎn)的關(guān)系,以及體素和點(diǎn)的特征融合,會(huì)帶來額外的計(jì)算開銷。因此,與基于體素的方法相比,點(diǎn)-體素基礎(chǔ)

的方法可以實(shí)現(xiàn)更好的檢測精度,但代價(jià)是增加了推理時(shí)間。

4.多模態(tài)3D目標(biāo)檢測

4.1 Projection-based 3D object detection

基于投影的3D物體檢測方法在特征融合階段使用投影矩陣來實(shí)現(xiàn)點(diǎn)云和圖像特征的整合。這里的關(guān)鍵是關(guān)注在特征融合期間的投影,而不是融合階段的其他投影過程,如數(shù)據(jù)增強(qiáng)等。根據(jù)融合階段使用的不同類型的投影,可以將投影基礎(chǔ)的3D物體檢測方法進(jìn)一步細(xì)分為以下幾類:

  1. 基于點(diǎn)投影的3D物體檢測:這類方法通過將圖像特征投影到原始點(diǎn)云上來增強(qiáng)原始點(diǎn)云數(shù)據(jù)的表示能力。這些方法的第一步是使用校準(zhǔn)矩陣建立激光雷達(dá)點(diǎn)和圖像像素之間的強(qiáng)相關(guān)性。接下來,通過添加額外數(shù)據(jù)來增強(qiáng)點(diǎn)云特征。這種增強(qiáng)有兩種形式:一種是通過合并分割分?jǐn)?shù)(如PointPainting),另一種是使用來自相關(guān)像素的CNN特征(如MVP)。PointPainting通過追加分割分?jǐn)?shù)來增強(qiáng)激光雷達(dá)點(diǎn),但在有效捕獲圖像中的顏色和紋理細(xì)節(jié)方面存在局限性。為解決這些問題,開發(fā)了更復(fù)雜的方法,如FusionPainting。
  2. 基于特征投影的3D物體檢測:與基于點(diǎn)投影的方法不同,這類方法主要關(guān)注在點(diǎn)云特征提取階段將點(diǎn)云特征與圖像特征融合。在這個(gè)過程中,通過應(yīng)用校準(zhǔn)矩陣將體素的三維坐標(biāo)系統(tǒng)轉(zhuǎn)換為圖像的像素坐標(biāo)系統(tǒng),從而有效地融合點(diǎn)云和圖像模態(tài)。例如,ContFuse通過連續(xù)卷積融合多尺度卷積特征圖。
  3. 自動(dòng)投影基礎(chǔ)的3D物體檢測:許多研究通過直接投影進(jìn)行融合,但沒有解決投影誤差問題。一些工作(如AutoAlignV2)通過學(xué)習(xí)偏移量和鄰域投影等方法來減輕這些誤差。例如,HMFI、GraphAlign和GraphAlign++利用投影校準(zhǔn)矩陣的先驗(yàn)知識(shí)進(jìn)行圖像投影,并進(jìn)行局部圖建模。
  4. 基于決策投影的3D物體檢測:這類方法使用投影矩陣來對齊感興趣區(qū)域(RoI)或特定結(jié)果中的特征。例如,Graph-RCNN將圖節(jié)點(diǎn)投影到攝像機(jī)圖像中的位置,并通過雙線性插值收集攝像機(jī)圖像中該像素的特征向量。F-PointNet通過2D圖像檢測來確定物體的類別和定位,并通過校準(zhǔn)的傳感器參數(shù)和3D空間的轉(zhuǎn)換矩陣獲得相應(yīng)3D空間中的點(diǎn)云。

這些方法展示了如何在多模態(tài)3D物體檢測中使用投影技術(shù)來實(shí)現(xiàn)特征融合,但它們在處理不同模態(tài)間的交互和準(zhǔn)確性方面仍存在一定的局限性。

圖片

4.2 Non-Projection-based 3D object detection

圖片

非投影式三維物體檢測方法通過不依賴特征對齊來實(shí)現(xiàn)融合,從而產(chǎn)生穩(wěn)健的特征表示。它們規(guī)避了相機(jī)到激光雷達(dá)投影的局限性,這種投影通常會(huì)降低相機(jī)特征的語義密度,并影響如Focals Conv和PointPainting等技術(shù)的有效性。非投影式方法通常采用交叉注意力機(jī)制或構(gòu)建統(tǒng)一空間來解決直接特征投影中的固有不對齊問題。這些方法主要分為兩類:(1)基于query學(xué)習(xí)的方法和(2)基于統(tǒng)一特征的方法?;趒uery學(xué)習(xí)的方法完全避免了融合過程中的對齊需求。相反,基于統(tǒng)一特征的方法雖然構(gòu)建了統(tǒng)一的特征空間,但并沒有完全避免投影;它通常發(fā)生在單一模態(tài)背景下。例如,BEVFusion利用LSS進(jìn)行相機(jī)到BEV的投影。這個(gè)過程發(fā)生在融合之前,在特征不對齊的場景中顯示出相當(dāng)?shù)聂敯粜浴?/p>

  1. 基于query學(xué)習(xí)的三維物體檢測:基于query學(xué)習(xí)的三維物體檢測方法,如Transfusion、DeepFusion、DeepInteraction、autoalign、CAT-Det、MixedFusion等,避免了特征融合過程中的投影需求。相反,它們通過交叉注意力機(jī)制在進(jìn)行特征融合之前實(shí)現(xiàn)特征對齊。點(diǎn)云特征通常作為query,而圖像特征作為鍵和值,通過全局特征query獲得高度魯棒的多模態(tài)特征。此外,DeepInteraction引入了多模態(tài)交互,其中點(diǎn)云和圖像特征作為不同的query來實(shí)現(xiàn)更進(jìn)一步的特征交互。與僅使用點(diǎn)云特征作為query相比,全面整合圖像特征導(dǎo)致了更強(qiáng)韌的多模態(tài)特征的獲得??偟膩碚f,基于query學(xué)習(xí)的三維物體檢測方法采用基于Transformer的結(jié)構(gòu)進(jìn)行特征query以實(shí)現(xiàn)特征對齊。最終,多模態(tài)特征被整合進(jìn)激光雷達(dá)基礎(chǔ)的流程中,如CenterPoint。
  2. 基于統(tǒng)一特征的三維物體檢測:基于統(tǒng)一特征的三維物體檢測方法,如EA-BEV、BEVFusion、cai2023bevfusion4d、FocalFormer3D、FUTR3D、UniTR、Uni3D、virconv、MSMDFusion、sfd、cmt、UVTR、sparsefusion等,通常在特征融合前通過投影實(shí)現(xiàn)異構(gòu)模態(tài)的預(yù)融合統(tǒng)一。在BEV融合系列中,使用LSS進(jìn)行深度估計(jì),前視特征被轉(zhuǎn)換為BEV特征,然后融合BEV圖像和BEV點(diǎn)云特征。另一方面,CMT和UniTR使用Transformer進(jìn)行點(diǎn)云和圖像的標(biāo)記化,通過Transformer編碼構(gòu)建隱式統(tǒng)一空間。CMT在位置編碼過程中使用投影,但在特征學(xué)習(xí)級(jí)別完全避免了對投影關(guān)系的依賴。FocalFormer3D、FUTR3D和UVTR利用Transformer的query實(shí)施類似于DETR3D的方案,通過query構(gòu)建統(tǒng)一的稀疏BEV特征空間,從而減輕了直接投影帶來的不穩(wěn)定性。

VirConv、MSMDFusion和SFD通過偽點(diǎn)云構(gòu)建統(tǒng)一空間,在特征學(xué)習(xí)之前發(fā)生投影。通過后續(xù)特征學(xué)習(xí)解決了直接投影引入的問題??傊诮y(tǒng)一特征的三維物體檢測方法目前代表了高精度和強(qiáng)魯棒性的解決方案。盡管它們包含投影矩陣,但這種投影不發(fā)生在多模態(tài)融合之間,因此被視為非投影式三維物體檢測方法。與自動(dòng)投影式三維物體檢測方法不同,它們不直接解決投影誤差問題,而是選擇構(gòu)建統(tǒng)一空間,考慮多模態(tài)三維物體檢測的多個(gè)維度,從而獲得高度魯棒的多模態(tài)特征。

5. 結(jié)論

3D物體檢測在自動(dòng)駕駛感知中扮演著至關(guān)重要的角色。近年來,這個(gè)領(lǐng)域快速發(fā)展,產(chǎn)生了大量的研究論文。基于傳感器產(chǎn)生的多樣化數(shù)據(jù)形式,這些方法主要分為三種類型:基于圖像的、基于點(diǎn)云的和多模態(tài)的。這些方法的主要評估指標(biāo)是高準(zhǔn)確性和低延遲。許多綜述總結(jié)了這些方法,主要關(guān)注于`高準(zhǔn)確性和低延遲'的核心原則,描述它們的技術(shù)軌跡。

然而,在自動(dòng)駕駛技術(shù)從突破轉(zhuǎn)向?qū)嶋H應(yīng)用的過程中,現(xiàn)有的綜述沒有將安全感知作為核心關(guān)注點(diǎn),未能涵蓋與安全感知相關(guān)的當(dāng)前技術(shù)路徑。例如,最近的多模態(tài)融合方法在實(shí)驗(yàn)階段通常會(huì)進(jìn)行魯棒性測試,這一方面在當(dāng)前的綜述中并未得到充分考慮。

因此,重新審視3D物體檢測算法,以`準(zhǔn)確性、延遲和魯棒性'為關(guān)鍵方面進(jìn)行重點(diǎn)關(guān)注。我們重新分類以前的綜述,特別強(qiáng)調(diào)從安全感知的角度進(jìn)行重新劃分。希望這項(xiàng)工作能為未來3D物體檢測的研究提供新的見解,超越僅僅探索高準(zhǔn)確性的局限。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-10-09 09:42:18

自動(dòng)駕駛模型

2023-09-27 09:59:53

自動(dòng)駕駛訓(xùn)練

2024-05-16 09:24:17

3D技術(shù)

2024-12-10 09:40:00

AI3D模型

2024-04-28 15:04:08

自動(dòng)駕駛視覺

2024-10-15 13:07:38

2022-02-14 11:37:59

自動(dòng)駕駛算法技術(shù)

2024-01-23 10:17:24

自動(dòng)駕駛安全

2024-01-15 10:38:24

3D框架

2012-06-16 16:57:52

WebGL

2022-12-29 11:57:43

3D框架

2023-12-20 09:55:51

雷達(dá)傳感器算法

2023-09-25 14:53:55

3D檢測

2022-12-13 10:17:05

技術(shù)目標(biāo)檢測

2023-10-27 09:57:54

2023-09-11 11:27:34

自動(dòng)駕駛3D

2023-12-07 13:07:59

3D模型訓(xùn)練

2011-05-26 10:55:39

2023-12-12 10:09:33

3D框架模型

2012-02-27 10:00:50

HTML 5
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)