偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大王選最新OpenAD!助力自動駕駛邁向開放3D世界

人工智能 新聞
今天為大家分享北大最新的工作—OpenAD!自動駕駛?cè)孢~向開放3D檢測世界。

寫在前面 & 筆者的個人理解

開放世界自動駕駛包括域泛化和開放詞匯。領(lǐng)域泛化是指自動駕駛系統(tǒng)在不同場景和傳感器參數(shù)配置下的能力。開放詞匯是指識別訓(xùn)練中沒有遇到的各種語義類別的能力。在本文中,我們介紹了OpenAD,這是第一個用于3D目標(biāo)檢測的現(xiàn)實世界開放世界自動駕駛基準(zhǔn)。OpenAD建立在與多模態(tài)大型語言模型(MLLM)集成的角案例發(fā)現(xiàn)和標(biāo)注管道之上。所提出的管道以統(tǒng)一的格式為五個具有2000個場景的自動駕駛感知數(shù)據(jù)集標(biāo)注corner case目標(biāo)。此外,我們設(shè)計評估方法,評估各種2D和3D開放世界和專業(yè)模型。此外,我們提出了一種以視覺為中心的3D開放世界目標(biāo)檢測基線,并通過融合通用和專用模型進(jìn)一步引入了一種集成方法,以解決OpenAD基準(zhǔn)現(xiàn)有開放世界方法精度較低的問題。

  • 項目鏈接:https://github.com/VDIGPKU/OpenAD

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  • 提出了一個開放世界基準(zhǔn),同時評估目標(biāo)檢測器的領(lǐng)域泛化和開放詞匯表能力。據(jù)我們所知,這是3D開放世界物體檢測的第一個現(xiàn)實世界自動駕駛基準(zhǔn)。
  • 設(shè)計了一個與MLLM集成的標(biāo)注管道,用于自動識別極端情況場景,并為異常目標(biāo)提供語義標(biāo)注。
  • 提出了一種結(jié)合二維開放世界模型的三維開放世界感知基線方法。此外,我們分析了開放世界和專業(yè)模式的優(yōu)缺點(diǎn),并進(jìn)一步介紹了一種融合方法來利用這兩種優(yōu)勢。

相關(guān)工作回顧

Benchmark for Open-world Object Detection

2D基準(zhǔn)。各種數(shù)據(jù)集已被用于2D開放詞匯表目標(biāo)檢測評估。最常用的是LVIS數(shù)據(jù)集,它包含1203個類別。

在自動駕駛領(lǐng)域,如表1所示,也提出了許多數(shù)據(jù)集。其中,CODA是一個用于自動駕駛中二維物體檢測的道路拐角案例數(shù)據(jù)集,包含1500個道路駕駛場景,其中包含34個類別的邊界框注釋。然而,一些數(shù)據(jù)集只提供語義分割注釋,沒有特定的實例,或者將目標(biāo)注釋為異常但缺乏語義標(biāo)簽。此外,從真實世界的駕駛數(shù)據(jù)中收集的數(shù)據(jù)集規(guī)模較小,而來自CARLA等模擬平臺的合成數(shù)據(jù)缺乏真實性,因此難以進(jìn)行有效的評估。相比之下,我們的OpenAD提供了來自真實世界數(shù)據(jù)的大規(guī)模2D和3D邊界框注釋,用于更全面的開放世界目標(biāo)檢測評估。

圖片

3D基準(zhǔn)。3D開放世界基準(zhǔn)測試可分為兩類:室內(nèi)和室外場景。對于室內(nèi)場景,SUN-RGBD和ScanNet是兩個經(jīng)常用于開放世界評估的真實世界數(shù)據(jù)集,分別包含約700和21個類別。對于戶外或自動駕駛場景,AnoVox是一個合成數(shù)據(jù)集,包含35個類別的實例掩碼,用于開放世界評估。然而,由于模擬資產(chǎn)有限,合成數(shù)據(jù)的質(zhì)量和實例多樣性不如真實世界的數(shù)據(jù)。除了AnoVox之外,現(xiàn)有的用于自動駕駛的真實數(shù)據(jù)3D目標(biāo)檢測數(shù)據(jù)集只包含少數(shù)目標(biāo)類別,很難用于評估開放世界模型。為了解決這個問題,我們提出了OpenAD,它由真實世界的數(shù)據(jù)構(gòu)建而成,包含206個出現(xiàn)在自動駕駛場景中的不同corner-case類別。

2D Open-world Object Detection Methods

為了解決分布外(OOD)或異常檢測問題,早期的方法通常采用決策邊界、聚類等來發(fā)現(xiàn)OOD目標(biāo)。最近的方法采用文本編碼器,即CLIP,將相應(yīng)類別標(biāo)簽的文本特征與框特征對齊。具體來說,OVR-CNN將圖像特征與字幕嵌入對齊。GLIP將目標(biāo)檢測和短語基礎(chǔ)統(tǒng)一用于預(yù)訓(xùn)練。OWL ViT v2使用預(yù)訓(xùn)練的檢測器在圖像-文本對上生成偽標(biāo)簽,以擴(kuò)大檢測數(shù)據(jù)用于自訓(xùn)練。YOLO World采用YOLO類型的架構(gòu)進(jìn)行開放詞匯檢測,并取得了良好的效率。然而,所有這些方法在推理過程中都需要預(yù)定義的目標(biāo)類別。

最近,一些開放式方法提出利用自然語言解碼器提供語言描述,這使它們能夠直接從RoI特征生成類別標(biāo)簽。更具體地說,GenerateU引入了一種語言模型,可以直接從感興趣的區(qū)域生成類標(biāo)簽。DetClipv3引入了一個目標(biāo)字幕器,用于在推理過程中生成類標(biāo)簽和用于訓(xùn)練的圖像級描述。VL-SAM引入了一個無需訓(xùn)練的框架,其中注意力圖作為提示。

3D Open-world Object Detection Methods

與2D開放世界目標(biāo)檢測任務(wù)相比,由于訓(xùn)練數(shù)據(jù)集有限和3D環(huán)境復(fù)雜,3D開放世界目標(biāo)探測任務(wù)更具挑戰(zhàn)性。為了緩解這個問題,大多數(shù)現(xiàn)有的3D開放世界模型都來自預(yù)訓(xùn)練的2D開放世界模型,或者利用豐富的2D訓(xùn)練數(shù)據(jù)集。

例如,一些室內(nèi)3D開放世界檢測方法,如OV-3DET和INHA,使用預(yù)訓(xùn)練的2D目標(biāo)檢測器來引導(dǎo)3D檢測器找到新的目標(biāo)。同樣,Coda利用3D box幾何先驗和2D語義開放詞匯先驗來生成新類別的偽3D box標(biāo)簽。FM-OV3D利用穩(wěn)定擴(kuò)散生成包含OOD目標(biāo)的數(shù)據(jù)。至于戶外方法,F(xiàn)nP在訓(xùn)練過程中使用區(qū)域VLMs和貪婪盒搜索器為新類生成注釋。OV-Uni3DETR利用來自其他2D數(shù)據(jù)集的圖像和由開放詞匯檢測器生成的2D邊界框或?qū)嵗诖a。

然而,這些現(xiàn)有的3D開放詞匯檢測模型在推理過程中需要預(yù)定義的目標(biāo)類別。為了解決這個問題,我們引入了一種以視覺為中心的開放式3D目標(biāo)檢測方法,該方法可以在推理過程中直接生成無限的類別標(biāo)簽。

OpenAD概覽

圖片圖片

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

由于現(xiàn)有3D感知數(shù)據(jù)的規(guī)模有限,直接訓(xùn)練基于視覺的3D開放世界感知模型具有挑戰(zhàn)性。我們利用具有強(qiáng)大泛化能力的現(xiàn)有2D模型來解決這個問題,并為3D開放世界感知提出了一個以視覺為中心的基線。

如圖4所示,最初采用任意現(xiàn)有的二維開放世界目標(biāo)檢測方法來獲得二維邊界框及其相應(yīng)的語義標(biāo)簽。同時,緩存由2D模型的圖像編碼器生成的圖像特征圖。隨后,引入了一個結(jié)合了多個特征和一些可訓(xùn)練參數(shù)的2D到3D Bbox轉(zhuǎn)換器,將2D box轉(zhuǎn)換為3D box。

具體來說,我們使用現(xiàn)有的深度估計模型,如ZoeDepth、DepthAnything和UniDepth,通過2D框獲得裁剪圖像的深度圖。我們還包括一個可選的分支,該分支利用激光雷達(dá)點(diǎn)云和線性擬合函數(shù),通過將點(diǎn)云投影到圖像上來細(xì)化深度圖。同時,為了消除2D邊界框內(nèi)不屬于前景目標(biāo)的區(qū)域,我們利用Segment Anything Model(SAM)以2D框為提示對目標(biāo)進(jìn)行分割,從而產(chǎn)生分割掩碼。之后,我們可以使用像素坐標(biāo)、深度圖和相機(jī)參數(shù)為分割掩模構(gòu)建偽點(diǎn)云。我們將偽點(diǎn)云投影到特征圖和深度圖上,并通過插值將特征分配給每個點(diǎn)。然后,我們采用PointNet來提取偽點(diǎn)云的特征fp。同時,2D邊界框內(nèi)的深度圖和特征圖沿著通道維度連接,其特征fc是通過卷積和全局池化得到的。最后,我們利用MLP來預(yù)測具有fp和fc級聯(lián)特征的目標(biāo)的3D邊界框。

在此基線中,2D到3D Bbox Converter中只有少數(shù)參數(shù)是可訓(xùn)練的。因此,培訓(xùn)成本低。此外,在訓(xùn)練過程中,每個3D目標(biāo)都充當(dāng)此基線的數(shù)據(jù)點(diǎn),從而可以直接構(gòu)建多域數(shù)據(jù)集訓(xùn)練。

General and Specialized Models Fusion

在實驗中,我們發(fā)現(xiàn)現(xiàn)有的開放世界方法或通用模型在處理屬于常見類別的目標(biāo)方面不如閉集方法或?qū)S媚P?,但它們表現(xiàn)出更強(qiáng)的領(lǐng)域泛化能力和處理極端情況的能力。也就是說,現(xiàn)有的通用和專用模型是相輔相成的。因此,我們利用它們的優(yōu)勢,通過結(jié)合兩種模型的預(yù)測結(jié)果,提出了一個融合基線。具體來說,我們將兩種模型的置信度得分對齊,并使用雙閾值(即IoU和語義相似性)執(zhí)行非最大抑制(NMS),以過濾重復(fù)項。

實驗結(jié)果

圖片圖片圖片

圖片

結(jié)論

在本文中,我們介紹了OpenAD,這是第一個用于3D目標(biāo)檢測的開放世界自動駕駛基準(zhǔn)。OpenAD建立在與多模態(tài)大型語言模型集成的角案例發(fā)現(xiàn)和注釋管道之上。該管道以格式對齊五個自動駕駛感知數(shù)據(jù)集,并為2000個場景注釋角案例目標(biāo)。此外,我們還設(shè)計了評估方法,并分析了現(xiàn)有開放世界感知模型和自動駕駛專業(yè)模型的優(yōu)缺點(diǎn)。此外,為了應(yīng)對訓(xùn)練3D開放世界模型的挑戰(zhàn),我們提出了一種結(jié)合2D開放世界模型進(jìn)行3D開放世界感知的基線方法。此外,我們引入了一種融合基線方法,以利用開放世界模型和專用模型的優(yōu)勢。

通過對OpenAD進(jìn)行的評估,我們觀察到現(xiàn)有的開放世界模型在域內(nèi)上下文中仍然不如專門的模型,但它們表現(xiàn)出更強(qiáng)的域泛化和開放詞匯能力。值得注意的是,某些模型在域內(nèi)基準(zhǔn)測試上的改進(jìn)是以犧牲其開放世界能力為代價的,而其他模型則不是這樣。這種區(qū)別不能僅僅通過測試域內(nèi)基準(zhǔn)來揭示。

我們希望OpenAD可以幫助開發(fā)超越專業(yè)模型的開放世界感知模型,無論是在同一領(lǐng)域還是跨領(lǐng)域,無論是對于可見還是未知的語義類別。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-06-02 10:33:35

2022-07-13 10:20:14

自動駕駛3D算法

2022-01-20 11:17:27

自動駕駛智能汽車

2024-03-11 10:08:12

駕駛模型

2023-11-17 09:55:41

2018-05-14 08:55:58

自動駕駛數(shù)據(jù)人工智能

2021-12-24 10:00:19

自動駕駛數(shù)據(jù)汽車

2023-12-12 10:09:33

3D框架模型

2024-04-17 09:50:28

自動駕駛端到端

2022-01-18 10:51:09

自動駕駛數(shù)據(jù)人工智能

2024-11-27 09:28:00

2023-01-12 09:25:11

自動駕駛

2024-01-23 13:32:53

地平線自動駕駛

2023-12-01 10:37:20

自動駕駛3D

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2023-12-12 10:23:54

自動駕駛雷達(dá)視覺

2020-03-19 16:14:45

AI 數(shù)據(jù)人工智能

2022-10-27 10:18:25

自動駕駛

2024-06-05 09:22:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號