偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="azcqr"><track id="azcqr"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

北大王選最新OpenAD！助力自動駕駛邁向開放3D世界

作者：自動駕駛之心 2024-12-04 10:00:00

人工智能新聞

今天為大家分享北大最新的工作—OpenAD！自動駕駛?cè)孢~向開放3D檢測世界。

寫在前面 & 筆者的個人理解

開放世界自動駕駛包括域泛化和開放詞匯。領(lǐng)域泛化是指自動駕駛系統(tǒng)在不同場景和傳感器參數(shù)配置下的能力。開放詞匯是指識別訓(xùn)練中沒有遇到的各種語義類別的能力。在本文中，我們介紹了OpenAD，這是第一個用于3D目標(biāo)檢測的現(xiàn)實世界開放世界自動駕駛基準(zhǔn)。OpenAD建立在與多模態(tài)大型語言模型（MLLM）集成的角案例發(fā)現(xiàn)和標(biāo)注管道之上。所提出的管道以統(tǒng)一的格式為五個具有2000個場景的自動駕駛感知數(shù)據(jù)集標(biāo)注corner case目標(biāo)。此外，我們設(shè)計評估方法，評估各種2D和3D開放世界和專業(yè)模型。此外，我們提出了一種以視覺為中心的3D開放世界目標(biāo)檢測基線，并通過融合通用和專用模型進(jìn)一步引入了一種集成方法，以解決OpenAD基準(zhǔn)現(xiàn)有開放世界方法精度較低的問題。

項目鏈接：https://github.com/VDIGPKU/OpenAD

總結(jié)來說，本文的主要貢獻(xiàn)如下：

提出了一個開放世界基準(zhǔn)，同時評估目標(biāo)檢測器的領(lǐng)域泛化和開放詞匯表能力。據(jù)我們所知，這是3D開放世界物體檢測的第一個現(xiàn)實世界自動駕駛基準(zhǔn)。
設(shè)計了一個與MLLM集成的標(biāo)注管道，用于自動識別極端情況場景，并為異常目標(biāo)提供語義標(biāo)注。
提出了一種結(jié)合二維開放世界模型的三維開放世界感知基線方法。此外，我們分析了開放世界和專業(yè)模式的優(yōu)缺點，并進(jìn)一步介紹了一種融合方法來利用這兩種優(yōu)勢。

相關(guān)工作回顧

Benchmark for Open-world Object Detection

2D基準(zhǔn)。各種數(shù)據(jù)集已被用于2D開放詞匯表目標(biāo)檢測評估。最常用的是LVIS數(shù)據(jù)集，它包含1203個類別。

在自動駕駛領(lǐng)域，如表1所示，也提出了許多數(shù)據(jù)集。其中，CODA是一個用于自動駕駛中二維物體檢測的道路拐角案例數(shù)據(jù)集，包含1500個道路駕駛場景，其中包含34個類別的邊界框注釋。然而，一些數(shù)據(jù)集只提供語義分割注釋，沒有特定的實例，或者將目標(biāo)注釋為異常但缺乏語義標(biāo)簽。此外，從真實世界的駕駛數(shù)據(jù)中收集的數(shù)據(jù)集規(guī)模較小，而來自CARLA等模擬平臺的合成數(shù)據(jù)缺乏真實性，因此難以進(jìn)行有效的評估。相比之下，我們的OpenAD提供了來自真實世界數(shù)據(jù)的大規(guī)模2D和3D邊界框注釋，用于更全面的開放世界目標(biāo)檢測評估。

3D基準(zhǔn)。3D開放世界基準(zhǔn)測試可分為兩類：室內(nèi)和室外場景。對于室內(nèi)場景，SUN-RGBD和ScanNet是兩個經(jīng)常用于開放世界評估的真實世界數(shù)據(jù)集，分別包含約700和21個類別。對于戶外或自動駕駛場景，AnoVox是一個合成數(shù)據(jù)集，包含35個類別的實例掩碼，用于開放世界評估。然而，由于模擬資產(chǎn)有限，合成數(shù)據(jù)的質(zhì)量和實例多樣性不如真實世界的數(shù)據(jù)。除了AnoVox之外，現(xiàn)有的用于自動駕駛的真實數(shù)據(jù)3D目標(biāo)檢測數(shù)據(jù)集只包含少數(shù)目標(biāo)類別，很難用于評估開放世界模型。為了解決這個問題，我們提出了OpenAD，它由真實世界的數(shù)據(jù)構(gòu)建而成，包含206個出現(xiàn)在自動駕駛場景中的不同corner-case類別。

2D Open-world Object Detection Methods

為了解決分布外（OOD）或異常檢測問題，早期的方法通常采用決策邊界、聚類等來發(fā)現(xiàn)OOD目標(biāo)。最近的方法采用文本編碼器，即CLIP，將相應(yīng)類別標(biāo)簽的文本特征與框特征對齊。具體來說，OVR-CNN將圖像特征與字幕嵌入對齊。GLIP將目標(biāo)檢測和短語基礎(chǔ)統(tǒng)一用于預(yù)訓(xùn)練。OWL ViT v2使用預(yù)訓(xùn)練的檢測器在圖像-文本對上生成偽標(biāo)簽，以擴大檢測數(shù)據(jù)用于自訓(xùn)練。YOLO World采用YOLO類型的架構(gòu)進(jìn)行開放詞匯檢測，并取得了良好的效率。然而，所有這些方法在推理過程中都需要預(yù)定義的目標(biāo)類別。

最近，一些開放式方法提出利用自然語言解碼器提供語言描述，這使它們能夠直接從RoI特征生成類別標(biāo)簽。更具體地說，GenerateU引入了一種語言模型，可以直接從感興趣的區(qū)域生成類標(biāo)簽。DetClipv3引入了一個目標(biāo)字幕器，用于在推理過程中生成類標(biāo)簽和用于訓(xùn)練的圖像級描述。VL-SAM引入了一個無需訓(xùn)練的框架，其中注意力圖作為提示。

3D Open-world Object Detection Methods

與2D開放世界目標(biāo)檢測任務(wù)相比，由于訓(xùn)練數(shù)據(jù)集有限和3D環(huán)境復(fù)雜，3D開放世界目標(biāo)探測任務(wù)更具挑戰(zhàn)性。為了緩解這個問題，大多數(shù)現(xiàn)有的3D開放世界模型都來自預(yù)訓(xùn)練的2D開放世界模型，或者利用豐富的2D訓(xùn)練數(shù)據(jù)集。

例如，一些室內(nèi)3D開放世界檢測方法，如OV-3DET和INHA，使用預(yù)訓(xùn)練的2D目標(biāo)檢測器來引導(dǎo)3D檢測器找到新的目標(biāo)。同樣，Coda利用3D box幾何先驗和2D語義開放詞匯先驗來生成新類別的偽3D box標(biāo)簽。FM-OV3D利用穩(wěn)定擴散生成包含OOD目標(biāo)的數(shù)據(jù)。至于戶外方法，F(xiàn)nP在訓(xùn)練過程中使用區(qū)域VLMs和貪婪盒搜索器為新類生成注釋。OV-Uni3DETR利用來自其他2D數(shù)據(jù)集的圖像和由開放詞匯檢測器生成的2D邊界框或?qū)嵗诖a。

然而，這些現(xiàn)有的3D開放詞匯檢測模型在推理過程中需要預(yù)定義的目標(biāo)類別。為了解決這個問題，我們引入了一種以視覺為中心的開放式3D目標(biāo)檢測方法，該方法可以在推理過程中直接生成無限的類別標(biāo)簽。

OpenAD概覽

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

由于現(xiàn)有3D感知數(shù)據(jù)的規(guī)模有限，直接訓(xùn)練基于視覺的3D開放世界感知模型具有挑戰(zhàn)性。我們利用具有強大泛化能力的現(xiàn)有2D模型來解決這個問題，并為3D開放世界感知提出了一個以視覺為中心的基線。

如圖4所示，最初采用任意現(xiàn)有的二維開放世界目標(biāo)檢測方法來獲得二維邊界框及其相應(yīng)的語義標(biāo)簽。同時，緩存由2D模型的圖像編碼器生成的圖像特征圖。隨后，引入了一個結(jié)合了多個特征和一些可訓(xùn)練參數(shù)的2D到3D Bbox轉(zhuǎn)換器，將2D box轉(zhuǎn)換為3D box。

具體來說，我們使用現(xiàn)有的深度估計模型，如ZoeDepth、DepthAnything和UniDepth，通過2D框獲得裁剪圖像的深度圖。我們還包括一個可選的分支，該分支利用激光雷達(dá)點云和線性擬合函數(shù)，通過將點云投影到圖像上來細(xì)化深度圖。同時，為了消除2D邊界框內(nèi)不屬于前景目標(biāo)的區(qū)域，我們利用Segment Anything Model（SAM）以2D框為提示對目標(biāo)進(jìn)行分割，從而產(chǎn)生分割掩碼。之后，我們可以使用像素坐標(biāo)、深度圖和相機參數(shù)為分割掩模構(gòu)建偽點云。我們將偽點云投影到特征圖和深度圖上，并通過插值將特征分配給每個點。然后，我們采用PointNet來提取偽點云的特征fp。同時，2D邊界框內(nèi)的深度圖和特征圖沿著通道維度連接，其特征fc是通過卷積和全局池化得到的。最后，我們利用MLP來預(yù)測具有fp和fc級聯(lián)特征的目標(biāo)的3D邊界框。

在此基線中，2D到3D Bbox Converter中只有少數(shù)參數(shù)是可訓(xùn)練的。因此，培訓(xùn)成本低。此外，在訓(xùn)練過程中，每個3D目標(biāo)都充當(dāng)此基線的數(shù)據(jù)點，從而可以直接構(gòu)建多域數(shù)據(jù)集訓(xùn)練。

General and Specialized Models Fusion

在實驗中，我們發(fā)現(xiàn)現(xiàn)有的開放世界方法或通用模型在處理屬于常見類別的目標(biāo)方面不如閉集方法或?qū)Ｓ媚Ｐ?，但它們表現(xiàn)出更強的領(lǐng)域泛化能力和處理極端情況的能力。也就是說，現(xiàn)有的通用和專用模型是相輔相成的。因此，我們利用它們的優(yōu)勢，通過結(jié)合兩種模型的預(yù)測結(jié)果，提出了一個融合基線。具體來說，我們將兩種模型的置信度得分對齊，并使用雙閾值（即IoU和語義相似性）執(zhí)行非最大抑制（NMS），以過濾重復(fù)項。

實驗結(jié)果

結(jié)論

在本文中，我們介紹了OpenAD，這是第一個用于3D目標(biāo)檢測的開放世界自動駕駛基準(zhǔn)。OpenAD建立在與多模態(tài)大型語言模型集成的角案例發(fā)現(xiàn)和注釋管道之上。該管道以格式對齊五個自動駕駛感知數(shù)據(jù)集，并為2000個場景注釋角案例目標(biāo)。此外，我們還設(shè)計了評估方法，并分析了現(xiàn)有開放世界感知模型和自動駕駛專業(yè)模型的優(yōu)缺點。此外，為了應(yīng)對訓(xùn)練3D開放世界模型的挑戰(zhàn)，我們提出了一種結(jié)合2D開放世界模型進(jìn)行3D開放世界感知的基線方法。此外，我們引入了一種融合基線方法，以利用開放世界模型和專用模型的優(yōu)勢。

通過對OpenAD進(jìn)行的評估，我們觀察到現(xiàn)有的開放世界模型在域內(nèi)上下文中仍然不如專門的模型，但它們表現(xiàn)出更強的域泛化和開放詞匯能力。值得注意的是，某些模型在域內(nèi)基準(zhǔn)測試上的改進(jìn)是以犧牲其開放世界能力為代價的，而其他模型則不是這樣。這種區(qū)別不能僅僅通過測試域內(nèi)基準(zhǔn)來揭示。

我們希望OpenAD可以幫助開發(fā)超越專業(yè)模型的開放世界感知模型，無論是在同一領(lǐng)域還是跨領(lǐng)域，無論是對于可見還是未知的語義類別。

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛 3D 檢測

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="j9lub"></style>