偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Transformer統(tǒng)一化3D目標(biāo)檢測基于體素的表征

人工智能 新聞
本文提出一個(gè)統(tǒng)一的多模態(tài)3-D目標(biāo)檢測框架,稱為UVTR。

arXiv論文“Unifying Voxel-based Representation with Transformer for 3D Object Detection“,22年6月,香港中文大學(xué)、香港大學(xué)、曠視科技(紀(jì)念孫劍博士)和思謀科技等。

本文提出一個(gè)統(tǒng)一的多模態(tài)3-D目標(biāo)檢測框架,稱為UVTR。該方法旨在統(tǒng)一體素空間的多模態(tài)表示,實(shí)現(xiàn)準(zhǔn)確、穩(wěn)健的單模態(tài)或跨模態(tài)3-D檢測。為此,首先設(shè)計(jì)模態(tài)特定空間來表示體素特征空間的不同輸入。在不進(jìn)行高度信息(height)壓縮的情況下保留體素空間,減輕語義歧義并實(shí)現(xiàn)空間交互。基于這種統(tǒng)一方式,提出跨模態(tài)交互,充分利用不同傳感器的固有特性,包括知識(shí)遷移和模態(tài)融合。通過這種方式,可以很好地利用點(diǎn)云的幾何-覺察表達(dá)式和圖像中上下文豐富的特征,獲得更好的性能和魯棒性。

transformer解碼器用于從具備可學(xué)習(xí)位置的統(tǒng)一空間中高效采樣特征,這有助于目標(biāo)級(jí)交互。一般來說,UVTR代表在統(tǒng)一框架中表示不同模態(tài)的早期嘗試,在單模態(tài)和多模態(tài)輸入方面優(yōu)于以往的工作,在nuScenes測試集上取得了領(lǐng)先的性能,激光雷達(dá)、相機(jī)和多模態(tài)輸出的NDS分別為69.7%、55.1%和71.1%。

代碼:https://github.com/dvlab-research/UVTR.

如圖所示:

在表征統(tǒng)一過程中,可以大致分為輸入級(jí)流和特征級(jí)流的表示。對于第一種方法,多模態(tài)數(shù)據(jù)在網(wǎng)絡(luò)開始時(shí)對齊。特別是,圖(a)中的偽點(diǎn)云是從預(yù)測深度輔助的圖像轉(zhuǎn)換而來的,而圖(b)中的距離視圖圖像是從點(diǎn)云投影而來的。由于偽點(diǎn)云的深度不準(zhǔn)確和距離視圖圖像中的3-D幾何塌陷,數(shù)據(jù)的空間結(jié)構(gòu)受到破壞,從而導(dǎo)致較差的結(jié)果。對于特征級(jí)方法,典型的方法是將圖像特征轉(zhuǎn)換為截錐(frustum),然后壓縮到BEV空間,如圖(c)所示。然而,由于其類似射線的軌跡,每個(gè)位置的高度信息(height)壓縮聚合了各種目標(biāo)的特征,因此引入了語義多義。同時(shí),他隱式方式很難支持3-D空間中的顯式特征交互,并限制進(jìn)一步的知識(shí)遷移。因此,需要一種更統(tǒng)一的表示法彌合模態(tài)的差距,并促進(jìn)多方面的交互。

本文提出的框架,將基于體素的表示與transformer統(tǒng)一起來。特別是,在基于體素的顯式空間中圖像和點(diǎn)云的特征表征和交互。對于圖像,根據(jù)預(yù)測的深度和幾何約束,從圖像平面采樣特征來構(gòu)建體素空間,如圖(d)所示。對于點(diǎn)云,準(zhǔn)確的位置自然允許特征與體素相關(guān)聯(lián)。然后,引入體素編碼器進(jìn)行空間交互,建立相鄰特征之間的關(guān)系。這樣,跨模態(tài)交互自然地與每個(gè)體素空間的特征進(jìn)行。對于目標(biāo)級(jí)交互,采用可變形transformer作為解碼器,對統(tǒng)一體素空間中每個(gè)位置(x、y、z)的目標(biāo)查詢特定特征進(jìn)行采樣,如圖(d)所示。同時(shí),3-D查詢位置的引入有效地緩解了BEV空間中高度信息(height)壓縮帶來的語義多義。

如圖是多模態(tài)輸入的UVTR架構(gòu):給定單幀或多幀圖像和點(diǎn)云,首先在單個(gè)主干進(jìn)行處理,并將其轉(zhuǎn)換為特定于模態(tài)的空間VI和VP,其中視圖轉(zhuǎn)換用于圖像。在體素編碼器中,特征在空間上相互作用,并且 知識(shí)遷移在訓(xùn)練期間易于支持。根據(jù)不同的設(shè)置,通過模態(tài)開關(guān)選擇單模態(tài)或多模態(tài)特征。最后,從具備可學(xué)習(xí)位置的統(tǒng)一空間VU中采樣特征,利用transformer解碼器進(jìn)行預(yù)測。

如圖是視圖變換的細(xì)節(jié):

如圖是知識(shí)遷移的細(xì)節(jié):

實(shí)驗(yàn)結(jié)果如下:

責(zé)任編輯:張燕妮 來源: 知乎
相關(guān)推薦

2024-05-24 10:16:01

2023-10-09 09:42:18

自動(dòng)駕駛模型

2025-01-22 13:15:10

2023-12-20 09:55:51

雷達(dá)傳感器算法

2024-01-26 10:02:51

自動(dòng)駕駛3D

2023-12-07 13:07:59

3D模型訓(xùn)練

2021-03-18 15:29:10

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-12-13 10:17:05

技術(shù)目標(biāo)檢測

2022-02-14 11:37:59

自動(dòng)駕駛算法技術(shù)

2023-10-27 09:57:54

2023-12-12 10:09:33

3D框架模型

2023-12-14 11:18:16

視覺檢測

2013-05-31 15:48:44

Atheer增強(qiáng)現(xiàn)實(shí)D11

2020-03-12 14:19:49

AI 數(shù)據(jù)人工智能

2011-05-06 13:05:12

微星3D

2025-08-14 18:11:01

自動(dòng)駕駛3DAI

2025-10-27 09:09:00

2012-09-12 13:23:11

麗臺(tái)VMware Vi

2023-12-04 09:41:49

算法自動(dòng)駕駛

2024-07-18 06:58:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)