偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="ctjga"><mark id="ctjga"></mark></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Transformer統(tǒng)一化3D目標檢測基于體素的表征

作者：黃浴 2022-12-29 11:57:43

人工智能新聞

本文提出一個統(tǒng)一的多模態(tài)3-D目標檢測框架，稱為UVTR。

arXiv論文“Unifying Voxel-based Representation with Transformer for 3D Object Detection“，22年6月，香港中文大學、香港大學、曠視科技（紀念孫劍博士）和思謀科技等。

本文提出一個統(tǒng)一的多模態(tài)3-D目標檢測框架，稱為UVTR。該方法旨在統(tǒng)一體素空間的多模態(tài)表示，實現(xiàn)準確、穩(wěn)健的單模態(tài)或跨模態(tài)3-D檢測。為此，首先設計模態(tài)特定空間來表示體素特征空間的不同輸入。在不進行高度信息（height）壓縮的情況下保留體素空間，減輕語義歧義并實現(xiàn)空間交互?；谶@種統(tǒng)一方式，提出跨模態(tài)交互，充分利用不同傳感器的固有特性，包括知識遷移和模態(tài)融合。通過這種方式，可以很好地利用點云的幾何-覺察表達式和圖像中上下文豐富的特征，獲得更好的性能和魯棒性。

transformer解碼器用于從具備可學習位置的統(tǒng)一空間中高效采樣特征，這有助于目標級交互。一般來說，UVTR代表在統(tǒng)一框架中表示不同模態(tài)的早期嘗試，在單模態(tài)和多模態(tài)輸入方面優(yōu)于以往的工作，在nuScenes測試集上取得了領先的性能，激光雷達、相機和多模態(tài)輸出的NDS分別為69.7%、55.1%和71.1%。

代碼：https://github.com/dvlab-research/UVTR.

如圖所示：

在表征統(tǒng)一過程中，可以大致分為輸入級流和特征級流的表示。對于第一種方法，多模態(tài)數(shù)據(jù)在網(wǎng)絡開始時對齊。特別是，圖（a）中的偽點云是從預測深度輔助的圖像轉換而來的，而圖（b）中的距離視圖圖像是從點云投影而來的。由于偽點云的深度不準確和距離視圖圖像中的3-D幾何塌陷，數(shù)據(jù)的空間結構受到破壞，從而導致較差的結果。對于特征級方法，典型的方法是將圖像特征轉換為截錐（frustum），然后壓縮到BEV空間，如圖（c）所示。然而，由于其類似射線的軌跡，每個位置的高度信息（height）壓縮聚合了各種目標的特征，因此引入了語義多義。同時，他隱式方式很難支持3-D空間中的顯式特征交互，并限制進一步的知識遷移。因此，需要一種更統(tǒng)一的表示法彌合模態(tài)的差距，并促進多方面的交互。

本文提出的框架，將基于體素的表示與transformer統(tǒng)一起來。特別是，在基于體素的顯式空間中圖像和點云的特征表征和交互。對于圖像，根據(jù)預測的深度和幾何約束，從圖像平面采樣特征來構建體素空間，如圖（d）所示。對于點云，準確的位置自然允許特征與體素相關聯(lián)。然后，引入體素編碼器進行空間交互，建立相鄰特征之間的關系。這樣，跨模態(tài)交互自然地與每個體素空間的特征進行。對于目標級交互，采用可變形transformer作為解碼器，對統(tǒng)一體素空間中每個位置（x、y、z）的目標查詢特定特征進行采樣，如圖（d）所示。同時，3-D查詢位置的引入有效地緩解了BEV空間中高度信息（height）壓縮帶來的語義多義。

如圖是多模態(tài)輸入的UVTR架構：給定單幀或多幀圖像和點云，首先在單個主干進行處理，并將其轉換為特定于模態(tài)的空間VI和VP，其中視圖轉換用于圖像。在體素編碼器中，特征在空間上相互作用，并且知識遷移在訓練期間易于支持。根據(jù)不同的設置，通過模態(tài)開關選擇單模態(tài)或多模態(tài)特征。最后，從具備可學習位置的統(tǒng)一空間VU中采樣特征，利用transformer解碼器進行預測。

如圖是視圖變換的細節(jié)：

如圖是知識遷移的細節(jié)：

實驗結果如下：

責任編輯：張燕妮來源：知乎

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="svqt6"></sub>