偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)3D再進(jìn)化!DeepInteraction++:融合感知算法新SOTA(復(fù)旦)

人工智能 新聞
今天為大家分享復(fù)旦大學(xué)最新的多模態(tài)3D檢測(cè)工作—DeepInteraction!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

目前隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,安全的自動(dòng)駕駛車輛需要依賴可靠和準(zhǔn)確的場(chǎng)景感知,其中3D目標(biāo)檢測(cè)是非常核心的一項(xiàng)任務(wù)。自動(dòng)駕駛中的感知模塊通過(guò)定位和識(shí)別周圍3D世界中的決策敏感物體,從而為下游的規(guī)控模塊做出準(zhǔn)確的決策提供保障。

自動(dòng)駕駛車輛為了輸出準(zhǔn)確和可靠的感知結(jié)果,通常均會(huì)配備激光雷達(dá)、相機(jī)、毫米波雷達(dá)以及超聲波雷達(dá)等多種傳感器采集設(shè)備。為了增強(qiáng)自動(dòng)駕駛車輛的感知能力,目前大多數(shù)自動(dòng)駕駛汽車都同時(shí)部署了激光雷達(dá)和攝像頭傳感器,分別提供3D點(diǎn)云和RGB圖像。由于兩種傳感器的感知特性不同,它們自然表現(xiàn)出強(qiáng)烈的互補(bǔ)效應(yīng)。點(diǎn)云涉及必要的目標(biāo)定位和幾何信息,具有稀疏表示的特性,而2D圖像則以高分辨率的形式提供豐富的目標(biāo)外觀和語(yǔ)義信息。因此,跨模態(tài)的專用信息融合對(duì)于強(qiáng)大的場(chǎng)景感知尤為重要。

目前常用的多模態(tài)3D目標(biāo)檢測(cè)方法通常采用如下圖(a)圖的融合策略,將各個(gè)模態(tài)的表示組合成混合的特征。然而,這種融合方法在結(jié)構(gòu)上受到限制,由于信息融合到統(tǒng)一表示的過(guò)程中存在很大程度上的不完善,所以可能會(huì)丟失很大一部分特定模態(tài)的表示信息。

針對(duì)上述提到的相關(guān)問(wèn)題,并為了克服上述提到的相關(guān)挑戰(zhàn),我們提出了一種新穎的模態(tài)交互策略,稱之為DeepInteraction++,相關(guān)的融合結(jié)構(gòu)如下圖的(b)圖所示。

圖片

各類不同的多模態(tài)融合感知算法架構(gòu)對(duì)比

我們工作的核心思路是學(xué)習(xí)和維護(hù)多種特定模態(tài)的特征表示,而不是得出單一模態(tài)的融合表示。我們提出的方法實(shí)現(xiàn)了模態(tài)間的交互,允許自發(fā)交換信息并保留特定模態(tài)的信息優(yōu)勢(shì),同時(shí)最小化不同模態(tài)之間的干擾。具體來(lái)說(shuō),我們首先使用兩個(gè)獨(dú)立的特征提取主干網(wǎng)絡(luò),以并行的方式將3D空間的點(diǎn)云數(shù)據(jù)和2D平面的多視圖圖像映射到多尺度的LiDAR BEV特征和相機(jī)全景特征中。隨后,我們使用編碼器以雙邊方式交互異構(gòu)特征來(lái)進(jìn)行漸進(jìn)式表示學(xué)習(xí)和集成。為了充分利用每個(gè)模態(tài)的特征表達(dá),我們?cè)O(shè)計(jì)了一個(gè)解碼器以級(jí)聯(lián)方式進(jìn)行多模態(tài)預(yù)測(cè)交互,以產(chǎn)生更準(zhǔn)確的感知結(jié)果。大量實(shí)驗(yàn)證明了我們提出的DeepInteraction++框架在3D目標(biāo)檢測(cè)和端到端自動(dòng)駕駛?cè)蝿?wù)上均具有卓越的性能。

論文鏈接:https://www.arxiv.org/pdf/2408.05075

代碼鏈接:https://github.com/fudan-zvg/DeepInteraction

網(wǎng)絡(luò)模型的整體架構(gòu)和細(xì)節(jié)梳理

在詳細(xì)介紹本文提出的DeepInteraction++算法模型之前,下圖整體展示了提出的DeepInteraction++算法模型的網(wǎng)絡(luò)結(jié)構(gòu)。

圖片

提出DeepInteraction算法模型的整體框架圖

與現(xiàn)有技術(shù)相比,本文提出的算法模型在整個(gè)檢測(cè)流程中為激光雷達(dá)點(diǎn)云和相機(jī)圖像模態(tài)保留兩種不同的特征表示,同時(shí)通過(guò)多模態(tài)的交互策略實(shí)現(xiàn)了不同模態(tài)信息交換和聚合,而不是創(chuàng)建單一的模態(tài)融合表示。通過(guò)上圖的網(wǎng)絡(luò)結(jié)構(gòu)可以看出,提出的DeepInteraction++由兩個(gè)主要模塊組成:具有多模態(tài)表征交互的編碼器模塊和具有多模態(tài)預(yù)測(cè)交互的解碼器模塊。編碼器實(shí)現(xiàn)模態(tài)之間的信息交換和集成,同時(shí)通過(guò)多模態(tài)表征交互保持每個(gè)模態(tài)的單獨(dú)場(chǎng)景表達(dá)。解碼器從單獨(dú)的模態(tài)特定表示中聚合信息,并以統(tǒng)一的模態(tài)無(wú)關(guān)方式迭代細(xì)化檢測(cè)結(jié)果。

編碼器:實(shí)現(xiàn)多模態(tài)的表達(dá)交互

與通常將多個(gè)模態(tài)的輸入特征聚合到一個(gè)混合特征圖的傳統(tǒng)模態(tài)融合策略不同,我們?cè)O(shè)計(jì)的編碼器模塊采用了多輸入多輸出的結(jié)構(gòu),通過(guò)多模態(tài)表達(dá)交互的方式來(lái)維護(hù)和增強(qiáng)單個(gè)模態(tài)的特征,其編碼器的網(wǎng)絡(luò)結(jié)構(gòu)如上圖中的(a)圖所示。整體而言,編碼器模塊將激光雷達(dá)和圖像主干獨(dú)立提取的兩個(gè)特定模態(tài)場(chǎng)景表示特征作為輸入,并產(chǎn)生兩個(gè)精修的特征表達(dá)作為輸出。具體而言,編碼器模塊由堆疊多個(gè)多模態(tài)表征交互編碼器層組成。在每一層中,來(lái)自不同模態(tài)的特征參與多模態(tài)表征交互和模態(tài)內(nèi)表征學(xué)習(xí),以實(shí)現(xiàn)模態(tài)間和模態(tài)內(nèi)的交互過(guò)程。

雙流Transformer的交互編碼器模塊

在之前DeepInteraction算法模型的基礎(chǔ)上,為了進(jìn)一步推動(dòng)更高的可擴(kuò)展性和降低計(jì)算開(kāi)銷,我們通過(guò)將原始編碼器層替換為一對(duì)自定義的注意交互機(jī)制的Transformer層來(lái)實(shí)現(xiàn)。此外,多模態(tài)表達(dá)交互模塊中的并行模態(tài)內(nèi)和模態(tài)間表征學(xué)習(xí)現(xiàn)在用作重構(gòu)架構(gòu)中的自注意和交叉注意操作。這里,我們以激光雷達(dá)分支為例,每個(gè)Transformer層內(nèi)的計(jì)算可以表示為如下的情況:

其中公式中的FFN表示前饋網(wǎng)絡(luò)層,LN表示層歸一化,SA和CA分別為表示多模表達(dá)交互和模態(tài)內(nèi)表征學(xué)習(xí)。圖像分支中的Transformer 層遵循類似的設(shè)計(jì)。

多模態(tài)表達(dá)交互

模態(tài)內(nèi)表征學(xué)習(xí)

除了直接合并來(lái)自異構(gòu)模態(tài)的信息之外,模態(tài)內(nèi)推理還有助于更全面地整合這些表征。因此,在編碼器的每一層中,我們進(jìn)行與多模態(tài)交互互補(bǔ)的模態(tài)內(nèi)表征學(xué)習(xí)。在本文中,我們利用可變形注意力進(jìn)行模態(tài)內(nèi)表征學(xué)習(xí)。同時(shí),考慮到透視投影引入的尺度差異,相比于固定局部鄰域內(nèi)的交叉注意力,具有更靈活感受野的交互操作更為合理,從而在保持原有高效局部計(jì)算的同時(shí),實(shí)現(xiàn)了更靈活的感受野,并促進(jìn)了多尺度的信息交互。

分組稀疏注意力實(shí)現(xiàn)高效交互

考慮到激光雷達(dá)點(diǎn)云固有的稀疏性,激光雷達(dá)點(diǎn)的數(shù)量在Pillar內(nèi)會(huì)根據(jù)其位置而變化,并且單個(gè)Pillar內(nèi)的點(diǎn)最多只能被兩個(gè)攝像頭看到。因此,為了在圖像到激光雷達(dá)的表示交互期間充分利用GPU的并行計(jì)算能力,我們仔細(xì)檢查每個(gè)Pillar中有效圖像標(biāo)記數(shù)量的分布,并將這些Pillar劃分為幾個(gè)區(qū)間,然后,我們通過(guò)將鍵和值的數(shù)量填充到間隔的上限來(lái)批量處理每個(gè)間隔內(nèi)的支柱,以進(jìn)行注意力計(jì)算。通過(guò)仔細(xì)選擇間隔邊界,可顯著減少內(nèi)存消耗,而對(duì)并行性的影響可忽略不計(jì)。

解碼器:多模態(tài)預(yù)測(cè)交互

除了考慮表示層面的多模態(tài)交互之外,我們還引入了具有多模態(tài)預(yù)測(cè)交互的解碼器來(lái)進(jìn)行預(yù)測(cè),其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

圖片多模態(tài)預(yù)測(cè)交互模塊網(wǎng)絡(luò)結(jié)構(gòu)圖

通過(guò)上圖的(a)圖可以看出,我們的核心思想是增強(qiáng)一種模態(tài)在另一種模態(tài)條件下的3D目標(biāo)檢測(cè)。具體來(lái)說(shuō),解碼器是通過(guò)堆疊多個(gè)多模態(tài)預(yù)測(cè)交互層來(lái)構(gòu)建的,其中部署預(yù)測(cè)交互以通過(guò)交替聚合來(lái)自增強(qiáng)圖像表示和增強(qiáng)BEV表示的信息來(lái)逐步細(xì)化預(yù)測(cè)過(guò)程。

端到端的自動(dòng)駕駛

為了進(jìn)一步證明我們提出的DeepInteraction++的可擴(kuò)展性和優(yōu)越性,我們將DeepInteraction++擴(kuò)展為端到端多任務(wù)框架,同時(shí)解決場(chǎng)景感知、運(yùn)動(dòng)預(yù)測(cè)和規(guī)劃任務(wù)。具體而言,在使用了現(xiàn)有的檢測(cè)頭之外,我們還使用了額外的任務(wù)頭來(lái)形成端到端框架,包括用于地圖分割的分割頭、用于估計(jì)被檢測(cè)物體運(yùn)動(dòng)狀態(tài)的預(yù)測(cè)頭和用于為自我車輛提供最終行動(dòng)計(jì)劃的規(guī)劃頭??紤]到來(lái)自BEV和周圍視圖的特征圖用于深度交互式解碼,我們做了一些修改以利用這一優(yōu)勢(shì)。首先,與激光雷達(dá)點(diǎn)云相比,圖像上下文對(duì)于地圖表示更具辨別性,而大量的點(diǎn)云信息可能會(huì)反過(guò)來(lái)造成混淆。因此,我們通過(guò)LSS將周圍視圖特征投影到BEV上,然后將它們傳播到地圖分割頭中。隨后,預(yù)測(cè)和規(guī)劃頭將檢測(cè)和分割生成的結(jié)果作為輸入,并使用標(biāo)準(zhǔn)Transformer解碼器對(duì)其進(jìn)行處理,從而實(shí)現(xiàn)端到端的自動(dòng)駕駛?cè)蝿?wù)。

實(shí)驗(yàn)

為了驗(yàn)證我們提出算法模型的有效性,我們?cè)趎uScenes的驗(yàn)證集和測(cè)試集上與其它SOTA算法模型進(jìn)行了對(duì)比,相關(guān)的實(shí)驗(yàn)結(jié)果如下圖所示。

圖片

不同算法模型在nuScenes數(shù)據(jù)集上的精度對(duì)比

通過(guò)上述的實(shí)驗(yàn)結(jié)果可以看出,我們提出的DeepInteraction++算法模型實(shí)現(xiàn)了SOTA的感知性能。此外,為了進(jìn)一步直觀的展現(xiàn)我們提出算法模型的效果,我們將模型的檢測(cè)結(jié)果進(jìn)行了可視化,如下圖所示。

圖片算法模型的可視化結(jié)果

此外,為了展現(xiàn)我們提出的DeepInteraction++框架在端到端任務(wù)上的性能,我們也在nuScenes的驗(yàn)證集上比較了SOTA算法模型的端到端的規(guī)劃性能,具體的性能指標(biāo)如下圖所示。

圖片

不同算法模型的planning性能

上述的實(shí)驗(yàn)結(jié)果表明我們提出的算法框架在大多數(shù)評(píng)估指標(biāo)上顯著超越了現(xiàn)有的面向規(guī)劃的方法。除了提供更準(zhǔn)確的規(guī)劃軌跡外,DeepInteraction++ 還可以通過(guò)對(duì)交通參與者進(jìn)行更精確、更全面的感知和預(yù)測(cè)來(lái)實(shí)現(xiàn)更低的碰撞率。為了更加直觀的展現(xiàn)我們模型的planning性能,我們也將相關(guān)的結(jié)果進(jìn)行了可視化,如下圖所示。

圖片端到端planning任務(wù)的性能對(duì)比情況

通過(guò)上圖的可視化結(jié)果可以看出,通過(guò)整合多模態(tài)信息并采用有意義的融合策略,我們提出的方法可以全面理解和分析駕駛場(chǎng)景,從而即使在復(fù)雜而錯(cuò)綜復(fù)雜的駕駛環(huán)境中也能做出更合理的規(guī)劃行為。此外,由于上游的精準(zhǔn)感知,DeepInteraction++能夠有效避免因累積誤差而導(dǎo)致的錯(cuò)誤動(dòng)作,如上圖中的第三行所示。

結(jié)論

在本文中,我們提出了一種新穎的多模態(tài)交互方法DeepInteraction++,用于探索自動(dòng)駕駛?cè)蝿?wù)中內(nèi)在的多模態(tài)互補(bǔ)性及其各自模態(tài)的特性。大量的實(shí)驗(yàn)結(jié)果表明,我們提出的方法在nuScenes數(shù)據(jù)集上的3D目標(biāo)檢測(cè)以及端到端任務(wù)上取得了最先進(jìn)的性能。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-04-17 09:56:24

算法模型

2025-01-07 09:11:07

2025-02-12 10:20:00

2024-04-19 12:38:20

3D檢測(cè)

2023-06-20 16:19:00

機(jī)器3D

2023-06-02 10:33:35

2023-11-22 09:53:02

自動(dòng)駕駛算法

2024-01-15 10:38:24

3D框架

2022-07-13 10:20:14

自動(dòng)駕駛3D算法

2024-04-24 11:23:11

3D檢測(cè)雷達(dá)

2023-09-25 14:53:55

3D檢測(cè)

2024-09-30 09:52:39

2022-01-20 11:17:27

自動(dòng)駕駛智能汽車

2023-10-07 09:29:09

2025-06-17 02:25:00

工業(yè)異常檢測(cè)

2025-05-06 08:40:00

2025-03-10 08:25:00

機(jī)器人AI模型

2025-01-26 11:00:00

2022-12-14 10:21:25

目標(biāo)檢測(cè)框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)