偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

新世界大門打開!MambaBEV成功將Mamba2引入BEV目標(biāo)檢測(cè)

人工智能 新聞
MambaBEV是一種基于BEV范式和mamba2結(jié)構(gòu)的創(chuàng)新3D目標(biāo)檢測(cè)模型,充分利用時(shí)序信息以處理動(dòng)態(tài)場(chǎng)景。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

引言

MambaBEV是一個(gè)專為自動(dòng)駕駛系統(tǒng)設(shè)計(jì)的基于Mamba2的高效3D檢測(cè)模型。該模型利用了鳥瞰圖(BEV)范式,并整合了時(shí)序信息,同時(shí)提高了檢測(cè)的穩(wěn)定性和準(zhǔn)確性。在nuScences數(shù)據(jù)集上,該模型具有出色的表現(xiàn)。

圖片

對(duì)于自動(dòng)駕駛系統(tǒng)而言,更安全、準(zhǔn)確地進(jìn)行3D目標(biāo)檢測(cè)至關(guān)重要。歷史上,這些感知系統(tǒng)主要依賴霍夫變換和關(guān)鍵點(diǎn)提取等技術(shù)構(gòu)建基礎(chǔ)框架。然而,深度學(xué)習(xí)的興起使得感知精度的重大飛躍。

然而,單目相機(jī)的感知方法仍面臨諸多挑戰(zhàn),尤其是距離感知誤差大和盲區(qū)范圍廣,這些問題對(duì)駕駛安全構(gòu)成了顯著威脅。為了解決距離誤差問題,研究人員提出了雙目立體匹配技術(shù),通過利用一對(duì)相機(jī)捕獲圖像之間的視差,在一定程度上改善了距離估計(jì)的準(zhǔn)確性。然而,這些系統(tǒng)仍然存在關(guān)鍵的局限性:它們無法感知車輛側(cè)面和后部的物體及車道標(biāo)記,從而在自動(dòng)駕駛系統(tǒng)的安全范圍內(nèi)留下空白。

為了應(yīng)對(duì)這些局限性,最新的研究探索了使用環(huán)視相機(jī)系統(tǒng)進(jìn)行感知,該系統(tǒng)通常包括六個(gè)相機(jī)。這種方法為每個(gè)相機(jī)輸入部署獨(dú)立的深度學(xué)習(xí)模型,并依賴后處理技術(shù)將各個(gè)輸出整合為對(duì)環(huán)境的一致感知。盡管這種方法克服了單目和雙目系統(tǒng)的局限性,但也引入了一系列新挑戰(zhàn),包括大量的GPU內(nèi)存消耗、感知冗余、跨相機(jī)視圖的目標(biāo)重新識(shí)別,以及缺乏跨相機(jī)的信息交互。這些因素共同影響了感知系統(tǒng)的效率和有效性。

圖片

圖1 MambaBEV的框架。

圖片

為了解決這些障礙,基于鳥瞰圖(BEV)的范式作為一種有前景的解決方案應(yīng)運(yùn)而生。這種方法將多個(gè)相機(jī)的輸入整合到一個(gè)統(tǒng)一的BEV表示中,從而使車輛周圍環(huán)境的全面理解成為可能。通過直接將圖像數(shù)據(jù)映射到環(huán)境的俯視圖,BEV方法促進(jìn)了更準(zhǔn)確的距離估計(jì)和障礙物檢測(cè),同時(shí)有效解決了盲區(qū)問題。此外,這種方法還促進(jìn)了不同相機(jī)視圖之間的信息高效共享,從而增強(qiáng)了感知系統(tǒng)的整體魯棒性和可靠性。

另一個(gè)關(guān)鍵方面是處理時(shí)序數(shù)據(jù)。單幀檢測(cè)雖然簡(jiǎn)單,但常常因?yàn)閹g目標(biāo)遮擋和特征不明顯而錯(cuò)過檢測(cè)。為了解決這些問題,整合時(shí)序融合技術(shù),利用歷史特征來增強(qiáng)當(dāng)前特征,已被證明可以顯著提高模型性能。然而,傳統(tǒng)的時(shí)序融合范式主要依賴自注意力機(jī)制,導(dǎo)致高內(nèi)存消耗、有限的全局感受野,以及較慢的訓(xùn)練和推理速度。因此,開發(fā)一種新的時(shí)序融合方法以克服這些缺點(diǎn)具有重要的工程意義。

最近,一個(gè)專門處理序列的新模型mamba在多個(gè)下游任務(wù)中展現(xiàn)出巨大的潛力。Mamba2是mamba的改進(jìn)版本,在多個(gè)任務(wù)上顯示了更優(yōu)的性能。這種新方法采用基于塊分解的矩陣乘法,并利用GPU的存儲(chǔ)層次結(jié)構(gòu),從而提高了訓(xùn)練速度。將mamba2引入3D自動(dòng)駕駛感知是一個(gè)值得探索的方向。為了解決時(shí)序融合模塊面臨的問題,作者提出了MambaBEV,這是一個(gè)基于BEV的3D感知模型,使用了mamba2。據(jù)作者所知,這是首次將Mamba2整合到基于相機(jī)的3D目標(biāo)檢測(cè)網(wǎng)絡(luò)中。

圖片

作者提出了一種基于mamba2的3D目標(biāo)檢測(cè)范式,命名為MambaBEV。該方法采用了一個(gè)基于mamba-CNN的模塊,名為TemporalMamba,用于融合不同幀中的BEV特征。此外,作者在解碼器層設(shè)計(jì)了一種mamba-detr頭部,以進(jìn)一步優(yōu)化檢測(cè)效果。

A.預(yù)備知識(shí)

結(jié)構(gòu)化狀態(tài)空間模型(SSMs)是一類深度學(xué)習(xí)模型,特別適用于序列建模任務(wù)。通過利用這些結(jié)構(gòu)化公式,SSMs在表達(dá)性與計(jì)算效率之間提供了一種權(quán)衡,成為與基于注意力的模型(如Transformer)的一種有效替代。SSMs的公式代表了推進(jìn)深度學(xué)習(xí)中序列建模的一個(gè)有前景的方向。作者使用的基模型稱為Mamba2,它基于結(jié)構(gòu)化狀態(tài)空間(S4)序列模型,這些模型根植于連續(xù)系統(tǒng)。這些模型通過采取1-D輸入序列或函數(shù)和一個(gè)中間隱藏狀態(tài), ,如下所示:

它結(jié)合了一個(gè)可學(xué)習(xí)的步長,并采用零階保持將連續(xù)系統(tǒng)轉(zhuǎn)換為離散系統(tǒng)。注意,如果設(shè)置D為0,則可以忽略Du(t)。因此,方程(1)可以重寫為:

通過應(yīng)用數(shù)學(xué)歸納法,的最終輸出可以表示為:

其中M定義為:

表示從到的矩陣乘積,索引j和i分別表示第j個(gè)和第i個(gè)A,B,C矩陣。Mamba2中的變換矩陣M也符合N-序半可分離(SSS)表示的定義。因此,在Mamba2框架內(nèi),SSM和SSS的表示是等價(jià)的。這種等價(jià)性允許在涉及SSM的計(jì)算中高效利用結(jié)構(gòu)化矩陣乘法進(jìn)行SSS。為了實(shí)現(xiàn)這種方法,參數(shù)矩陣M被分解為對(duì)角塊和低秩塊,分別使用結(jié)構(gòu)化掩碼注意力(SMA)二次模式算法和SMA線性模式算法。此外,多頭注意力(MHA)被集成以增強(qiáng)模型的性能。

圖片

圖2 TemporalMamba的總體框架。

B.總體架構(gòu)

MambaBEV的主要結(jié)構(gòu)在圖1中展示。該模型可以總結(jié)為四個(gè)主要模塊:圖像特征編碼器、后向投影(SCA)、TemporalMamba和Mamba-DETR頭部。MambaBEV以六個(gè)相機(jī)圖像為輸入,并通過圖像特征編碼器生成六個(gè)多尺度特征圖。這些特征圖隨后被送入名為空間交叉注意力(SCA)的后向投影模塊,以生成BEV特征圖。

接下來,歷史BEV特征與當(dāng)前BEV特征進(jìn)行融合,用于指導(dǎo)生成新的當(dāng)前BEV特征。此過程由作者提出的TemporalMamba塊執(zhí)行。經(jīng)過多層處理后,最終使用mamba-DETR頭部作為3D目標(biāo)檢測(cè)的輸出模塊。

C. 圖像特征編碼器

圖像特征編碼器由兩部分組成:高效的主干和經(jīng)典的頸部。針對(duì)場(chǎng)景中不同視圖的六張圖片,作者使用在ImageNet上預(yù)訓(xùn)練的經(jīng)典ResNet-50、從FCOS3D檢查點(diǎn)初始化的ResNet-101-DCN,以及非常有效的VoV-99(同樣來自FCOS3D檢查點(diǎn))作為主干,以提取每張圖片的高級(jí)特征。Vmamba也可以作為主干。為了更好地提取特征并提升性能,作者采用經(jīng)典的特征金字塔網(wǎng)絡(luò)(FPN)生成多尺度特征。

圖片

圖3 Query重組。

D. TemporalMamba塊

對(duì)于傳統(tǒng)的基于注意力的時(shí)序融合塊,作者采用了可變形自注意力。Temporal Self-Attention(TSA)主要遵循以下流程:首先,給定歷史BEV特征圖和當(dāng)前特征圖,TSA將它們連接,并通過線性層生成注意力權(quán)重和偏移量。然后,每個(gè)查詢(代表BEV特征)根據(jù)權(quán)重進(jìn)行并行計(jì)算。然而,作者認(rèn)為這種方法存在一些副作用。盡管可變形注意力可以降低計(jì)算成本,但由于每個(gè)參考查詢僅允許與三個(gè)查詢交互,導(dǎo)致大尺寸物體特征在跨幀交互中受到限制。

模型使用了mamba以增強(qiáng)全局交互能力。首先,兩種模態(tài)的特征通過自我旋轉(zhuǎn)角度進(jìn)行變換,并通過一個(gè)卷積塊將維度從512壓縮到256,如圖2所示。

在處理歷史BEV特征圖和當(dāng)前特征圖(每個(gè)維度為256)時(shí),首先在第三維度將它們連接,連接后的特征分別經(jīng)過兩次帶有批歸一化的3x3卷積層和一次帶有批歸一化的1x1卷積層,然后將它們相加。

然后,作者對(duì)特征圖Z進(jìn)行離散重排,并通過mamba2塊處理。典型的mamba2塊是為自然語言處理設(shè)計(jì)的,旨在處理序列,但在應(yīng)用于視覺數(shù)據(jù)時(shí)面臨重大挑戰(zhàn)。因此,設(shè)計(jì)合適的離散重排方法至關(guān)重要。基于實(shí)驗(yàn)并受到Vmamba的啟發(fā),作者設(shè)計(jì)了四種不同方向的重排方法,并討論了這些方法在消融研究中的影響。

作者創(chuàng)新性地提出了一種多方向特征序列掃描機(jī)制,其中特征圖Z被離散序列化,并以四個(gè)方向:向前左、向前上、向后左和向后上重新組合,如圖3所示,形成新的序列作為Mamba2模型的輸入。值得注意的是,作者沒有采用蛇形螺旋重組合方法,因?yàn)樗麄冋J(rèn)為這種方法會(huì)導(dǎo)致相鄰特征之間的交互不平衡,一些相鄰特征可能過于接近,而其他特征則相距甚遠(yuǎn)。mamba輸出增強(qiáng)的序列特征,然后重新組合并恢復(fù)圖4中顯示的原始順序。接著,作者計(jì)算四個(gè)張量的平均值,并將以0.9的dropout率生成的增強(qiáng)融合BEV特征圖作為跳躍連接添加到當(dāng)前BEV特征圖中。

圖片

圖4 Query融合。

E. Mamba-DETR頭部

如圖1所示,作者重新設(shè)計(jì)了一個(gè)結(jié)合mamba和傳統(tǒng)DETR編碼器的mamba-DETR頭部。在此結(jié)構(gòu)中,900個(gè)目標(biāo)查詢首先在mamba2塊中進(jìn)行預(yù)處理,并相互之間進(jìn)行交互,承擔(dān)與自注意力相同的職責(zé)。隨后,mamba塊的輸出將像傳統(tǒng)的CustomMSDeformableAttention那樣,通過可變形注意力進(jìn)行處理。

圖片

在實(shí)驗(yàn)中,MambaBEV在nuScenes數(shù)據(jù)集上表現(xiàn)出色,其基礎(chǔ)版本實(shí)現(xiàn)了51.7%的NDS(nuScenes Detection Score)。此外,MambaBEV還在端到端自動(dòng)駕駛范式中進(jìn)行了測(cè)試,展現(xiàn)了良好的性能。在3D對(duì)象檢測(cè)任務(wù)中,MambaBEV-base相較于僅使用單幀的BEVFormer-S,在mAP和NDS上分別提高了3.51%和5.97%,充分顯示了TemporalMamba塊的有效性。當(dāng)添加TemporalMamba塊時(shí),平均速度誤差降低了37%,表明歷史信息,特別是經(jīng)過TemporalMamba塊處理的信息,可以顯著改善速度估計(jì),因?yàn)樗峁┝藢氋F的歷史位置信息。

圖片

表1 在nuScenes驗(yàn)證集上的3D目標(biāo)檢測(cè)結(jié)果。

圖片

表2 開環(huán)規(guī)劃性能。

圖片

表3 動(dòng)態(tài)預(yù)測(cè)。

圖片

表4 拼接方法與卷積方法的消融對(duì)比。

圖片

表5 不同窗口大小造成的影響。

圖片

表6 不同重排方法的比較

圖片

表7 BEV特征不同分辨率的影響

圖片

MambaBEV是一種基于BEV范式和mamba2結(jié)構(gòu)的創(chuàng)新3D目標(biāo)檢測(cè)模型,充分利用時(shí)序信息以處理動(dòng)態(tài)場(chǎng)景。在nuScenes數(shù)據(jù)集上實(shí)現(xiàn)51.7%的NDS,突出了其有效性和準(zhǔn)確性。通過引入TemporalMamba塊,MambaBEV有效整合歷史信息,改善速度估計(jì)和目標(biāo)檢測(cè)性能。與傳統(tǒng)卷積層和可變形自注意力相比,該模型在全局信息交換上更具優(yōu)勢(shì),并且優(yōu)化了計(jì)算成本。為適應(yīng)端到端的自動(dòng)駕駛范式,MambaBEV結(jié)合了mamba和傳統(tǒng)DETR編碼器的特性,展現(xiàn)出良好的潛力,尤其在自動(dòng)駕駛應(yīng)用中具有可觀的發(fā)展前景。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2018-01-02 13:24:53

2011-09-05 11:04:25

Ubuntu 11.1LightDM

2024-07-26 09:22:36

2022-05-10 09:19:29

異網(wǎng)漫游5G網(wǎng)絡(luò)

2023-03-20 21:44:10

微軟GPT-4AI

2023-09-05 09:58:27

2009-09-18 12:15:53

GoogleChrome 3.0HTML 5

2023-03-30 09:59:43

2024-06-04 14:06:00

2022-12-14 10:21:25

目標(biāo)檢測(cè)框架

2014-11-19 18:05:33

eLTE華為eLTE聯(lián)盟

2009-12-07 10:40:24

.NET 4.0

2015-03-18 14:02:25

生物識(shí)別認(rèn)證Windows10

2009-04-27 12:26:45

AMD單核Nehalem

2015-03-27 15:47:15

IBM沃森認(rèn)知計(jì)算

2010-10-16 16:26:48

WiMAX

2024-07-17 12:13:11

2024-03-04 08:00:00

PythonOrange3機(jī)器學(xué)習(xí)

2022-05-05 11:17:55

人工智能AI

2021-07-24 13:20:40

iOS應(yīng)用系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)