偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擴(kuò)散一切?3DifFusionDet:擴(kuò)散模型殺進(jìn)LV融合3D目標(biāo)檢測(cè)!

人工智能 智能汽車
3DifFusionDet框架將3D目標(biāo)檢測(cè)表示為從有噪聲的3D框到目標(biāo)框的去噪擴(kuò)散過(guò)程。在這個(gè)框架中,真值框以隨機(jī)分布擴(kuò)散進(jìn)行訓(xùn)練,模型學(xué)習(xí)反向噪聲過(guò)程。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

筆者的個(gè)人理解

近年來(lái),擴(kuò)散模型在生成任務(wù)上非常成功,自然而然被擴(kuò)展到目標(biāo)檢測(cè)任務(wù)上,它將目標(biāo)檢測(cè)建模為從噪聲框(noisy boxes)到目標(biāo)框(object boxes)的去噪擴(kuò)散過(guò)程。在訓(xùn)練階段,目標(biāo)框從真值框(ground-truth boxes)擴(kuò)散到隨機(jī)分布,模型學(xué)習(xí)如何逆轉(zhuǎn)這種向真值標(biāo)注框添加噪聲過(guò)程。在推理階段,模型以漸進(jìn)的方式將一組隨機(jī)生成的目標(biāo)框細(xì)化為輸出結(jié)果。與傳統(tǒng)目標(biāo)檢測(cè)方法相比,傳統(tǒng)目標(biāo)檢測(cè)依賴于一組固定的可學(xué)習(xí)查詢,3DifFusionDet不需要可學(xué)習(xí)的查詢就能進(jìn)行目標(biāo)檢測(cè)。

3DifFusionDet的主要思路

3DifFusionDet框架將3D目標(biāo)檢測(cè)表示為從有噪聲的3D框到目標(biāo)框的去噪擴(kuò)散過(guò)程。在這個(gè)框架中,真值框以隨機(jī)分布擴(kuò)散進(jìn)行訓(xùn)練,模型學(xué)習(xí)反向噪聲過(guò)程。在推理過(guò)程中,模型逐漸細(xì)化了一組隨機(jī)生成的框。在特征對(duì)齊策略下,漸進(jìn)細(xì)化方法可以對(duì)激光雷達(dá)-Camera融合做出重要貢獻(xiàn)。迭代細(xì)化過(guò)程還可以通過(guò)將該框架應(yīng)用于需要不同級(jí)別的精度和速度的各種檢測(cè)環(huán)境,從而顯示出極大的適應(yīng)性。KITTI是一個(gè)真實(shí)交通目標(biāo)識(shí)別的基準(zhǔn),在KITTI上進(jìn)行了大量的實(shí)驗(yàn)表明,與早期的檢測(cè)器相比,在KITTI能夠取得良好的性能。

3DifFusionDet主要貢獻(xiàn)如下:

  • 將3D目標(biāo)檢測(cè)表示為生成式去噪過(guò)程,并提出了 3DifFusionDet,這是第一個(gè)將diffusion模型應(yīng)用于 3D目標(biāo)檢測(cè)的研究。
  • 研究了生成去噪過(guò)程框架下的最佳Camera-LiDAR 融合對(duì)齊策略,并提出了 2 個(gè)分支融合對(duì)齊策略以利用兩種模態(tài)提供的互補(bǔ)信息。
  • 在 KITTI 基準(zhǔn)測(cè)試上進(jìn)行了大量的實(shí)驗(yàn)。與現(xiàn)有精心設(shè)計(jì)的方法相比,3DifFusionDet 取得了有競(jìng)爭(zhēng)力的結(jié)果,展示了diffusion模型在 3D目標(biāo)檢測(cè)任務(wù)中的前景。

使用 LiDAR-Camera融合進(jìn)行 3D 目標(biāo)檢測(cè)

對(duì)于 3D 目標(biāo)檢測(cè),Camera和 LiDAR 是兩種互補(bǔ)的傳感器類型。LiDAR 傳感器專注于 3D 定位,并提供有關(guān) 3D 結(jié)構(gòu)的豐富信息,而Camera則提供顏色信息,從中可以導(dǎo)出豐富的語(yǔ)義特征。為了通過(guò)融合來(lái)自攝像機(jī)和 LiDAR 的數(shù)據(jù)來(lái)準(zhǔn)確檢測(cè) 3D 目標(biāo),人們做出了許多努力。最先進(jìn)的方法主要基于 LiDAR 基于 3D 目標(biāo)檢測(cè)器,并努力將圖像信息納入 LiDAR 檢測(cè)流程的各個(gè)階段,因?yàn)榛?LiDAR 的檢測(cè)方法的性能明顯優(yōu)于基于Camera的方法。由于基于激光雷達(dá)和基于Camera的檢測(cè)系統(tǒng)的復(fù)雜性,將兩種模式結(jié)合起來(lái)必然會(huì)增加計(jì)算成本和推理時(shí)間延遲。因此,有效融合多種模式信息的問(wèn)題仍然存在。

擴(kuò)散模型

擴(kuò)散模型是一種生成模型,它通過(guò)引入噪聲來(lái)逐漸解構(gòu)觀察到的數(shù)據(jù),并通過(guò)反轉(zhuǎn)該過(guò)程來(lái)恢復(fù)原始數(shù)據(jù)。擴(kuò)散模型和去噪分?jǐn)?shù)匹配通過(guò)去噪擴(kuò)散概率模型連接起來(lái)(Ho、Jain 和 Abbeel 2020a),該模型最近引發(fā)了人們對(duì)計(jì)算機(jī)視覺(jué)應(yīng)用的興趣。已被多個(gè)領(lǐng)域應(yīng)用,例如圖生成、語(yǔ)言理解、魯棒學(xué)習(xí)和時(shí)態(tài)數(shù)據(jù)建模等。
擴(kuò)散模型在圖像生成和合成方面取得了巨大成功。一些先驅(qū)作品采用擴(kuò)散模型進(jìn)行圖像分割任務(wù)。與這些領(lǐng)域相比,它們?cè)谀繕?biāo)檢測(cè)方面的潛力尚未得到充分開(kāi)發(fā)。以前使用擴(kuò)散模型進(jìn)行對(duì)象檢測(cè)的方法僅限于 2D 邊界框。與 2D 檢測(cè)相比,3D 檢測(cè)提供了更豐富的目標(biāo)空間信息,可以實(shí)現(xiàn)準(zhǔn)確的深度感知和體積理解,這對(duì)于自動(dòng)駕駛等應(yīng)用至關(guān)重要,在自動(dòng)駕駛等應(yīng)用中,識(shí)別周圍車輛的精確距離和方向是自動(dòng)駕駛等應(yīng)用的重要方面。

3DifFusionDet的網(wǎng)絡(luò)設(shè)計(jì)

圖 1 顯示了 3DifFusionDet 的整體架構(gòu)。其接受多模式輸入,包括 RGB 圖像和點(diǎn)云。將整個(gè)模型分為特征提取和特征解碼部分,與 DiffusionDet相同,在每個(gè)迭代步驟中直接  應(yīng)用于原始 3D 特征會(huì)很困難。特征提取部分僅運(yùn)行一次,以從原始輸入 X 中提取深層特征表示,而特征解碼組件將此深層特征作為條件并訓(xùn)練以逐步從噪聲框  中繪制框預(yù)測(cè)。

為了充分利用兩種模態(tài)提供的互補(bǔ)信息,將每種模態(tài)的編碼器和解碼器分開(kāi)。此外,使用擴(kuò)散模型分別生成噪聲框和,分別訓(xùn)練圖像解碼器和點(diǎn)云解碼器以細(xì)化 2D 和 3D 特征。至于這兩個(gè)特征分支的連接,簡(jiǎn)單地連接它們會(huì)導(dǎo)致信息剪切,從而導(dǎo)致性能下降。為此,引入了多頭交叉注意機(jī)制來(lái)深度對(duì)齊這些特征。這些對(duì)齊的特征被輸入到檢測(cè)頭以預(yù)測(cè)最終的真值,而不會(huì)產(chǎn)生噪聲。

對(duì)于點(diǎn)云編碼器,使用基于體素的方法進(jìn)行提取,并采用基于稀疏的方法進(jìn)行處理?;隗w素的方法將 LiDAR 點(diǎn)轉(zhuǎn)換為體素。與其他系列的點(diǎn)特征提取方法(例如基于點(diǎn)的方法)相比,這些方法將點(diǎn)云離散為等間距的 3D 網(wǎng)格,在盡可能保留原始 3D 形狀信息的同時(shí)減少內(nèi)存需求?;谙∈栊缘奶幚矸椒ㄟM(jìn)一步幫助網(wǎng)絡(luò)提高計(jì)算效率。這些好處平衡了擴(kuò)散模型相對(duì)較高的計(jì)算要求。

與 2D 特征相比,3D 特征包含額外的維度,使得學(xué)習(xí)更具挑戰(zhàn)性。考慮到這一點(diǎn),除了從原始模態(tài)提取特征之外,還添加了一條融合路徑,將提取的圖像特征添加為點(diǎn)編碼器的另一個(gè)輸入,促進(jìn)信息交換并利用來(lái)自更多樣化來(lái)源的學(xué)習(xí)。采用PointFusion 策略,其中來(lái)自 LiDAR 傳感器的點(diǎn)被投影到圖像平面上。然后,圖像特征和對(duì)應(yīng)點(diǎn)的串聯(lián)由 VoxelNet 架構(gòu)聯(lián)合處理。

特征解碼器。提取的圖像特征和提取的點(diǎn)特征用作相應(yīng)圖像和點(diǎn)解碼器的輸入。每個(gè)解碼器還結(jié)合了來(lái)自獨(dú)特創(chuàng)建的噪聲框  的輸入,除了相應(yīng)的提取特征之外,還可以學(xué)習(xí)分別細(xì)化 2D 和 3D 特征。

圖像解碼器受到 Sparse RCNN的啟發(fā),接收來(lái)自 2D 提議框集合的輸入,以從圖像編碼器創(chuàng)建的特征圖中裁剪 RoI 特征。點(diǎn)解碼器接收來(lái)自 3D 提議框集合的輸入,以從圖像編碼器創(chuàng)建的特征圖中裁剪 RoI 特征。對(duì)于點(diǎn)解碼器,輸入是一組 3D 提議框,用于從點(diǎn)編碼器生成的特征圖中裁剪 3D RoI 特征。

交叉注意力模塊。在對(duì)兩個(gè)特征分支進(jìn)行解碼之后,需要一種將它們組合起來(lái)的方法。一種直接的方法是通過(guò)連接這兩個(gè)功能分支來(lái)簡(jiǎn)單地連接它們。這種方式顯得過(guò)于粗糙,可能會(huì)導(dǎo)致模型遭受信息剪切,導(dǎo)致性能下降。因此,引入了多頭交叉注意機(jī)制來(lái)深度對(duì)齊和細(xì)化這些特征,如圖 1 所示。具體來(lái)說(shuō),點(diǎn)解碼器的輸出被視為 k 和 v 的源,而圖像解碼器的輸出被投影到 q 上。

實(shí)驗(yàn)結(jié)果

在 KITTI 3D 目標(biāo)檢測(cè)基準(zhǔn)上進(jìn)行實(shí)驗(yàn)。遵循用于測(cè)量檢測(cè)性能的標(biāo)準(zhǔn) KITTI 評(píng)估協(xié)議 (IoU = 0.7),表 1 顯示了 3DifFusionDet 方法與 KITTI 驗(yàn)證集上最先進(jìn)的方法相比的平均精度 (mAP) 分?jǐn)?shù)。報(bào)告了  的性能,遵循 [diffusionDet, difficileist] 并粗體顯示每個(gè)任務(wù)的兩個(gè)性能最佳的模型。

根據(jù)表 1,與基線相比,本文的方法顯示出顯著的性能改進(jìn)。當(dāng) D = 4 時(shí),它能夠以相對(duì)較短的推理時(shí)間超越大多數(shù)基線。通過(guò)進(jìn)一步增加 D 使得 D = 8,考慮到更長(zhǎng)的推理時(shí)間,在所有模型中實(shí)現(xiàn)了最佳性能。這種靈活性揭示了廣泛的潛在用途。

消融實(shí)驗(yàn) 首先,展示了保持圖像 RoI 對(duì)齊分支和編碼器特征融合的必要性。要使用擴(kuò)散模型從Camera和激光雷達(dá)設(shè)計(jì) 3D 目標(biāo)檢測(cè)器,最直接的方法應(yīng)該是直接應(yīng)用生成的噪聲 3D 框作為融合 3D 特征的輸入。然而,這種方式可能會(huì)受到信息剪切的影響,從而導(dǎo)致性能下降,如表2所示。利用它,除了將點(diǎn)云RoIAlign放在編碼的3D特征下之外,我們還創(chuàng)建了第二個(gè)分支,使圖像RoIAlign 在編碼的 2D 特征下。顯著提高的性能表明可以更好地利用兩種模式提供的補(bǔ)充信息。

然后分析使用不同融合策略的影響:給定學(xué)習(xí)的 2D 和 3D 表示特征,如何更有效地組合。與 2D 特征相比,3D 特征包含一個(gè)額外的維度,這使得它們學(xué)習(xí)起來(lái)更具挑戰(zhàn)性。通過(guò)附加投影來(lái)自 LiDAR 傳感器的點(diǎn),使用圖像特征和要聯(lián)合處理的對(duì)應(yīng)點(diǎn)的串聯(lián),添加從圖像特征到點(diǎn)特征的信息流路徑 VoxelNet 架構(gòu)。表 3 顯示了其對(duì)檢測(cè)精度的好處。

需要融合的另一部分是解碼后兩個(gè)特征分支的連接。在這里,應(yīng)用了多頭交叉注意機(jī)制來(lái)深度對(duì)齊和細(xì)化這些特征。除此之外,還研究了更直接的方法,例如使用串聯(lián)運(yùn)算、求和運(yùn)算、直接乘積運(yùn)算以及使用多層感知器(MLP)。結(jié)果如表4所示。其中,交叉注意力機(jī)制表現(xiàn)出最好的性能,訓(xùn)練和推理速度幾乎相同。

研究準(zhǔn)確性和推理速度的權(quán)衡。通過(guò)比較 3D 檢測(cè)精度和每秒幀數(shù) (FPS),展示了選擇不同提案框以及 D 的影響。提案框的數(shù)量從 100、300 中選擇,而 D 從 1, 4, 8 中選擇. 運(yùn)行時(shí)間是在批量大小為 1 的單個(gè) NVIDIA RTX A6000 GPU 上進(jìn)行評(píng)估的。結(jié)果發(fā)現(xiàn),將提案框的數(shù)量從 100 增加到 300 可顯著提高準(zhǔn)確性增益,而延遲成本可以忽略不計(jì) (1.3 FPS 與 1.2 FPS)。另一方面,更好的檢測(cè)精度會(huì)導(dǎo)致更長(zhǎng)的推理時(shí)間。當(dāng)將 D 從 1 更改為 8 時(shí),3D 檢測(cè)精度從急?。‥asy:87.1 mAP 到 90.5 mAP)增加到相對(duì)緩慢(Easy:90.5 AP 到 91.3 mAP),而 FPS 不斷下降。

Case研究和未來(lái)的工作基于其獨(dú)特的屬性,本文討論了 3DifFusionDet 的潛在用途。一般來(lái)說(shuō),準(zhǔn)確、魯棒和實(shí)時(shí)的推斷是目標(biāo)檢測(cè)任務(wù)的三個(gè)要求。在自動(dòng)駕駛汽車的感知領(lǐng)域,考慮到高速行駛的汽車由于慣性需要花費(fèi)額外的時(shí)間和距離來(lái)減速或改變方向,因此感知模型對(duì)實(shí)時(shí)性要求特別敏感。更重要的是,為了保證舒適的乘坐體驗(yàn),汽車應(yīng)該在安全的前提下,以最小的加速度絕對(duì)值盡可能平穩(wěn)地行駛。與其他同類自動(dòng)駕駛汽車產(chǎn)品相比,其主要優(yōu)勢(shì)之一就是擁有更流暢的乘坐體驗(yàn)。為此,無(wú)論是加速、減速還是轉(zhuǎn)彎,自動(dòng)駕駛汽車都應(yīng)該開(kāi)始快速做出反應(yīng)。汽車響應(yīng)越快,為后續(xù)操作和調(diào)整贏得的空間就越大。這比首先獲得最精確的檢測(cè)到的目標(biāo)的分類或位置更重要:當(dāng)汽車開(kāi)始響應(yīng)時(shí),仍然有時(shí)間和距離來(lái)調(diào)整其行為方式,可以利用這些時(shí)間和距離以更精確的方式做出進(jìn)一步的推斷, 其結(jié)果隨后微調(diào)汽車的駕駛操作。

本文的 3DifFusionDet 自然滿足了需求。如表4所示,當(dāng)推理步長(zhǎng)較小時(shí),模型可以快速做出推理,并得到大致較高準(zhǔn)確度的結(jié)果。這種最初的感知足夠精確,足以讓自動(dòng)駕駛汽車開(kāi)始新的響應(yīng)。隨著推理步驟的增長(zhǎng),會(huì)生成更準(zhǔn)確的檢測(cè)目標(biāo),從而進(jìn)一步微調(diào)其響應(yīng)。這種漸進(jìn)式檢測(cè)方式非常適合這項(xiàng)任務(wù)。此外,由于本文的模型可以在參考過(guò)程中改變提案框的數(shù)量,因此從小步驟獲得的先驗(yàn)信息可以反過(guò)來(lái)用于優(yōu)化實(shí)時(shí)提案框的數(shù)量。如表 4 所示,不同先驗(yàn)提案框下的性能有所不同。因此,開(kāi)發(fā)這種自適應(yīng)探測(cè)器是一項(xiàng)前景光明的工作。

除了自動(dòng)駕駛汽車之外,本文的模型本質(zhì)上匹配任何在連續(xù)反應(yīng)空間中需要短推斷時(shí)間的現(xiàn)實(shí)場(chǎng)景,特別是在檢測(cè)器根據(jù)檢測(cè)結(jié)果移動(dòng)的場(chǎng)景中。受益于擴(kuò)散模型的性質(zhì),3DifFusionDet 可以快速找到幾乎準(zhǔn)確的真實(shí)空間感興趣區(qū)域,觸發(fā)機(jī)器開(kāi)始進(jìn)行新的操作和自我優(yōu)化。接下來(lái)的更高精度的感知機(jī)進(jìn)一步微調(diào)機(jī)器的操作。為了將模型部署到這些移動(dòng)探測(cè)器中,一個(gè)懸而未決的問(wèn)題是結(jié)合較大步驟的早期推斷和較小步驟的最新推斷之間的推斷信息的策略,這是另一個(gè)懸而未決的問(wèn)題。

總結(jié)

本文介紹了 3DifFusionDet,這是一種具有強(qiáng)大 LiDAR 和Camera融合功能的新型 3D 目標(biāo)檢測(cè)器。將 3D 目標(biāo)檢測(cè)表述為生成式去噪過(guò)程,這是第一個(gè)將擴(kuò)散模型應(yīng)用于 3D 目標(biāo)檢測(cè)的工作。這項(xiàng)工作在生成去噪過(guò)程框架的背景下研究了最有效的Camera激光雷達(dá)融合對(duì)準(zhǔn)策略,并提出了融合對(duì)準(zhǔn)策略以充分利用兩種模式提供的補(bǔ)充信息。與成熟的檢測(cè)器相比,3DifFusionDet 取得了良好的性能,展示了擴(kuò)散模型在目標(biāo)檢測(cè)任務(wù)中的廣闊前景。強(qiáng)大的學(xué)習(xí)結(jié)果和靈活的推理模式使其具有廣闊的潛在用途。

原文鏈接:https://mp.weixin.qq.com/s/0Fya4RYelNUU5OdAQp9DVA

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2025-02-13 08:26:26

2023-09-25 14:53:55

3D檢測(cè)

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2023-12-06 13:36:00

模型數(shù)據(jù)

2025-06-24 08:40:00

3D模型訓(xùn)練

2023-12-29 13:18:23

模型NeRFTICD

2025-02-14 09:02:19

2024-03-27 10:20:31

模型場(chǎng)景

2013-12-11 16:55:23

3DDCIM解決方案

2025-03-25 12:44:24

2025-06-13 14:13:26

3D場(chǎng)景生成模型

2024-03-20 00:00:00

StabilityAI開(kāi)源人工智能

2024-05-10 07:58:03

2023-07-20 09:58:47

模型3D

2022-12-29 11:57:43

3D框架

2023-10-09 09:42:18

自動(dòng)駕駛模型

2024-04-24 11:23:11

3D檢測(cè)雷達(dá)

2022-12-13 10:17:05

技術(shù)目標(biāo)檢測(cè)

2025-04-09 13:11:27

2025-05-12 09:31:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)