偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GSD-Occ:實時Occ最新開源,速度比SOTA快3倍,mIoU提高1.9!

人工智能 新聞
本文提出了GSD-Occ,一種創(chuàng)新的實時3D占用預測方法,通過幾何-語義雙分支網(wǎng)絡(luò)和解耦學習策略,實現(xiàn)了高效率和高精度的占用預測。實驗表明,GSD-Occ在保持20 FPS處理速度的同時,達到了39.4%的mIoU,超越了現(xiàn)有技術(shù),并將代碼開源以推動進一步研究。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

01 問題引入

占用預測在自動駕駛中至關(guān)重要,因為它提供了精細的幾何感知和通用的對象識別能力。這些能力使得自動駕駛系統(tǒng)能夠準確地感知和理解周圍環(huán)境,從而進行安全有效的路徑規(guī)劃和決策。然而,現(xiàn)有的方法通常計算成本高,難以滿足自動駕駛對實時性和效率的嚴格要求。為了應對這一挑戰(zhàn),作者首先評估了大多數(shù)公開可用方法的速度和內(nèi)存使用情況,旨在將關(guān)注點從單純追求準確性轉(zhuǎn)移到提高計算效率和資源利用率方面。

圖片

▲圖1|Occ3D-nuScenes基準測試中各占用預測方法的推理速度(FPS)和準確率(mIoU)??【深藍AI】編譯

02 方案提出

實現(xiàn)快速且準確性能的關(guān)鍵在于幾何和語義之間的強耦合,為此,作者提出了一種具有混合BEV-體素表示的幾何-語義雙分支網(wǎng)絡(luò)(GSDBN)。在BEV分支中,引入了一個BEV級別的時序融合模塊和一個U-Net編碼器以提取密集的語義特征。在體素分支中,提出了一種大核重新參數(shù)化的3D卷積,以細化稀疏的3D幾何并減少計算。此外,作者提出了一種新的BEV-體素提升模塊,將BEV特征投射到體素空間,以實現(xiàn)兩個分支的特征融合。

此外,作者還提出了一種幾何-語義解耦學習(GSDL)策略。該策略首先使用準確的幾何真值深度來學習語義,然后逐步混合預測深度以使模型適應預測的幾何。實驗表明,本方法在Occ3D-nuScenes基準測試中表現(xiàn)出色,以39.4 mIoU和20.0 FPS的成績超過了CVPR2023 3D占用預測挑戰(zhàn)賽的冠軍FB-OCC,速度提高了約3倍,mIoU提高了1.9。

圖片

▲圖2|幾何語義耦合問題示意圖:(a) 不準確的深度預測會導致2D到3D特征投影的錯誤,需要后續(xù)網(wǎng)絡(luò)進行細化和糾正;(b) 展示了預測深度和真實深度之間的性能差距,展現(xiàn)了解決該問題的重要性??【深藍AI】編譯

03 方案詳析

■3.1 問題表述

給定傳感器數(shù)據(jù)(例如相機圖像、點云等)和目標場景的歷史信息,我們的目標是生成高質(zhì)量的3D占用圖。這些占用圖可以用于多種應用,例如自動駕駛、機器人路徑規(guī)劃等。

圖片

▲圖3|GSD-Occ的整體架構(gòu)概覽??【深藍AI】編譯

■3.2 整體框架

幾何-語義解耦占用預測器(GSD-Occ)的流程圖如圖3所示。該方法包括以下幾個主要部分:

●圖像編碼器:用于提取圖像特征。具體來說,給定T時刻的一組環(huán)視相機圖像,本文采用預訓練的主干網(wǎng)絡(luò)(如ResNet-50)來提取圖像特征,并使用FPN進一步處理。

●2D到3D視圖轉(zhuǎn)換:該模塊將2D圖像特征轉(zhuǎn)換為體素表示。由于實時模型的學習能力有限,本文采用了一個顯式視圖轉(zhuǎn)換模塊,并通過深度監(jiān)督進行訓練。具體過程是,首先將圖像特征輸入到深度網(wǎng)絡(luò)(DepthNet),生成預測的深度分布。然后,利用外積操作將圖像特征和深度分布結(jié)合,得到偽點云特征。最后,通過體素池化操作獲得體素特征,并進行2倍下采樣以減少計算復雜度。

●幾何-語義雙分支網(wǎng)絡(luò)(見3.3):該網(wǎng)絡(luò)通過幾何分支和語義分支高效地保持幾何完整性并提取豐富的語義信息。

●幾何-語義解耦學習策略(見3.4):該策略進一步增強了幾何細化和語義學習的能力。

■3.3 幾何-語義雙分支網(wǎng)絡(luò)

為了實現(xiàn)實時的3D占用預測,作者提出了一種幾何-語義雙分支網(wǎng)絡(luò)(GSDBN)。該網(wǎng)絡(luò)結(jié)合了鳥瞰圖(BEV)表示和體素表示,既保證了計算效率又保持了幾何完整性。GSDBN包含兩個主要分支:語義BEV分支和幾何體素分支。

◆語義BEV分支

語義BEV分支旨在從傳感器數(shù)據(jù)中提取語義信息,并將其映射到鳥瞰圖表示中。這一過程包含以下步驟:


特征提?。菏褂肦esNet-50作為特征提取器,從輸入圖像中提取高層次特征。


特征轉(zhuǎn)換:將提取的特征映射到鳥瞰圖表示中,生成語義鳥瞰圖。


◆幾何體素分支

幾何體素分支專注于從傳感器數(shù)據(jù)中提取幾何信息,并將其表示為體素。這一過程包括以下步驟:


體素化:將傳感器數(shù)據(jù)轉(zhuǎn)換為體素表示。


幾何編碼:使用大卷積核的3D卷積對體素進行編碼,捕獲細粒度的幾何信息。


圖片

▲圖4|3D幾何編碼器中大核3D卷積重參數(shù)化技術(shù)示意圖:該技術(shù)使用并行的空洞小核3D卷積來增強非空洞大核3D卷積,圖中示例的卷積核大小為 [11, 11, 1]??【深藍AI】編譯

■3.4 幾何-語義解耦學習

為了進一步提高模型性能,作者提出了一種幾何-語義解耦學習策略。該策略將幾何校正和語義知識的學習過程分離開來,采用了一種簡單而有效的學習方法,使得模型在不同的預訓練模型和方法上都能保持一致的準確性提升。

具體來說,在訓練初期將真實深度引入LSS,使模型能夠在準確的真實幾何信息下專注于學習語義信息。隨后,在訓練過程中,逐漸將真實深度與預測深度混合,以適應模型對預測幾何的學習。混合深度通過算術(shù)平均得到,使用一個因子α控制真實深度和預測深度的比例。

隨著訓練的進行,α的值逐漸增加,使模型在訓練結(jié)束時能夠很好地細化預測的幾何信息,并在推理時不再需要真實深度。通過這種逐步過渡的方法,模型既能利用真實幾何信息進行語義學習,又能在推理階段自適應地處理預測幾何信息,從而提高整體的穩(wěn)定性和準確性。

04 實驗結(jié)果

圖片

▲圖5|FB-OCC和本文方法的定性結(jié)果比較:結(jié)果表明,本文的方法能夠構(gòu)建更詳細的幾何結(jié)構(gòu)(第1行和第2行)、更準確的語義(第3行)以及在夜間更強的適應性(第4行)??【深藍AI】編譯

圖片

▲圖6|GSDL陡度的消融研究??【深藍AI】編譯

圖片

▲表1|Occ3D-nuScenes數(shù)據(jù)集上的3D占用預測性能比較??【深藍AI】編譯

圖片

▲表2|Occ3D-nuScenes數(shù)據(jù)集上的3D占用預測性能比較,使用RayIoU指標??【深藍AI】編譯

圖片

▲表3|GSDBN各組件的消融研究結(jié)果??【深藍AI】編譯

圖片

▲表4|GSDL在不同預訓練模型和方法上的有效性分析??【深藍AI】編譯

圖片

▲表5|BVL模塊的有效性分析??【深藍AI】編譯

圖片

▲表6|時間融合中不同歷史幀數(shù)量的影響分析??【深藍AI】編譯


圖片

▲表7|3D編碼器中不同卷積核大小的影響分析??【深藍AI】編譯

05 總結(jié)

本研究提出的幾何-語義解耦占用預測器(GSD-Occ)結(jié)合鳥瞰圖(BEV)和體素表示,通過幾何-語義雙分支網(wǎng)絡(luò)(GSDBN)和幾何-語義解耦學習(GSDL)策略,實現(xiàn)了高效和準確的實時3D占用預測。實驗結(jié)果表明,GSD-Occ在保持高質(zhì)量占用預測的同時,滿足自動駕駛對實時性的要求。

未來的研究將進一步優(yōu)化GSD-Occ,通過設(shè)計更高效的網(wǎng)絡(luò)結(jié)構(gòu)以減少計算復雜度,融合激光雷達等多傳感器數(shù)據(jù)以增強預測的準確性和魯棒性,引入自適應學習機制以提高模型的泛化能力等方式。此外,還需要加強在實際道路和復雜交通環(huán)境中的測試,以驗證模型的可靠性和安全性。

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2025-02-14 10:56:58

2025-02-26 10:24:47

2024-12-24 10:30:00

2021-08-30 15:41:23

代碼開源微軟

2024-03-14 09:46:42

算法檢測

2024-12-12 10:20:00

自動駕駛生成

2024-03-04 09:48:26

3D自動駕駛

2022-04-26 15:24:03

開源框架

2024-09-20 09:53:11

2024-02-21 09:25:50

3D自動駕駛

2025-03-04 09:00:00

2023-01-05 13:11:20

模型

2023-10-25 18:53:45

芯片AI芯片

2023-06-21 13:20:14

系統(tǒng)模型

2024-03-08 09:46:18

3D框架傳感器

2009-07-01 09:47:10

FireFox 3.5瀏覽

2022-03-19 10:26:48

Linuxapt 命令

2023-03-01 14:25:17

LaMA代碼訓練

2025-06-12 08:01:03

2022-10-27 08:31:31

架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號