GSD-Occ:實(shí)時(shí)Occ最新開源,速度比SOTA快3倍,mIoU提高1.9!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
01 問題引入
占用預(yù)測(cè)在自動(dòng)駕駛中至關(guān)重要,因?yàn)樗峁┝司?xì)的幾何感知和通用的對(duì)象識(shí)別能力。這些能力使得自動(dòng)駕駛系統(tǒng)能夠準(zhǔn)確地感知和理解周圍環(huán)境,從而進(jìn)行安全有效的路徑規(guī)劃和決策。然而,現(xiàn)有的方法通常計(jì)算成本高,難以滿足自動(dòng)駕駛對(duì)實(shí)時(shí)性和效率的嚴(yán)格要求。為了應(yīng)對(duì)這一挑戰(zhàn),作者首先評(píng)估了大多數(shù)公開可用方法的速度和內(nèi)存使用情況,旨在將關(guān)注點(diǎn)從單純追求準(zhǔn)確性轉(zhuǎn)移到提高計(jì)算效率和資源利用率方面。

▲圖1|Occ3D-nuScenes基準(zhǔn)測(cè)試中各占用預(yù)測(cè)方法的推理速度(FPS)和準(zhǔn)確率(mIoU)??【深藍(lán)AI】編譯
02 方案提出
實(shí)現(xiàn)快速且準(zhǔn)確性能的關(guān)鍵在于幾何和語義之間的強(qiáng)耦合,為此,作者提出了一種具有混合BEV-體素表示的幾何-語義雙分支網(wǎng)絡(luò)(GSDBN)。在BEV分支中,引入了一個(gè)BEV級(jí)別的時(shí)序融合模塊和一個(gè)U-Net編碼器以提取密集的語義特征。在體素分支中,提出了一種大核重新參數(shù)化的3D卷積,以細(xì)化稀疏的3D幾何并減少計(jì)算。此外,作者提出了一種新的BEV-體素提升模塊,將BEV特征投射到體素空間,以實(shí)現(xiàn)兩個(gè)分支的特征融合。
此外,作者還提出了一種幾何-語義解耦學(xué)習(xí)(GSDL)策略。該策略首先使用準(zhǔn)確的幾何真值深度來學(xué)習(xí)語義,然后逐步混合預(yù)測(cè)深度以使模型適應(yīng)預(yù)測(cè)的幾何。實(shí)驗(yàn)表明,本方法在Occ3D-nuScenes基準(zhǔn)測(cè)試中表現(xiàn)出色,以39.4 mIoU和20.0 FPS的成績(jī)超過了CVPR2023 3D占用預(yù)測(cè)挑戰(zhàn)賽的冠軍FB-OCC,速度提高了約3倍,mIoU提高了1.9。

▲圖2|幾何語義耦合問題示意圖:(a) 不準(zhǔn)確的深度預(yù)測(cè)會(huì)導(dǎo)致2D到3D特征投影的錯(cuò)誤,需要后續(xù)網(wǎng)絡(luò)進(jìn)行細(xì)化和糾正;(b) 展示了預(yù)測(cè)深度和真實(shí)深度之間的性能差距,展現(xiàn)了解決該問題的重要性??【深藍(lán)AI】編譯
03 方案詳析
■3.1 問題表述
給定傳感器數(shù)據(jù)(例如相機(jī)圖像、點(diǎn)云等)和目標(biāo)場(chǎng)景的歷史信息,我們的目標(biāo)是生成高質(zhì)量的3D占用圖。這些占用圖可以用于多種應(yīng)用,例如自動(dòng)駕駛、機(jī)器人路徑規(guī)劃等。

▲圖3|GSD-Occ的整體架構(gòu)概覽??【深藍(lán)AI】編譯
■3.2 整體框架
幾何-語義解耦占用預(yù)測(cè)器(GSD-Occ)的流程圖如圖3所示。該方法包括以下幾個(gè)主要部分:
●圖像編碼器:用于提取圖像特征。具體來說,給定T時(shí)刻的一組環(huán)視相機(jī)圖像,本文采用預(yù)訓(xùn)練的主干網(wǎng)絡(luò)(如ResNet-50)來提取圖像特征,并使用FPN進(jìn)一步處理。
●2D到3D視圖轉(zhuǎn)換:該模塊將2D圖像特征轉(zhuǎn)換為體素表示。由于實(shí)時(shí)模型的學(xué)習(xí)能力有限,本文采用了一個(gè)顯式視圖轉(zhuǎn)換模塊,并通過深度監(jiān)督進(jìn)行訓(xùn)練。具體過程是,首先將圖像特征輸入到深度網(wǎng)絡(luò)(DepthNet),生成預(yù)測(cè)的深度分布。然后,利用外積操作將圖像特征和深度分布結(jié)合,得到偽點(diǎn)云特征。最后,通過體素池化操作獲得體素特征,并進(jìn)行2倍下采樣以減少計(jì)算復(fù)雜度。
●幾何-語義雙分支網(wǎng)絡(luò)(見3.3):該網(wǎng)絡(luò)通過幾何分支和語義分支高效地保持幾何完整性并提取豐富的語義信息。
●幾何-語義解耦學(xué)習(xí)策略(見3.4):該策略進(jìn)一步增強(qiáng)了幾何細(xì)化和語義學(xué)習(xí)的能力。
■3.3 幾何-語義雙分支網(wǎng)絡(luò)
為了實(shí)現(xiàn)實(shí)時(shí)的3D占用預(yù)測(cè),作者提出了一種幾何-語義雙分支網(wǎng)絡(luò)(GSDBN)。該網(wǎng)絡(luò)結(jié)合了鳥瞰圖(BEV)表示和體素表示,既保證了計(jì)算效率又保持了幾何完整性。GSDBN包含兩個(gè)主要分支:語義BEV分支和幾何體素分支。
◆語義BEV分支
語義BEV分支旨在從傳感器數(shù)據(jù)中提取語義信息,并將其映射到鳥瞰圖表示中。這一過程包含以下步驟:
●特征提取:使用ResNet-50作為特征提取器,從輸入圖像中提取高層次特征。
●特征轉(zhuǎn)換:將提取的特征映射到鳥瞰圖表示中,生成語義鳥瞰圖。
◆幾何體素分支
幾何體素分支專注于從傳感器數(shù)據(jù)中提取幾何信息,并將其表示為體素。這一過程包括以下步驟:
●體素化:將傳感器數(shù)據(jù)轉(zhuǎn)換為體素表示。
●幾何編碼:使用大卷積核的3D卷積對(duì)體素進(jìn)行編碼,捕獲細(xì)粒度的幾何信息。

▲圖4|3D幾何編碼器中大核3D卷積重參數(shù)化技術(shù)示意圖:該技術(shù)使用并行的空洞小核3D卷積來增強(qiáng)非空洞大核3D卷積,圖中示例的卷積核大小為 [11, 11, 1]??【深藍(lán)AI】編譯
■3.4 幾何-語義解耦學(xué)習(xí)
為了進(jìn)一步提高模型性能,作者提出了一種幾何-語義解耦學(xué)習(xí)策略。該策略將幾何校正和語義知識(shí)的學(xué)習(xí)過程分離開來,采用了一種簡(jiǎn)單而有效的學(xué)習(xí)方法,使得模型在不同的預(yù)訓(xùn)練模型和方法上都能保持一致的準(zhǔn)確性提升。
具體來說,在訓(xùn)練初期將真實(shí)深度引入LSS,使模型能夠在準(zhǔn)確的真實(shí)幾何信息下專注于學(xué)習(xí)語義信息。隨后,在訓(xùn)練過程中,逐漸將真實(shí)深度與預(yù)測(cè)深度混合,以適應(yīng)模型對(duì)預(yù)測(cè)幾何的學(xué)習(xí)?;旌仙疃韧ㄟ^算術(shù)平均得到,使用一個(gè)因子α控制真實(shí)深度和預(yù)測(cè)深度的比例。
隨著訓(xùn)練的進(jìn)行,α的值逐漸增加,使模型在訓(xùn)練結(jié)束時(shí)能夠很好地細(xì)化預(yù)測(cè)的幾何信息,并在推理時(shí)不再需要真實(shí)深度。通過這種逐步過渡的方法,模型既能利用真實(shí)幾何信息進(jìn)行語義學(xué)習(xí),又能在推理階段自適應(yīng)地處理預(yù)測(cè)幾何信息,從而提高整體的穩(wěn)定性和準(zhǔn)確性。
04 實(shí)驗(yàn)結(jié)果

▲圖5|FB-OCC和本文方法的定性結(jié)果比較:結(jié)果表明,本文的方法能夠構(gòu)建更詳細(xì)的幾何結(jié)構(gòu)(第1行和第2行)、更準(zhǔn)確的語義(第3行)以及在夜間更強(qiáng)的適應(yīng)性(第4行)??【深藍(lán)AI】編譯

▲圖6|GSDL陡度的消融研究??【深藍(lán)AI】編譯

▲表1|Occ3D-nuScenes數(shù)據(jù)集上的3D占用預(yù)測(cè)性能比較??【深藍(lán)AI】編譯

▲表2|Occ3D-nuScenes數(shù)據(jù)集上的3D占用預(yù)測(cè)性能比較,使用RayIoU指標(biāo)??【深藍(lán)AI】編譯

▲表3|GSDBN各組件的消融研究結(jié)果??【深藍(lán)AI】編譯

▲表4|GSDL在不同預(yù)訓(xùn)練模型和方法上的有效性分析??【深藍(lán)AI】編譯

▲表5|BVL模塊的有效性分析??【深藍(lán)AI】編譯

▲表6|時(shí)間融合中不同歷史幀數(shù)量的影響分析??【深藍(lán)AI】編譯

▲表7|3D編碼器中不同卷積核大小的影響分析??【深藍(lán)AI】編譯
05 總結(jié)
本研究提出的幾何-語義解耦占用預(yù)測(cè)器(GSD-Occ)結(jié)合鳥瞰圖(BEV)和體素表示,通過幾何-語義雙分支網(wǎng)絡(luò)(GSDBN)和幾何-語義解耦學(xué)習(xí)(GSDL)策略,實(shí)現(xiàn)了高效和準(zhǔn)確的實(shí)時(shí)3D占用預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,GSD-Occ在保持高質(zhì)量占用預(yù)測(cè)的同時(shí),滿足自動(dòng)駕駛對(duì)實(shí)時(shí)性的要求。
未來的研究將進(jìn)一步優(yōu)化GSD-Occ,通過設(shè)計(jì)更高效的網(wǎng)絡(luò)結(jié)構(gòu)以減少計(jì)算復(fù)雜度,融合激光雷達(dá)等多傳感器數(shù)據(jù)以增強(qiáng)預(yù)測(cè)的準(zhǔn)確性和魯棒性,引入自適應(yīng)學(xué)習(xí)機(jī)制以提高模型的泛化能力等方式。此外,還需要加強(qiáng)在實(shí)際道路和復(fù)雜交通環(huán)境中的測(cè)試,以驗(yàn)證模型的可靠性和安全性。



































