UniPAD:自動(dòng)駕駛通用預(yù)訓(xùn)練范式來了!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
UNIPAD:自動(dòng)駕駛通用預(yù)訓(xùn)練范式
原標(biāo)題:UNIPAD: A UNIVERSAL PRE-TRAINING PARADIGM FOR AUTONOMOUS DRIVING
論文鏈接:https://arxiv.org/pdf/2310.08370.pdf
代碼鏈接:https://github.com/Nightmare-n/UniPAD
作者單位:上海人工智能實(shí)驗(yàn)室 浙江大學(xué) 香港大學(xué) 中國(guó)科學(xué)技術(shù)大學(xué) 悉尼大學(xué) Zhejiang Lab
論文思路:
在自動(dòng)駕駛的背景下,有效特征學(xué)習(xí)的重要性得到了廣泛認(rèn)可。雖然傳統(tǒng)的 3D 自監(jiān)督預(yù)訓(xùn)練方法已經(jīng)取得了廣泛的成功,但大多數(shù)方法都遵循最初為 2D 圖像設(shè)計(jì)的想法。本文提出了 UniPAD,一種應(yīng)用 3D 體積可微渲染(3D volumetric differentiable rendering)的新型自監(jiān)督學(xué)習(xí)范式。UniPAD 隱式編碼 3D 空間,有助于重建連續(xù)的 3D 形狀結(jié)構(gòu)及其 2D 投影的復(fù)雜外觀特征。本文方法的靈活性使得能夠無縫集成到 2D 和 3D 框架中,從而能夠更全面地理解場(chǎng)景。本文通過對(duì)各種下游 3D 任務(wù)進(jìn)行廣泛的實(shí)驗(yàn)來證明 UniPAD 的可行性和有效性。本文的方法將基于激光雷達(dá)、攝像機(jī)和激光雷達(dá)-攝像機(jī)的基線分別顯著提高了 9.1、7.7 和 6.9 NDS。值得注意的是,本文的預(yù)訓(xùn)練 pipeline 在 nuScenes 驗(yàn)證集上實(shí)現(xiàn)了 3D 目標(biāo)檢測(cè)的 73.2 NDS 和 3D 語義分割的 79.4 mIoU,與之前的方法相比,實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
主要貢獻(xiàn):
據(jù)本文所知,本文是第一個(gè)探索一種新穎的 3D 可微渲染(3D differentiable rendering)方法,用于自動(dòng)駕駛背景下的自監(jiān)督學(xué)習(xí)。
該方法的靈活性使其易于擴(kuò)展到2D backbone的預(yù)訓(xùn)練。通過新穎的采樣策略,本文的方法在有效性和效率上都表現(xiàn)出了優(yōu)越性。
本文在 nuScenes 數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn),其中本文的方法超越了六種預(yù)訓(xùn)練策略的性能。包含七個(gè) backbones 和兩個(gè)感知任務(wù)的實(shí)驗(yàn)為本文方法的有效性提供了令人信服的證據(jù)。
網(wǎng)絡(luò)設(shè)計(jì):
本文提出了一種專為有效 3D 表示學(xué)習(xí)而定制的新穎的預(yù)訓(xùn)練范式,它不僅避免了復(fù)雜的正/負(fù)樣本分配,而且還隱式提供了連續(xù)的監(jiān)督信號(hào)來學(xué)習(xí) 3D 形狀結(jié)構(gòu)。如圖 2 所示,整個(gè)框架將 masked點(diǎn)云作為輸入,旨在通過 3D 可微神經(jīng)渲染在投影的 2D 深度圖像上重建缺失的幾何形狀。具體來說,當(dāng)提供masked LiDAR 點(diǎn)云時(shí),本文的方法采用 3D 編碼器來提取分層特征。然后,通過體素化將 3D 特征轉(zhuǎn)換到體素空間。本文進(jìn)一步應(yīng)用可微分體積渲染方法來重建完整的幾何表示。本文方法的靈活性有助于其與預(yù)訓(xùn)練 2D backbone的無縫集成。多視圖圖像特征通過 lift-split-shoot (LSS) 構(gòu)建 3D volume(Philion & Fidler,2020)。為了保持訓(xùn)練階段的效率,本文提出了一種專為自動(dòng)駕駛應(yīng)用設(shè)計(jì)的節(jié)省內(nèi)存的光線采樣(ray sampling)策略,其可以大大降低訓(xùn)練成本和內(nèi)存消耗。與傳統(tǒng)方法相比,新穎的采樣策略顯著提高了準(zhǔn)確性。
圖 1:本文對(duì) 3D 檢測(cè)和分割進(jìn)行預(yù)訓(xùn)練的效果,其中 C、L 和 M 分別表示攝像機(jī)、LiDAR 和融合模態(tài)。
圖 2:整體架構(gòu)。
本文的框架采用 LiDAR 點(diǎn)云或多視圖圖像作為輸入。本文首先提出 mask 生成器來部分 mask 輸入。接下來,特定于模態(tài)的編碼器適用于提取稀疏可見特征,然后將其轉(zhuǎn)換為密集特征,其中 mask 區(qū)域填充為零。隨后將特定于模態(tài)的特征轉(zhuǎn)換到體素空間,然后是投影層以增強(qiáng)體素特征。最后,基于體積的神經(jīng)渲染為可見區(qū)域和 mask 區(qū)域生成 RGB 或深度預(yù)測(cè)。
實(shí)驗(yàn)結(jié)果:
引用:
Yang, H., Zhang, S., Huang, D., Wu, X., Zhu, H., He, T., Tang, S., Zhao, H., Qiu, Q., Lin, B., He, X., & Ouyang, W. (2023). UniPAD: A Universal Pre-training Paradigm for Autonomous Driving. ArXiv. /abs/2310.08370
原文鏈接:https://mp.weixin.qq.com/s/ep_al_G-ejQycgG4Jq0nTQ