UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
最近,新論文推陳出新的速度著實太快有點讀不過來的感覺??梢钥吹降氖?,語言視覺多模態(tài)大模型融合已經(jīng)是業(yè)界共識了,UniPad 這篇文章就比較有代表性,多模態(tài)的輸入,類世界模型的預訓練基座模型,同時又方便擴展到多個傳統(tǒng)視覺應用。并且還解決了將大語言模型的預訓練方法用到 3D 場景的問題,所以給統(tǒng)一的感知基座大模型提供了可能。
UniPAD 是一種基于 MAE 和 3D rendering 的自監(jiān)督學習方法,可以訓練一個性能優(yōu)秀的基座模型,繼而可以在該模型上微調(diào)訓練下游諸如深度估計、目標檢測、分割等諸多任務。因為該工作設計了一個統(tǒng)一的 3D 空間表示方法,使得它可以輕松地融入到 2D 和 3D 框架中,體現(xiàn)了較大的靈活性,這是很符合基座模型應該的定位的。
閱讀時的思考與疑問點:
掩碼自編碼技術(shù) 和 3D 可微分渲染技術(shù)的關系是什么?簡單說:掩碼自編碼是為了利用 Autoencoder 的自監(jiān)督訓練能力,渲染技術(shù)是為了生成圖片后和原始圖片之間進行損失函數(shù)計算并進行監(jiān)督訓練。所以邏輯還是很清晰的。
這篇文章在使用基座模型預訓練的方法,再微調(diào)下游的檢測方法和分割方法。這個方法也可以幫助理解當下的大模型與下游任務的配合方法。
看起來是沒有結(jié)合時序信息的。畢竟純視覺 50.2 的 NuScenes NDS 目前在帶時序的檢測方法(StreamPETR、Sparse4D 等)比較中還是弱了一些。所以 4D 的 MAE 方法,也是值得一試的,其實 GAIA-1 已經(jīng)提到了類似的思路。
運算量與內(nèi)存使用量如何?
具體方法:
UniPAD 隱式地編碼了 3D 空間信息,這里主要受到了掩碼自編碼(MAE、VoxelMAE 等)的啟發(fā),本文利用了生成式的 mask 來完成體素特征的加強,用來重建場景中連續(xù)的 3D 形狀結(jié)構(gòu)以及它們在 2D 平面上的復雜外觀特征。
在我們的實驗中,UniPAD的優(yōu)越性得到了充分體現(xiàn)。相較于傳統(tǒng)的激光雷達、攝像頭,以及激光雷達-攝像頭融合基線,UniPAD 分別提高了 9.1、7.7 和 6.9 的 NDS 。值得一提的是,在nuScenes驗證集上,我們的預訓練流程為3D目標檢測實現(xiàn)了73.2的NDS,并在3D語義分割任務上取得了79.4的 mIoU 分數(shù),與之前的方法相比,取得了最好的成績。
整體架構(gòu):

整體架構(gòu)。該框架 LiDar 和多鏡頭圖片作為輸入,這些多模態(tài)數(shù)據(jù)會通過掩蔽生成器(Mask Generator)被填充為零。被掩碼遮蔽的 embedding 會被轉(zhuǎn)換到體素空間,在這樣的 3D 空間中通過渲染技術(shù)生成RGB或深度預測結(jié)果。這時沒有被掩碼遮蔽的原始圖像就可以做為生成數(shù)據(jù)進行監(jiān)督學習了。
Mask Generator
這里的 Masked AutoEncoder 的 mask 是通過 Mask Generator 來生成的。可以理解為通過數(shù)據(jù)增量的方式來提高了訓練難度,以寄希望于增強模型的表示能力和泛化能力。引入了一個 Mask 生成器,通過有選擇性地遮擋某些區(qū)域,同時還區(qū)分了點云數(shù)據(jù)和圖像數(shù)據(jù)。在點云數(shù)據(jù)中,采用了分塊遮罩(block-wise masking)的策略;對于圖像,采用了稀疏卷積(sparse convolution)的方法,只在可見區(qū)域進行計算。當輸入數(shù)據(jù)被 mask 掉后,后續(xù)的編碼特征在對應的被 mask 區(qū)域會被設置為 0,從而在模型的處理中被忽略,同時也為后續(xù)的監(jiān)督學習提供了可以用來預測目標以及其對應的 groundtruth 。
統(tǒng)一的表示形式
為了使預訓練方法適用于各種不同的數(shù)據(jù)模態(tài),尋找一個統(tǒng)一的表示形式就很重要。過往 BEV 和 OCC 等方法都在尋找一個統(tǒng)一的標識形式,將3D點投影到圖像平面中會導致深度信息的丟失,而將它們合并到 BEV 鳥瞰圖中則會遺漏與高度相關的細節(jié)。所以本文提出將兩種模態(tài)都轉(zhuǎn)換為3D體積空間,也就是類似 OCC 類似的 3D 體素空間。
渲染方法:
可微分渲染技術(shù)應該是作者認為論文最大的亮點了,本文通過類似 NERF 的采樣射線穿過多視圖圖像或點云,通過神經(jīng)網(wǎng)絡結(jié)構(gòu)預測每個 3D 點的顏色或深度,最后再通過射線穿過的路徑獲取 2D 的映射。這樣可以更好地利用圖像中的幾何或紋理線索,提高模型的學習能力和應用范圍。
我們將場景表示為 SDF(implicit signed distance function field),當輸入是采樣點的 3D 坐標 P(沿射線的相應深度 D)與 F(the feature embedding can be extracted from the volumetric representation by trilinear interpolation)時,SDF 可以看做一個 MLP ,來預測采樣點的 SDF 值。這里 F 可以理解為 P 點所在的 encode 編碼。繼而得到輸出:N(condition the color field on the surface normal)和 H(geometry feature vector),這時就可以通過一個以 P、D、F、N、H 為輸入的 MLP 獲取到 3D 采樣點的 RGB 值和深度值,再通過射線疊加 3D 采樣點到 2D 空間就得到了渲染結(jié)果。而這里射線 Ray 的采用方法,和 Nerf 的方法基本相同。
渲染方法還需要進行內(nèi)存開支的優(yōu)化工作,這里先按下不表。不過這個問題是個比較關鍵的落地問題。
Mask 與渲染方法的本質(zhì)是訓練一個 pretrain 模型,pretrain 是可以沒有后續(xù)分支的就可以根據(jù)預測 mask 來完成訓練。pretrain 的后續(xù)工作會分別通過不同的分支產(chǎn)生 rgb 和 depth 預測,也就是后續(xù)可以再通過 det/seg 等任務結(jié)合的時候去微調(diào),也就實現(xiàn)了一種即插即用的能力。
Loss 損失函數(shù):
Loss 函數(shù)并不復雜。

實驗結(jié)果:


和近期其他工作對比:
其實 GAIA-1 已經(jīng)在用時序上的 Mask AutoEncoder 思路,只不過作為監(jiān)督數(shù)據(jù)的是不同時刻的一整幀數(shù)據(jù),但是 UniPAD 則是在 3D 空間中去隨機摳出一部分 mask 來監(jiān)督預測。倒是蠻期待能看到兩者結(jié)合的方法的。
另外,UniPAD 完全可以看成是一種多模態(tài)大模型的嘗試,也可以看做是一種世界模型。雖然文章中沒有非常強調(diào)這些。
總結(jié):
本文應該算是 3D 領域較為新穎的 Masked Autoencoder 方法了。因為 MAE 方法是用在了基座模型預訓練階段,所以支持了多個不同模態(tài)的信息,所以自然而然的可以擴展到微調(diào)下游很多任務,這和 LLM 的設計思路非常的接近,都注重于在預訓練階段捕捉多模態(tài)信息,為各種任務提供統(tǒng)一的基礎。這種方法為3D領域的研究提供了新的思路和可能性。
該方法不僅在3D領域具有潛力,還可以擴展到 4D 時序領域,以及優(yōu)化其內(nèi)存與計算量等方面還可以產(chǎn)生很多新的工作,為未來的研究提供了新的思路和可能性。

原文鏈接:https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow




































