UniOcc:將以視覺為中心的占用預測與幾何和語義渲染大一統(tǒng)!
本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
原標題: UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering
論文鏈接:https://arxiv.org/pdf/2306.09117.pdf
論文思路:
在這份技術報告中,本文提出了本文的解決方案,命名為UniOCC,用于在CVPR 2023 nuScenes Open Dataset Challenge中以視覺為中心的3D占用預測軌道?,F(xiàn)有的占用預測方法主要側重于使用三維占用標簽優(yōu)化三維volume空間的投影特征。然而,這些標簽的生成過程非常復雜和昂貴(依賴于3D語義標注),并且受體素分辨率的限制,它們不能提供細粒度的空間語義。為了解決這一限制,本文提出了一種新的統(tǒng)一占用(UniOcc)預測方法,明確施加空間幾何約束,并通過體射線渲染(volume ray rendering)補充細粒度語義監(jiān)督。本文的方法顯著提高了模型的性能,并在降低人工標注成本方面展示了良好的潛力??紤]到標注3D占用的費力性,本文進一步提出了深度感知的Teacher Student(DTS)框架,以提高使用無標記數(shù)據(jù)的預測精度。本文的解決方案在官方單模型排行榜上獲得51.27% mIoU,在本次挑戰(zhàn)賽中排名第三。
網(wǎng)絡設計:
在這一挑戰(zhàn)中,本文提出了UniOcc,這是一種利用體渲染(volume rendering)來統(tǒng)一二維和三維表示監(jiān)督的通用解決方案,改進了多攝像機占用預測模型。本文沒有設計新的模型架構,而是將重點放在以通用和即插即用的方式增強現(xiàn)有模型[3,18,20]上。
本文將占用表示提升到NeRF-style表示[1,15,21],允許使用體渲染(volume rendering)生成2D語義和深度地圖。這使本文能夠在2D像素級別上執(zhí)行細粒度的監(jiān)督。通過對通過三維體素的射線進行采樣,得到所渲染的二維像素語義和深度信息。這種幾何遮擋關系和語義一致性約束的顯式集成為模型提供了顯式的指導,并確保遵守這些約束。
值得一提的是,UniOcc有潛力減少對昂貴的3D語義標注的依賴。在沒有3D占用標簽的情況下,僅使用本文的體渲染(volume rendering)監(jiān)督進行訓練的模型,甚至比使用3D標簽監(jiān)督進行訓練的模型表現(xiàn)更好。這突出了減少對昂貴的3D語義標注的依賴的令人興奮的潛力,因為場景表示可以直接從負擔得起的2D分割標簽學習。此外,利用SAM[6]和[14,19]等先進技術,還可以進一步降低二維分割標注的成本。
本文還介紹了深度感知Teacher Student(DTS)框架,這是一種自監(jiān)督的訓練方法。與經(jīng)典的Mean Teacher[16]不同,DTS增強了教師模型的深度預測,在利用無標記數(shù)據(jù)的同時實現(xiàn)穩(wěn)定和有效的訓練。此外,本文應用了一些簡單而有效的技術來提高模型的性能。這包括在訓練中使用visible masks,使用更強的預先訓練的骨干,增加體素分辨率,以及實現(xiàn)Test-Time Augmentation(TTA)。
圖1。本文的UniOcc框架的概述。
圖2。深度感知的Teacher-Student框架。
實驗結果:
引用:
Pan, M., Liu, L., Liu, J., Huang, P., Wang, L., Zhang, S., Xu, S., Lai, Z., & Yang, K. (2023). UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering. ArXiv. /abs/2306.09117
原文鏈接:https://mp.weixin.qq.com/s/iLPHMtLzc5z0f4bg_W1vIg