從論文到代碼、從前沿研究到工業(yè)落地,全面了解BEV感知
BEV 感知到底是什么?自動駕駛的學(xué)術(shù)界和工業(yè)界又都在關(guān)注 BEV 感知的什么內(nèi)容?本文將會為你揭曉答案。
在自動駕駛領(lǐng)域中,讓感知模型學(xué)習(xí)強大的鳥瞰圖(BEV)表征是一種趨勢,并且已經(jīng)引起了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。相比于之前自動駕駛領(lǐng)域中的大多數(shù)基于在前視圖或透視圖中執(zhí)行檢測、分割、跟蹤等任務(wù)的模型,鳥瞰圖(BEV)表征能夠讓模型更好地識別被遮擋的車輛,并且有利于后續(xù)模塊(例如規(guī)劃、控制)的開發(fā)和部署。
可以看出,BEV 感知研究對自動駕駛領(lǐng)域具有巨大的潛在影響,值得學(xué)術(shù)界和產(chǎn)業(yè)界長期關(guān)注并投入大量精力,那么 BEV 感知到底是什么?自動駕駛的學(xué)術(shù)界和工業(yè)界大佬又都在關(guān)注 BEV 感知的什么內(nèi)容?本文將會通過 BEVPerception Survey 為你揭曉答案。
BEVPerception Survey 是上海人工智能實驗室自動駕駛OpenDriveLab 團隊與商湯研究院合作論文 《Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe》 的實用化工具呈現(xiàn)方式,分為基于 BEVPercption 的最新文獻研究和基于 PyTorch 的開源 BEV 感知工具箱兩大板塊。
- 論文地址:https://arxiv.org/abs/2209.05324
- 項目地址:https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe
概要解讀、技術(shù)解讀
BEVPerception Survey 最新文獻綜述研究主要包含三個部分 ——BEV 相機、BEV 激光雷達和 BEV 融合。BEV 相機表示僅有視覺或以視覺為中心的算法,用于從多個周圍攝像機進行三維目標檢測或分割;BEV 激光雷達描述了點云輸入的檢測或分割任務(wù);BEV 融合描述了來自多個傳感器輸入的融合機制,例如攝像頭、激光雷達、全球?qū)Ш较到y(tǒng)、里程計、高清地圖、CAN 總線等。
BEV 感知工具箱是為基于 BEV 相機的 3D 對象檢測提供平臺,并在 Waymo 數(shù)據(jù)集上提供實驗平臺,可以進行手動教程和小規(guī)模數(shù)據(jù)集的實驗。
圖 1:BEVPerception Survey 框架
具體來說,BEV 相機表示用于從多個周圍相機進行 3D 對象檢測或分割的算法;BEV 激光雷達表示用點云作為輸入來完成檢測或分割任務(wù);BEV 融合則是用多個傳感器的輸出作為輸入,例如攝像頭、LiDAR、GNSS、里程計、HD-Map、CAN-bus 等。
BEVPercption 文獻綜述研究
BEV 相機?
BEV 相機感知包括 2D 特征提取器、視圖變換和 3D 解碼器三部分。下圖展示了 BEV 相機感知流程圖,在視圖變換中,有兩種方式對 3D 信息進行編碼 —— 一種是從 2D 特征預(yù)測深度信息;另一種是從 3D 空間中采樣 2D 特征。
圖 2:BEV 相機感知流程圖
對于 2D 特征提取器,2D 感知任務(wù)中存在大量可以在 3D 感知任務(wù)中借鑒的經(jīng)驗,比如主干預(yù)訓(xùn)練的形式。
視圖轉(zhuǎn)換模塊是與 2D 感知系統(tǒng)非常不同的一方面。如上圖所示,一般有兩種方式進行視圖變換:一種是從 3D 空間到 2D 空間的變換,另一種是從 2D 空間到 3D 空間的變換,這兩種轉(zhuǎn)換方法要么是利用在 3D 空間中的物理先驗知識或利用額外的 3D 信息監(jiān)督。值得注意的是并非所有 3D 感知方法都有視圖變換模塊,比如有些方法直接從 2D 空間中的特征檢測 3D 空間中的對象。
3D 解碼器接收 2D/3D 空間中的特征并輸出 3D 感知結(jié)果。大多數(shù) 3D 解碼器的設(shè)計來自基于 LiDAR 的感知模型。這些方法在 BEV 空間中執(zhí)行檢測,但仍然有一些 3D 解碼器利用 2D 空間中的特征并直接回歸 3D 對象的定位。
BEV 激光雷達
BEV 激光雷達感知的普通流程主要是將兩個分支將點云數(shù)據(jù)轉(zhuǎn)換為 BEV 表示。下圖為 BEV 激光雷達感知流程圖,上分支提取 3D 空間中的點云特征,提供更準確的檢測結(jié)果。下分支提取 2D 空間中的 BEV 特征,提供更高效的網(wǎng)絡(luò)。除了基于點的方法能在原始點云上進行處理外,基于體素的方法還將點體素化為離散網(wǎng)格,通過離散化連續(xù)的 3D 坐標提供更高效的表示?;陔x散體素表示,3D 卷積或 3D 稀疏卷積可用于提取點云特征。
圖 3:BEV 激光雷達感知流程圖
BEV 融合
BEV 感知融合算法有 PV 感知和 BEV 感知兩種方式,適用于學(xué)術(shù)界和工業(yè)界。下圖展示了 PV 感知與 BEV 感知流程圖的對比,兩者的主要區(qū)別在于 2D 到 3D 的轉(zhuǎn)換和融合模塊。在 PV 感知流程圖中,不同算法的結(jié)果首先被轉(zhuǎn)換到 3D 空間中,然后使用一些先驗知識或者手工設(shè)計的規(guī)則進行融合。而在 BEV 感知流程圖中,PV 特征圖會被轉(zhuǎn)換到 BEV 視角下,然后進行 BEV 空間下的融合從而得到最終的結(jié)果,因而能夠最大化保留原始特征信息,避免過多的手工設(shè)計。
圖 4:PV 感知(左)與 BEV 感知(右)流程圖
適用于 BEV 感知模型的數(shù)據(jù)集
針對 BEV 感知任務(wù)存在很多的數(shù)據(jù)集。通常數(shù)據(jù)集由各種場景組成,并且每個場景在不同數(shù)據(jù)集中的長度不同。下表總結(jié)了目前學(xué)界常用的數(shù)據(jù)集。我們可以從中看到 Waymo 數(shù)據(jù)集相比其他數(shù)據(jù)集有著更多樣的場景以及更豐富的 3D 檢測框的標注。
表 1:BEV 感知數(shù)據(jù)集一覽
然而目前學(xué)界并沒有針對 Waymo 開發(fā)的 BEV 感知任務(wù)的軟件公開。因此我們選擇基于 Waymo 數(shù)據(jù)集進行開發(fā),希望可以推動 BEV 感知任務(wù)在 Waymo 數(shù)據(jù)集上的發(fā)展。
Toolbox - BEV 感知工具箱
BEVFormer 是一種常用的 BEV 感知方法,它采用時空變換器將主干網(wǎng)絡(luò)從多視圖輸入提取的特征轉(zhuǎn)換為 BEV 特征,然后將 BEV 特征輸入檢測頭中得到最后的檢測結(jié)果。BEVFormer 有兩個特點,它具有從 2D 圖像特征到 3D 特征的精確轉(zhuǎn)換,并可以把它提取的 BEV 特征適用于不同的檢測頭。我們通過一系列的方式進一步提升了 BEVFormer 的視圖轉(zhuǎn)換質(zhì)量以及最終的檢測性能。
在憑借 BEVFormer++ 取得 CVPR 2022 Waymo Challenge 第一名后,我們推出了 Toolbox - BEV 感知工具箱,通過提供一整套易于上手的 Waymo Open Dataset 的數(shù)據(jù)處理工具,從而集成一系列能夠顯著提高模型性能的方法(包括但不限于數(shù)據(jù)增強,檢測頭,損失函數(shù),模型集成等),并且能夠與領(lǐng)域內(nèi)廣泛使用的開源框架,如 mmdetection3d 以及 detectron2 兼容。與基礎(chǔ)的 Waymo 數(shù)據(jù)集相比,BEV 感知工具箱將使用技巧加以優(yōu)化改進以便不同類型研發(fā)人員使用。下圖展示的是基于 Waymo 數(shù)據(jù)集的 BEV 感知工具箱使用示例。
圖 5:基于 Waymo 數(shù)據(jù)集的 Toolbox 使用示例
總結(jié)
- BEVPerception Survey 總結(jié)了近年來 BEV 感知技術(shù)研究的總體情況,包括高層次的理念闡述和更為深入的詳細討論。對 BEV 感知相關(guān)文獻的綜合分析,涵蓋了深度估計、視圖變換、傳感器融合、域自適應(yīng)等核心問題,并對 BEV 感知在工業(yè)系統(tǒng)中的應(yīng)用進行了較為深入的闡述。
- 除理論貢獻外,BEVPerception Survey 還提供了一套對于提高基于相機的 3D 鳥瞰圖(BEV)物體檢測性能十分實用的工具箱,包括一系列的訓(xùn)練數(shù)據(jù)增強策略、高效的編碼器設(shè)計、損失函數(shù)設(shè)計、測試數(shù)據(jù)增強和模型集成策略等,以及這些技巧在 Waymo 數(shù)據(jù)集上的實現(xiàn)。希望可以幫助更多的研究人員實現(xiàn) “隨用隨取”,為自動駕駛行業(yè)研發(fā)人員提供更多的便利。
我們希望 BEVPerception Survey 不僅能幫助使用者方便地使用高性能的 BEV 感知模型,同時也能成為新手入門 BEV 感知模型的良好起點。我們著力于突破自動駕駛領(lǐng)域的研發(fā)界限,期待與學(xué)界分享觀點并交流討論進而不斷發(fā)掘自動駕駛相關(guān)研究在現(xiàn)實世界中的應(yīng)用潛力。