BEVNet,一個多攝像頭在BEV視圖的3-D目標(biāo)檢測方法
arXiv在2021年12月“BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View“,作者是北京鑒智機(jī)器人公司。
自主駕駛能夠感知周圍環(huán)境進(jìn)行決策,這是視覺感知最復(fù)雜的應(yīng)用場景之一。本文提出BEVDet,根據(jù)在鳥瞰視圖(BEV)中檢測3D目標(biāo),因為BEV能方便地執(zhí)行路線規(guī)劃(route planning)。其包括四類模塊:在圖像視圖編碼特征的圖像視圖編碼器、將特征從圖像視圖轉(zhuǎn)換為BEV的視圖轉(zhuǎn)換器、在BEV中進(jìn)一步編碼特征的BEV編碼器以及用于預(yù)測BEV中目標(biāo)(target)的任務(wù)特定頭。只需重復(fù)使用現(xiàn)有的模塊來構(gòu)建BEVDet,并通過構(gòu)建專用的數(shù)據(jù)增強(qiáng)策略用于多攝像機(jī)3D目標(biāo)檢測。
BEVDet如圖所示:圖像視圖編碼器,包括主干和頸部,用于圖像特征提取;視圖轉(zhuǎn)換器將特征從圖像視圖轉(zhuǎn)換為BEV;BEV編碼器進(jìn)一步編碼BEV特征;最后,基于BVE特征構(gòu)建特定于任務(wù)的頭部,并預(yù)測3D目標(biāo)的目標(biāo)值(target values)。
如下表是BEVDet的幾個變型:
圖像像素點加深度,可以得到其3-D空間坐標(biāo):
文章采用一個數(shù)據(jù)增強(qiáng)策略,即變換A:
那么為保持圖像像素與三維空間對應(yīng)點之間的一致性,在視圖變換過程中應(yīng)采用A逆,即:
在BEV空間中的學(xué)習(xí),數(shù)據(jù)量少于圖像視圖空間的數(shù)據(jù)量,因為每個樣本包含多個攝像機(jī)圖像(例如,nuScenses基準(zhǔn)數(shù)據(jù)的每個樣本包含6個圖像)。因此,BEV空間中的學(xué)習(xí)容易陷入過擬合。在增強(qiáng)角度看,視圖變換器將兩個視圖空間隔離,為此構(gòu)建另一個增強(qiáng)策略,專門為BEV空間學(xué)習(xí)的正則化。二維空間的常見數(shù)據(jù)擴(kuò)充操作包括翻轉(zhuǎn)、縮放和旋轉(zhuǎn)。在實踐中,這些操作同時在視圖轉(zhuǎn)換器的輸出特征和三維目標(biāo)檢測的目標(biāo)上進(jìn)行,保持其空間一致性。值得注意的是,這種數(shù)據(jù)增強(qiáng)策略建立于這樣的前提,即視圖轉(zhuǎn)換器解耦圖像視圖編碼器與后續(xù)模塊。
實驗結(jié)果如下: