聯(lián)合駕駛場(chǎng)景中深度、姿態(tài)和道路估計(jì)的感知網(wǎng)絡(luò)
arXiv論文“JPerceiver: Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes“,上傳于22年7月,報(bào)道關(guān)于澳大利亞悉尼大學(xué)陶大程教授和北京京東研究院的工作。
深度估計(jì)、視覺(jué)測(cè)程計(jì)(VO)和鳥(niǎo)瞰圖(BEV)場(chǎng)景布局估計(jì)是駕駛場(chǎng)景感知的三個(gè)關(guān)鍵任務(wù),這是自主駕駛中運(yùn)動(dòng)規(guī)劃和導(dǎo)航的基礎(chǔ)。雖然相互補(bǔ)充,但通常側(cè)重于單獨(dú)的任務(wù),很少同時(shí)處理這三個(gè)任務(wù)。
一種簡(jiǎn)單的方法是以順序或并行的方式獨(dú)立地完成,但有三種缺點(diǎn),即1)深度和VO結(jié)果受到固有的尺度多義問(wèn)題的影響;2) BEV布局通常單獨(dú)估計(jì)道路和車輛,而忽略顯式疊加-下墊關(guān)系;3)雖然深度圖是用于推斷場(chǎng)景布局的有用幾何線索,但實(shí)際上直接從前視圖圖像預(yù)測(cè)BEV布局,并沒(méi)有使用任何深度相關(guān)信息。
本文提出一種聯(lián)合感知框架JPerceiver來(lái)解決這些問(wèn)題,從單目視頻序列中同時(shí)估計(jì)尺度-覺(jué)察深度、VO以及BEV布局。用跨視圖幾何變換(cross-view geometric transformation,CGT),根據(jù)精心設(shè)計(jì)的尺度損失,將絕對(duì)尺度從道路布局傳播到深度和VO。同時(shí),設(shè)計(jì)一個(gè)跨視圖和模態(tài)轉(zhuǎn)換(cross-view and cross-modal transfer,CCT)模塊,用深度線索通過(guò)注意機(jī)制推理道路和車輛布局。
JPerceiver以端到端的多任務(wù)學(xué)習(xí)方式進(jìn)行訓(xùn)練,其中CGT尺度損失和CCT模塊促進(jìn)任務(wù)間知識(shí)遷移,利于每個(gè)任務(wù)的特征學(xué)習(xí)。
代碼和模型可下載https://github.com/sunnyHelen/JPerceiver.
如圖所示,JPerceiver分別由深度、姿態(tài)和道路布局三個(gè)網(wǎng)絡(luò)組成,都基于編碼器-解碼器架構(gòu)。深度網(wǎng)絡(luò)旨在預(yù)測(cè)當(dāng)前幀It的深度圖Dt,其中每個(gè)深度值表示3D點(diǎn)與攝像頭之間的距離。姿態(tài)網(wǎng)絡(luò)的目標(biāo)是預(yù)測(cè)在當(dāng)前幀It及其相鄰幀It+m之間姿態(tài)變換Tt→t+m。道路布局網(wǎng)絡(luò)的目標(biāo)是估計(jì)當(dāng)前幀的BEV布局Lt,即俯視笛卡爾平面中道路和車輛的語(yǔ)義占用率。這三個(gè)網(wǎng)絡(luò)在訓(xùn)練期間聯(lián)合優(yōu)化。
預(yù)測(cè)深度和姿態(tài)的兩個(gè)網(wǎng)絡(luò)以自監(jiān)督方式用光度損失和平滑度損失進(jìn)行聯(lián)合優(yōu)化。此外,還設(shè)計(jì)CGT尺度損失來(lái)解決單目深度和VO估計(jì)的尺度多義問(wèn)題。
為實(shí)現(xiàn)尺度-覺(jué)察的環(huán)境感知,用BEV布局中的尺度信息,提出CGT的尺度損失用于深度估計(jì)和VO。由于BEV布局顯示了BEV笛卡爾平面中的語(yǔ)義占用,分別覆蓋自車前面Z米和左右(Z/2)米的范圍。其提供一個(gè)自然距離場(chǎng)(natural distance field)z,每個(gè)像素相對(duì)于自車的度量距離zij,如圖所示:
假設(shè)BEV平面是地面,其原點(diǎn)剛好在自車坐標(biāo)系原點(diǎn)下面,基于攝像機(jī)外參可以通過(guò)單應(yīng)性變換將BEV平面投影到前向攝像頭。因此,BEV距離場(chǎng)z可以投影到前向攝像頭中,如上圖所示,用它來(lái)調(diào)節(jié)預(yù)測(cè)深度d,從而導(dǎo)出CGT尺度損失:
對(duì)于道路布局估計(jì),采用了編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)。值得注意的是,用一個(gè)共享編碼器作為特征提取器和不同的解碼器來(lái)同時(shí)學(xué)習(xí)不同語(yǔ)義類別的BEV布局。此外,設(shè)CCT模塊,以加強(qiáng)任務(wù)之間的特征交互和知識(shí)遷移,并為BEV的空間推理提供3-D幾何信息。為了正則化道路布局網(wǎng)絡(luò),將各種損失項(xiàng)組合在一起,形成混合損失,并實(shí)現(xiàn)不同類的平衡優(yōu)化。
CCT是研究前向視圖特征Ff、BEV布局特征Fb、重轉(zhuǎn)換的前向特征Ff′和前向深度特征FD之間的相關(guān)性,并相應(yīng)地細(xì)化布局特征,如圖所示:分兩部分,即跨視圖模塊和跨模態(tài)模塊的CCT-CV和CCT-CM。
在CCT中,F(xiàn)f和Fd由相應(yīng)感知分支的編碼器提取,而Fb通過(guò)一個(gè)視圖投影MLP將Ff轉(zhuǎn)換為BEV獲得,一個(gè)循環(huán)損失約束的相同MLP將其重新轉(zhuǎn)換為Ff′。
在CCT-CV,交叉注意機(jī)制用于發(fā)現(xiàn)前向視圖和BEV特征之間的幾何對(duì)應(yīng)關(guān)系,然后指導(dǎo)前向視圖信息的細(xì)化,并為BEV推理做好準(zhǔn)備。為了充分利用前向視圖圖像特征,將Fb和Ff投影到patches:Qbi和Kbi,分別作為query和 key。
除了利用前向視圖特征外,還部署CCT-CM來(lái)施加來(lái)自Fd的3-D幾何信息。由于Fd是從前向視圖圖像中提取的,因此以Ff為橋來(lái)減少跨模態(tài)間隙并學(xué)習(xí)Fd和Fb之間的對(duì)應(yīng)關(guān)系是合理的。Fd起Value的作用,由此獲得與BEV信息相關(guān)有價(jià)值的3-D幾何信息,并進(jìn)一步提高道路布局估計(jì)的準(zhǔn)確性。
在探索同時(shí)預(yù)測(cè)不同布局的聯(lián)合學(xué)習(xí)框架過(guò)程中,不同語(yǔ)義類別的特征和分布存在很大差異。對(duì)于特征,駕駛場(chǎng)景中的道路布局通常需要連接,而不同的車輛目標(biāo)必須分割。
對(duì)于分布,觀察到的直線道路場(chǎng)景比轉(zhuǎn)彎場(chǎng)景多,這在真實(shí)數(shù)據(jù)集中是合理的。這種差異和不平衡增加了BEV布局學(xué)習(xí)的難度,尤其是聯(lián)合預(yù)測(cè)不同類別,因?yàn)樵谶@種情況下,簡(jiǎn)單的交叉熵(CE)損失或L1損失會(huì)失效。將幾種分割損失(包括基于分布的CE損失、基于區(qū)域的IoU損失和邊界損失)合并為混合損失,預(yù)測(cè)每個(gè)類別的布局。
實(shí)驗(yàn)結(jié)果如下: