偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華最新!RoadBEV:BEV下的道路表面重建如何實(shí)現(xiàn)?

人工智能 新聞
本文首次在鳥瞰圖中重建了道路表面的高程。本文分別提出并分析了基于單目和雙目圖像的兩種模型,分別命名為RoadBEV-mono和RoadBEV-stereo。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

原標(biāo)題:RoadBEV: Road Surface Reconstruction in Bird’s Eye View

論文鏈接:https://arxiv.org/pdf/2404.06605.pdf

代碼鏈接:https://github.com/ztsrxh/RoadBEV

作者單位:清華大學(xué) 加州大學(xué)伯克利分校

圖片

論文思路:

道路表面狀況,尤其是幾何輪廓,極大地影響自動(dòng)駕駛車輛的駕駛性能?;谝曈X的在線道路重建有望提前捕獲道路信息?,F(xiàn)有的解決方案如單目深度估計(jì)和立體匹配的性能表現(xiàn)一般。最近的鳥瞰視角(BEV)感知技術(shù)為更可靠和精確的重建提供了巨大潛力。本文統(tǒng)一提出了兩種簡單而有效的BEV道路高程重建(road elevation reconstruction)模型,分別命名為RoadBEV-mono和RoadBEV-stereo,它們分別利用單目和立體圖像估計(jì)道路高程。前者直接基于從圖像視圖中查詢的體素特征擬合高程值,而后者有效地基于表示左右體素特征差異的BEV體積識(shí)別道路高程模式。深入的分析揭示了它們與透視視圖的一致性和差異。在真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了模型的有效性和優(yōu)越性。RoadBEV-mono和RoadBEV-stereo的高程誤差分別為1.83厘米和0.56厘米?;趩文繄D像的BEV估計(jì)性能提高了50%。本文的模型對(duì)實(shí)際應(yīng)用充滿希望,為基于視覺的BEV自動(dòng)駕駛感知提供了寶貴的參考。

主要貢獻(xiàn):

本文首次從理論和實(shí)驗(yàn)兩個(gè)方面展示了鳥瞰視角下道路表面重建的必要性和優(yōu)越性。

對(duì)于單目和立體基礎(chǔ)方案,本文分別提出了兩個(gè)模型,分別命名為RoadBEV-mono和RoadBEV-stereo。本文詳細(xì)解釋了它們的機(jī)制。

本文全面測試和分析了所提出模型的性能,為未來的研究提供了寶貴的見解和展望。

網(wǎng)絡(luò)設(shè)計(jì):

近年來,無人地面車輛(UGVs)的快速發(fā)展對(duì)車載感知系統(tǒng)提出了更高的要求。實(shí)時(shí)理解駕駛環(huán)境和條件對(duì)于準(zhǔn)確的運(yùn)動(dòng)規(guī)劃和控制至關(guān)重要[1]-[3]。對(duì)于車輛來說,道路是與物理世界接觸的唯一媒介。道路表面狀況決定了許多車輛特性和駕駛性能[4]。如圖1(a)所示,道路的不平整性,如顛簸和坑洼,會(huì)加劇乘用車的乘坐體驗(yàn),這是直觀可感知的。實(shí)時(shí)道路表面狀況感知,特別是幾何高程(geometry elevation),極大地有助于提升乘坐舒適度[5],[6]。

與無人地面車輛(UGVs)中的其他感知任務(wù)如分割和檢測相比,道路表面重建(road surface reconstruction)(RSR)是一種新興技術(shù),最近越來越受到關(guān)注。與現(xiàn)有的感知流程類似,RSR通常利用車載激光雷達(dá)(LiDAR)和攝像頭傳感器來保留道路表面信息。激光雷達(dá)直接掃描道路輪廓并派生出點(diǎn)云[7],[8]。車輛軌跡上的道路高程可以直接提取,無需復(fù)雜算法。然而,激光雷達(dá)傳感器成本較高,限制了它們在經(jīng)濟(jì)型量產(chǎn)車輛上的應(yīng)用。與車輛和行人等體積較大的交通物體不同,道路的不平整性通常幅度較小,因此點(diǎn)云的準(zhǔn)確性至關(guān)重要。實(shí)時(shí)道路掃描上的運(yùn)動(dòng)補(bǔ)償和過濾是必需的,這進(jìn)一步要求在厘米級(jí)別的高精度定位。

基于圖像的道路表面重建(RSR),作為一個(gè)三維視覺任務(wù),在精度和分辨率方面比激光雷達(dá)(LiDAR)更有前景。它還保留了道路表面紋理,使得道路感知更加全面。基于視覺的道路高程重建實(shí)際上是一個(gè)深度估計(jì)問題。對(duì)于單目相機(jī),可以基于單張圖片實(shí)施單目深度估計(jì),或者基于序列實(shí)施多視角立體(MVS)來直接估計(jì)深度[9]。對(duì)于雙目相機(jī),雙目匹配回歸視差圖,這可以轉(zhuǎn)換為深度[10],[11]。給定相機(jī)參數(shù),就可以恢復(fù)相機(jī)坐標(biāo)系中的道路點(diǎn)云。通過初步的后處理流程,最終獲得道路結(jié)構(gòu)和高程信息。在真值(GT)標(biāo)簽的指導(dǎo)下,可以實(shí)現(xiàn)高精度和可靠的RSR。

然而,圖像視角下的道路表面重建(RSR)存在固有的缺點(diǎn)。對(duì)于特定像素的深度估計(jì)實(shí)際上是沿著垂直于圖像平面方向?qū)ふ易顑?yōu)箱體(optimal bins)(如圖1(b)中的橙色點(diǎn)所示)。深度方向與道路表面存在一定的角度偏差。道路輪廓特征的變化和趨勢與搜索方向上的變化和趨勢不一致。在深度視圖中關(guān)于道路高程變化的信息線索是稀疏的。此外,每個(gè)像素的深度搜索范圍是相同的,導(dǎo)致模型捕捉到的是全局幾何層次結(jié)構(gòu)而不是局部表面結(jié)構(gòu)。由于全局但粗糙的深度搜索,精細(xì)的道路高程信息被破壞。由于本文關(guān)注的是垂直方向上的高程,因此在深度方向上所做的努力被浪費(fèi)了。在透視視圖中,遠(yuǎn)距離的紋理細(xì)節(jié)丟失,這進(jìn)一步為有效的深度回歸帶來了挑戰(zhàn),除非進(jìn)一步引入先驗(yàn)約束[12]。

從俯視圖(即鳥瞰圖,BEV)估計(jì)道路高程是一個(gè)自然的想法,因?yàn)楦叱瘫举|(zhì)上描述了垂直方向的振動(dòng)。鳥瞰圖是一種有效的范式,用于以統(tǒng)一坐標(biāo)表示多模態(tài)和多視圖數(shù)據(jù)[13],[14]。最近在三維目標(biāo)檢測和分割任務(wù)上取得的 SOTA 性能是通過基于鳥瞰圖的方法實(shí)現(xiàn)的[15],這與透視視圖不同,后者通過在視圖轉(zhuǎn)換的圖像特征上引入估計(jì)頭部來進(jìn)行。圖1展示了本文的動(dòng)機(jī)。與在圖像視圖中關(guān)注全局結(jié)構(gòu)不同,鳥瞰圖中的重建直接在垂直方向上的一個(gè)特定小范圍內(nèi)識(shí)別道路特征。在鳥瞰圖中投影的道路特征密集地反映了結(jié)構(gòu)和輪廓變化,有助于進(jìn)行有效和精細(xì)化的搜索。透視效應(yīng)的影響也被抑制,因?yàn)榈缆吩诖怪庇谟^察角度的平面上被統(tǒng)一表示?;邙B瞰圖特征的道路重建有望實(shí)現(xiàn)更高的性能。

本文重建了BEV下的道路表面,以解決上述識(shí)別出的問題。特別地,本文關(guān)注道路幾何,即高程(elevation)。為了利用單目和雙目圖像,并展示鳥瞰圖感知的廣泛可行性,本文提出了兩個(gè)子模型,分別命名為RoadBEV-mono和RoadBEV-stereo。遵循鳥瞰圖的范例,本文定義了覆蓋潛在道路起伏的感興趣體素。這些體素通過3D-2D投影查詢像素特征。對(duì)于RoadBEV-mono,本文在重塑的體素特征上引入了高程估計(jì)頭。RoadBEV-stereo的結(jié)構(gòu)與圖像視圖中的雙目匹配保持一致?;谧笥殷w素特征,在鳥瞰圖中構(gòu)建了一個(gè)4D代價(jià)體積,該體積通過3D卷積進(jìn)行聚合。高程回歸被視為對(duì)預(yù)定義箱體的分類,以實(shí)現(xiàn)更高效的模型學(xué)習(xí)。本文在本文作者之前發(fā)布的真實(shí)世界數(shù)據(jù)集上驗(yàn)證了這些模型,顯示出它們比傳統(tǒng)的單目深度估計(jì)和雙目匹配方法有著巨大的優(yōu)勢。

圖片

圖1. 本文的動(dòng)機(jī)。(a)無論是單目還是雙目配置,本文在鳥瞰圖(BEV)中的重建方法都優(yōu)于圖像視圖中的方法。(b)在圖像視圖中進(jìn)行深度估計(jì)時(shí),搜索方向與道路高程方向存在偏差。在深度視圖中,道路輪廓特征是稀疏的。坑洼不容易被識(shí)別。(c)在鳥瞰圖中,能夠精確捕捉到輪廓振動(dòng),例如坑洼、路邊臺(tái)階乃至車轍。垂直方向上的道路高程特征更加密集,也更容易識(shí)別。

圖2. 坐標(biāo)示意及真值(GT)高程標(biāo)簽的生成。(a)坐標(biāo)(b)圖像視圖中的感興趣區(qū)域(ROI)(c)鳥瞰圖中的感興趣區(qū)域(ROI)(d)在網(wǎng)格中生成真值(GT)標(biāo)簽

圖3. 道路圖像及真值(GT)高程圖的示例。

圖4. 圖像視圖中感興趣的特征體素。位于相同水平位置的堆疊體素的中心被投影到紅色線段上的像素點(diǎn)。

圖5. RoadBEV-mono的架構(gòu)。本文利用3D到2D的投影來查詢像素特征。高程估計(jì)頭部使用2D卷積在重塑后的鳥瞰圖(BEV)特征上提取特征。

圖6. RoadBEV-mono的機(jī)制。體素以側(cè)視圖展示。

圖7. RoadBEV-stereo的架構(gòu)。定義在左相機(jī)坐標(biāo)系下的體素查詢左右特征圖的像素特征。本文通過左右體素特征之間的相減,在鳥瞰圖(BEV)中構(gòu)建差異體積。然后,3D卷積對(duì)鳥瞰圖中的4D體積進(jìn)行聚合。

圖8. RoadBEV-stereo的機(jī)制。

實(shí)驗(yàn)結(jié)果:

圖9. (a) RoadBEV-mono和 (b) RoadBEV-stereo的訓(xùn)練損失。

圖10. 在單目和雙目基礎(chǔ)上,與SOTA模型的距離方向上的高程誤差比較。

圖11. 由RoadBEV-mono重建的道路表面可視化。

圖12. 由RoadBEV-stereo重建的道路表面可視化。

總結(jié):

本文首次在鳥瞰圖中重建了道路表面的高程。本文分別提出并分析了基于單目和雙目圖像的兩種模型,分別命名為RoadBEV-mono和RoadBEV-stereo。本文發(fā)現(xiàn),BEV中的單目估計(jì)和雙目匹配與透視視圖中的機(jī)制相同,通過縮小搜索范圍和直接在高程方向挖掘特征而得到改進(jìn)。在真實(shí)世界數(shù)據(jù)集上的全面實(shí)驗(yàn)驗(yàn)證了所提出的BEV體積、估計(jì)頭和參數(shù)設(shè)置的可行性和優(yōu)越性。對(duì)于單目相機(jī),在BEV中的重建性能比透視視圖提高了50%。同時(shí),在BEV中,使用雙目相機(jī)的性能是單目的三倍。本文提供了關(guān)于模型的深入分析和指導(dǎo)。本文的開創(chuàng)性探索也為與BEV感知、3D重建和3D檢測相關(guān)的進(jìn)一步研究和應(yīng)用提供了寶貴的參考。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-07-31 10:10:00

BEV感知算法

2025-03-12 10:07:06

2024-02-06 09:43:57

3D視覺

2010-11-16 09:49:22

Oracle重建索引

2010-11-16 09:18:39

oracle重建索引

2023-12-27 08:28:54

自動(dòng)駕駛模型

2011-06-14 10:05:31

三網(wǎng)融合國外

2016-11-18 09:55:12

軟件 產(chǎn)業(yè)

2023-10-08 09:27:11

數(shù)據(jù)檢測

2023-10-05 12:49:02

自動(dòng)駕駛數(shù)據(jù)

2023-11-20 09:47:14

自動(dòng)駕駛視覺

2021-12-03 10:31:22

CIOIT董事會(huì)

2024-07-26 09:22:36

2024-12-13 13:00:00

模型AI數(shù)據(jù)

2024-12-19 10:20:53

2023-06-30 09:33:37

自動(dòng)駕駛技術(shù)

2024-09-24 10:30:32

2024-01-10 17:25:00

AI數(shù)據(jù)

2024-06-26 09:57:24

2022-03-17 21:04:57

人工智能美團(tuán)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)