偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<code id="z7q7w"></code>

<wbr id="z7q7w"><var id="z7q7w"><th id="z7q7w"></th></var></wbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

OccNeRF：完全無(wú)需激光雷達(dá)數(shù)據(jù)監(jiān)督

作者：自動(dòng)駕駛之心 2024-02-07 09:31:19

人工智能智能汽車(chē)

近年來(lái)，隨著人工智能技術(shù)的飛速發(fā)展，自動(dòng)駕駛領(lǐng)域也取得了巨大進(jìn)展。3D 感知是實(shí)現(xiàn)自動(dòng)駕駛的基礎(chǔ)，為后續(xù)的規(guī)劃決策提供必要信息。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面&筆者的個(gè)人總結(jié)

近年來(lái)，3D 占據(jù)預(yù)測(cè)（3D Occupancy Prediction）任務(wù)因其獨(dú)特的優(yōu)勢(shì)獲得了學(xué)界及業(yè)界的廣泛關(guān)注。3D 占據(jù)預(yù)測(cè)通過(guò)重建周?chē)h(huán)境的 3D 結(jié)構(gòu)為自動(dòng)駕駛的規(guī)劃和導(dǎo)航提供詳細(xì)信息。然而，大多數(shù)現(xiàn)有方法依賴(lài) LiDAR 點(diǎn)云生成的標(biāo)簽來(lái)監(jiān)督網(wǎng)絡(luò)訓(xùn)練。在 OccNeRF 工作中，作者提出了一種自監(jiān)督的多相機(jī)占據(jù)預(yù)測(cè)方法。該方法參數(shù)化的占據(jù)場(chǎng)（Parameterized Occupancy Fields）解決了室外場(chǎng)景無(wú)邊界的問(wèn)題，并重新組織了采樣策略，然后通過(guò)體渲染（Volume Rendering）來(lái)將占用場(chǎng)轉(zhuǎn)換為多相機(jī)深度圖，最后通過(guò)多幀光度一致性（Photometric Error）進(jìn)行監(jiān)督。此外，該方法利用預(yù)訓(xùn)練的開(kāi)放詞匯語(yǔ)義分割模型（open vocabulary semantic segmentation model）生成 2D 語(yǔ)義標(biāo)簽對(duì)模型進(jìn)行監(jiān)督，來(lái)賦予占據(jù)場(chǎng)語(yǔ)義信息。

論文鏈接：https://arxiv.org/pdf/2312.09243.pdf
代碼鏈接：https://github.com/LinShan-Bin/OccNeRF

OccNeRF問(wèn)題背景

近年來(lái)，隨著人工智能技術(shù)的飛速發(fā)展，自動(dòng)駕駛領(lǐng)域也取得了巨大進(jìn)展。3D 感知是實(shí)現(xiàn)自動(dòng)駕駛的基礎(chǔ)，為后續(xù)的規(guī)劃決策提供必要信息。傳統(tǒng)方法中，激光雷達(dá)能直接捕獲精確的 3D 數(shù)據(jù)，但傳感器成本高且掃描點(diǎn)稀疏，限制了其落地應(yīng)用。相比之下，基于圖像的 3D 感知方法成本低且有效，受到越來(lái)越多的關(guān)注。多相機(jī) 3D 目標(biāo)檢測(cè)在一段時(shí)間內(nèi)是 3D 場(chǎng)景理解任務(wù)的主流，但它無(wú)法應(yīng)對(duì)現(xiàn)實(shí)世界中無(wú)限的類(lèi)別，并受到數(shù)據(jù)長(zhǎng)尾分布的影響。

3D 占據(jù)預(yù)測(cè)能很好地彌補(bǔ)這些缺點(diǎn)，它通過(guò)多視角輸入直接重建周?chē)鷪?chǎng)景的幾何結(jié)構(gòu)。大多數(shù)現(xiàn)有方法關(guān)注于模型設(shè)計(jì)與性能優(yōu)化，依賴(lài) LiDAR 點(diǎn)云生成的標(biāo)簽來(lái)監(jiān)督網(wǎng)絡(luò)訓(xùn)練，這在基于圖像的系統(tǒng)中是不可用的。換言之，我們?nèi)孕枰冒嘿F的數(shù)據(jù)采集車(chē)來(lái)收集訓(xùn)練數(shù)據(jù)，并浪費(fèi)大量沒(méi)有 LiDAR 點(diǎn)云輔助標(biāo)注的真實(shí)數(shù)據(jù)，這一定程度上限制了 3D 占據(jù)預(yù)測(cè)的發(fā)展。因此探索自監(jiān)督 3D 占據(jù)預(yù)測(cè)是一個(gè)非常有價(jià)值的方向。

詳解OccNeRF算法

下圖展示了 OccNeRF 方法的基本流程。模型以多攝像頭圖像作為輸入，首先使用 2D backbone 提取 N 個(gè)圖片的特征，隨后直接通過(guò)簡(jiǎn)單的投影與雙線(xiàn)性插值獲 3D 特征（在參數(shù)化空間下），最后通過(guò) 3D CNN 網(wǎng)絡(luò)優(yōu)化 3D 特征并輸出預(yù)測(cè)結(jié)果。為了訓(xùn)練模型，OccNeRF 方法通過(guò)體渲染生成當(dāng)前幀的深度圖，并引入前后幀來(lái)計(jì)算光度損失。為了引入更多的時(shí)序信息，OccNeRF 會(huì)使用一個(gè)占據(jù)場(chǎng)渲染多幀深度圖并計(jì)算損失函數(shù)。同時(shí)，OccNeRF 還同時(shí)渲染 2D 語(yǔ)義圖，并通過(guò)開(kāi)放詞匯語(yǔ)義分割模型進(jìn)行監(jiān)督。

Parameterized Occupancy Fields

Parameterized Occupancy Fields 的提出是為了解決相機(jī)與占據(jù)網(wǎng)格之間存在感知范圍差距這一問(wèn)題。理論上來(lái)講，相機(jī)可以拍攝到無(wú)窮遠(yuǎn)處的物體，而以往的占據(jù)預(yù)測(cè)模型都只考慮較近的空間（例如 40 m 范圍內(nèi)）。在有監(jiān)督方法中，模型可以根據(jù)監(jiān)督信號(hào)學(xué)會(huì)忽略遠(yuǎn)處的物體；而在無(wú)監(jiān)督方法中，若仍然只考慮近處的空間，則圖像中存在的大量超出范圍的物體將對(duì)優(yōu)化過(guò)程產(chǎn)生負(fù)面影響。基于此，OccNeRF 采用了 Parameterized Occupancy Fields 來(lái)建模范圍無(wú)限的室外場(chǎng)景。

OccNeRF 中的參數(shù)化空間分為內(nèi)部和外部。內(nèi)部空間是原始坐標(biāo)的線(xiàn)性映射，保持了較高的分辨率；而外部空間表示了無(wú)窮大的范圍。具體來(lái)說(shuō)，OccNeRF 分別對(duì) 3D 空間中點(diǎn)的坐標(biāo)做如下變化：

其中為坐標(biāo)，，是可調(diào)節(jié)的參數(shù)，表示內(nèi)部空間對(duì)應(yīng)的邊界值，也是可調(diào)節(jié)的參數(shù)，表示內(nèi)部空間占據(jù)的比例。在生成 parameterized occupancy fields 時(shí)，OccNeRF 先在參數(shù)化空間中采樣，通過(guò)逆變換得到原始坐標(biāo)，然后將原始坐標(biāo)投影到圖像平面上，最后通過(guò)采樣和三維卷積得到占據(jù)場(chǎng)。

Multi-frame Depth Estimation

為了實(shí)現(xiàn)訓(xùn)練 occupancy 網(wǎng)絡(luò)，OccNeRF選擇利用體渲染將 occupancy 轉(zhuǎn)換為深度圖，并通過(guò)光度損失函數(shù)來(lái)監(jiān)督。渲染深度圖時(shí)采樣策略很重要。在參數(shù)化空間中，若直接根據(jù)深度或視差均勻采樣，都會(huì)造成采樣點(diǎn)在內(nèi)部或外部空間分布不均勻，進(jìn)而影響優(yōu)化過(guò)程。因此，OccNeRF 提出在相機(jī)中心離原點(diǎn)較近的前提下，可直接在參數(shù)化空間中均勻采樣。此外，OccNeRF 在訓(xùn)練時(shí)會(huì)渲染并監(jiān)督多幀深度圖。

下圖直觀(guān)地展示了使用參數(shù)化空間表示占據(jù)的優(yōu)勢(shì)。（其中第三行使用了參數(shù)化空間，第二行沒(méi)有使用。）

Semantic Label Generation

OccNeRF 使用預(yù)訓(xùn)練的 GroundedSAM (Grounding DINO + SAM) 生成 2D 語(yǔ)義標(biāo)簽。為了生成高質(zhì)量的標(biāo)簽，OccNeRF 采用了兩個(gè)策略，一是提示詞優(yōu)化，用精確的描述替換掉 nuScenes 中模糊的類(lèi)別。OccNeRF中使用了三種策略?xún)?yōu)化提示詞：歧義詞替換（car 替換為 sedan）、單詞變多詞（manmade 替換為 building, billboard and bridge）和額外信息引入（bicycle 替換為 bicycle, bicyclist）。二是根據(jù) Grounding DINO 中檢測(cè)框的置信度而不是 SAM 給出的逐像素置信度來(lái)決定類(lèi)別。OccNeRF 生成的語(yǔ)義標(biāo)簽效果如下：

OccNeRF實(shí)驗(yàn)結(jié)果

OccNeRF 在 nuScenes 上進(jìn)行實(shí)驗(yàn)，并主要完成了多視角自監(jiān)督深度估計(jì)和 3D 占據(jù)預(yù)測(cè)任務(wù)。

多視角自監(jiān)督深度估計(jì)

OccNeRF 在 nuScenes 上多視角自監(jiān)督深度估計(jì)性能如下表所示?？梢钥吹交?3D 建模的 OccNeRF 顯著超過(guò)了 2D 方法，也超過(guò)了 SimpleOcc，很大程度上是由于 OccNeRF 針對(duì)室外場(chǎng)景建模了無(wú)限的空間范圍。

論文中的部分可視化效果如下：

3D 占據(jù)預(yù)測(cè)

OccNeRF 在 nuScenes 上 3D 占據(jù)預(yù)測(cè)性能如下表所示。由于 OccNeRF 完全不使用標(biāo)注數(shù)據(jù)，其性能與有監(jiān)督方法仍有差距。但部分類(lèi)別（如 drivable surface 與 manmade）已達(dá)到與有監(jiān)督方法可比的性能。

文中的部分可視化效果如下：

總結(jié)

在許多汽車(chē)廠(chǎng)商都嘗試去掉 LiDAR 傳感器的當(dāng)下，如何利用好成千上萬(wàn)無(wú)標(biāo)注的圖像數(shù)據(jù)，是一個(gè)重要的課題。而 OccNeRF 給我們帶來(lái)了一個(gè)很有價(jià)值的嘗試。

原文鏈接：https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

自動(dòng)駕駛 3D

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="0vgmb"></abbr>