偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

世界模型會(huì)是L3自動(dòng)駕駛的唯一解嗎?2025 技術(shù)展望

人工智能 智能汽車
世界模型是2024年自動(dòng)駕駛研究的熱點(diǎn)方向,而OCC+世界模型除了可以預(yù)測(cè)當(dāng)前時(shí)刻的OCC,還可以預(yù)測(cè)未來時(shí)刻演變,是集感知、決策和規(guī)劃于一體的大一統(tǒng)方向。

三維空間占有率(3D Occupancy)預(yù)測(cè)的目的是預(yù)測(cè)三維空間中的每個(gè)體素是否被占有,如果被占有,則對(duì)應(yīng)的體素將被標(biāo)記。3D Semantic Occupancy是在三維空間內(nèi)同時(shí)編碼占用狀態(tài)和語義信息,成為描述自動(dòng)駕駛 3D 場(chǎng)景的一種極具吸引力的表示方式。而自動(dòng)駕駛世界模型(World Model)具備對(duì)真實(shí)物理世界的理解能力,基于一些歷史信息/狀態(tài),能夠預(yù)測(cè)未來時(shí)刻的場(chǎng)景變化甚至agents的狀態(tài)變化。因此將OCC和世界模型結(jié)合,除了可以實(shí)現(xiàn)當(dāng)前時(shí)刻的OCC預(yù)測(cè),還可以預(yù)測(cè)未來時(shí)刻的OCC演變,可以直接影響到自動(dòng)駕駛的規(guī)劃/決策,也是這兩年自動(dòng)駕駛研究的一個(gè)重點(diǎn)方向,預(yù)計(jì)2025年會(huì)有更多的工作問世,今天自動(dòng)駕駛之心就和大家一起復(fù)盤2024年OCC和世界模型相關(guān)的工作,并在文末總結(jié)未來的趨勢(shì)。

Scene as Occupancy

  • paper: https://arxiv.org/abs/2306.02851
  • code:https://github.com/OpenDriveLab/OccNet

雖然OccNet不屬于世界模型+OCC的范疇,但是有必要簡(jiǎn)單介紹一個(gè)這個(gè)工作,有助于理解后續(xù)介紹的方法。

人類駕駛員能夠通過視覺系統(tǒng)輕松描述復(fù)雜的交通場(chǎng)景。這種精確感知的能力對(duì)于駕駛員的規(guī)劃至關(guān)重要。為了實(shí)現(xiàn)這一點(diǎn),一種將物理三維場(chǎng)景量化為具有每個(gè)單元語義標(biāo)簽的結(jié)構(gòu)化網(wǎng)格地圖的幾何感知表示形式,即三維占用表示,將是理想的。與邊界框的形式相比,占用表示的關(guān)鍵見解在于它能夠捕捉場(chǎng)景中關(guān)鍵障礙物的細(xì)粒度細(xì)節(jié),從而促進(jìn)后續(xù)任務(wù)。先前或同時(shí)期的文獻(xiàn)主要集中在單個(gè)場(chǎng)景補(bǔ)全任務(wù)上,我們可能會(huì)認(rèn)為這種占用表示形式的潛力可能會(huì)產(chǎn)生更廣泛的影響。在本文中,我們提出了 OccNet,這是一種以多視圖為中心的管道,具有級(jí)聯(lián)和時(shí)間體素解碼器來重建三維占用。OccNet 的核心是一個(gè)通用的占用嵌入來表示三維物理世界。這種描述符可以應(yīng)用于廣泛的駕駛?cè)蝿?wù),包括檢測(cè)、分割和規(guī)劃。為了驗(yàn)證這種新表示形式的有效性和我們提出的算法,針對(duì)該算法,我們提出了 OpenOcc,這是首個(gè)基于 nuScenes 構(gòu)建的高密度高質(zhì)量 3D 占有率基準(zhǔn)。實(shí)證實(shí)驗(yàn)表明,在多個(gè)任務(wù)中均有顯著的性能提升,例如,運(yùn)動(dòng)規(guī)劃的碰撞率可降低 15% - 58%,這證明了我們方法的優(yōu)越性。

圖片

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

  • paper: https://arxiv.org/pdf/2311.16038
  • code: https://github.com/wzzheng/OccWorld

理解三維場(chǎng)景如何演變對(duì)于自動(dòng)駕駛中的決策至關(guān)重要。大多數(shù)現(xiàn)有的方法通過預(yù)測(cè)物體檢測(cè)框的運(yùn)動(dòng)來實(shí)現(xiàn)這一點(diǎn),但無法捕捉到更精細(xì)的場(chǎng)景信息。在本文中,我們探索了一種新的框架,即在三維占用空間中學(xué)習(xí)世界模型,名為OccWorld,以同時(shí)預(yù)測(cè)自動(dòng)駕駛汽車的運(yùn)動(dòng)和周圍場(chǎng)景的演變。我們提出基于三維占用而非三維邊界框和分割圖來學(xué)習(xí)世界模型,原因有三:1)表達(dá)能力:三維占用能夠描述場(chǎng)景更精細(xì)的三維結(jié)構(gòu);2)效率:三維占用率更易于獲取(例如,從稀疏的激光雷達(dá)點(diǎn)中獲取)。3)通用性:三維占用率能夠適應(yīng)視覺和激光雷達(dá)。為了便于對(duì)世界演變進(jìn)行建模,我們?cè)谌S占用率上學(xué)習(xí)了一種基于重建的場(chǎng)景tokenizer,以獲取離散的場(chǎng)景tokens來描述周圍場(chǎng)景。然后,我們采用類似 GPT 的時(shí)空生成轉(zhuǎn)換器來生成后續(xù)場(chǎng)景和ego tokens,以解碼未來的占用率和自車軌跡。在廣泛使用的 nuScenes 基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)表明,OccWorld 能夠有效地對(duì)駕駛場(chǎng)景的演變進(jìn)行建模。OccWorld 還在不使用實(shí)例和地圖監(jiān)督的情況下產(chǎn)生了具有競(jìng)爭(zhēng)力的規(guī)劃結(jié)果。

OccWorld是兩階段模型:

  • VQ-VAE 的訓(xùn)練極大地阻礙了效率,并為第二階段引入了性能瓶頸。為場(chǎng)景tokenizer找到合適的超參數(shù)在平衡重建和預(yù)測(cè)性能方面仍然具有挑戰(zhàn)性
  • 完全依賴于自回歸方式的隱式特征。它要么忽略了相鄰場(chǎng)景中顯式的結(jié)構(gòu)一致性,要么忽略了圖像中容易獲取的紋理信息。這些都阻礙了模型充分捕捉環(huán)境動(dòng)態(tài)的能力

圖片圖片

RenderWorld: World Model with Self-Supervised 3D Label

  • paper: https://arxiv.org/abs/2409.11356

僅基于視覺的端到端自動(dòng)駕駛不僅比激光雷達(dá)與視覺融合的方法更具成本效益,而且比傳統(tǒng)方法更可靠。為了實(shí)現(xiàn)經(jīng)濟(jì)且魯棒的純視覺自動(dòng)駕駛系統(tǒng),我們提出了 RenderWorld,這是一種僅基于視覺的端到端自動(dòng)駕駛框架,它使用基于自監(jiān)督高斯的 Img2Occ 模塊生成 3D 占有率標(biāo)簽,然后通過 AM-VAE 對(duì)標(biāo)簽進(jìn)行編碼,并使用世界模型進(jìn)行預(yù)測(cè)和規(guī)劃。RenderWorld 采用高斯點(diǎn)陣來表示 3D 場(chǎng)景并渲染 2D 圖像,與基于 NeRF 的方法相比,這極大地提高了分割精度并減少了 GPU 內(nèi)存消耗。通過應(yīng)用 AM-VAE 分別對(duì)air和non-air進(jìn)行編碼,RenderWorld 實(shí)現(xiàn)了更精細(xì)的場(chǎng)景元素表示,在自回歸世界模型的 4D 占有率預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃方面均達(dá)到了最先進(jìn)的性能。

兩階段訓(xùn)練范式。

圖片圖片圖片

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

  • paper: https://arxiv.org/abs/2409.03272

多模態(tài)大型語言模型(MLLMs)的興起推動(dòng)了其在自動(dòng)駕駛中的應(yīng)用。近期基于 MLLM 的方法通過學(xué)習(xí)從感知到動(dòng)作的直接映射來執(zhí)行動(dòng)作,忽略了世界的動(dòng)態(tài)以及行為與世界動(dòng)態(tài)之間的關(guān)系。相比之下,人類擁有世界模型,能夠基于三維內(nèi)部視覺表征模擬未來狀態(tài),并據(jù)此規(guī)劃行為。為此,我們提出了 OccLLaMA,這是一種占用-語言-動(dòng)作生成式世界模型,它采用語義占用作為通用視覺表示,并通過自回歸模型統(tǒng)一了視覺-語言-動(dòng)作(VLA)模態(tài)。具體而言,我們引入了一種類似 VQVAE 的場(chǎng)景tokenizer,以高效地離散化和重建語義占用場(chǎng)景,同時(shí)考慮到其稀疏性和類別不平衡的問題。然后,我們?yōu)橐曈X、語言和動(dòng)作構(gòu)建了一個(gè)統(tǒng)一的多模態(tài)詞匯表。此外,我們?cè)鰪?qiáng)了大型語言模型(LLM),特別是 LLaMA,使其能夠在統(tǒng)一的詞匯表上進(jìn)行下一token/場(chǎng)景預(yù)測(cè),以完成自動(dòng)駕駛中的多項(xiàng)任務(wù)。大量實(shí)驗(yàn)表明,OccLLaMA 在包括 4D 占用預(yù)測(cè)、運(yùn)動(dòng)規(guī)劃和視覺問答在內(nèi)的多項(xiàng)任務(wù)中均取得了具有競(jìng)爭(zhēng)力的性能,展示了其作為自動(dòng)駕駛基礎(chǔ)模型的潛力。

兩階段訓(xùn)練范式。

圖片圖片圖片

An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training

  • paper: https://arxiv.org/abs/2412.13772

自動(dòng)駕駛領(lǐng)域?qū)κ澜缒P偷呐d趣日益濃厚,這類模型旨在基于歷史觀測(cè)預(yù)測(cè)潛在的未來場(chǎng)景。在本文中,我們介紹了 DFIT-OccWorld,這是一種高效的 3D 占有世界模型,它利用了解耦動(dòng)態(tài)流和圖像輔助訓(xùn)練策略,顯著提升了 4D 場(chǎng)景預(yù)測(cè)性能。為了簡(jiǎn)化訓(xùn)練過程,我們摒棄了之前的兩階段訓(xùn)練策略,并創(chuàng)新性地將占有預(yù)測(cè)問題重新表述為解耦的體素變形過程。我們的模型通過使用體素流對(duì)現(xiàn)有觀測(cè)進(jìn)行變形來預(yù)測(cè)未來的動(dòng)態(tài)體素,而靜態(tài)體素則通過姿態(tài)變換輕松獲得。此外,我們的方法還引入了圖像輔助訓(xùn)練范式以增強(qiáng)預(yù)測(cè)的可靠性。具體而言,采用可微體積渲染通過預(yù)測(cè)的未來體積生成渲染深度圖,并將其用于基于渲染的光度一致性。實(shí)驗(yàn)表明了我們方法的有效性,在 nuScenes 和 OpenScene 基準(zhǔn)測(cè)試中展示了其在 4D 占有預(yù)測(cè)方面的先進(jìn)性能。該模型實(shí)現(xiàn)了精準(zhǔn)預(yù)測(cè)、端到端運(yùn)動(dòng)規(guī)劃和點(diǎn)云預(yù)測(cè)。具體而言,與現(xiàn)有的 3D 世界模型相比,它達(dá)到了最先進(jìn)的性能,同時(shí)計(jì)算成本大幅降低。

效率和性能都比之前的兩階段模型好。

圖片圖片圖片

Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving

  • paper:https://arxiv.org/abs/2408.14197
  • project page: https://drive-occworld.github.io/

世界模型基于各種ego行為設(shè)想潛在的未來狀態(tài)。它們嵌入了關(guān)于駕駛環(huán)境的大量知識(shí),有助于實(shí)現(xiàn)安全且可擴(kuò)展的自動(dòng)駕駛。大多數(shù)現(xiàn)有的方法主要側(cè)重于數(shù)據(jù)生成或世界模型的預(yù)訓(xùn)練范式。與上述先前的工作不同,我們提出了 Drive-OccWorld,它將以視覺為中心的 4D 預(yù)測(cè)世界模型適應(yīng)于自動(dòng)駕駛的端到端規(guī)劃。具體而言,我們首先在內(nèi)存模塊中引入語義和運(yùn)動(dòng)條件歸一化,該模塊從歷史 BEV 嵌入中積累語義和動(dòng)態(tài)信息。然后,這些 BEV 特征被傳遞到世界解碼器,用于未來占用和流預(yù)測(cè),同時(shí)考慮幾何和時(shí)空建模。此外,我們提出將靈活的動(dòng)作條件(如速度、轉(zhuǎn)向角、軌跡和指令)注入世界模型,以實(shí)現(xiàn)可控生成,并促進(jìn)更廣泛的下游應(yīng)用。此外,我們還探索了將 4D 世界模型的生成能力與端到端規(guī)劃相結(jié)合,從而能夠利用基于占用率的成本函數(shù)連續(xù)預(yù)測(cè)未來狀態(tài)并選擇最優(yōu)軌跡。在 nuScenes 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們的方法能夠生成合理且可控的 4D 占用率,為駕駛世界生成和端到端規(guī)劃開辟了新的途徑。

圖片圖片圖片

OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

  • paper: https://arxiv.org/abs/2405.20337
  • code: https://github.com/wzzheng/OccSora

理解 3D 場(chǎng)景的演變對(duì)于實(shí)現(xiàn)有效的自動(dòng)駕駛至關(guān)重要。雖然傳統(tǒng)方法通過單個(gè)實(shí)例的運(yùn)動(dòng)來建模場(chǎng)景的發(fā)展,但世界模型作為一種生成框架,能夠描述一般的場(chǎng)景動(dòng)態(tài)。然而,大多數(shù)現(xiàn)有的方法采用自回歸框架來進(jìn)行下一個(gè)token預(yù)測(cè),這在對(duì)長期時(shí)間演變進(jìn)行建模時(shí)效率低下。為了解決這個(gè)問題,我們提出了一種基于擴(kuò)散的 4D 占有率生成模型 OccSora,用于模擬自動(dòng)駕駛中的 3D 世界的發(fā)展。我們采用 4D 場(chǎng)景tokenizer來獲取 4D 占有率輸入的緊湊離散時(shí)空表示,并實(shí)現(xiàn)對(duì)長序列占有率視頻的高質(zhì)量重建。然后,我們?cè)跁r(shí)空表示上學(xué)習(xí)擴(kuò)散Transformer,并根據(jù)軌跡提示生成 4D 占有率。我們?cè)趶V泛使用的 nuScenes 數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),該數(shù)據(jù)集帶有 Occ3D 占有率注釋。OccSora 能夠生成具有真實(shí) 3D 布局和時(shí)間一致性的 16 秒視頻,這表明它能夠理解駕駛場(chǎng)景的空間和時(shí)間分布。憑借軌跡感知的 4D 生成能力,OccSora 有可能成為自動(dòng)駕駛決策的世界模擬器。

圖片圖片圖片圖片

DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model

  • paper: https://arxiv.org/abs/2410.10429
  • project page: https://gusongen.github.io/DOME

我們提出了一種基于擴(kuò)散的世界模型 DOME,它能夠根據(jù)過去的占用情況預(yù)測(cè)未來的占用幀。這種世界模型捕捉環(huán)境演變的能力對(duì)于自動(dòng)駕駛中的規(guī)劃至關(guān)重要。與基于 2D 視頻的世界模型相比,占用世界模型利用了原生的 3D 表示,具有易于獲取的標(biāo)注且不受模態(tài)限制。這種靈活性有可能促進(jìn)更先進(jìn)世界模型的發(fā)展。現(xiàn)有的占用世界模型要么因離散tokens而損失細(xì)節(jié),要么依賴于簡(jiǎn)單的擴(kuò)散架構(gòu),導(dǎo)致預(yù)測(cè)未來占用情況時(shí)效率低下且難以實(shí)現(xiàn)可控性。我們的 DOME 具有兩個(gè)關(guān)鍵特性:(1)高保真度和長時(shí)生成。我們采用時(shí)空擴(kuò)散Transformer,基于歷史上下文預(yù)測(cè)未來的占用幀。這種架構(gòu)能夠高效地捕捉時(shí)空信息,從而實(shí)現(xiàn)高保真度的細(xì)節(jié),并具備長時(shí)間生成預(yù)測(cè)的能力。(2)細(xì)粒度可控性。我們通過引入一種軌跡重采樣方法來應(yīng)對(duì)預(yù)測(cè)中的可控性挑戰(zhàn),這顯著增強(qiáng)了模型生成可控預(yù)測(cè)的能力。在廣泛使用的 nuScenes 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們的方法在定性和定量評(píng)估中均超越了現(xiàn)有的基準(zhǔn),在 nuScenes 上建立了新的最先進(jìn)性能。具體而言,在占用重建方面,我們的方法在 mIoU 上比基準(zhǔn)高出 10.5%,在 IoU 上高出 21.2%;在 4D 占用預(yù)測(cè)方面,在 mIoU 上高出 36.0%,在 IoU 上高出 24.6%。

圖片圖片圖片圖片

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

  • paper: https://arxiv.org/abs/2412.10373
  • code: https://github.com/zuosc19/GaussianWorld

3D 占有率預(yù)測(cè)對(duì)于自動(dòng)駕駛至關(guān)重要,因?yàn)樗苋娓兄車h(huán)境。為了融合序列輸入,大多數(shù)現(xiàn)有方法將先前幀的表示融合起來以推斷當(dāng)前的 3D 占有率。然而,它們未能考慮駕駛場(chǎng)景的連續(xù)性,并且忽略了 3D 場(chǎng)景演變所提供的強(qiáng)大先驗(yàn)信息(例如,只有動(dòng)態(tài)物體在移動(dòng))。在本文中,我們提出了一種基于世界模型的框架,以利用場(chǎng)景演變進(jìn)行感知。我們將 3D 占有率預(yù)測(cè)重新表述為一個(gè)基于當(dāng)前傳感器輸入的 4D 占有率預(yù)測(cè)問題。我們將場(chǎng)景演變分解為三個(gè)因素:1)靜態(tài)場(chǎng)景的自身運(yùn)動(dòng)對(duì)齊;2)動(dòng)態(tài)物體的局部移動(dòng);3)新觀察到場(chǎng)景的補(bǔ)全。然后,我們采用高斯世界模型(GaussianWorld)來明確利用這些先驗(yàn)信息,并在考慮當(dāng)前 RGB 觀測(cè)的情況下,在 3D 高斯空間中推斷場(chǎng)景演變。我們?cè)趶V泛使用的 nuScenes 數(shù)據(jù)集上評(píng)估了我們框架的有效性。我們的GaussianWorld在不增加額外計(jì)算量的情況下,將單幀對(duì)應(yīng)模型的 mIoU 性能提高了 2% 以上。

圖片圖片圖片圖片

Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving

  • paper: https://arxiv.org/abs/2407.21126

環(huán)境預(yù)測(cè)框架對(duì)于自動(dòng)駕駛汽車(AV)在動(dòng)態(tài)環(huán)境中的安全導(dǎo)航至關(guān)重要。激光雷達(dá)生成的占用網(wǎng)格地圖(L-OGM)為場(chǎng)景表示提供了可靠的鳥瞰視角,能夠?qū)崿F(xiàn)自監(jiān)督的聯(lián)合場(chǎng)景預(yù)測(cè),同時(shí)對(duì)部分可觀測(cè)性和感知檢測(cè)失敗具有較強(qiáng)的魯棒性。先前的方法主要集中在網(wǎng)格單元空間內(nèi)的確定性 L-OGM 預(yù)測(cè)架構(gòu)上。盡管這些方法取得了一定的成功,但它們經(jīng)常產(chǎn)生不切實(shí)際的預(yù)測(cè),并且無法捕捉環(huán)境的隨機(jī)性。此外,它們還不能有效地整合自動(dòng)駕駛汽車中現(xiàn)有的其他傳感器模態(tài)。我們提出的框架在生成架構(gòu)的潛在空間中進(jìn)行隨機(jī) L-OGM 預(yù)測(cè),并允許基于 RGB 相機(jī)、地圖和規(guī)劃軌跡進(jìn)行條件設(shè)置。我們使用單步解碼器來解碼預(yù)測(cè),該解碼器能夠?qū)崟r(shí)提供高質(zhì)量的預(yù)測(cè),或者使用基于擴(kuò)散的批處理解碼器,該解碼器可以進(jìn)一步優(yōu)化解碼幀,以解決時(shí)間一致性問題并減少壓縮損失。我們?cè)?nuScenes 和 Waymo Open 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,我們方法的所有變體在定性和定量方面都優(yōu)于先前的方法。

圖片圖片圖片

DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

  • paper: https://arxiv.org/abs/2405.04390

以視覺為中心的自動(dòng)駕駛由于成本較低,近來受到了廣泛關(guān)注。預(yù)訓(xùn)練對(duì)于提取通用表示至關(guān)重要。然而,當(dāng)前以視覺為中心的預(yù)訓(xùn)練通常依賴于 2D 或 3D 的預(yù)訓(xùn)練任務(wù),忽略了自動(dòng)駕駛作為 4D 場(chǎng)景理解任務(wù)的時(shí)間特性。在本文中,我們通過引入一個(gè)基于世界模型的自動(dòng)駕駛 4D 表示學(xué)習(xí)框架來解決這一挑戰(zhàn),該框架被稱為DriveWorld,能夠從多攝像頭駕駛視頻中以時(shí)空方式預(yù)訓(xùn)練。具體而言,我們提出了一種用于時(shí)空建模的記憶狀態(tài)空間模型,它由一個(gè)動(dòng)態(tài)記憶庫模塊組成,用于學(xué)習(xí)具有時(shí)間感知的潛在動(dòng)態(tài)以預(yù)測(cè)未來變化,以及一個(gè)靜態(tài)場(chǎng)景傳播模塊,用于學(xué)習(xí)具有空間感知的潛在靜態(tài)以提供全面的場(chǎng)景上下文。我們還引入了一個(gè)任務(wù)提示,以解耦適用于各種下游任務(wù)的任務(wù)感知特征。實(shí)驗(yàn)表明,DriveWorld 在各種自動(dòng)駕駛?cè)蝿?wù)中取得了令人鼓舞的結(jié)果。在使用 OpenScene 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時(shí),DriveWorld 在 3D 物體檢測(cè)方面實(shí)現(xiàn)了 7.5% 的 mAP 提升,在在線地圖繪制方面實(shí)現(xiàn)了 3.0% 的 IoU 提升,在多目標(biāo)跟蹤方面實(shí)現(xiàn)了 5.0% 的 AMOTA 提升,在運(yùn)動(dòng)預(yù)測(cè)方面實(shí)現(xiàn)了 0.1 米的 minADE 降低,在占用預(yù)測(cè)方面實(shí)現(xiàn)了 3.0% 的 IoU 提升,在規(guī)劃方面實(shí)現(xiàn)了平均 L2 誤差 0.34 米的減少。

圖片圖片圖片

MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving

  • paper: https://arxiv.org/abs/2311.11762
  • code: https://github.com/fzi-forschungszentrum-informatik/muvo

為自動(dòng)駕駛學(xué)習(xí)無監(jiān)督世界模型有可能極大地提升當(dāng)今系統(tǒng)的推理能力。然而,大多數(shù)工作都忽略了世界的物理屬性,僅關(guān)注傳感器數(shù)據(jù)。我們提出了 MUVO,一種具有空間體素表示的多模態(tài)世界模型,以應(yīng)對(duì)這一挑戰(zhàn)。我們利用原始的攝像頭和激光雷達(dá)數(shù)據(jù)來學(xué)習(xí)一種與傳感器無關(guān)的世界幾何表示。我們展示了多模態(tài)的未來預(yù)測(cè),并表明我們的空間表示提高了攝像頭圖像和激光雷達(dá)點(diǎn)云的預(yù)測(cè)質(zhì)量。

圖片圖片

總結(jié)

  • OCC+世界模型的范式具有很大的潛力,相信接下來會(huì)有更多的相關(guān)工作;
  • 使用diffusion-base的世界模型生成未來時(shí)刻的數(shù)據(jù)這個(gè)過程比較耗時(shí),同時(shí)多幀以及多傳感器的融合策略也可能會(huì)影響實(shí)時(shí)性;
  • OCC的演變本身依賴于世界模型的生成能力,但是目前訓(xùn)練一個(gè)精確理解物理世界演變的世界模型非常困難,因此一定程度上會(huì)影響這類模型的性能;
  • Gaussian的強(qiáng)大表達(dá)能力有助于提高幀間的一致性,而且相比NeRF,占用更少的資源,有待進(jìn)一步探索。
責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2021-04-27 14:11:02

自動(dòng)駕駛AI人工智能

2020-12-16 11:03:27

自動(dòng)駕駛工信部廠商

2021-11-01 13:42:39

芯片自動(dòng)駕駛技術(shù)

2021-01-26 21:26:10

自動(dòng)駕駛AI人工智能

2022-01-18 10:51:09

自動(dòng)駕駛數(shù)據(jù)人工智能

2021-12-01 10:21:27

自動(dòng)駕駛技術(shù)人工智能

2024-10-16 09:50:32

2018-06-25 14:51:09

小鵬汽車德賽西威自動(dòng)駕駛系統(tǒng)

2019-05-30 16:15:00

自動(dòng)駕駛AI高精地圖

2023-05-16 09:42:23

自動(dòng)駕駛技術(shù)

2022-02-17 10:22:17

汽車智能自動(dòng)駕駛

2023-03-15 11:54:32

無人駕駛系統(tǒng)

2019-11-25 09:55:34

自動(dòng)駕駛人工智能無人駕駛

2023-10-30 09:42:29

自動(dòng)駕駛模型

2019-07-30 13:18:25

自動(dòng)駕駛L2駕駛

2021-05-31 10:46:16

自動(dòng)駕駛特斯拉數(shù)據(jù)

2023-03-30 09:57:04

2020-01-09 08:42:23

自動(dòng)駕駛AI人工智能

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2023-09-26 13:33:27

AI自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)