InfiniCube:來自英偉達的高保真度高可控大規(guī)模動態(tài)3D駕駛場景生成方法
本文經(jīng)3D視覺之心公眾號授權轉載,轉載請聯(lián)系出處。

InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models
介紹:https://research.nvidia.com/labs/toronto-ai/infinicube/
論文:https://arxiv.org/abs/2412.03934v1
InfiniCube 是由英偉達主導開發(fā)的一種新型3D生成方法,用于生成無界且可控制的動態(tài)3D駕駛場景。

InfiniCube 通過結合高清地圖、車輛邊界框和文本描述,利用最新的3D表示和視頻模型技術,實現(xiàn)了大規(guī)模動態(tài)場景的生成。

這種方法不僅能夠生成具有高保真度和一致外觀的3D結構,還能夠保持幾何和外觀的一致性,這對于自動駕駛車輛的模擬訓練和測試尤為重要。

InfiniCube 的關鍵特性在于其能夠構建一個基于語義體素的3D世界表示,并將其作為視頻生成模型的引導。

這一創(chuàng)新使得InfiniCube能夠生成大規(guī)模、細節(jié)豐富且與物理世界保持一致的動態(tài)3D駕駛場景。此外,InfiniCube還提出了一種快速的前饋方法,將動態(tài)視頻和體素世界轉換為動態(tài)3D高斯場景,同時保留對動態(tài)車輛的控制能力。技術解讀
InfiniCube 技術的思路是利用先進的3D表示和視頻模型,結合高清地圖、車輛邊界框和文本描述,生成無界且可控制的動態(tài)3D駕駛場景。

這項技術通過構建一個基于高清地圖條件的稀疏體素3D生成模型來生成大規(guī)模的語義體素世界,然后利用視頻模型和一系列像素對齊的引導緩沖區(qū)來合成一致的外觀,最終通過快速前饋方法將視頻和體素世界轉換為動態(tài)3D高斯場景,實現(xiàn)了對動態(tài)車輛的精確控制。

InfiniCube 的具體處理過程包括三個主要階段:
- 首先,無界體素世界生成階段,通過HD地圖和車輛邊界框作為輸入,生成對應的3D體素世界和語義標簽;
- 其次,世界引導的視頻生成階段,基于Stable Video Diffusion模型,通過生成的體素世界提供的幾何和相機軌跡條件,輔助長視頻生成;
- 最后,動態(tài)3DGS場景生成階段,通過雙分支重建方法,結合體素和像素信息,生成動態(tài)3D高斯場景。
其技術特點主要包括:
- 能夠處理大規(guī)模場景,支持約100,000平方米的3D動態(tài)場景生成;
- 高保真度和可控性,可以靈活控制場景布局、外觀和車輛行為;
- 一致性,保持生成序列中幾何和外觀的一致性;
- 快速前饋方法,提高了場景重建的效率。
InfiniCube 技術為自動駕駛車輛的訓練和測試提供了一個高度真實和可控的虛擬環(huán)境,這對于模擬復雜交通場景和對抗性場景尤為重要,有望在自動駕駛領域實現(xiàn)更廣泛的應用。此外,其在混合現(xiàn)實和機器人技術等領域也具有廣泛的應用前景。論文解讀
這篇論文介紹了一個名為InfiniCube的系統(tǒng),它是一個用于生成無界且可控制的動態(tài)3D駕駛場景的方法。以下是論文內容要點概括:
摘要
- 提出了InfiniCube,一個可擴展的方法,用于生成高保真度和可控性的無界動態(tài)3D駕駛場景。
- 該方法利用高清地圖、車輛邊界框和文本描述來實現(xiàn)靈活控制。
- 通過結合3D表示和視頻模型的最新進展,實現(xiàn)了大規(guī)模動態(tài)場景的生成。
引言
- 生成可模擬和可控的3D場景對于混合現(xiàn)實、機器人技術以及自動駕駛車輛的訓練和測試等領域至關重要。
- InfiniCube旨在滿足以下關鍵需求:保真度和一致性、大規(guī)模場景生成以及可控性。
相關工作
- 回顧了3D生成、可控視頻生成和駕駛場景重建等領域的相關研究進展。
預備知識
- 介紹了潛在擴散模型(LDM)和稀疏體素LDM,這些是InfiniCube方法的基礎。
方法
- InfiniCube的目標是生成大規(guī)模動態(tài)3D場景,通過輸入高清地圖、車輛邊界框和文本提示來實現(xiàn)。
- 4.1 無界體素世界生成:基于高清地圖和車輛邊界框生成語義體素世界。
- 4.2 世界引導的視頻生成:使用視頻模型生成與體素世界一致的外觀。
- 4.3 動態(tài)3DGS場景生成:將體素和視頻合成為動態(tài)3D高斯場景。
實驗
- 5.1 數(shù)據(jù)處理:使用Waymo Open Dataset進行訓練,提取地面真實場景幾何以監(jiān)督語義體素生成。
- 5.2 實現(xiàn)細節(jié):詳細介紹了各個階段的網(wǎng)絡架構和訓練細節(jié)。
- 5.3 大規(guī)模動態(tài)場景生成:展示了完整管道生成的場景,并分析了各個組件的重要性。
- 5.4 主要組件分析:通過消融研究驗證了HD地圖條件設計的有效性,并與基線方法進行了比較。
- 5.5 應用:InfiniCube支持新視角合成、碰撞模擬等應用,并展示了車輛插入和天氣控制等高級應用。
討論
- 討論了InfiniCube的局限性,包括幾何多樣性的限制和管道的復雜性。
- 總結了InfiniCube的貢獻,并提出了未來的研究方向,包括擴大訓練數(shù)據(jù)規(guī)模和加速生成過程。
結論
- InfiniCube通過結合體素世界生成模型、世界引導的視頻模型和動態(tài)3DGS生成模型,能夠生成具有豐富外觀細節(jié)和完全可控性的現(xiàn)實3D場景。




































