次元突破！OccSora：深刻演化自動駕駛4D Occ世界（北航&清華）

作者：Lening Wang等 2024-06-12 09:48:39

今天為大家分享北航&UC Berkeley&清華最新的工作—OccSora，文章提出了一個基于擴(kuò)散的4D占用生成模型OccSora來模擬自動駕駛世界模型的進(jìn)展。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

文章提出了一個基于擴(kuò)散的4D占用生成模型OccSora來模擬自動駕駛世界模型的進(jìn)展。該模型使用一個四維場景標(biāo)記器來獲得四維占用輸入的時空表示，并實現(xiàn)長序列占用視頻的高質(zhì)量重建。然后，學(xué)習(xí)時空表征的擴(kuò)散轉(zhuǎn)換器，并根據(jù)軌跡提示生成4D占用。OccSora可以生成具有真實3D布局和時間一致性的16秒視頻，展示其對駕駛場景時空分布的理解能力。

開源鏈接：https://wzzheng.net/OccSora/

主要貢獻(xiàn)

傳統(tǒng)的自動駕駛模型依靠車輛自身的運動來模擬場景的發(fā)展，所以無法像人類那樣對場景感知和車輛運動有深刻的理解；世界模型的出現(xiàn)能夠更深層次地理解自動駕駛場景和車輛運動之間的綜合關(guān)系。然而現(xiàn)階段的大多數(shù)方法采用自回歸框架來模擬3D場景，這阻礙了該模型有效地生成長期視頻序列的能力。

所以如圖1所示，相較于先前的方法，該模型基于2D視頻生成模型Sora，提出了一個4D世界模型OccSora。其設(shè)計了一種基于擴(kuò)散的世界模型來實現(xiàn)遵循物理規(guī)律的可控場景生成。具體來說，采用多維擴(kuò)散技術(shù)傳遞準(zhǔn)確時空四維信息，并以真實汽車軌跡為條件實現(xiàn)軌跡可控的場景生成，從而更深入地理解自動駕駛場景與車輛運動之間的關(guān)系。OccSora通過訓(xùn)練和測試，可以生成符合物理邏輯的自動駕駛4D占用場景，實現(xiàn)基于不同軌跡的可控場景生成。提出的自動駕駛4D世界模型為理解自動駕駛和物理世界中的動態(tài)場景變化開辟了新的可能性。

圖1 現(xiàn)有方法的比較

具體方法

1、自動駕駛系統(tǒng)的世界模型

4D占用可以全方位的捕捉三維場景的結(jié)構(gòu)、語義和時間信息，有效促進(jìn)弱監(jiān)督或自監(jiān)督學(xué)習(xí)，可應(yīng)用于視覺、激光雷達(dá)或多模態(tài)任務(wù)。基于此，該論文把世界模型X表示為4D占用R。圖2展示了OccSora的總體框架。

圖2 OccSora模型總體框架

2、4D占用場景標(biāo)記器

圖3 4D占用場景標(biāo)記器的結(jié)構(gòu)

（1）類別嵌入和標(biāo)記器

（2）3D視頻編碼器

（3）碼本和訓(xùn)練目標(biāo)

（4）3D視頻解碼器

3、基于擴(kuò)散的世界模型

圖4 基于擴(kuò)散的世界模型的框架

（1）token嵌入

（2）軌跡調(diào)節(jié)嵌入

（3）擴(kuò)散transformer

4、實驗

OccSora作為自動駕駛領(lǐng)域的4D占用世界模型，可以在不需要任何3D邊界框、地圖或歷史信息輸入的情況下，更深入地理解自動駕駛場景與車輛軌跡之間的關(guān)系。它可以構(gòu)建一個遵循物理定律的長時間序列世界模型。

（1）實現(xiàn)細(xì)節(jié)

（2）4D占用重建

壓縮和重建四維占用是學(xué)習(xí)圖像生成所需的潛在時空相關(guān)性和特征的必要條件。與傳統(tǒng)的視頻和圖像處理模型不同，OccSora的操作比單幀占用率高一個維度，比圖像高兩個維度。因此，實現(xiàn)有效的壓縮和準(zhǔn)確的重建是至關(guān)重要的。圖5描繪了4D占用的真實情況和重建情況。

圖5 4D占用場景標(biāo)記器重建的可視化

此外還對4D占用重建進(jìn)行了定量分析，如表1所示。從表中可以看出，即使OccSora實現(xiàn)了比OccWorld高32倍的壓縮比，它仍然保持了原始OccWorld模型近50%的mIoU。這種統(tǒng)一的時間壓縮有效地捕獲了各種元素的動態(tài)變化，與漸進(jìn)式自回歸方法相比，提高了長序列建模能力。

表1 4D占用重建的定量分析

（3）4D占用生成

在四維占用生成任務(wù)的基于擴(kuò)散的世界模型中，使用OccSora模型生成的token，經(jīng)過32幀的訓(xùn)練，作為生成實驗的輸入。在圖6中展示了從10,000到1,200,000步的跨訓(xùn)練迭代的可視化結(jié)果。這些視覺結(jié)果表明，隨著訓(xùn)練迭代次數(shù)的增加，OccSora模型的精度不斷提高，顯示出連貫場景的生成。

圖6 精確場景的逐步生成可視化

同樣的將提出的OccSora模型與其他代模型進(jìn)行了比較和定量評估。作為第一個用于自動駕駛的4D占用世界模型，僅將其與傳統(tǒng)的圖像生成、2D視頻生成和靜態(tài)3D占用場景生成方法進(jìn)行了比較。如表2所示，OccSora模型在起始距離(FID)方面取得了不錯的性能，證明了所提出方法的有效性。

表2OccSora與其他模型在生成能力上的比較

軌跡視頻生成。OccSora能夠根據(jù)不同的輸入軌跡生成各種動態(tài)場景，從而學(xué)習(xí)自動駕駛中自我車輛軌跡與場景演化之間的關(guān)系。如圖7所示，將不同的車輛軌跡運動模式輸入到模型中，展示了直行、右轉(zhuǎn)和靜止的4D占用情況。此外進(jìn)行了不同尺度的軌跡生成實驗，結(jié)果表明，靜止場景的FID得分最低，而彎曲場景的FID得分較高，這表明連續(xù)建模彎曲運動場景的復(fù)雜性和建模靜止場景的簡單性。

圖7 不同輸入軌跡下的4D占用生成

場景視頻生成。在合理的軌跡控制下，場景的多樣性至關(guān)重要。為了驗證在可控軌跡下生成場景的泛化性能，OccSora模型對三種軌跡下不同場景的4D占用場景重建進(jìn)行了測試。在圖8中，左右兩部分分別展示了在同一軌跡下產(chǎn)生不同場景的能力。在重建的場景中，周圍的樹木和道路環(huán)境表現(xiàn)出隨機(jī)變化，但仍然保持了原始軌跡的邏輯，顯示了在生成與原始軌跡對應(yīng)的場景及其在不同場景中的泛化方面保持魯棒性的能力。

圖8 在軌跡控制下生成多種連續(xù)場景

(4)消融實驗

標(biāo)記器與嵌入分析。對提出的組件進(jìn)行了消融實驗，包括不同的壓縮尺度、類標(biāo)記器離散化的數(shù)量、時間步嵌入和車輛軌跡嵌入，如表3所示。當(dāng)類標(biāo)記器離散化的數(shù)量從8個減少到4個時，重構(gòu)精度下降了大約18%。

表3 不同組件之間的消融實驗結(jié)果

在去除時間步長嵌入組件后，F(xiàn)ID得分也有所下降。在沒有位置嵌入的情況下，生成的場景缺乏運動控制，并且受數(shù)據(jù)分布的影響幾乎呈線性運動模式。此外，在較低的壓縮比下，盡管重建性能優(yōu)于較高的壓縮比，但缺乏高維特征相關(guān)性會阻礙有效場景的生成。

生成步驟分析。去噪的總步數(shù)和去噪率會在一定程度上影響生成質(zhì)量。如圖9所示，隨著去噪率的提高，生成的場景逐漸清晰。從表4的定量結(jié)果可以看出，增加去噪步驟總數(shù)可以在一定程度上提高生成精度。然而，token大小和信道數(shù)量對生成質(zhì)量的影響要比對去噪步驟總數(shù)的影響大得多。

表4 不同尺度對去噪步驟和去噪率的定量分析。圖9 不同軌跡或去噪步驟下去噪比的影響

5、結(jié)論與限制

在本文中，介紹了一個生成4D占用的框架，以模擬自動駕駛中的3D世界發(fā)展。使用4D場景標(biāo)記器，獲得了輸入的密集表示，并實現(xiàn)了長序列占用視頻的高質(zhì)量重建。然后，學(xué)習(xí)時空表征的擴(kuò)散轉(zhuǎn)換器，并在軌跡提示的條件下生成4D占用。通過在nuScenes數(shù)據(jù)集上的實驗，證明了場景進(jìn)化的準(zhǔn)確性。未來，將研究更精細(xì)的4D占用世界模型，探索閉環(huán)設(shè)置下端到端自動駕駛的可能性。

局限性。4D占用世界模型的優(yōu)勢在于建立了對場景和運動之間關(guān)系的理解。然而，由于體素數(shù)據(jù)粒度的限制，無法構(gòu)建更精細(xì)的4D場景。生成結(jié)果還顯示運動對象的細(xì)節(jié)不一致，可能是由于訓(xùn)練數(shù)據(jù)的小尺寸。

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

次元突破！OccSora：深刻演化自動駕駛4D Occ世界（北航&清華）

寫在前面&筆者的個人理解

主要貢獻(xiàn)

具體方法

1、自動駕駛系統(tǒng)的世界模型

2、4D占用場景標(biāo)記器

3、基于擴(kuò)散的世界模型

4、實驗