次元突破!OccSora:深刻演化自動駕駛4D Occ世界(北航&清華)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
文章提出了一個基于擴(kuò)散的4D占用生成模型OccSora來模擬自動駕駛世界模型的進(jìn)展。該模型使用一個四維場景標(biāo)記器來獲得四維占用輸入的時空表示,并實現(xiàn)長序列占用視頻的高質(zhì)量重建。然后,學(xué)習(xí)時空表征的擴(kuò)散轉(zhuǎn)換器,并根據(jù)軌跡提示生成4D占用。OccSora可以生成具有真實3D布局和時間一致性的16秒視頻,展示其對駕駛場景時空分布的理解能力。
開源鏈接:https://wzzheng.net/OccSora/
主要貢獻(xiàn)
傳統(tǒng)的自動駕駛模型依靠車輛自身的運動來模擬場景的發(fā)展,所以無法像人類那樣對場景感知和車輛運動有深刻的理解;世界模型的出現(xiàn)能夠更深層次地理解自動駕駛場景和車輛運動之間的綜合關(guān)系。然而現(xiàn)階段的大多數(shù)方法采用自回歸框架來模擬3D場景,這阻礙了該模型有效地生成長期視頻序列的能力。
所以如圖1所示,相較于先前的方法,該模型基于2D視頻生成模型Sora,提出了一個4D世界模型OccSora。其設(shè)計了一種基于擴(kuò)散的世界模型來實現(xiàn)遵循物理規(guī)律的可控場景生成。具體來說,采用多維擴(kuò)散技術(shù)傳遞準(zhǔn)確時空四維信息,并以真實汽車軌跡為條件實現(xiàn)軌跡可控的場景生成,從而更深入地理解自動駕駛場景與車輛運動之間的關(guān)系。OccSora通過訓(xùn)練和測試,可以生成符合物理邏輯的自動駕駛4D占用場景,實現(xiàn)基于不同軌跡的可控場景生成。提出的自動駕駛4D世界模型為理解自動駕駛和物理世界中的動態(tài)場景變化開辟了新的可能性。
圖1 現(xiàn)有方法的比較
具體方法
1、自動駕駛系統(tǒng)的世界模型
4D占用可以全方位的捕捉三維場景的結(jié)構(gòu)、語義和時間信息,有效促進(jìn)弱監(jiān)督或自監(jiān)督學(xué)習(xí),可應(yīng)用于視覺、激光雷達(dá)或多模態(tài)任務(wù)。基于此,該論文把世界模型X表示為4D占用R。圖2展示了OccSora的總體框架。
圖2 OccSora模型總體框架
2、4D占用場景標(biāo)記器
圖3 4D占用場景標(biāo)記器的結(jié)構(gòu)
(1)類別嵌入和標(biāo)記器
(2)3D視頻編碼器
(3)碼本和訓(xùn)練目標(biāo)
(4)3D視頻解碼器
3、基于擴(kuò)散的世界模型
圖4 基于擴(kuò)散的世界模型的框架
(1)token嵌入
(2)軌跡調(diào)節(jié)嵌入
(3)擴(kuò)散transformer
4、實驗
OccSora作為自動駕駛領(lǐng)域的4D占用世界模型,可以在不需要任何3D邊界框、地圖或歷史信息輸入的情況下,更深入地理解自動駕駛場景與車輛軌跡之間的關(guān)系。它可以構(gòu)建一個遵循物理定律的長時間序列世界模型。
(1)實現(xiàn)細(xì)節(jié)
(2)4D占用重建
壓縮和重建四維占用是學(xué)習(xí)圖像生成所需的潛在時空相關(guān)性和特征的必要條件。與傳統(tǒng)的視頻和圖像處理模型不同,OccSora的操作比單幀占用率高一個維度,比圖像高兩個維度。因此,實現(xiàn)有效的壓縮和準(zhǔn)確的重建是至關(guān)重要的。圖5描繪了4D占用的真實情況和重建情況。
圖5 4D占用場景標(biāo)記器重建的可視化
此外還對4D占用重建進(jìn)行了定量分析,如表1所示。從表中可以看出,即使OccSora實現(xiàn)了比OccWorld高32倍的壓縮比,它仍然保持了原始OccWorld模型近50%的mIoU。這種統(tǒng)一的時間壓縮有效地捕獲了各種元素的動態(tài)變化,與漸進(jìn)式自回歸方法相比,提高了長序列建模能力。
表1 4D占用重建的定量分析
(3)4D占用生成
在四維占用生成任務(wù)的基于擴(kuò)散的世界模型中,使用OccSora模型生成的token,經(jīng)過32幀的訓(xùn)練,作為生成實驗的輸入。在圖6中展示了從10,000到1,200,000步的跨訓(xùn)練迭代的可視化結(jié)果。這些視覺結(jié)果表明,隨著訓(xùn)練迭代次數(shù)的增加,OccSora模型的精度不斷提高,顯示出連貫場景的生成。
圖6 精確場景的逐步生成可視化
同樣的將提出的OccSora模型與其他代模型進(jìn)行了比較和定量評估。作為第一個用于自動駕駛的4D占用世界模型,僅將其與傳統(tǒng)的圖像生成、2D視頻生成和靜態(tài)3D占用場景生成方法進(jìn)行了比較。如表2所示,OccSora模型在起始距離(FID)方面取得了不錯的性能,證明了所提出方法的有效性。
表2OccSora與其他模型在生成能力上的比較
軌跡視頻生成。OccSora能夠根據(jù)不同的輸入軌跡生成各種動態(tài)場景,從而學(xué)習(xí)自動駕駛中自我車輛軌跡與場景演化之間的關(guān)系。如圖7所示,將不同的車輛軌跡運動模式輸入到模型中,展示了直行、右轉(zhuǎn)和靜止的4D占用情況。此外進(jìn)行了不同尺度的軌跡生成實驗,結(jié)果表明,靜止場景的FID得分最低,而彎曲場景的FID得分較高,這表明連續(xù)建模彎曲運動場景的復(fù)雜性和建模靜止場景的簡單性。
圖7 不同輸入軌跡下的4D占用生成
場景視頻生成。在合理的軌跡控制下,場景的多樣性至關(guān)重要。為了驗證在可控軌跡下生成場景的泛化性能,OccSora模型對三種軌跡下不同場景的4D占用場景重建進(jìn)行了測試。在圖8中,左右兩部分分別展示了在同一軌跡下產(chǎn)生不同場景的能力。在重建的場景中,周圍的樹木和道路環(huán)境表現(xiàn)出隨機(jī)變化,但仍然保持了原始軌跡的邏輯,顯示了在生成與原始軌跡對應(yīng)的場景及其在不同場景中的泛化方面保持魯棒性的能力。
圖8 在軌跡控制下生成多種連續(xù)場景
(4)消融實驗
標(biāo)記器與嵌入分析。對提出的組件進(jìn)行了消融實驗,包括不同的壓縮尺度、類標(biāo)記器離散化的數(shù)量、時間步嵌入和車輛軌跡嵌入,如表3所示。當(dāng)類標(biāo)記器離散化的數(shù)量從8個減少到4個時,重構(gòu)精度下降了大約18%。
表3 不同組件之間的消融實驗結(jié)果
在去除時間步長嵌入組件后,F(xiàn)ID得分也有所下降。在沒有位置嵌入的情況下,生成的場景缺乏運動控制,并且受數(shù)據(jù)分布的影響幾乎呈線性運動模式。此外,在較低的壓縮比下,盡管重建性能優(yōu)于較高的壓縮比,但缺乏高維特征相關(guān)性會阻礙有效場景的生成。
生成步驟分析。去噪的總步數(shù)和去噪率會在一定程度上影響生成質(zhì)量。如圖9所示,隨著去噪率的提高,生成的場景逐漸清晰。從表4的定量結(jié)果可以看出,增加去噪步驟總數(shù)可以在一定程度上提高生成精度。然而,token大小和信道數(shù)量對生成質(zhì)量的影響要比對去噪步驟總數(shù)的影響大得多。
表4 不同尺度對去噪步驟和去噪率的定量分析。圖9 不同軌跡或去噪步驟下去噪比的影響
5、結(jié)論與限制
在本文中,介紹了一個生成4D占用的框架,以模擬自動駕駛中的3D世界發(fā)展。使用4D場景標(biāo)記器,獲得了輸入的密集表示,并實現(xiàn)了長序列占用視頻的高質(zhì)量重建。然后,學(xué)習(xí)時空表征的擴(kuò)散轉(zhuǎn)換器,并在軌跡提示的條件下生成4D占用。通過在nuScenes數(shù)據(jù)集上的實驗,證明了場景進(jìn)化的準(zhǔn)確性。未來,將研究更精細(xì)的4D占用世界模型,探索閉環(huán)設(shè)置下端到端自動駕駛的可能性。
局限性。4D占用世界模型的優(yōu)勢在于建立了對場景和運動之間關(guān)系的理解。然而,由于體素數(shù)據(jù)粒度的限制,無法構(gòu)建更精細(xì)的4D場景。生成結(jié)果還顯示運動對象的細(xì)節(jié)不一致,可能是由于訓(xùn)練數(shù)據(jù)的小尺寸。