偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

次元突破!OccSora:深刻演化自動駕駛4D Occ世界(北航&清華)

人工智能 智能汽車
今天為大家分享北航&UC Berkeley&清華最新的工作—OccSora,文章提出了一個基于擴(kuò)散的4D占用生成模型OccSora來模擬自動駕駛世界模型的進(jìn)展。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

文章提出了一個基于擴(kuò)散的4D占用生成模型OccSora來模擬自動駕駛世界模型的進(jìn)展。該模型使用一個四維場景標(biāo)記器來獲得四維占用輸入的時空表示,并實現(xiàn)長序列占用視頻的高質(zhì)量重建。然后,學(xué)習(xí)時空表征的擴(kuò)散轉(zhuǎn)換器,并根據(jù)軌跡提示生成4D占用。OccSora可以生成具有真實3D布局和時間一致性的16秒視頻,展示其對駕駛場景時空分布的理解能力。

開源鏈接:https://wzzheng.net/OccSora/

主要貢獻(xiàn)

傳統(tǒng)的自動駕駛模型依靠車輛自身的運動來模擬場景的發(fā)展,所以無法像人類那樣對場景感知和車輛運動有深刻的理解;世界模型的出現(xiàn)能夠更深層次地理解自動駕駛場景和車輛運動之間的綜合關(guān)系。然而現(xiàn)階段的大多數(shù)方法采用自回歸框架來模擬3D場景,這阻礙了該模型有效地生成長期視頻序列的能力。

所以如圖1所示,相較于先前的方法,該模型基于2D視頻生成模型Sora,提出了一個4D世界模型OccSora。其設(shè)計了一種基于擴(kuò)散的世界模型來實現(xiàn)遵循物理規(guī)律的可控場景生成。具體來說,采用多維擴(kuò)散技術(shù)傳遞準(zhǔn)確時空四維信息,并以真實汽車軌跡為條件實現(xiàn)軌跡可控的場景生成,從而更深入地理解自動駕駛場景與車輛運動之間的關(guān)系。OccSora通過訓(xùn)練和測試,可以生成符合物理邏輯的自動駕駛4D占用場景,實現(xiàn)基于不同軌跡的可控場景生成。提出的自動駕駛4D世界模型為理解自動駕駛和物理世界中的動態(tài)場景變化開辟了新的可能性。

圖1 現(xiàn)有方法的比較

具體方法

1、自動駕駛系統(tǒng)的世界模型

4D占用可以全方位的捕捉三維場景的結(jié)構(gòu)、語義和時間信息,有效促進(jìn)弱監(jiān)督或自監(jiān)督學(xué)習(xí),可應(yīng)用于視覺、激光雷達(dá)或多模態(tài)任務(wù)。基于此,該論文把世界模型X表示為4D占用R。圖2展示了OccSora的總體框架。

圖2  OccSora模型總體框架

2、4D占用場景標(biāo)記器

圖3 4D占用場景標(biāo)記器的結(jié)構(gòu)

(1)類別嵌入和標(biāo)記器

(2)3D視頻編碼器

(3)碼本和訓(xùn)練目標(biāo)

(4)3D視頻解碼器

3、基于擴(kuò)散的世界模型

圖4 基于擴(kuò)散的世界模型的框架

(1)token嵌入

(2)軌跡調(diào)節(jié)嵌入

(3)擴(kuò)散transformer

4、實驗

OccSora作為自動駕駛領(lǐng)域的4D占用世界模型,可以在不需要任何3D邊界框、地圖或歷史信息輸入的情況下,更深入地理解自動駕駛場景與車輛軌跡之間的關(guān)系。它可以構(gòu)建一個遵循物理定律的長時間序列世界模型。

(1)實現(xiàn)細(xì)節(jié)

(2)4D占用重建

壓縮和重建四維占用是學(xué)習(xí)圖像生成所需的潛在時空相關(guān)性和特征的必要條件。與傳統(tǒng)的視頻和圖像處理模型不同,OccSora的操作比單幀占用率高一個維度,比圖像高兩個維度。因此,實現(xiàn)有效的壓縮和準(zhǔn)確的重建是至關(guān)重要的。圖5描繪了4D占用的真實情況和重建情況。

圖片圖5 4D占用場景標(biāo)記器重建的可視化

此外還對4D占用重建進(jìn)行了定量分析,如表1所示。從表中可以看出,即使OccSora實現(xiàn)了比OccWorld高32倍的壓縮比,它仍然保持了原始OccWorld模型近50%的mIoU。這種統(tǒng)一的時間壓縮有效地捕獲了各種元素的動態(tài)變化,與漸進(jìn)式自回歸方法相比,提高了長序列建模能力。

表1 4D占用重建的定量分析圖片

(3)4D占用生成

在四維占用生成任務(wù)的基于擴(kuò)散的世界模型中,使用OccSora模型生成的token,經(jīng)過32幀的訓(xùn)練,作為生成實驗的輸入。在圖6中展示了從10,000到1,200,000步的跨訓(xùn)練迭代的可視化結(jié)果。這些視覺結(jié)果表明,隨著訓(xùn)練迭代次數(shù)的增加,OccSora模型的精度不斷提高,顯示出連貫場景的生成。

圖片圖6 精確場景的逐步生成可視化

同樣的將提出的OccSora模型與其他代模型進(jìn)行了比較和定量評估。作為第一個用于自動駕駛的4D占用世界模型,僅將其與傳統(tǒng)的圖像生成、2D視頻生成和靜態(tài)3D占用場景生成方法進(jìn)行了比較。如表2所示,OccSora模型在起始距離(FID)方面取得了不錯的性能,證明了所提出方法的有效性。

表2OccSora與其他模型在生成能力上的比較圖片

軌跡視頻生成。OccSora能夠根據(jù)不同的輸入軌跡生成各種動態(tài)場景,從而學(xué)習(xí)自動駕駛中自我車輛軌跡與場景演化之間的關(guān)系。如圖7所示,將不同的車輛軌跡運動模式輸入到模型中,展示了直行、右轉(zhuǎn)和靜止的4D占用情況。此外進(jìn)行了不同尺度的軌跡生成實驗,結(jié)果表明,靜止場景的FID得分最低,而彎曲場景的FID得分較高,這表明連續(xù)建模彎曲運動場景的復(fù)雜性和建模靜止場景的簡單性。

圖片圖7 不同輸入軌跡下的4D占用生成

場景視頻生成。在合理的軌跡控制下,場景的多樣性至關(guān)重要。為了驗證在可控軌跡下生成場景的泛化性能,OccSora模型對三種軌跡下不同場景的4D占用場景重建進(jìn)行了測試。在圖8中,左右兩部分分別展示了在同一軌跡下產(chǎn)生不同場景的能力。在重建的場景中,周圍的樹木和道路環(huán)境表現(xiàn)出隨機(jī)變化,但仍然保持了原始軌跡的邏輯,顯示了在生成與原始軌跡對應(yīng)的場景及其在不同場景中的泛化方面保持魯棒性的能力。

圖片圖8 在軌跡控制下生成多種連續(xù)場景

(4)消融實驗

標(biāo)記器與嵌入分析。對提出的組件進(jìn)行了消融實驗,包括不同的壓縮尺度、類標(biāo)記器離散化的數(shù)量、時間步嵌入和車輛軌跡嵌入,如表3所示。當(dāng)類標(biāo)記器離散化的數(shù)量從8個減少到4個時,重構(gòu)精度下降了大約18%。

表3 不同組件之間的消融實驗結(jié)果圖片

在去除時間步長嵌入組件后,F(xiàn)ID得分也有所下降。在沒有位置嵌入的情況下,生成的場景缺乏運動控制,并且受數(shù)據(jù)分布的影響幾乎呈線性運動模式。此外,在較低的壓縮比下,盡管重建性能優(yōu)于較高的壓縮比,但缺乏高維特征相關(guān)性會阻礙有效場景的生成。

生成步驟分析。去噪的總步數(shù)和去噪率會在一定程度上影響生成質(zhì)量。如圖9所示,隨著去噪率的提高,生成的場景逐漸清晰。從表4的定量結(jié)果可以看出,增加去噪步驟總數(shù)可以在一定程度上提高生成精度。然而,token大小和信道數(shù)量對生成質(zhì)量的影響要比對去噪步驟總數(shù)的影響大得多。

表4 不同尺度對去噪步驟和去噪率的定量分析。圖片圖片圖9 不同軌跡或去噪步驟下去噪比的影響

5、結(jié)論與限制

在本文中,介紹了一個生成4D占用的框架,以模擬自動駕駛中的3D世界發(fā)展。使用4D場景標(biāo)記器,獲得了輸入的密集表示,并實現(xiàn)了長序列占用視頻的高質(zhì)量重建。然后,學(xué)習(xí)時空表征的擴(kuò)散轉(zhuǎn)換器,并在軌跡提示的條件下生成4D占用。通過在nuScenes數(shù)據(jù)集上的實驗,證明了場景進(jìn)化的準(zhǔn)確性。未來,將研究更精細(xì)的4D占用世界模型,探索閉環(huán)設(shè)置下端到端自動駕駛的可能性。

局限性。4D占用世界模型的優(yōu)勢在于建立了對場景和運動之間關(guān)系的理解。然而,由于體素數(shù)據(jù)粒度的限制,無法構(gòu)建更精細(xì)的4D場景。生成結(jié)果還顯示運動對象的細(xì)節(jié)不一致,可能是由于訓(xùn)練數(shù)據(jù)的小尺寸。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2022-06-25 21:26:45

自動駕駛技術(shù)

2024-12-26 09:17:27

2024-10-28 13:30:00

2025-02-26 10:17:43

2024-12-19 10:20:53

2024-12-16 14:40:00

AI模型訓(xùn)練

2022-01-18 10:51:09

自動駕駛數(shù)據(jù)人工智能

2020-09-16 13:51:24

百度百度世界2020無人駕駛

2024-03-11 10:08:12

駕駛模型

2022-10-27 10:18:25

自動駕駛

2024-12-25 09:50:00

2024-12-04 10:00:00

自動駕駛3D檢測

2022-07-12 09:42:10

自動駕駛技術(shù)

2022-03-21 18:21:34

自動駕駛卡車智能

2024-08-15 09:50:44

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2023-06-02 10:33:35

點贊
收藏

51CTO技術(shù)棧公眾號