世界模型大一統(tǒng)?清華&復旦提出OccLLaMA:首個用于自動駕駛多任務的具身世界模型
寫在前面&筆者的個人理解
近年來,整合了語言、圖像、音頻等各種模態(tài)的多模態(tài)大語言模型取得了重大的突破,極大的加快了具身人工智能領域技術的發(fā)展。雖然相關研究成果取得了較為不錯的進展,但是能夠處理現(xiàn)實世界中多項任務的通用智能體還并未出現(xiàn)。這本質(zhì)上是因為現(xiàn)有的多模態(tài)大型語言模型通過學習的方式從感知到動作的直接映射來執(zhí)行相應動作,忽略了世界的動態(tài)特性以及運動與世界動態(tài)之間的關系。相比之下,人類擁有使他們能夠基于3D內(nèi)部視覺表征模擬未來狀態(tài)并據(jù)此規(guī)劃行動的視覺模型。因此,探索如何構(gòu)建智能體的世界模型對于具身智能的進步至關重要。
自動駕駛作為具身人工智能的一項非常具有代表性的應用,在世界范圍內(nèi)得到了廣泛的討論和研究,但是目前的自動駕駛世界模型專注于傳感器相關的任務,如點云、視覺以及柵格預測任務,無法同時實現(xiàn)預測場景演變、語言推理和與現(xiàn)實世界的交互等內(nèi)容。因此,我們希望提出一個能夠統(tǒng)一視覺、語言和動作的模型,具有類似人類的能力。
考慮到最近提出的柵格預測網(wǎng)絡可以作為一種通用的3D視覺任務,更加準確的描述細粒度的3D結(jié)構(gòu),同時還包含了高級語義信息,非常適合對齊空間和語義。同時,基于自回歸語言模型的視覺生成的可行性已得到徹底驗證,其性能可與擴散模型相當。
因此,在本文中,我們提出了統(tǒng)一的3D占用-語言-動作生成世界模型,該模型統(tǒng)一了VLA相關任務,包括但不限于場景理解、規(guī)劃和 4D占用預測,我們將提出的模型稱之為OccLLaMA,其整體效果如下圖所示。
OccLLaMA支持包括場景理解和推理、4D占用預測和運動規(guī)劃
網(wǎng)絡模型的整體架構(gòu)&細節(jié)梳理
在詳細介紹本文提出的OccLLaMA算法模型之前,下圖展示了OccLLaMA算法模型的整體網(wǎng)絡結(jié)構(gòu)。
OccLLaMA算法模型的整體網(wǎng)絡結(jié)構(gòu)
通過上圖可以看出,OccLLaMA算法模型的核心組件包括Scene Tokenizer、Occupancy-Language-Action生成世界模型以及為了實現(xiàn)多任務引入的三階段訓練方案。具體而言,為了使OccLLaMA具有理解和生成視覺模態(tài)的能力,我們選擇Occupancy作為通用的視覺表示,并引入一種新穎的Scene Tokenizer來有效地構(gòu)建離散場景詞匯,同時考慮到稀疏性和類別不平衡。通過結(jié)合場景詞匯、語言詞匯和動作詞匯,我們?yōu)閂LA任務構(gòu)建了一個統(tǒng)一的多模態(tài)詞匯,為在一個模型中集成VLA奠定了基礎。
Scene Tokenizer
受到點云處理任務的啟發(fā),我們在編碼器當中引入了一種稀疏的編碼策略。同時我們將非占用類別與其他語義類別分離,從而實現(xiàn)更高效的場景重建。
編碼器
解碼器
由于量化后BEV的特征圖中的高度信息丟失,解碼器通過堆疊卷積塊和上采樣層來恢復密集的3D體素特征。具體來說,為了解決類別不平衡問題,我們分別實例化輕量級體素頭和分類頭,以解碼占用的幾何和語義信息。值得注意的是,體素頭為分類頭提供了一個占用掩碼,使我們能夠僅監(jiān)督占用體素的語義。
Generative World Model
統(tǒng)一詞匯
場景預測
我們觀察到語言和動作都是時間序列,這使得這些序列中的token自然適合具有原始的因果掩碼和下一個token預測機制的時間注意力。具體而言,我們在與場景token對應的位置實現(xiàn)空間注意力,以更好地捕捉場景內(nèi)的空間關系。相應地,我們初始化可學習的場景查詢用于預測整個完整的場景,從而實現(xiàn)場景內(nèi)token之間的更好交互并顯著減少推理時間。在算法1中,詳細解釋了執(zhí)行場景預測機制的算法流程,如下圖所示。
場景預測的整體算法流程
訓練階段
我們的訓練方案包括三個階段,分別是scene tokenizer的訓練過程,3D Occupancy-Language-Action的預訓練過程,以及指令微調(diào)過程。
- scene tokenizer的訓練過程:我們首先專注于場景codebook的學習,以將占用率表示為離散的標記,并計算相關的loss損失進行優(yōu)化。在優(yōu)化后,scene tokenizer在整個流程的后續(xù)階段始終保持不變。
- 3D Occupancy-Language-Action的預訓練過程:在這個階段,我們專注于對齊occupancy-language-action。我們使用世界模型目標和場景標題目標進行全參數(shù)預訓練,前者監(jiān)督占用和動作之間的對齊以學習世界的演變,后者監(jiān)督占用和語言之間的對齊以學習3D場景的語義理解。
- 指令微調(diào)過程:在這個階段,我們根據(jù)LoRA針對不同場景理解和規(guī)劃任務的提示指令對模型進行微調(diào)。
實驗結(jié)果&評價指標
為了展示我們提出的算法模型在4D占用預測、運動規(guī)劃以及視覺問答任務中的性能,我們分別針對三個任務展開了一系列的相關實驗。
4D占用預測任務
4D占用預測任務旨在根據(jù)一些歷史占用輸入預測未來的3D占用場景。具體來說,我們使用2秒的歷史幀信息來預測接下來的3秒,并使用 mIoU和IoU作為主要的評估指標。相關的實驗結(jié)果統(tǒng)計在下表當中。
我們在兩種設置下將提出的OccLLaMA與最先進的方法OccWorld進行了比較:一種是使用真實3D占用信息(-O),另外一種是使用基于相機模型FBOCC的預測結(jié)果(-F)。
首先,我們觀察到我們的scene tokenizer展現(xiàn)出了卓越的場景重建能力。此外,我們提出的OccLLaMA可以在1秒內(nèi)實現(xiàn)了具有競爭力的預測結(jié)果,并且在更長時間內(nèi)明顯優(yōu)于OccWorld算法模型,凸顯了我們提出的算法模型其更強的長期預測能力。
此外,OccLLaMA-F可以被視為端到端的檢測流程,因為它以相機為輸入。盡管任務很復雜,但OccLLaMA始終表現(xiàn)出強大的預測性能。為了更加直觀的展示我們算法模型的有效性,我們也進行了相關的可視化,如下圖所示。
4D柵格預測任務的可視化結(jié)果
運動規(guī)劃任務
我們將提出的OccLLaMA算法模型的運動規(guī)劃能力與利用各種輸入和監(jiān)督的幾個強基線算法模型進行了比較,相關的實驗結(jié)果如下表所示。
我們還將提出的算法模型與OccWorld算法模型在不同設置下進行了比較,例如4D占用率預測任務中的設置。我們觀察到UniAD算法模型提供了最佳的表現(xiàn)性能,而監(jiān)督標記限制了其對大規(guī)模數(shù)據(jù)集的可擴展性。作為替代方案,OccLLaMA僅依靠3D語義占用就實現(xiàn)了具有競爭力的表現(xiàn)性能,展示了其作為自動駕駛基礎模型的擴展?jié)摿ΑEc使用占用作為輸入的方法相比,OccLLaMA的表現(xiàn)明顯優(yōu)于OccNet算法模型,進一步凸顯了其自回歸架構(gòu)的優(yōu)越性。此外,超越自回歸的最先進的方法OccWorld算法模型,也從側(cè)面證明了我們提出各個模塊的有效性。此外,通過集成現(xiàn)有方法實現(xiàn)的卓越性能,展示了我們方法的通用性。值得注意的是,輸出軌跡而不交替場景預測會導致性能下降,這表明世界模型范式具有更大的潛力。
視覺問答任務
據(jù)我們所知,我們是第一個利用占用數(shù)據(jù)和文本指令作為輸入并在自動駕駛中實現(xiàn)一系列3D任務的多模態(tài)大型語言模型。我們選擇在NuScenes-QA基準上最先進的算法模型Lidar-LLM,作為我們的主要比較基線。此外,我們分別使用深度圖像和原始圖像作為輸入,在 NuScenes-QA基準上評估了強大的2D LLM。我們使用Top-1準確度指標評估模型的性能,并對不同類型的問題進行單獨評估。
為了確保公平性,我們在LLaMA2-7b下實現(xiàn)了我們的整體算法模型,這是與LiDAR-LLM和LLaVA相同的基礎模型。相關的實驗結(jié)果匯總在如下的表格當中。
我們觀察到提出的OccLLaMA算法模型總體上提供了最佳的表現(xiàn)性能。與LiDAR-LLM相比,提出的OccLLaMA算法模型可以更好地捕獲3D空間中的語義信息,這對于與目標相關的問題至關重要。此外,OccLLaMA算法模型將空間信息作為輸入,并自然地對齊語義和空間數(shù)據(jù),這對涉及空間關系的問題很有幫助。
相關消融對比實驗
此外我們也對提出的各個模塊進行了相關的消融對比實驗,用于驗證我們提出的各個模塊的有效性。
下表展示了不同超參數(shù)對scene tokenizer重建性能的影響,包括空間分辨率、特征維度和codebook的大小。
較大的codebook會導致算法模型的過度擬合和codebook的利用率下降。較小的codebook和特征維度無法有效地模擬場景分布。分辨率與重建能力呈正相關,影響最為顯著。然而,分辨率越大,重建場景所需的token數(shù)量就越多,從而增加了預測的負擔。
我們也比較了生成模型的不同組成部分對預測和規(guī)劃性能的影響,相關實驗結(jié)果匯總在下表當中。
沒有空間注意力意味著一個場景中的標記基于扁平序列順序保持其原始因果注意力。沒有動作token化意味著航點由原始語言詞匯中的標記連接而成。通過實驗結(jié)果可以看出,使用特定于動作的標記,而不是依賴語言詞匯,可以提高預測和規(guī)劃的性能。這種改進可以歸因于特定于動作的標記保留了航點的物理先驗,同時避免了語言詞匯中的歸納偏差。此外,我們發(fā)現(xiàn)使用空間注意力來模擬場景內(nèi)的空間依賴關系對于預測至關重要。然而,它會導致規(guī)劃性能略有下降,我們將其歸因于空間注意力在局部擾亂了全局因果注意力。
結(jié)論
在本文中,我們提出了OccLLaMA算法模型,一種用于多任務的自動駕駛3D占用語言動作生成世界模型。通過對4D占用預測、運動規(guī)劃和視覺問答等任務的大量實驗,實驗數(shù)據(jù)結(jié)果證明了我們提出的OccLLaMA算法模型在多任務上的有效性。未來,我們將增加數(shù)據(jù)多樣性,以進一步增強OccLLaMA算法模型的功能。