中科院最新DrivingGPT:利用多模態(tài)自回歸方法統(tǒng)一駕駛世界模型和規(guī)劃雙任務(wù)!
寫在前面&筆者的個(gè)人理解
目前,駕駛世界模型已獲得了來(lái)自工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,因?yàn)榛谀P偷乃阉骱鸵?guī)劃被廣泛認(rèn)為是實(shí)現(xiàn)人類級(jí)智能的重要途徑。這些模型有多種用途,包括訓(xùn)練數(shù)據(jù)增強(qiáng)、稀有場(chǎng)景生成。大多數(shù)當(dāng)前世界模型都是通過(guò)微調(diào)現(xiàn)有的擴(kuò)散模型來(lái)開(kāi)發(fā)的,利用視頻生成基礎(chǔ)模型的泛化能力??刂菩盘?hào)(如文本、布局和駕駛操作)通過(guò)兩種主要方法整合:擴(kuò)散模型的空間特征與控制信號(hào)特征之間的交叉注意,或通道級(jí)特征調(diào)制技術(shù)。
盡管駕駛世界模型取得了非常不錯(cuò)的研究進(jìn)展,但一個(gè)根本挑戰(zhàn)仍然存在:在可微分框架中無(wú)縫集成世界建模和規(guī)劃仍未得到很大程度的解決,從而限制了可微分模型規(guī)劃的全部潛力。世界模型目前主要基于視頻擴(kuò)散架構(gòu),限制了它們生成多種模態(tài)(如文本和動(dòng)作序列)的能力。因此,在擴(kuò)散模型框架內(nèi)實(shí)現(xiàn)駕駛規(guī)劃和世界建模的真正端到端集成仍然是一項(xiàng)重大的技術(shù)挑戰(zhàn)。這些限制促使我們探索能夠自然處理多模態(tài)輸入和輸出并實(shí)現(xiàn)端到端可微分規(guī)劃的替代架構(gòu)。
與擴(kuò)散模型相比,具有下一個(gè)Token預(yù)測(cè)訓(xùn)練目標(biāo)的自回歸Transformer在包括語(yǔ)言建模、視覺(jué)問(wèn)答、圖像生成、視頻預(yù)測(cè)、順序決策和機(jī)器人操作在內(nèi)的廣泛任務(wù)中表現(xiàn)出卓越的建模能力。自回歸Transformer處理順序數(shù)據(jù)和多種模態(tài)的天生能力使其特別有希望成為基于模型的集成駕駛規(guī)劃器。
基于上述的討論,在這項(xiàng)工作中,我們旨在利用自回歸Transformer的建模能力來(lái)進(jìn)行駕駛?cè)蝿?wù)中的世界建模和軌跡規(guī)劃,提出的算法模型稱為DrivingGPT。在具有挑戰(zhàn)性的 NAVSIM 基準(zhǔn)上進(jìn)行的實(shí)驗(yàn)進(jìn)一步證明了所提出的多模態(tài)駕駛語(yǔ)言作為規(guī)劃訓(xùn)練目標(biāo)的有效性。我們的 DrivingGPT 在駕駛得分方面優(yōu)于流行的帶有 MLP 軌跡解碼器規(guī)劃器的視覺(jué)編碼器。

- 論文鏈接:https://arxiv.org/pdf/2412.18607
網(wǎng)絡(luò)模型結(jié)構(gòu)&技術(shù)細(xì)節(jié)
經(jīng)過(guò)訓(xùn)練用于下一個(gè)Token預(yù)測(cè)的自回歸Transformer已在不同領(lǐng)域展現(xiàn)出卓越的能力。在這項(xiàng)工作中,我們通過(guò)結(jié)合世界模型和軌跡規(guī)劃,利用自回歸Transformer的強(qiáng)大功能實(shí)現(xiàn)自動(dòng)駕駛。我們的方法將視覺(jué)輸入和駕駛動(dòng)作轉(zhuǎn)換為離散駕駛語(yǔ)言,從而通過(guò)自回歸Transformer實(shí)現(xiàn)統(tǒng)一建模,其整體的網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示。

問(wèn)題表述
與許多其他任務(wù)一樣,駕駛問(wèn)題可以表述為馬爾可夫決策過(guò)程,這是一種在具有部分隨機(jī)結(jié)果的環(huán)境中做出決策的通用數(shù)學(xué)框架。MDP 包含一個(gè)狀態(tài)空間,它反映了自車和環(huán)境的所有狀態(tài);一個(gè)動(dòng)作空間;一個(gè)隨機(jī)轉(zhuǎn)換函數(shù),它描述了給定時(shí)間的狀態(tài)和動(dòng)作的所有可能結(jié)果的概率分布;以及一個(gè)標(biāo)量獎(jiǎng)勵(lì)函數(shù),它決定了在特定狀態(tài)下應(yīng)采取的最佳動(dòng)作。在大多數(shù)實(shí)際應(yīng)用中,我們只能感知到噪聲觀測(cè),而無(wú)法感知底層狀態(tài)。因此,引入了觀測(cè)概率函數(shù),MDP 變?yōu)椴糠挚捎^測(cè)的 MDP。預(yù)測(cè)未來(lái)軌跡的端到端策略和模擬駕駛世界動(dòng)態(tài)的觀察空間隨機(jī)轉(zhuǎn)換函數(shù)在自動(dòng)駕駛中都非常重要。我們尋求將這兩個(gè)挑戰(zhàn)統(tǒng)一為一個(gè)序列建模任務(wù)。
多模態(tài)駕駛語(yǔ)言
一般的駕駛序列可以表示為一系列時(shí)間同步的觀察-行動(dòng)對(duì),時(shí)間范圍為T。在這里,我們需要將觀察和動(dòng)作標(biāo)記為離散token,并形成多模態(tài)駕駛語(yǔ)言,然后才能利用自回歸Transformer進(jìn)行下一個(gè)token預(yù)測(cè)。
Observation Tokenization
為了簡(jiǎn)化我們的方法,我們只將前置攝像頭圖像包含在觀察空間中,而將更先進(jìn)的傳感器設(shè)置(如周圍的 cemaras、LiDAR 和 IMU)留待將來(lái)探索。為了將更多幀納入我們的序列建模,我們利用 VQ-VAE 將圖像下采樣為圖像token。
Action Tokenization
我們的方法與現(xiàn)有的駕駛世界建模方法的不同之處在于,它能夠生成未來(lái)的駕駛行為。與大多數(shù)的端到端駕駛規(guī)劃器不同,可以預(yù)測(cè)未來(lái)的整個(gè)駕駛軌跡。我們的下一個(gè) token 預(yù)測(cè)公式的因果性質(zhì)禁止我們構(gòu)建具有較長(zhǎng)動(dòng)作范圍的驅(qū)動(dòng)序列。未來(lái)的觀察和行動(dòng)都從歷史行動(dòng)中獲取了太多特權(quán)信息。

Unified Visual Action Sequence Modeling


雖然駕駛語(yǔ)言模型形式看起來(lái)很簡(jiǎn)單,但它明確地將駕駛世界建模和端到端駕駛作為其子任務(wù)。
Integrating Action into Trajectory
由于我們?cè)隈{駛語(yǔ)言中使用了幀與幀之間的相對(duì)動(dòng)作,因此我們需要將它們整合起來(lái)以獲得絕對(duì)駕駛軌跡。我們首先將預(yù)測(cè)的動(dòng)作轉(zhuǎn)換為二維變換矩陣,然后進(jìn)行整合。

然后,我們通過(guò)連續(xù)乘以這些相對(duì)位姿矩陣來(lái)獲得絕對(duì)位姿,并將其相應(yīng)地轉(zhuǎn)換回絕對(duì)動(dòng)作。
實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)
視頻生成的實(shí)驗(yàn)結(jié)果
我們對(duì)navtest數(shù)據(jù)集上的幾種方法進(jìn)行了定量比較,相關(guān)的實(shí)驗(yàn)結(jié)果匯總在下表當(dāng)中。

由于許多視頻模型僅發(fā)布模型權(quán)重,我們將我們的方法與它們公開(kāi)可用的模型進(jìn)行比較。我們發(fā)現(xiàn) SVD 和 CogvideoX 都傾向于產(chǎn)生細(xì)微的動(dòng)作,這導(dǎo)致駕駛場(chǎng)景中的表現(xiàn)不佳。為了確保公平比較,我們?cè)?navtrain 集上微調(diào)了 SVD 模型。以前的視頻模型通常依賴于基于擴(kuò)散的方法,而我們的方法是自回歸視頻生成的先驅(qū)。值得注意的是,我們從頭開(kāi)始訓(xùn)練的模型在視頻生成質(zhì)量方面超越了以前的方法。
自回歸模型的一個(gè)關(guān)鍵優(yōu)勢(shì)是能夠通過(guò)有效利用歷史信息來(lái)生成長(zhǎng)時(shí)長(zhǎng)視頻,從而生成更連貫的視頻。在這個(gè)實(shí)驗(yàn)中,我們從 navtest 數(shù)據(jù)集中選擇了 512 個(gè)視頻片段(每個(gè)片段包含超過(guò) 64 幀)進(jìn)行評(píng)估。而 SVD 方法在生成較長(zhǎng)的序列時(shí)很難保持質(zhì)量,相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示。

通過(guò)上表的實(shí)驗(yàn)結(jié)果可以看出,我們的方法表現(xiàn)出了生成高質(zhì)量長(zhǎng)期序列的卓越能力。SVD的固定幀數(shù)訓(xùn)練限制導(dǎo)致較長(zhǎng)序列的圖像和視頻質(zhì)量顯著下降。相比之下,我們的方法始終如一地生成高質(zhì)量圖像并獲得較低的 FVD 分?jǐn)?shù),表明性能更穩(wěn)定和更優(yōu)越。
此外,與以往基于擴(kuò)散的方法相比,我們的方法可以生成更加多樣化和合理的場(chǎng)景。如下圖所示,SVD 微調(diào)方法在生成較長(zhǎng)的視頻時(shí)經(jīng)常會(huì)陷入重復(fù)過(guò)去內(nèi)容的困境,例如長(zhǎng)時(shí)間被困在紅燈下。相比之下,自回歸方法在生成長(zhǎng)視頻方面表現(xiàn)出顯著的優(yōu)勢(shì),從而顯著改善了場(chǎng)景內(nèi)容和視頻質(zhì)量。

除了長(zhǎng)視頻生成之外,我們方法的另一個(gè)優(yōu)勢(shì)在于它能緩解物體幻覺(jué)現(xiàn)象。如下圖所示,基于擴(kuò)散的方法由于缺乏歷史信息,經(jīng)常會(huì)遭遇物體突然出現(xiàn)(紅色框)和逐漸消失(綠色框)的情況。相比之下,我們的自回歸方法保持了卓越的一致性。

端到端規(guī)劃的實(shí)驗(yàn)結(jié)果
我們的 DrivingGPT 能夠聯(lián)合預(yù)測(cè)未來(lái)圖像和駕駛行為,從而實(shí)現(xiàn)端到端的規(guī)劃性能評(píng)估。為了嚴(yán)格評(píng)估我們的規(guī)劃器的性能,我們選擇了更具挑戰(zhàn)性的 NAVSIM 基準(zhǔn),該基準(zhǔn)旨在提供比以前的 nuScenes 和 nuPlan 基準(zhǔn)更多樣化的駕駛操作。此外,鑒于最近關(guān)于使用自車狀態(tài)將為規(guī)劃者提供過(guò)多特權(quán)信息的討論,我們故意選擇將其排除在我們的駕駛語(yǔ)言之外。按照 NAVSIM 設(shè)置,我們根據(jù)過(guò)去 2 秒的觀察和行動(dòng)來(lái)預(yù)測(cè)未來(lái) 4 秒的軌跡。相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示。

與恒定速度和恒定速度恒定偏航率的基線相比,我們提出的 DrivingGPT 實(shí)現(xiàn)了不俗的表現(xiàn)性能。此外,我們的 DrivingGPT 與使用 ResNet-50 視覺(jué)編碼器和 MLP 軌跡解碼器實(shí)現(xiàn)的簡(jiǎn)單但可靠的端到端規(guī)劃器基線相比更具優(yōu)勢(shì)。該基線僅使用前置攝像頭圖像,也不使用自車狀態(tài)。考慮到我們提出的 DrivingGPT 只能通過(guò)重建駕駛環(huán)境的高度壓縮圖像token來(lái)學(xué)習(xí)表示,結(jié)果突出了聯(lián)合學(xué)習(xí)世界建模和給定規(guī)劃的潛力。下圖展示了我們提出的DrivingGPT 在具有挑戰(zhàn)性的駕駛場(chǎng)景下生成的軌跡。

消融實(shí)驗(yàn)分析
如下表所示,視覺(jué)標(biāo)記器的質(zhì)量顯著影響世界模型視覺(jué)預(yù)測(cè)質(zhì)量的上限。我們?cè)趎avtest數(shù)據(jù)集上評(píng)估了幾種最先進(jìn)的離散視覺(jué)標(biāo)記器,該數(shù)據(jù)集包含 12,146 個(gè)視頻樣本。根據(jù)我們的評(píng)估,我們選擇 Llama-Gen 作為我們世界模型的最佳視覺(jué)標(biāo)記器。

此外,自回歸Transformer是眾所周知的強(qiáng)大擬合機(jī)器。因此,我們?cè)噲D回答一個(gè)問(wèn)題:DrivingGPT 是否真正學(xué)會(huì)了駕駛,還是只是通過(guò)復(fù)制或推斷歷史駕駛動(dòng)作來(lái)偷工減料。我們逐漸用僅從歷史動(dòng)作估計(jì)的未來(lái)動(dòng)作替換 DrivingGPT 的預(yù)測(cè)動(dòng)作。我們只是復(fù)制最后的歷史動(dòng)作,因?yàn)橐话愕鸟{駛軌跡不涉及任何動(dòng)作輸入變化。相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示。

我們的 DrivingGPT 始終優(yōu)于所有簡(jiǎn)單復(fù)制橫向、縱向和歷史動(dòng)作的變體??赡軙?huì)注意到,復(fù)制之前的縱向動(dòng)作會(huì)產(chǎn)生最差的規(guī)劃結(jié)果,這是因?yàn)?NAVSIM 基準(zhǔn)包含許多場(chǎng)景,其中自車剛剛開(kāi)始從停止和啟動(dòng)加速。實(shí)驗(yàn)結(jié)果表明,我們的 DrivingGPT 真正學(xué)會(huì)了如何駕駛,而不僅僅是復(fù)制歷史動(dòng)作。
同時(shí),我們發(fā)現(xiàn)數(shù)據(jù)質(zhì)量在語(yǔ)言建模等其他任務(wù)上訓(xùn)練自回歸Transformer時(shí)起著核心作用。因此,我們研究驅(qū)動(dòng)數(shù)據(jù)質(zhì)量和數(shù)量對(duì)端到端規(guī)劃性能的影響,相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示。

使用NAVSIM等高質(zhì)量數(shù)據(jù)訓(xùn)練的模型(僅包含 100k 個(gè)駕駛序列)優(yōu)于使用 650k 個(gè) nuPlan 駕駛序列訓(xùn)練的模型。結(jié)果表明,在駕駛語(yǔ)言建模中,數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量更重要。
結(jié)論
在本文中,我們提出了一種新穎的多模態(tài)駕駛語(yǔ)言,該語(yǔ)言有效地將視覺(jué)世界建模和軌跡規(guī)劃統(tǒng)一到序列建模任務(wù)中。我們?cè)O(shè)計(jì)的算法框架稱為DrivingGPT,可以聯(lián)合學(xué)習(xí)為這兩個(gè)任務(wù)生成圖像和動(dòng)作token。在nuPlan 和 NAVSIM 基準(zhǔn)上進(jìn)行的實(shí)驗(yàn)和消融研究證明了所提出的 DrivingGPT 在動(dòng)作條件視頻生成和端到端規(guī)劃方面的有效性。


































