nuPlan又一SOTA!趙行團(tuán)隊新作STR2:運動規(guī)劃的重新出發(fā),仿真閉環(huán)的強大泛化!
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
論文鏈接:https://arxiv.org/pdf/2410.15774
項目網(wǎng)頁:https://tsinghua-mars-lab.github.io/StateTransformer/
代碼開源:https://github.com/Tsinghua-MARS-Lab/StateTransformer
主要內(nèi)容:
大型實際駕駛數(shù)據(jù)集推動了有關(guān)自動駕駛數(shù)據(jù)驅(qū)動運動規(guī)劃器的各個方面的研究,包括數(shù)據(jù)增強、模型架構(gòu)、獎勵設(shè)計、訓(xùn)練策略和規(guī)劃器架構(gòu)。在處理復(fù)雜和少樣本情況下,這些方法有較好的表現(xiàn)。但是由于設(shè)計過于復(fù)雜或訓(xùn)練范式的問題,這些方法在規(guī)劃性能上的泛化能力有限。在本文中,我們回顧并比較了以前的方法,重點關(guān)注泛化能力。實驗結(jié)果顯示,隨著模型的適當(dāng)擴(kuò)展,許多設(shè)計元素變得冗余。我們介紹了StateTransformer-2 (STR2),這是一種可擴(kuò)展的、僅使用解碼器的運動規(guī)劃器,它結(jié)合了Vision Transformer (ViT) 編碼器和混合專家(MoE) 的Transformer架構(gòu)。MoE骨干通過訓(xùn)練期間的專家路由解決了模態(tài)崩潰和獎勵平衡問題。在NuPlan數(shù)據(jù)集上的大量實驗表明,我們的方法在不同測試集和閉環(huán)模擬中比以前的方法具有更好的泛化能力。此外,我們評估了其在真實城市駕駛場景中的可擴(kuò)展性,顯示出隨著數(shù)據(jù)和模型規(guī)模的增長其一致的準(zhǔn)確性提升。
下面我們詳細(xì)解釋STR2的模型設(shè)計。我們選擇的不是向量化的輸入,而是柵格化圖片的輸入,可以方便進(jìn)行規(guī)模化訓(xùn)練。輸入還加入了聚類的軌跡作為引導(dǎo)線,結(jié)果可以看到在大曲率的場景表現(xiàn)會更合理一些。輸入經(jīng)過一個使用MoE架構(gòu)增強的Transformer模型,自回歸的方式輸出引導(dǎo)線類別,關(guān)鍵點以及軌跡。
ViT編碼器。我們采用僅解碼的ViT圖像編碼器,以實現(xiàn)更好的可擴(kuò)展性和性能,它由堆疊的12層Transformer組成。柵格化的圖像被切分成16個小塊。我們選擇GeLU作為ViT編碼器的激活函數(shù)。
Mixture-of-Expert。語言建模任務(wù)要求模型從復(fù)雜且通常具有統(tǒng)計爭議的專家數(shù)據(jù)獎勵中學(xué)習(xí)和實現(xiàn)平衡。受MoE模型在語言建模任務(wù)上泛化結(jié)果的啟發(fā),我們將GPT-2骨干網(wǎng)絡(luò)替換為MoE骨干網(wǎng)絡(luò)用于序列建模。MoE層通過專用內(nèi)核和專家并行(EP)提供了更好的內(nèi)存效率。我們還利用了Flash Attention2 和數(shù)據(jù)并行(DP)以提高訓(xùn)練效率。
自回歸。在生成序列中我們添加了聚類軌跡作為嵌入特征用于模態(tài)分類,并使用交叉熵?fù)p失。我們使用K-Means聚類,從0.7百萬個隨機(jī)選擇的動態(tài)可行軌跡中按其時空距離提取了512個候選軌跡。每條歸一化的軌跡包括未來8秒的80個軌跡點(x, y和偏航角)。
liauto數(shù)據(jù)集上的規(guī)?;瘜嶒灐?/strong>我們采用了liauto數(shù)據(jù)集進(jìn)行了scaling law的探索,liauto數(shù)據(jù)集是一個工業(yè)級的超大規(guī)?,F(xiàn)實世界駕駛數(shù)據(jù)集。該數(shù)據(jù)集包括車道級導(dǎo)航地圖和來自7個RGB攝像頭、1個LiDAR和1個毫米波雷達(dá)(MMWR)的傳感器設(shè)置的跟蹤結(jié)果。我們選擇了過去6個月內(nèi)收集的城市駕駛場景,其中沒有任何人工標(biāo)注。我們篩選出錯誤的導(dǎo)航路線,因為這些路線與實際的未來駕駛軌跡不匹配。最終,我們將所有駕駛?cè)罩局匦抡頌殚L達(dá)10秒的訓(xùn)練和測試樣本,其中包括過去的2秒和未來的8秒。最終的訓(xùn)練數(shù)據(jù)集擁有超過1b訓(xùn)練樣本。實驗結(jié)果(如圖2)可以看到隨著數(shù)據(jù)規(guī)模的增加以及模型參數(shù)的增加,test loss都有下降的趨勢。均衡考慮訓(xùn)練成本和收益的關(guān)系,我們最后采用的為800m的模型。
從圖3 nuplan閉環(huán)仿真的結(jié)果可以看到STR2取得了全面SOTA。結(jié)果來看專家軌跡的NR分?jǐn)?shù)較高,R的分?jǐn)?shù)卻很低,說明專家軌跡沒有一個適應(yīng)環(huán)境變化的能力,仿真環(huán)境和實車有一定的區(qū)別。結(jié)果可以看出PDM-Hybrid相比于其他的方法的R得分明顯高于NR,說明生成-評估的范式在模型泛化性能上表現(xiàn)優(yōu)異。我們借鑒了PDM的生成-評估范式,基于STR2模型的輸出結(jié)果進(jìn)行了候選軌跡生成,再經(jīng)過PDM打分器輸出得分最高的軌跡。
圖4可視化結(jié)果可以看出PDM-Hybrid軌跡因為基于當(dāng)前車道中心線,沒有主動變道和繞障的能力,我們的模型由于泛化性能強,所以很多場景下表現(xiàn)比PDM-Hybrid合理很多。本工作在nuplan testhard 數(shù)據(jù)集上的實驗結(jié)果證明了生成-評估范式的合理性。對于生成-評估范式,在后續(xù)工作中我們還可以有更多嘗試,例如如何在模型層面輸出更合理的候選軌跡,如何將未來的不確定性考慮進(jìn)打分器中,同時可以考慮將本文的方法作為真值標(biāo)注的一種方式,幫助模型朝著更合理的方向迭代。為了感受模型的泛化性能我們將nuplan數(shù)據(jù)訓(xùn)練得到的模型直接應(yīng)用于liauto數(shù)據(jù)集上推理,結(jié)果表現(xiàn)良好,對于動態(tài)障礙物的避讓交互等都有合理的輸出。