重新思考軌跡預(yù)測(cè) | 復(fù)旦提出PIFM:如何將規(guī)劃引入預(yù)測(cè)?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面 && 筆者理解
傳統(tǒng)的自動(dòng)駕駛主要可以分為感知、預(yù)測(cè)、規(guī)控三個(gè)大的部分,其中預(yù)測(cè)模塊承擔(dān)著十分重要的角色,為下游規(guī)劃路徑提供重要的信息。然而,現(xiàn)實(shí)世界駕駛環(huán)境的復(fù)雜性,其中包括多個(gè)動(dòng)態(tài)智能體(如車輛和行人)之間的相互作用,給預(yù)測(cè)造成了不小的挑戰(zhàn)。這其中有一個(gè)重要任務(wù)就是軌跡預(yù)測(cè),這涉及到基于它們當(dāng)前的狀態(tài)和環(huán)境來(lái)預(yù)測(cè)周圍智能體的未來(lái)移動(dòng)。
傳統(tǒng)上,運(yùn)動(dòng)預(yù)測(cè)模型預(yù)測(cè)單個(gè)智能體的軌跡,而沒(méi)有考慮它們之間的相互依賴性。在多智能體環(huán)境中,這種方法會(huì)導(dǎo)致次優(yōu)的預(yù)測(cè),因?yàn)樗⒉荒懿蹲降街悄荏w之間的復(fù)雜交互。為了克服這些限制,最近的工作開始將規(guī)劃信息納入軌跡預(yù)測(cè)過(guò)程,允許系統(tǒng)做出更明智的決策。
- 論文鏈接:https://arxiv.org/pdf/2410.19639
在過(guò)去幾年,自動(dòng)駕駛的軌跡預(yù)測(cè)也有了顯著的發(fā)展,許多方法利用多模態(tài)融合技術(shù)來(lái)提高準(zhǔn)確性。比較早期模型依賴于歷史軌跡和地圖數(shù)據(jù),通常將這些輸入結(jié)合起來(lái)做預(yù)測(cè)。近期的工作會(huì)使用基于transformer的架構(gòu),引入了注意力機(jī)制以更好地整合這些不同的模態(tài)。這些模型大大提高了自動(dòng)駕駛系統(tǒng)的預(yù)測(cè)能力,尤其是在智能體與其環(huán)境動(dòng)態(tài)交互的場(chǎng)景中。另外,Planning-aware模型也作為提高軌跡預(yù)測(cè)的有效方法之一,比如:PiP和PRIME明確地將規(guī)劃信息集成到預(yù)測(cè)框架中,允許系統(tǒng)在軌跡生成過(guò)程中考慮未來(lái)的目標(biāo)。然而,這些方法通常因?yàn)樘幚頂?shù)據(jù)所涉及的計(jì)算復(fù)雜性,在實(shí)時(shí)多智能體場(chǎng)景中表現(xiàn)并不理想。因此,基于擴(kuò)散的模型最近被提出來(lái)解決這些問(wèn)題,同時(shí)減少計(jì)算負(fù)擔(dān),同時(shí)保持高預(yù)測(cè)性能。
在這項(xiàng)工作中,作者提出了軌跡信息規(guī)劃擴(kuò)散(Trajectory-Informed Planning Diffusion,TIP-D)模型,該模型基于擴(kuò)散框架的優(yōu)勢(shì),并直接將規(guī)劃特征集成到運(yùn)動(dòng)預(yù)測(cè)過(guò)程中,目的是結(jié)合規(guī)劃信息來(lái)提高軌跡預(yù)測(cè)的準(zhǔn)確性和可解釋性。作者的方法能夠通過(guò)利用交叉注意力機(jī)制動(dòng)態(tài)融合規(guī)劃特征與環(huán)境數(shù)據(jù),同時(shí)預(yù)測(cè)多個(gè)智能體的軌跡。此外,TIP-D模型在計(jì)算復(fù)雜性上實(shí)現(xiàn)了顯著降低,與現(xiàn)有的最先進(jìn)方法相比降低了80%以上,同時(shí)在復(fù)雜的多智能體駕駛場(chǎng)景中保持了高準(zhǔn)確性。
相關(guān)工作
多模態(tài)融合
在運(yùn)動(dòng)預(yù)測(cè)中,準(zhǔn)確的軌跡預(yù)測(cè)依賴于不同信息模態(tài)的整合,例如智能體的歷史軌跡和地圖數(shù)據(jù)。為了更好地捕捉運(yùn)動(dòng)動(dòng)態(tài)的復(fù)雜性,最近的研究擴(kuò)展到包括規(guī)劃軌跡、交通狀態(tài)和車道方向等額外模態(tài)。這些增強(qiáng)旨在提供對(duì)動(dòng)態(tài)環(huán)境更全面的理解,允許模型以更高的準(zhǔn)確性預(yù)測(cè)軌跡。Wayformer優(yōu)化注意力機(jī)制以提高計(jì)算效率,而Scene Transformer使用統(tǒng)一的架構(gòu)有效管理多智能體交互。同樣,LatentFormer采用基于Transformer的方法,結(jié)合潛在變量來(lái)提高預(yù)測(cè)精度。這些策略證明了整合多個(gè)信息模態(tài)對(duì)于更準(zhǔn)確、更可靠的運(yùn)動(dòng)預(yù)測(cè)的有效性。
Planning-aware運(yùn)動(dòng)預(yù)測(cè)
Planning-aware軌跡預(yù)測(cè)是多模態(tài)預(yù)測(cè)方法的一個(gè)關(guān)鍵方面,其中包含動(dòng)態(tài)車輛信息的規(guī)劃特征被整合到高級(jí)編碼特征中。例如,PiP引入了一個(gè)雙模塊系統(tǒng),其中規(guī)劃耦合模塊將未來(lái)規(guī)劃注入交互特征中,目標(biāo)融合模塊編碼和解碼智能體之間的未來(lái)交互。PRIME通過(guò)使用基于模型的場(chǎng)景上下文進(jìn)一步優(yōu)化這種方法,通過(guò)查詢各種張量生成保證可行性的未來(lái)軌跡。TPP專注于通過(guò)整合來(lái)自自我運(yùn)動(dòng)采樣器的樹狀結(jié)構(gòu)規(guī)劃結(jié)果來(lái)改進(jìn)規(guī)劃軌跡,盡管它仍然使用采樣器的輸出作為直接輸入,而不是與地圖交互。此外,像Multipath++這樣的模型已經(jīng)證明了這些技術(shù)在運(yùn)動(dòng)預(yù)測(cè)挑戰(zhàn)中實(shí)現(xiàn)最先進(jìn)的性能的有效性,特別是通過(guò)使用有效整合這些多模態(tài)信息源的先進(jìn)注意力和基于擴(kuò)散的模型。作者的方法進(jìn)一步發(fā)展了這一概念,實(shí)現(xiàn)了與Multipath++幾乎相當(dāng)?shù)男阅?,同時(shí)參數(shù)數(shù)量極少。
方法論
輸入表示
模型使用多模態(tài)嵌入策略將各種數(shù)據(jù)源,如歷史軌跡、高清地圖和規(guī)劃軌跡,轉(zhuǎn)換為統(tǒng)一的高維空間。這確保了模型能夠捕捉到準(zhǔn)確軌跡預(yù)測(cè)所需的復(fù)雜的空間和時(shí)間關(guān)系。
模型架構(gòu)和融合機(jī)制
訓(xùn)練目標(biāo)
作者將損失函數(shù)制定為多項(xiàng)任務(wù)損失的總和,并使用輔助學(xué)習(xí)方法來(lái)平衡它們。在訓(xùn)練階段,作者還使用了聯(lián)合損失來(lái)平衡最終輸出和預(yù)測(cè)頭部的輸出,遵循TrackFormer的方法。
實(shí)驗(yàn)及結(jié)果
數(shù)據(jù)集
Argoverse 數(shù)據(jù)集包含 324,000 個(gè)場(chǎng)景,包括詳細(xì)的軌跡序列、傳感器數(shù)據(jù)(如 3D 激光雷達(dá)和攝像頭圖片)以及高清地圖。數(shù)據(jù)集被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,并支持軌跡預(yù)測(cè)的多模態(tài)融合。用于評(píng)估模型準(zhǔn)確性和預(yù)測(cè)能力的指標(biāo)包括最小平均位移誤差(Minimum Average Displacement Error, minADE)、最小最終位移誤差(Minimum Final Displacement Error, minFDE)、未命中率(Miss Rate, MR)和布里爾分?jǐn)?shù)。
指標(biāo)
實(shí)驗(yàn)結(jié)果
作者將提出的方法與最先進(jìn)的Planning-aware運(yùn)動(dòng)預(yù)測(cè)技術(shù)進(jìn)行比較,包括 PIP 和 PRIME 。PRIME 作為基準(zhǔn),作者的方法顯示出顯著的改進(jìn):minFDE 提高了 14.10%,minADE 提高了 30.33%,p-minADE 提高了 2.59%。作者的方法還優(yōu)于基于圖神經(jīng)網(wǎng)絡(luò)的方法,如 LaneGCN 、VDC 和 HGO。與基于擴(kuò)散的方法如 mmdiffusion 和 Scenediffusion 相比,作者的方法取得了更優(yōu)越的結(jié)果,與 Multipath++ 相比參數(shù)數(shù)量減少了 84.43%。
總之,作者提出的方法在 Argoverse 數(shù)據(jù)集上表現(xiàn)出色,實(shí)現(xiàn)了更高的預(yù)測(cè)準(zhǔn)確性和效率,同時(shí)顯著減少了參數(shù)數(shù)量和計(jì)算開銷。
消融研究
作者在 Argoverse 數(shù)據(jù)集上使用 minFDE、minADE、Brier-minFDE 和 Brier-minADE 進(jìn)行了消融研究,以 mmdiffusion 作為基線。Planning-Aware Encoder,整合 PreFusion-D,改進(jìn)了 minFDE、minADE、Brier-minFDE 和 Brier-minADE,分別提高了 7.81%、0.24%、1.87% 和 0.33%。擴(kuò)展聯(lián)合損失改進(jìn)了 minFDE 0.24% 和 minADE 1.45%。為所有智能體添加回歸導(dǎo)致了進(jìn)一步的增益,分別為 0.82% 和 1.47%。
寫在最后
本文提出了一個(gè)Planning-aware的堆疊擴(kuò)散網(wǎng)絡(luò),這是運(yùn)動(dòng)預(yù)測(cè)中的一個(gè)新框架。Planning-aware擴(kuò)散預(yù)測(cè)未來(lái)軌跡時(shí)會(huì)使用多模態(tài)特征,尤其是先前的規(guī)劃特征。為了獲得更好的融合性能,作者設(shè)計(jì)并探索了四個(gè)融合模塊,將規(guī)劃信息聚合到堆疊擴(kuò)散中。作者還提出了一種新的損失函數(shù),迫使網(wǎng)絡(luò)關(guān)注可行駛區(qū)域。在 Argoverse 運(yùn)動(dòng)預(yù)測(cè)基準(zhǔn)測(cè)試中進(jìn)行的實(shí)驗(yàn)證明了作者模型的有效性。