地平線&港大最新端到端進(jìn)展!HE-Drive:VLM+擴(kuò)散模型發(fā)大力
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
本文提出了HE-Drive:首個(gè)模仿人類駕駛為核心的端到端自動(dòng)駕駛系統(tǒng),旨在生成同時(shí)具備時(shí)間一致性和舒適性的軌跡。近期研究表明,基于模仿學(xué)習(xí)的規(guī)劃器和基于學(xué)習(xí)的軌跡評(píng)分器能夠有效生成并選擇高度模仿專家演示的準(zhǔn)確軌跡。然而這類軌跡規(guī)劃和評(píng)分器面臨生成時(shí)間不一致且不舒適的軌跡的困境。為了解決上述問題,HE-Drive首先通過稀疏感知提取關(guān)鍵的三維空間表示,這些表示隨后作為條件輸入,傳遞給基于條件去噪擴(kuò)散概率模型(DDPM)的運(yùn)動(dòng)規(guī)劃器,生成具備時(shí)間一致性的多模態(tài)軌跡。隨后,基于視覺語言模型(VLM)引導(dǎo)的軌跡評(píng)分器從這些候選軌跡中選擇最舒適的軌跡來控制車輛,確保類人的端到端駕駛體驗(yàn)。實(shí)驗(yàn)結(jié)果表明,HE-Drive在nuScenes和OpenScene數(shù)據(jù)集上實(shí)現(xiàn)了SOTA性能(即比VAD減少了71%的平均碰撞率)和效率(即比SparseDrive快1.9倍),同時(shí)在真實(shí)世界數(shù)據(jù)中提供了最舒適的駕駛體驗(yàn)。
- 代碼鏈接:https://github.com/jmwang0117/HE-Drive
總結(jié)來說,本文的主要貢獻(xiàn)如下:
- 基于擴(kuò)散的運(yùn)動(dòng)規(guī)劃:本文提出了一種基于擴(kuò)散的運(yùn)動(dòng)規(guī)劃器,通過以稀疏感知網(wǎng)絡(luò)提取的3D表示為條件,并結(jié)合歷史預(yù)測(cè)軌跡的速度、加速度和偏航角,生成時(shí)間一致性和多模態(tài)的軌跡。
- 即插即用的軌跡評(píng)分:本文引入了一種新穎的基于視覺語言模型(VLMs)引導(dǎo)的軌跡評(píng)分器及舒適度指標(biāo),彌補(bǔ)了類人駕駛的不足,使其能夠輕松集成到現(xiàn)有的自動(dòng)駕駛系統(tǒng)中。
- 優(yōu)秀的開環(huán)和閉環(huán)測(cè)試結(jié)果:HE-Drive在nuScenes和OpenScene數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能(即相比VAD減少了71%的平均碰撞率)和效率(即比SparseDrive快1.9倍),同時(shí)在真實(shí)世界數(shù)據(jù)集上將舒適度提升了32%,展示了其在各種場(chǎng)景中的有效性。
文章簡(jiǎn)介
圖1:本文展示了HE-Drive,這是首個(gè)類人端到端駕駛系統(tǒng)。HE-Drive將多視角傳感器數(shù)據(jù)作為輸入,并在復(fù)雜場(chǎng)景中輸出最優(yōu)行駛路徑。
端到端范式將感知、規(guī)劃和軌跡評(píng)分任務(wù)集成到一個(gè)統(tǒng)一模型中,以規(guī)劃目標(biāo)進(jìn)行優(yōu)化,最近在推動(dòng)自動(dòng)駕駛技術(shù)發(fā)展方面展示了顯著的潛力(圖1a)。最新研究提出了基于模仿學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃器,它們通過大規(guī)模駕駛演示學(xué)習(xí)駕駛策略,并使用基于學(xué)習(xí)的軌跡評(píng)分器從多個(gè)預(yù)測(cè)候選軌跡中選擇最安全、最準(zhǔn)確的軌跡來控制車輛。然而,盡管現(xiàn)有的規(guī)劃器和評(píng)分器在預(yù)測(cè)準(zhǔn)確性方面取得了顯著進(jìn)展,它們?nèi)悦媾R生成時(shí)間不一致軌跡的挑戰(zhàn),即連續(xù)的預(yù)測(cè)在時(shí)間上不穩(wěn)定且不一致,以及選擇不舒適軌跡的問題,這些軌跡表現(xiàn)為連續(xù)制動(dòng),導(dǎo)致車輛停頓或過大的轉(zhuǎn)彎曲率。
本文提出了HE-Drive,這是首個(gè)以類人駕駛為核心的端到端自動(dòng)駕駛系統(tǒng),旨在解決上述兩個(gè)問題,如圖2所示。具體而言,本文發(fā)現(xiàn)由基于模仿學(xué)習(xí)的規(guī)劃器生成的軌跡在時(shí)間一致性方面存在的問題主要源于兩個(gè)因素:時(shí)間相關(guān)性和泛化能力。首先,這些規(guī)劃器依賴當(dāng)前幀過去幾秒的信息來預(yù)測(cè)未來軌跡,忽略了連續(xù)預(yù)測(cè)之間的相關(guān)性。其次,它們的性能受到離線收集的專家軌跡質(zhì)量的限制,導(dǎo)致在系統(tǒng)動(dòng)態(tài)變化和分布外狀態(tài)下,所學(xué)的策略缺乏應(yīng)對(duì)未見場(chǎng)景的泛化能力。受擴(kuò)散策略在機(jī)器人操作中取得成功的啟發(fā),該策略采用視覺條件的擴(kuò)散模型來精確表示多模態(tài)分布以生成動(dòng)作序列,本文提出了一種基于擴(kuò)散的規(guī)劃器,能夠生成具有強(qiáng)時(shí)間一致性的多模態(tài)軌跡。
此外,導(dǎo)致預(yù)測(cè)軌跡不舒適的關(guān)鍵原因在于次優(yōu)軌跡評(píng)分器無法實(shí)現(xiàn)持續(xù)評(píng)估,并且缺乏衡量軌跡舒適度的通用指標(biāo)。近期研究表明,基于學(xué)習(xí)的評(píng)分器在閉環(huán)場(chǎng)景中不如基于規(guī)則的評(píng)分器,而后者由于依賴手工設(shè)計(jì)的后處理方式,泛化能力有限。其他研究者探索了使用視覺語言模型(VLMs)來感知周圍代理的運(yùn)動(dòng)和交通表示,從而決定下一步行動(dòng)。然而,直接將VLMs作為駕駛決策者面臨解釋性差和嚴(yán)重幻覺問題。為了解決這些問題,本文提出了一種新穎的軌跡評(píng)分器和通用的舒適度指標(biāo),結(jié)合了基于規(guī)則評(píng)分器的可解釋性與VLMs的適應(yīng)性,能夠根據(jù)駕駛風(fēng)格(例如,激進(jìn)或保守)進(jìn)行調(diào)整,從而實(shí)現(xiàn)持續(xù)評(píng)估。
綜上所述,HE-Drive是一種新穎的以類人駕駛為核心的端到端自動(dòng)駕駛系統(tǒng)。該系統(tǒng)利用稀疏感知技術(shù),通過稀疏特征來檢測(cè)、跟蹤并映射駕駛場(chǎng)景,生成三維空間表示。這些表示作為條件輸入到基于擴(kuò)散的運(yùn)動(dòng)規(guī)劃器中,該規(guī)劃器由條件去噪擴(kuò)散概率模型(DDPM)驅(qū)動(dòng)。最后,基于視覺語言模型(如Llama 3.2V)引導(dǎo)的軌跡評(píng)分器從候選軌跡中選擇最舒適的軌跡來控制車輛,確保類人風(fēng)格的端到端駕駛體驗(yàn)。
相關(guān)工作回顧
端到端自動(dòng)駕駛
端到端自動(dòng)駕駛旨在直接從原始傳感器生成規(guī)劃軌跡。在該領(lǐng)域,根據(jù)其評(píng)估方法對(duì)進(jìn)步進(jìn)行了分類:開環(huán)和閉環(huán)系統(tǒng)。在開環(huán)系統(tǒng)中,UniAD提出了一個(gè)統(tǒng)一的框架,該框架將全棧驅(qū)動(dòng)任務(wù)與查詢統(tǒng)一接口集成在一起,以改善任務(wù)之間的交互。VAD提高了規(guī)劃的安全性和效率,其在nuScenes數(shù)據(jù)集上的性能證明了這一點(diǎn),而SparseDrive利用稀疏表示來減輕模塊化系統(tǒng)中固有的信息丟失和錯(cuò)誤傳播,提高了任務(wù)性能和計(jì)算效率。對(duì)于閉環(huán)評(píng)估,VADv2通過概率規(guī)劃推進(jìn)了矢量化自動(dòng)駕駛,使用多視圖圖像生成車輛控制的動(dòng)作分布,在CARLA Town05基準(zhǔn)中表現(xiàn)出色。
擴(kuò)散模型用于軌跡生成
擴(kuò)散模型最初在圖像合成中備受贊譽(yù),現(xiàn)已被巧妙地用于軌跡生成?;赑otential的擴(kuò)散運(yùn)動(dòng)規(guī)劃通過使用學(xué)習(xí)到的勢(shì)函數(shù)來構(gòu)建適用于雜亂環(huán)境的自適應(yīng)運(yùn)動(dòng)規(guī)劃,進(jìn)一步增強(qiáng)了該領(lǐng)域,展示了該方法的可擴(kuò)展性和可轉(zhuǎn)移性。NoMaD和SkillDiffuser都提出了統(tǒng)一的框架,分別簡(jiǎn)化了面向目標(biāo)的導(dǎo)航和基于技能的任務(wù)執(zhí)行,其中NoMaD實(shí)現(xiàn)了更好的導(dǎo)航結(jié)果,SkillDiffusion實(shí)現(xiàn)了可解釋的高級(jí)指令遵循??傊?,擴(kuò)散模型為基于模仿學(xué)習(xí)的端到端自動(dòng)駕駛框架的軌跡規(guī)劃提供了一種有前景的替代方案。由于固有的因果混淆,模仿學(xué)習(xí)模型可能會(huì)錯(cuò)誤地將駕駛員的行為歸因于錯(cuò)誤的因果因素。相比之下,擴(kuò)散模型可以通過學(xué)習(xí)場(chǎng)景特征和駕駛員動(dòng)作在潛在空間中的聯(lián)合分布,更好地捕捉潛在的因果關(guān)系,使模型能夠正確地將真實(shí)原因與適當(dāng)?shù)膭?dòng)作相關(guān)聯(lián)。
大模型用于軌跡評(píng)測(cè)
軌跡評(píng)分在自動(dòng)駕駛決策中起著至關(guān)重要的作用。基于規(guī)則的方法提供了強(qiáng)有力的安全保證,但缺乏靈活性,而基于學(xué)習(xí)的方法在開環(huán)任務(wù)中表現(xiàn)良好,但在閉環(huán)場(chǎng)景中表現(xiàn)不佳。最近,DriveLM將VLM集成到端到端的駕駛系統(tǒng)中,通過感知、預(yù)測(cè)和規(guī)劃問答對(duì)對(duì)對(duì)圖結(jié)構(gòu)推理進(jìn)行建模。然而,大型模型的生成結(jié)果可能包含幻覺,需要進(jìn)一步的策略來安全應(yīng)用于自動(dòng)駕駛。VLM的出現(xiàn)提出了一個(gè)問題:VLM能否根據(jù)軌跡評(píng)分器自適應(yīng)地調(diào)整駕駛風(fēng)格,同時(shí)確保舒適性?
HE-Drive方法詳解
稀疏感知
HE Drive首先采用視覺編碼器從輸入的多視圖相機(jī)圖像中提取多視圖視覺特征,表示為F。隨后稀疏感知同時(shí)執(zhí)行檢測(cè)、跟蹤和在線地圖任務(wù),為周圍環(huán)境提供更高效、更緊湊的3D表示(見圖2)。
基于擴(kuò)散模型的運(yùn)動(dòng)規(guī)劃
圖2展示了我們基于擴(kuò)散的運(yùn)動(dòng)規(guī)劃器的整體流程。我們采用基于CNN的擴(kuò)散策略作為基礎(chǔ),該策略由一個(gè)由1D卷積層、上采樣層和FiLM(特征線性調(diào)制)層組成的條件U-Net組成。
運(yùn)動(dòng)規(guī)劃器擴(kuò)散策略:本文的方法(圖7)采用了條件去噪擴(kuò)散概率模型(DDPM),這是一個(gè)通過參數(shù)化馬爾可夫鏈定義的生成模型,使用變分推理訓(xùn)練來模擬條件分布p(At | Ot)。DDPM由一個(gè)正向過程和一個(gè)反向過程組成,正向過程逐漸將高斯噪聲添加到輸入數(shù)據(jù)中,將其轉(zhuǎn)換為純?cè)肼?,反向過程迭代地對(duì)噪聲數(shù)據(jù)進(jìn)行去噪以恢復(fù)原始數(shù)據(jù)。
大模型指導(dǎo)下的軌跡評(píng)分
為了從DDPM生成的多模態(tài)軌跡中選擇最合適的路徑,我們引入了VLMs制導(dǎo)軌跡評(píng)分器(VTS),如圖3所示。據(jù)我們所知,VTS是第一個(gè)結(jié)合了可解釋性和零樣本駕駛推理能力的軌跡評(píng)分器。通過利用視覺語言模型(VLM),悉尼威立雅運(yùn)輸公司可以根據(jù)各種駕駛因素(如碰撞概率和舒適度)有效地評(píng)估軌跡,從而實(shí)現(xiàn)透明的決策和對(duì)新駕駛場(chǎng)景的適應(yīng)性,而無需進(jìn)行廣泛的微調(diào)(即終身評(píng)估)。
實(shí)驗(yàn)結(jié)果
圖4:Llama 3.2V在nuScenes上的定性結(jié)果。本文展示了問題(Q)、上下文(C)和答案(A)。通過結(jié)合環(huán)視圖像和文本數(shù)據(jù),基于規(guī)則的評(píng)分器通過針對(duì)性的權(quán)重修改,實(shí)現(xiàn)了駕駛風(fēng)格的微調(diào)。
圖5:(a) 和 (b) 展示了軌跡生成和評(píng)分過程,其中(a) 中的灰色軌跡表示為最優(yōu)路徑,基于最低成本標(biāo)準(zhǔn)被選中用于車輛控制。
圖6:(a) 顯示了HE-Drive與兩個(gè)基線模型在真實(shí)世界數(shù)據(jù)中舒適度指標(biāo)的比較結(jié)果;(b) 顯示了HE-Drive在閉環(huán)數(shù)據(jù)集OpenScene上的效率指標(biāo)比較結(jié)果。
總結(jié)
本文介紹了HE-Drive,一種新穎的以類人駕駛為核心的端到端自動(dòng)駕駛系統(tǒng),旨在解決現(xiàn)有方法在實(shí)現(xiàn)時(shí)間一致性和乘客舒適度方面的局限性。HE-Drive集成了稀疏感知模塊、基于擴(kuò)散的運(yùn)動(dòng)規(guī)劃器以及Llama 3.2V引導(dǎo)的軌跡評(píng)分系統(tǒng)。稀疏感知模塊通過統(tǒng)一檢測(cè)、跟蹤和在線映射,實(shí)現(xiàn)了完全稀疏的場(chǎng)景表示?;跀U(kuò)散的運(yùn)動(dòng)規(guī)劃器在連續(xù)空間中生成多模態(tài)軌跡,確保時(shí)間一致性并模擬人類的決策過程。軌跡評(píng)分模塊結(jié)合了基于規(guī)則的方法和Llama 3.2V,提升了系統(tǒng)的泛化能力、可解釋性、穩(wěn)定性和舒適度。廣泛的實(shí)驗(yàn)表明,HE-Drive在開放環(huán)和閉環(huán)數(shù)據(jù)集上相較于最先進(jìn)的方法表現(xiàn)出色,生成了具備更好時(shí)間一致性和乘客舒適度的類人軌跡。