偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

邁向『閉環(huán)』| PlanAgent:基于MLLM的自動(dòng)駕駛閉環(huán)規(guī)劃新SOTA!

人工智能 新聞
今天為大家分享中科院自動(dòng)化所&理想汽車最新的工作—PlanAgent,文章提出一種全新基于多模態(tài)大語言模型MLLM的自動(dòng)駕駛閉環(huán)規(guī)劃框架,問鼎nuPlan SOTA!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

中科院自動(dòng)化所深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)聯(lián)合理想汽車等提出了一種新的基于多模態(tài)大語言模型MLLM的自動(dòng)駕駛閉環(huán)規(guī)劃框架—PlanAgent。該方法以場景的鳥瞰圖和基于圖的文本提示為輸入,利用多模態(tài)大語言模型的多模態(tài)理解和常識(shí)推理能力,進(jìn)行從場景理解到橫向和縱向運(yùn)動(dòng)指令生成的層次化推理,并進(jìn)一步產(chǎn)生規(guī)劃器所需的指令。在大規(guī)模且具有挑戰(zhàn)性的nuPlan基準(zhǔn)上對該方法進(jìn)行了測試,實(shí)驗(yàn)表明PlanAgent在常規(guī)場景和長尾場景上都取得了最好(SOTA)性能。與常規(guī)大語言模型(LLM)方法相比,PlanAgent所需的場景描述詞符(token)量僅為1/3左右。

論文信息

  • 論文題目:PlanAgent: A Multi-modal Large Language Agent for Closed loop Vehicle Motion Planning
  • 論文發(fā)表單位:中科院自動(dòng)化所,理想汽車,清華大學(xué),北京航空航天大學(xué)
  • 論文地址:https://arxiv.org/abs/2406.01587
  • 圖片

1 引言

作為自動(dòng)駕駛的核心模塊之一,運(yùn)動(dòng)規(guī)劃的目標(biāo)是產(chǎn)生一條安全舒適的最優(yōu)軌跡?;谝?guī)則的算法,如PDM[1]算法,在處理常見場景時(shí)表現(xiàn)良好,但往往難以應(yīng)對需要更復(fù)雜駕駛操作的長尾場景[2]?;趯W(xué)習(xí)的算法[2,3]常常會(huì)在長尾情況下過擬合,導(dǎo)致其在nuPlan中的性能并不如基于規(guī)則的方法PDM。

最近,大語言模型的發(fā)展為自動(dòng)駕駛規(guī)劃開辟了新的可能性。最新的一些研究嘗試?yán)么笳Z言模型強(qiáng)大的推理能力增強(qiáng)自動(dòng)駕駛算法的規(guī)劃和控制能力。然而,它們遇到了一些問題:(1)實(shí)驗(yàn)環(huán)境未能基于真實(shí)閉環(huán)場景(2)使用過量的坐標(biāo)數(shù)字表示地圖細(xì)節(jié)或運(yùn)動(dòng)狀態(tài),大大增加了所需的詞符(token)數(shù)量;(3)由大語言模型直接生成軌跡點(diǎn)難以確保安全。為應(yīng)對上述挑戰(zhàn),本文提出了PlanAgent方法。

2 方法

基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent框架如圖1所示,本文設(shè)計(jì)了三個(gè)模塊來解決自動(dòng)駕駛中的復(fù)雜問題:

  • 場景信息提取模塊(Environment Transformation module):為了實(shí)現(xiàn)高效的場景信息表示,設(shè)計(jì)了一個(gè)環(huán)境信息提取模塊,能夠提取具有車道信息的多模態(tài)輸入。
  • 推理模塊(Reasoning module):為了實(shí)現(xiàn)場景理解和常識(shí)推理,設(shè)計(jì)了一個(gè)推理模塊,該模塊利用多模態(tài)大語言模型MLLM生成合理且安全的規(guī)劃器代碼。
  • 反思模塊(Reflection module):為了保障安全規(guī)劃,設(shè)計(jì)了一個(gè)反思機(jī)制,能夠通過仿真對規(guī)劃器進(jìn)行驗(yàn)證,過濾掉不合理的MLLM提案。

圖片

圖1 PlanAgent的整體框架,包含場景信息提取/推理/反思模塊

 2.1 環(huán)境信息提取模塊

大語言模型中的提示詞(prompt)對其生成輸出的質(zhì)量有著至關(guān)重要的影響。為了提高M(jìn)LLM的生成質(zhì)量,場景信息提取模塊能夠提取場景上下文信息,并將其轉(zhuǎn)換為鳥瞰圖(BEV)圖像和文本提示,使之與MLLM的輸入保持一致。首先,本文將場景信息轉(zhuǎn)化成鳥瞰圖(BEV)圖像,以增強(qiáng)MLLM對全局場景的理解能力。同時(shí),需要對道路信息進(jìn)行圖表征,如圖 2所示,在此基礎(chǔ)上提取關(guān)鍵車輛的運(yùn)動(dòng)信息,使MLLM能夠重點(diǎn)關(guān)注與自身位置最相關(guān)的區(qū)域。

圖片

圖2 基于圖表征的文本提示描述

 2.2 推理模塊

如何將大語言模型的推理能力引入到自動(dòng)駕駛規(guī)劃過程中,實(shí)現(xiàn)具有常識(shí)推理能力的規(guī)劃系統(tǒng)是一個(gè)關(guān)鍵問題。本文設(shè)計(jì)的方法能夠以包含當(dāng)前場景信息的用戶消息和預(yù)定義的系統(tǒng)消息為輸入,經(jīng)過分層思維鏈多輪推理,生成智能駕駛員模型(IDM)的規(guī)劃器代碼。由此,PlanAgent能夠通過上下文學(xué)習(xí)將MLLM強(qiáng)大的推理能力嵌入到自動(dòng)駕駛規(guī)劃任務(wù)中。

其中,用戶消息包括BEV編碼和基于圖表征提取出來的周圍車輛運(yùn)動(dòng)信息。系統(tǒng)消息包括任務(wù)的定義、常識(shí)知識(shí)以及思維鏈步驟,如圖 3所示。

圖片

圖3 系統(tǒng)提示模版

在得到prompt信息后,MLLM會(huì)對當(dāng)前場景從三個(gè)層次進(jìn)行推理:場景理解、運(yùn)動(dòng)指令和代碼生成,最終生成規(guī)劃器的代碼。在PlanAgent中,會(huì)生成跟車、中心線、速度限制、最大加速度和最大減速度參數(shù)代碼,再由IDM生成某一場景下的瞬時(shí)加速度,最終由此生成軌跡。

圖片

圖片

 2.3 反思模塊

通過以上兩個(gè)模塊強(qiáng)化了MLLM對場景的理解和推理能力。然而,MLLM的幻覺仍然對自動(dòng)駕駛的安全構(gòu)成了挑戰(zhàn)。受到人類“三思而后行”決策的啟發(fā),本文在算法設(shè)計(jì)中加入了反思機(jī)制。對MLLM生成的規(guī)劃器進(jìn)行仿真模擬,并通過碰撞可能性、行駛距離、舒適度等指標(biāo)評估該規(guī)劃器的駕駛分?jǐn)?shù)。當(dāng)?shù)梅值陀谀硞€(gè)閾值τ時(shí),表明MLLM生成的規(guī)劃器欠妥,MLLM將被請求重新生成規(guī)劃器。

3 實(shí)驗(yàn)與結(jié)果

本文在大規(guī)模真實(shí)場景的閉環(huán)規(guī)劃平臺(tái)nuPlan[4]進(jìn)行閉環(huán)規(guī)劃實(shí)驗(yàn),以評估PlanAgent的性能,實(shí)驗(yàn)結(jié)果如下。

 3.1 主要實(shí)驗(yàn)

表1 PlanAgent與其他算法在nuPlan的val14和test-hard基準(zhǔn)上的比較

圖片

如表 1所示,本文將所提出的PlanAgent和三類最前沿的算法進(jìn)行比較,并在nuPlan的兩個(gè)基準(zhǔn)val14和test-hard上進(jìn)行測試。PlanAgent與其他方法相比表現(xiàn)出了有競爭力和可泛化的結(jié)果。

  • 有競爭力的結(jié)果:在常見場景val14基準(zhǔn)上,PlanAgent優(yōu)于其他基于規(guī)則、基于學(xué)習(xí)和基于大語言模型的方法,在NR-CLS和R-CLS中都取得了最好的評分。
  • 可泛化的結(jié)果:以PDM-Closed[1]為代表的規(guī)則類方法和以planTF[2]為代表的學(xué)習(xí)類方法都不能同時(shí)在val14和test-hard上表現(xiàn)良好。與這兩類方法相比PlanAgent能夠在克服長尾場景的同時(shí),保證常見場景中的性能。

表2 不同方法描述場景所用token比較

圖片

同時(shí),PlanAgent相比于其他基于大模型的方法所用的token數(shù)量更少,如表 2,大概只需要GPT-Driver[5]或LLM-ASSIST[6]的1/3。這表明PlanAgent能夠用較少的token更有效地對場景進(jìn)行描述。這對于閉源大語言模型的使用尤為重要。

 3.2 消融實(shí)驗(yàn)

表3 場景提取模塊中不同部分的消融實(shí)驗(yàn)

圖片

表4 分層思維鏈中不同部分的消融實(shí)驗(yàn)

圖片

如表3和表4,本文對場景信息提取模塊和推理模塊中不同部分進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)證明了各個(gè)模塊的有效性和必要性。通過BEV圖像和圖表征兩種形式可以增強(qiáng)MLLM對場景的理解能力,通過分層思維鏈能增強(qiáng)MLLM對場景的推理能力。

表5 PlanAgent在不同語言模型上的實(shí)驗(yàn)

圖片

同時(shí),如表 5所示,本文使用了一些開源大語言模型進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,在Test-hard的NR-CLS基準(zhǔn)上,PlanAgent使用不同的大語言模型分別能夠比PDM-Closed的駕駛分?jǐn)?shù)高出4.1%、5.1%和6.7%。這證明了PlanAgent與各種多模態(tài)大語言模型的兼容性。

 3.3 可視化分析

環(huán)島通行場景

PDM選擇外側(cè)車道作為centerline,車輛靠外側(cè)車道行駛,在車輛匯入時(shí)卡住。PlanAgent判斷有車輛匯入,輸出合理的左換道指令,并生成橫向動(dòng)作選擇環(huán)島內(nèi)側(cè)車道為centerline,車輛靠內(nèi)側(cè)車道行駛。

圖片

路口停止線停車場景

PDM選擇了紅綠燈類為跟車類。PlanAgent輸出合理指令,選擇停止線為跟車類。

4 結(jié)論

本文提出了一種新的基于MLLM的自動(dòng)駕駛閉環(huán)規(guī)劃框架,稱為PlanAgent。該方法引入了一個(gè)場景信息提取模塊,用于提取BEV圖像,并基于道路的圖表征提取周圍車輛的運(yùn)動(dòng)信息。同時(shí)提出了一個(gè)具有層次結(jié)構(gòu)的推理模塊,用于指導(dǎo)MLLM理解場景信息、生成運(yùn)動(dòng)指令,最終生成規(guī)劃器代碼。此外,PlanAgent還模仿人類決策進(jìn)行反思,當(dāng)軌跡評分低于閾值時(shí)進(jìn)行重規(guī)劃,以加強(qiáng)決策的安全性。基于多模態(tài)大模型的自動(dòng)駕駛閉環(huán)規(guī)劃智能體PlanAgent在nuPlan基準(zhǔn)上取得了閉環(huán)規(guī)劃SOTA性能。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-18 10:15:30

自動(dòng)駕駛自然語言

2023-04-28 09:24:50

自動(dòng)駕駛數(shù)據(jù)

2024-01-04 09:27:00

模型自動(dòng)駕駛

2023-12-28 09:35:59

2024-07-01 10:22:00

2022-08-29 09:15:54

自動(dòng)駕駛數(shù)據(jù)

2024-08-29 10:20:00

3D自動(dòng)駕駛

2022-08-09 14:42:44

自動(dòng)駕駛算力

2021-12-24 13:28:15

自動(dòng)駕駛數(shù)據(jù)人工智能

2023-07-26 09:37:17

自動(dòng)駕駛研究

2021-12-16 10:45:22

自動(dòng)駕駛數(shù)據(jù)人工智能

2023-03-30 09:57:04

2024-12-13 10:20:00

3D自動(dòng)駕駛AI

2024-01-31 09:59:43

自動(dòng)駕駛數(shù)據(jù)

2023-11-06 09:42:03

自動(dòng)駕駛數(shù)據(jù)

2023-12-05 09:40:18

自動(dòng)駕駛數(shù)據(jù)

2020-03-25 13:51:05

人工智能自動(dòng)駕駛技術(shù)

2022-01-26 10:31:25

自動(dòng)駕駛軟件架構(gòu)

2024-01-10 17:34:42

2019-03-15 15:37:51

自動(dòng)駕駛排名企業(yè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)