端到端方法,目前基于learning的打不過(guò)基于rule的方法嗎?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
目標(biāo)
如題所屬,這篇文章,想來(lái)探究下為什么基于learning的打不過(guò)基于rule的(或者這個(gè)結(jié)論現(xiàn)在是否還成立),帶著這個(gè)問(wèn)題我們來(lái)看下相關(guān)的文獻(xiàn)
一個(gè)不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑戰(zhàn)中,奪得第一的,是一個(gè)Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二個(gè)思考點(diǎn)
motion planning(我理解的現(xiàn)階段的端到端)和軌跡預(yù)測(cè)的關(guān)系(原則上motion planing是軌跡預(yù)測(cè)的一個(gè)子集,是一種限制為自車(chē)+利用導(dǎo)航route限制可能性的特定traj)
learning打不過(guò)rule來(lái)源于下面這篇文章,我們來(lái)審視下這個(gè)觀點(diǎn)現(xiàn)在還成立嗎
Parting with Misconceptions about Learning-based Vehicle Motion Planning
首先這篇文章時(shí)間點(diǎn)為CVPR 23 AD Challenge NuPlan,意味著已經(jīng)過(guò)去一年了,我們結(jié)合當(dāng)時(shí)的情況和最新的一些進(jìn)展來(lái)看。
abstract
首先文中提出系統(tǒng)規(guī)劃包括兩方面-1.短期精確的規(guī)劃和2.長(zhǎng)期規(guī)劃,兩部分完全不同,應(yīng)該獨(dú)立的來(lái)看

IDM是基于規(guī)則,PDM是基于學(xué)習(xí),這是作者的兩個(gè)初始base,該圖展示了短期和長(zhǎng)期,開(kāi)環(huán)和閉環(huán)的評(píng)估區(qū)別,信息濃度挺高的
然后文中提出基于學(xué)習(xí)的方式在復(fù)雜的現(xiàn)實(shí)世界里面的不足和基于rule的價(jià)值
最后文中指出他們僅依靠簡(jiǎn)單的rule就獲取了挑戰(zhàn)賽最好的成績(jī)。
具體細(xì)節(jié)先不看,看評(píng)估方法指標(biāo)和conclusion,數(shù)據(jù)說(shuō)話
評(píng)估
基于nuplan benchmark
開(kāi)環(huán)評(píng)估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics
閉環(huán)評(píng)估
in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates
這里又包含兩類(lèi)1.非反射式CLS-NR(其他車(chē)輛不根據(jù)主車(chē)調(diào)整),2.反射式CLS-R(其他車(chē)輛根據(jù)主車(chē)行為調(diào)整,調(diào)整的方式用IDM規(guī)劃器),這里我有個(gè)有趣的想法(如果理論上列舉出了所有可能的合理規(guī)劃器,那么這種模仿式的閉環(huán)仿真的效果評(píng)估,將會(huì)非常接近真實(shí)環(huán)境下的效果,而規(guī)劃器就是對(duì)交互agent出軌跡,那么可以認(rèn)為只要采樣出盡可能多的agent的合理軌跡來(lái)做反射式評(píng)估,就可以訓(xùn)練出一個(gè)不亞于基于真實(shí)環(huán)境訓(xùn)練的planner,不知道前人有做過(guò)相關(guān)的工作沒(méi),先查找下這個(gè)方向相關(guān)的文獻(xiàn))


記住這張表,我們后面會(huì)基于這張表來(lái)看看最近的一些規(guī)劃器的效果
上面作為對(duì)比基準(zhǔn),接下來(lái)我們看看目前效果比較好的planner
DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving
(掛著學(xué)習(xí)的羊頭,但賣(mài)的還是rule的狗肉^^,核心還是rule,其實(shí)是用IML學(xué)習(xí)到cost函數(shù)給TPP打分,效果完全取決于TPP(而TPP并不是學(xué)習(xí)出來(lái)的是根據(jù)rule產(chǎn)生的),不過(guò)意義確實(shí)完成了端到端的改造,理論上專家軌跡越多,效果越好。上限取決于后續(xù)跟進(jìn)對(duì)TPP的學(xué)習(xí)化改造)
在這里可以看出改良派有兩個(gè)進(jìn)攻方向(個(gè)人覺(jué)得DTPP已經(jīng)可以作為一個(gè)很好的對(duì)決策規(guī)劃做端到端改造的框架和范式了)
a.怎么采樣出更好的待選軌跡(首先基于規(guī)則采樣軌跡保證整個(gè)框架基本work,其次在前述基礎(chǔ)上換成可學(xué)習(xí)的基于model的軌跡采樣)
b.怎么提升IML學(xué)習(xí)效果,能夠根據(jù)專家軌跡(人類(lèi)駕駛軌跡),更有效的更可遷移的學(xué)習(xí)到應(yīng)對(duì)不同場(chǎng)景的cost function(reward model)
先上指標(biāo)對(duì)比

PDM就是上文rulebased,看起來(lái)比較接近了,稍低,文中也做了對(duì)比,看原文是不是會(huì)做一些辯解
文章主要工作(縫合了之前的想法+做了自己的優(yōu)化)
a tree-structured policy planner-TPP(靈感因該來(lái)源于nvidia,解決規(guī)劃問(wèn)題內(nèi)在的多模性,不確定性,但是非TPP不可嗎,有沒(méi)有更優(yōu)雅的辦法?) a differentiable joint training framework(可微可學(xué)習(xí)的框架用于)for both ego-conditioned prediction and cost models
細(xì)節(jié)
使用了a query-centric Transformer model來(lái)進(jìn)行ego condition prediction
疑問(wèn)項(xiàng):
- cost model怎么學(xué)習(xí),又用來(lái)干什么?之前的cost是手工設(shè)計(jì),缺陷在哪里?為什么要切換成學(xué)習(xí)?
Deep IRL學(xué)習(xí),逆強(qiáng)化學(xué)習(xí)的精髓就是通過(guò)專家sample,學(xué)習(xí)到什么是好的即一個(gè)評(píng)估函數(shù),也可以叫rewarding function(強(qiáng)化學(xué)習(xí)術(shù)語(yǔ),而在Deep IRL里面表現(xiàn)就是一個(gè)cost model),這個(gè)本質(zhì)弄清楚了,也就好解釋手工設(shè)計(jì)的缺陷了,就是不夠豐富全面,評(píng)估不夠準(zhǔn)確。 - a tree-structured怎么得到?
參考Tree-structured policy planning with learned behavior models(nvidia) 

一個(gè)示例
- 文中提到直接把TPP特征編碼到了網(wǎng)絡(luò)中,這種編碼方式怎么做的?不同深度和寬度的TPP特征怎么對(duì)齊,讓我們來(lái)看看?
 

維度信息,Na和Nm都是確定數(shù)量的agent和map元素,比較粗暴

M是最大的branch數(shù)
3還有文中提到了這個(gè)框架可以有效的提取學(xué)習(xí)到的cost組件和手工設(shè)計(jì)的cost組件,這兩種cost怎么整合也是一個(gè)值得注意的點(diǎn)?

上面提到的學(xué)習(xí)的cost和手工設(shè)計(jì)的cost,匯總在一起是fl
方法

迭代的方式,有點(diǎn)像人做決策,根據(jù)當(dāng)前環(huán)境做推演,也有點(diǎn)像MCTS,結(jié)合MDP(馬爾科夫決策過(guò)程)就可以得到最優(yōu)軌跡。而這個(gè)決策樹(shù)其實(shí)就是動(dòng)作空間??雌饋?lái)是標(biāo)準(zhǔn)的逆強(qiáng)化學(xué)習(xí)范式。
文中提到TPP就是對(duì)有限的狀態(tài)采樣來(lái)解決軌跡連續(xù)空間的規(guī)劃問(wèn)題。
- 上圖中個(gè)人覺(jué)得最重要的一步是Conditional Motion Prediction,也就是對(duì)應(yīng)的(Tree Structure planning),其實(shí)這一步是結(jié)合了專家信息,也是這一步,區(qū)別于力大磚飛的llm,帶了歸納偏置,讓學(xué)習(xí)變得更簡(jiǎn)單。我們來(lái)仔細(xì)看下
 

作者在這里說(shuō)的不全面,他認(rèn)為該工作最重要的是提出了query-centeric,而個(gè)人覺(jué)得trajectory tree才是關(guān)鍵,這個(gè)限制了學(xué)習(xí)的采樣空間,從而減小了學(xué)習(xí)難度。當(dāng)然負(fù)面作用可能就是極端case看起來(lái)還是不夠智能。但目前是原型驗(yàn)證,后面可以繼續(xù)優(yōu)化。

可以看出雖然掛著學(xué)習(xí)的羊頭,但賣(mài)的還是rule的狗肉
PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新熱乎的論文,2024年0605,指標(biāo)超過(guò)了rulebased),需要接入chatgpt-4v

還是先上指標(biāo)
總結(jié)起來(lái)就是用bev輸出等作為上下文信息,用gpt-4v做resoning engine,結(jié)合Cot引導(dǎo)模型做出合理的軌跡選擇。

framework

Cot(思維鏈)

推理引擎示例















 
 
 






 
 
 
 