偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

端到端方法,目前基于learning的打不過(guò)基于rule的方法嗎?

人工智能 新聞
這篇文章,想來(lái)探究下為什么基于learning的打不過(guò)基于rule的(或者這個(gè)結(jié)論現(xiàn)在是否還成立),帶著這個(gè)問(wèn)題我們來(lái)看下相關(guān)的文獻(xiàn)

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

目標(biāo)

如題所屬,這篇文章,想來(lái)探究下為什么基于learning的打不過(guò)基于rule的(或者這個(gè)結(jié)論現(xiàn)在是否還成立),帶著這個(gè)問(wèn)題我們來(lái)看下相關(guān)的文獻(xiàn)

一個(gè)不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑戰(zhàn)中,奪得第一的,是一個(gè)Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二個(gè)思考點(diǎn)
motion planning(我理解的現(xiàn)階段的端到端)和軌跡預(yù)測(cè)的關(guān)系(原則上motion planing是軌跡預(yù)測(cè)的一個(gè)子集,是一種限制為自車(chē)+利用導(dǎo)航route限制可能性的特定traj)

learning打不過(guò)rule來(lái)源于下面這篇文章,我們來(lái)審視下這個(gè)觀點(diǎn)現(xiàn)在還成立嗎

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先這篇文章時(shí)間點(diǎn)為CVPR 23 AD Challenge NuPlan,意味著已經(jīng)過(guò)去一年了,我們結(jié)合當(dāng)時(shí)的情況和最新的一些進(jìn)展來(lái)看。

abstract

首先文中提出系統(tǒng)規(guī)劃包括兩方面-1.短期精確的規(guī)劃和2.長(zhǎng)期規(guī)劃,兩部分完全不同,應(yīng)該獨(dú)立的來(lái)看

IDM是基于規(guī)則,PDM是基于學(xué)習(xí),這是作者的兩個(gè)初始base,該圖展示了短期和長(zhǎng)期,開(kāi)環(huán)和閉環(huán)的評(píng)估區(qū)別,信息濃度挺高的

然后文中提出基于學(xué)習(xí)的方式在復(fù)雜的現(xiàn)實(shí)世界里面的不足和基于rule的價(jià)值

最后文中指出他們僅依靠簡(jiǎn)單的rule就獲取了挑戰(zhàn)賽最好的成績(jī)。

具體細(xì)節(jié)先不看,看評(píng)估方法指標(biāo)和conclusion,數(shù)據(jù)說(shuō)話

評(píng)估

基于nuplan benchmark

開(kāi)環(huán)評(píng)估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

閉環(huán)評(píng)估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

這里又包含兩類(lèi)1.非反射式CLS-NR(其他車(chē)輛不根據(jù)主車(chē)調(diào)整),2.反射式CLS-R(其他車(chē)輛根據(jù)主車(chē)行為調(diào)整,調(diào)整的方式用IDM規(guī)劃器),這里我有個(gè)有趣的想法(如果理論上列舉出了所有可能的合理規(guī)劃器,那么這種模仿式的閉環(huán)仿真的效果評(píng)估,將會(huì)非常接近真實(shí)環(huán)境下的效果,而規(guī)劃器就是對(duì)交互agent出軌跡,那么可以認(rèn)為只要采樣出盡可能多的agent的合理軌跡來(lái)做反射式評(píng)估,就可以訓(xùn)練出一個(gè)不亞于基于真實(shí)環(huán)境訓(xùn)練的planner,不知道前人有做過(guò)相關(guān)的工作沒(méi),先查找下這個(gè)方向相關(guān)的文獻(xiàn))

記住這張表,我們后面會(huì)基于這張表來(lái)看看最近的一些規(guī)劃器的效果

上面作為對(duì)比基準(zhǔn),接下來(lái)我們看看目前效果比較好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(掛著學(xué)習(xí)的羊頭,但賣(mài)的還是rule的狗肉^^,核心還是rule,其實(shí)是用IML學(xué)習(xí)到cost函數(shù)給TPP打分,效果完全取決于TPP(而TPP并不是學(xué)習(xí)出來(lái)的是根據(jù)rule產(chǎn)生的),不過(guò)意義確實(shí)完成了端到端的改造,理論上專家軌跡越多,效果越好。上限取決于后續(xù)跟進(jìn)對(duì)TPP的學(xué)習(xí)化改造)
在這里可以看出改良派有兩個(gè)進(jìn)攻方向(個(gè)人覺(jué)得DTPP已經(jīng)可以作為一個(gè)很好的對(duì)決策規(guī)劃做端到端改造的框架和范式了)
a.怎么采樣出更好的待選軌跡(首先基于規(guī)則采樣軌跡保證整個(gè)框架基本work,其次在前述基礎(chǔ)上換成可學(xué)習(xí)的基于model的軌跡采樣)
b.怎么提升IML學(xué)習(xí)效果,能夠根據(jù)專家軌跡(人類(lèi)駕駛軌跡),更有效的更可遷移的學(xué)習(xí)到應(yīng)對(duì)不同場(chǎng)景的cost function(reward model)

先上指標(biāo)對(duì)比

PDM就是上文rulebased,看起來(lái)比較接近了,稍低,文中也做了對(duì)比,看原文是不是會(huì)做一些辯解

文章主要工作(縫合了之前的想法+做了自己的優(yōu)化)

a tree-structured policy planner-TPP(靈感因該來(lái)源于nvidia,解決規(guī)劃問(wèn)題內(nèi)在的多模性,不確定性,但是非TPP不可嗎,有沒(méi)有更優(yōu)雅的辦法?) a differentiable joint training framework(可微可學(xué)習(xí)的框架用于)for both ego-conditioned prediction and cost models

細(xì)節(jié)

使用了a query-centric Transformer model來(lái)進(jìn)行ego condition prediction

疑問(wèn)項(xiàng):

  1. cost model怎么學(xué)習(xí),又用來(lái)干什么?之前的cost是手工設(shè)計(jì),缺陷在哪里?為什么要切換成學(xué)習(xí)?
    Deep IRL學(xué)習(xí),逆強(qiáng)化學(xué)習(xí)的精髓就是通過(guò)專家sample,學(xué)習(xí)到什么是好的即一個(gè)評(píng)估函數(shù),也可以叫rewarding function(強(qiáng)化學(xué)習(xí)術(shù)語(yǔ),而在Deep IRL里面表現(xiàn)就是一個(gè)cost model),這個(gè)本質(zhì)弄清楚了,也就好解釋手工設(shè)計(jì)的缺陷了,就是不夠豐富全面,評(píng)估不夠準(zhǔn)確。
  2. a tree-structured怎么得到?
    參考Tree-structured policy planning with learned behavior models(nvidia)

一個(gè)示例

  1. 文中提到直接把TPP特征編碼到了網(wǎng)絡(luò)中,這種編碼方式怎么做的?不同深度和寬度的TPP特征怎么對(duì)齊,讓我們來(lái)看看?

維度信息,Na和Nm都是確定數(shù)量的agent和map元素,比較粗暴

M是最大的branch數(shù)

3還有文中提到了這個(gè)框架可以有效的提取學(xué)習(xí)到的cost組件和手工設(shè)計(jì)的cost組件,這兩種cost怎么整合也是一個(gè)值得注意的點(diǎn)?

上面提到的學(xué)習(xí)的cost和手工設(shè)計(jì)的cost,匯總在一起是fl圖片

方法

迭代的方式,有點(diǎn)像人做決策,根據(jù)當(dāng)前環(huán)境做推演,也有點(diǎn)像MCTS,結(jié)合MDP(馬爾科夫決策過(guò)程)就可以得到最優(yōu)軌跡。而這個(gè)決策樹(shù)其實(shí)就是動(dòng)作空間??雌饋?lái)是標(biāo)準(zhǔn)的逆強(qiáng)化學(xué)習(xí)范式。

文中提到TPP就是對(duì)有限的狀態(tài)采樣來(lái)解決軌跡連續(xù)空間的規(guī)劃問(wèn)題。

  • 上圖中個(gè)人覺(jué)得最重要的一步是Conditional Motion Prediction,也就是對(duì)應(yīng)的(Tree Structure planning),其實(shí)這一步是結(jié)合了專家信息,也是這一步,區(qū)別于力大磚飛的llm,帶了歸納偏置,讓學(xué)習(xí)變得更簡(jiǎn)單。我們來(lái)仔細(xì)看下

作者在這里說(shuō)的不全面,他認(rèn)為該工作最重要的是提出了query-centeric,而個(gè)人覺(jué)得trajectory tree才是關(guān)鍵,這個(gè)限制了學(xué)習(xí)的采樣空間,從而減小了學(xué)習(xí)難度。當(dāng)然負(fù)面作用可能就是極端case看起來(lái)還是不夠智能。但目前是原型驗(yàn)證,后面可以繼續(xù)優(yōu)化。

可以看出雖然掛著學(xué)習(xí)的羊頭,但賣(mài)的還是rule的狗肉

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新熱乎的論文,2024年0605,指標(biāo)超過(guò)了rulebased),需要接入chatgpt-4v

還是先上指標(biāo)

總結(jié)起來(lái)就是用bev輸出等作為上下文信息,用gpt-4v做resoning engine,結(jié)合Cot引導(dǎo)模型做出合理的軌跡選擇。

framework

Cot(思維鏈)

推理引擎示例

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-02-01 07:25:12

2009-04-10 22:31:26

2011-12-15 01:12:59

ibmdw

2010-06-19 14:58:23

2010-06-19 14:44:08

2010-06-21 14:33:34

風(fēng)險(xiǎn)評(píng)估安全審計(jì)

2023-01-03 14:10:32

沉淀數(shù)據(jù)大數(shù)據(jù)

2018-11-19 15:26:28

sketch網(wǎng)絡(luò)測(cè)量網(wǎng)絡(luò)

2024-09-26 09:55:33

2022-06-01 17:16:42

端到端KQI業(yè)務(wù)

2025-03-21 08:08:50

2013-12-18 09:41:01

思科SDBSoftware De

2014-01-07 09:38:34

OpenFlowSDN測(cè)試

2022-07-06 13:02:00

高延時(shí)電商直播主播互動(dòng)

2019-02-21 10:29:53

RFID室內(nèi)定位

2021-04-29 08:55:54

GitLabDevOps項(xiàng)目

2011-11-30 22:05:03

ibmdw云計(jì)算

2023-10-30 09:47:00

自動(dòng)駕駛技術(shù)

2014-02-28 10:14:19

云計(jì)算IEEE數(shù)據(jù)中心

2016-03-31 12:49:54

戴爾
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)