偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="765xm"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

端到端方法，目前基于learning的打不過(guò)基于rule的方法嗎？

作者：譚日成 2024-06-18 10:08:00

人工智能新聞

這篇文章，想來(lái)探究下為什么基于learning的打不過(guò)基于rule的(或者這個(gè)結(jié)論現(xiàn)在是否還成立)，帶著這個(gè)問(wèn)題我們來(lái)看下相關(guān)的文獻(xiàn)

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

目標(biāo)

如題所屬，這篇文章，想來(lái)探究下為什么基于learning的打不過(guò)基于rule的(或者這個(gè)結(jié)論現(xiàn)在是否還成立)，帶著這個(gè)問(wèn)題我們來(lái)看下相關(guān)的文獻(xiàn)

一個(gè)不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑戰(zhàn)中，奪得第一的，是一個(gè)Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二個(gè)思考點(diǎn)
motion planning(我理解的現(xiàn)階段的端到端)和軌跡預(yù)測(cè)的關(guān)系(原則上motion planing是軌跡預(yù)測(cè)的一個(gè)子集，是一種限制為自車(chē)+利用導(dǎo)航route限制可能性的特定traj)

learning打不過(guò)rule來(lái)源于下面這篇文章，我們來(lái)審視下這個(gè)觀點(diǎn)現(xiàn)在還成立嗎

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先這篇文章時(shí)間點(diǎn)為CVPR 23 AD Challenge NuPlan，意味著已經(jīng)過(guò)去一年了，我們結(jié)合當(dāng)時(shí)的情況和最新的一些進(jìn)展來(lái)看。

abstract

首先文中提出系統(tǒng)規(guī)劃包括兩方面-1.短期精確的規(guī)劃和2.長(zhǎng)期規(guī)劃，兩部分完全不同，應(yīng)該獨(dú)立的來(lái)看

IDM是基于規(guī)則，PDM是基于學(xué)習(xí)，這是作者的兩個(gè)初始base,該圖展示了短期和長(zhǎng)期，開(kāi)環(huán)和閉環(huán)的評(píng)估區(qū)別，信息濃度挺高的

然后文中提出基于學(xué)習(xí)的方式在復(fù)雜的現(xiàn)實(shí)世界里面的不足和基于rule的價(jià)值

最后文中指出他們僅依靠簡(jiǎn)單的rule就獲取了挑戰(zhàn)賽最好的成績(jī)。

具體細(xì)節(jié)先不看，看評(píng)估方法指標(biāo)和conclusion,數(shù)據(jù)說(shuō)話

評(píng)估

基于nuplan benchmark

開(kāi)環(huán)評(píng)估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

閉環(huán)評(píng)估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

這里又包含兩類(lèi)1.非反射式CLS-NR(其他車(chē)輛不根據(jù)主車(chē)調(diào)整)，2.反射式CLS-R(其他車(chē)輛根據(jù)主車(chē)行為調(diào)整，調(diào)整的方式用IDM規(guī)劃器)，這里我有個(gè)有趣的想法(如果理論上列舉出了所有可能的合理規(guī)劃器，那么這種模仿式的閉環(huán)仿真的效果評(píng)估，將會(huì)非常接近真實(shí)環(huán)境下的效果，而規(guī)劃器就是對(duì)交互agent出軌跡，那么可以認(rèn)為只要采樣出盡可能多的agent的合理軌跡來(lái)做反射式評(píng)估，就可以訓(xùn)練出一個(gè)不亞于基于真實(shí)環(huán)境訓(xùn)練的planner,不知道前人有做過(guò)相關(guān)的工作沒(méi)，先查找下這個(gè)方向相關(guān)的文獻(xiàn))

記住這張表，我們后面會(huì)基于這張表來(lái)看看最近的一些規(guī)劃器的效果

上面作為對(duì)比基準(zhǔn)，接下來(lái)我們看看目前效果比較好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(掛著學(xué)習(xí)的羊頭，但賣(mài)的還是rule的狗肉^^,核心還是rule,其實(shí)是用IML學(xué)習(xí)到cost函數(shù)給TPP打分，效果完全取決于TPP(而TPP并不是學(xué)習(xí)出來(lái)的是根據(jù)rule產(chǎn)生的)，不過(guò)意義確實(shí)完成了端到端的改造，理論上專家軌跡越多，效果越好。上限取決于后續(xù)跟進(jìn)對(duì)TPP的學(xué)習(xí)化改造)
在這里可以看出改良派有兩個(gè)進(jìn)攻方向(個(gè)人覺(jué)得DTPP已經(jīng)可以作為一個(gè)很好的對(duì)決策規(guī)劃做端到端改造的框架和范式了)
a.怎么采樣出更好的待選軌跡(首先基于規(guī)則采樣軌跡保證整個(gè)框架基本work，其次在前述基礎(chǔ)上換成可學(xué)習(xí)的基于model的軌跡采樣)
b.怎么提升IML學(xué)習(xí)效果，能夠根據(jù)專家軌跡(人類(lèi)駕駛軌跡)，更有效的更可遷移的學(xué)習(xí)到應(yīng)對(duì)不同場(chǎng)景的cost function(reward model)

先上指標(biāo)對(duì)比

PDM就是上文rulebased，看起來(lái)比較接近了，稍低，文中也做了對(duì)比，看原文是不是會(huì)做一些辯解

文章主要工作(縫合了之前的想法+做了自己的優(yōu)化)

a tree-structured policy planner-TPP(靈感因該來(lái)源于nvidia,解決規(guī)劃問(wèn)題內(nèi)在的多模性，不確定性，但是非TPP不可嗎，有沒(méi)有更優(yōu)雅的辦法？) a differentiable joint training framework(可微可學(xué)習(xí)的框架用于)for both ego-conditioned prediction and cost models

細(xì)節(jié)

使用了a query-centric Transformer model來(lái)進(jìn)行ego condition prediction

疑問(wèn)項(xiàng)：

cost model怎么學(xué)習(xí)，又用來(lái)干什么？之前的cost是手工設(shè)計(jì)，缺陷在哪里？為什么要切換成學(xué)習(xí)？
Deep IRL學(xué)習(xí)，逆強(qiáng)化學(xué)習(xí)的精髓就是通過(guò)專家sample,學(xué)習(xí)到什么是好的即一個(gè)評(píng)估函數(shù)，也可以叫rewarding function(強(qiáng)化學(xué)習(xí)術(shù)語(yǔ)，而在Deep IRL里面表現(xiàn)就是一個(gè)cost model),這個(gè)本質(zhì)弄清楚了，也就好解釋手工設(shè)計(jì)的缺陷了，就是不夠豐富全面，評(píng)估不夠準(zhǔn)確。
a tree-structured怎么得到？
參考Tree-structured policy planning with learned behavior models(nvidia)

一個(gè)示例

文中提到直接把TPP特征編碼到了網(wǎng)絡(luò)中，這種編碼方式怎么做的？不同深度和寬度的TPP特征怎么對(duì)齊，讓我們來(lái)看看？

維度信息，Na和Nm都是確定數(shù)量的agent和map元素，比較粗暴

M是最大的branch數(shù)

3還有文中提到了這個(gè)框架可以有效的提取學(xué)習(xí)到的cost組件和手工設(shè)計(jì)的cost組件，這兩種cost怎么整合也是一個(gè)值得注意的點(diǎn)？

上面提到的學(xué)習(xí)的cost和手工設(shè)計(jì)的cost,匯總在一起是fl

方法

迭代的方式，有點(diǎn)像人做決策，根據(jù)當(dāng)前環(huán)境做推演，也有點(diǎn)像MCTS，結(jié)合MDP(馬爾科夫決策過(guò)程)就可以得到最優(yōu)軌跡。而這個(gè)決策樹(shù)其實(shí)就是動(dòng)作空間?？雌饋?lái)是標(biāo)準(zhǔn)的逆強(qiáng)化學(xué)習(xí)范式。

文中提到TPP就是對(duì)有限的狀態(tài)采樣來(lái)解決軌跡連續(xù)空間的規(guī)劃問(wèn)題。

上圖中個(gè)人覺(jué)得最重要的一步是Conditional Motion Prediction，也就是對(duì)應(yīng)的(Tree Structure planning)，其實(shí)這一步是結(jié)合了專家信息，也是這一步，區(qū)別于力大磚飛的llm,帶了歸納偏置，讓學(xué)習(xí)變得更簡(jiǎn)單。我們來(lái)仔細(xì)看下

作者在這里說(shuō)的不全面，他認(rèn)為該工作最重要的是提出了query-centeric，而個(gè)人覺(jué)得trajectory tree才是關(guān)鍵，這個(gè)限制了學(xué)習(xí)的采樣空間，從而減小了學(xué)習(xí)難度。當(dāng)然負(fù)面作用可能就是極端case看起來(lái)還是不夠智能。但目前是原型驗(yàn)證，后面可以繼續(xù)優(yōu)化。

可以看出雖然掛著學(xué)習(xí)的羊頭，但賣(mài)的還是rule的狗肉

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新熱乎的論文，2024年0605，指標(biāo)超過(guò)了rulebased)，需要接入chatgpt-4v

還是先上指標(biāo)

總結(jié)起來(lái)就是用bev輸出等作為上下文信息，用gpt-4v做resoning engine,結(jié)合Cot引導(dǎo)模型做出合理的軌跡選擇。

framework

Cot(思維鏈)

推理引擎示例

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

端到端方法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<i id="5vne8"></i><sub id="5vne8"></sub>

<u id="5vne8"></u>