偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

自動駕駛存在不確定性的運動規(guī)劃:基于強化學習的方法

人工智能 無人駕駛 智能汽車
存在不確定性的運動規(guī)劃是開發(fā)自動駕駛車的主要挑戰(zhàn)之一。本文專注于有限的視野、遮擋和傳感距離限制導(dǎo)致的感知不確定性。

 [[429196]]

arXiv上2021年10月1日上傳的論文“Motion Planning for Autonomous Vehicles in the Presence of Uncertainty Using Reinforcement Learning“,作者來自加拿大的華為諾亞實驗室和魁北克大學。

存在不確定性的運動規(guī)劃是開發(fā)自動駕駛車的主要挑戰(zhàn)之一。本文專注于有限的視野、遮擋和傳感距離限制導(dǎo)致的感知不確定性。通常是考慮遮擋區(qū)域或傳感器感知范圍之外的隱藏目標這個假設(shè)來解決這個問題,保證被動安全。然而,這可能導(dǎo)致保守的規(guī)劃和昂貴的計算,特別是需要考慮大量假設(shè)目標存在時。

作者提出一種基于 強化學習 (RL) 的解決方案,對最壞情況結(jié)果通過優(yōu)化處理不確定性。這種方法和傳統(tǒng)的 RL 形成對比,傳統(tǒng) RL代理只是試圖最大化平均預(yù)期獎勵,是不安全和魯棒的做法,而該方法建立在 分布RL (Distributional RL) 之上,其策略優(yōu)化方法最大化隨機結(jié)果的下限。這種修正方式可以應(yīng)用于一系列 RL 算法。作為概念驗證,這里應(yīng)用于兩種不同的 RL 算法, Soft Actor-Critic (SAC) 和 Deep Q-Network(DQN) 。

該方法針對兩個具有挑戰(zhàn)性的駕駛場景進行評估,即 遮擋情況下的行人穿越 和 有限視野的彎曲道路 。該算法用 SUMO 交通模擬器進行訓(xùn)練和評估。與傳統(tǒng)的 RL 算法相比,所提出的方法用于生成更好的運動規(guī)劃行為,與人類的駕駛風格相當。

RL方法主要有兩種:基于價值和基于策略。本文分別討論兩種方法的不確定性問題。

分布RL (論文“ Distributional reinforcement learning with quantile regression ,” AA Conference on Artificial Intelligence, 2018)旨在估計每個狀態(tài)-動作對可能結(jié)果的分布。 通過訪問獎勵分布,可以將一個狀態(tài)的價值指定為其可能結(jié)果的最壞情況(下限)。

在RL中估計隨機變量分布的一種有效方法是 分位數(shù)回歸 ( Quantile Regression,QR) ,用 N 個分位數(shù)定義的分布,其第一個分位數(shù)是可能的獎勵近似下限。這種方法, QR-DQN ,可以應(yīng)用于任何包含價值函數(shù)的RL算法。 為此,需要增強價值函數(shù),估計 N 個分位數(shù),近似其分布。

用分位數(shù)回歸(QR)來估計分位數(shù)價值時,回歸過程會得到價值從最低到最高的排序。 因此,直接使用第一個價值作為下限估計。這個方法,稱為 保守QR-DQN(CQR-DQN) 。

另一種 RL 算法 SAC(見論文“ Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor ,” ICLR 2018),遵循 Actor-Critic 框架。它 訓(xùn)練 Q -網(wǎng)絡(luò)估計遵循策略的價值,并訓(xùn)練策略最大化 Q -值。 這里用分位數(shù)回歸(QR)擴展 SAC,即 QR-SAC 。

實際上,Q -網(wǎng)絡(luò)被擴展估計分位數(shù)。 然后類似于 QR-DQN,估計狀態(tài)-動作對的 Q-值,即分位數(shù)第一個價值作為下限估計。依此,修改QR-DQN的分布Bellman方程,可以得到Critic的分布SAC Bellman更新規(guī)則。該方法,稱為 保守QR-SAC(CQR-SAC) 。

在輸入的感知中,OGM 提供有關(guān)遮擋區(qū)域的信息,道路網(wǎng)絡(luò)的光柵圖像,識別道路使用者可能存在的位置。 此外,希望運動規(guī)劃器從 OGM 中感知目標,無需提供場景目標的任何明確信息。為解決這個運動規(guī)劃問題,在 Frenet 框架搜索最佳軌跡。 這類似于 Frenet 框架的傳統(tǒng)運動規(guī)劃方法。

在 Frenet 框架中,沿著車道中心的軌跡變?yōu)橹本€軌跡, 簡化了搜索空間。每個軌跡包括當前速度、當前橫向偏距、最終速度和最終橫向偏距。該軌跡建立之后,車輛速度和橫向位置在預(yù)定的時間內(nèi)按照一階指數(shù)軌跡從初始值逐漸變化到最終值。

RL智體的輸入包括 2 幀 (當前和之前時刻)OGM、道路網(wǎng)絡(luò)的當前幀和當前速度,獎勵定義為安全、舒適度和移動性等方面。

一個思路,從RL角度來看,如果智體動作被定義為軌跡,假設(shè)智體在未來狀態(tài)的動作與當前狀態(tài)的動作相同,那么評估軌跡等效于估計 Q-值。這樣的算法分別記做 (CQR-DQN,CQR-SAC)價值版 。

另一個思路,在 RL 公式中未來狀態(tài)的動作(軌跡)取決于智體策略,在知道未來動作可能與當前動作不同的情況下進行評估。 如果遵循智體策略,分配給狀態(tài)-動作對的 Q-值是預(yù)期的獎勵。這樣的算法分別記做 (CQR-DQN,CQR-SAC)策略版 。

遵循和評估一個策略帶來更大靈活性,并且運動規(guī)劃器可能會找到更好的解決方案。如圖所示說明在評估軌跡與策略時要評估的路徑:

實驗分兩個場景。一是如圖的行人過馬路,有遮擋:

二是如圖彎曲道路造成的遮擋:

實驗采用SUMO模擬。比較的RL方法包括:SAC, QR-SAC, CQR-SAC策略版, CQR-SAC價值版, DQN, QR-DQN, CQR-DQN策略版, CQR-DQN價值版。

作為基準的規(guī)則方法有:固定fixed、幼稚naive和覺察 aware三種。

  • 固定法 限速行駛,不考慮其他目標。
  • 幼稚法 忽略遮擋,限速行駛,除非在其行駛路徑看到一個目標。 這種情況下,它會以恒定減速度剎車,最高可達 -4 [m/s2],結(jié)果是在目標前停住。
  • 覺察法 采用知道遮擋的 IADSR 算法(論文“ What lies in the shadows? safe and computation-aware motion planning for autonomous vehicles using intent-aware dynamic shadow regions ,” ICRA, 2019)。 假設(shè)一個目標存在于遮擋區(qū)域,如果一個目標從遮擋區(qū)域出現(xiàn),那么它剎車減速(以 -4 [m/s2] 減速度)到完全停止而不會發(fā)生碰撞。 此外,覺察法還會遠離遮擋機動以增加遮擋附近的視野。

實驗結(jié)果比較如下:其中下標Pai是策略版,下標Tao是價值版。

這項工作針對由遮擋引起不確定性的運動規(guī)劃問題,討論在實際 RL 問題中,采用最大化最壞情況獎勵的策略如何更好地匹配所需行為,利用分布RL 最大化最壞情況獎勵而不是平均獎勵。用分位數(shù)回歸(QR)擴展 SAC 和 DQN,找到優(yōu)化最壞情況的動作。

用 SUMO 模擬環(huán)境設(shè)計和評估一組遮擋情況下的自動駕駛運動規(guī)劃器。提出基于 CQR-SAC和 CQR-DQN 的運動規(guī)劃器,避免與被遮擋視圖發(fā)生碰撞,無需微調(diào)獎勵函數(shù)。

未來的工作想應(yīng)用于更復(fù)雜和多樣化的環(huán)境,包括交叉路口、環(huán)形交叉路口以及包含移動車輛的場景。工作期望是,自車智體可以從其他車輛的行為隱式地推斷出遮擋區(qū)域的狀態(tài)。

 

責任編輯:張燕妮 來源: 知乎
相關(guān)推薦

2023-11-13 08:00:00

Python開發(fā)

2022-09-14 22:51:08

機器學習模型高斯過程

2024-01-25 08:16:13

MAS多智能體系

2022-05-11 09:00:00

人工智能金融犯罪機器學習

2021-12-24 10:25:48

自動駕駛數(shù)據(jù)汽車

2024-02-23 14:31:19

云計算云優(yōu)化

2024-12-12 16:50:49

2020-08-24 07:04:57

邊緣計算云計算網(wǎng)絡(luò)

2019-01-10 09:47:22

2020-05-25 10:45:48

曙光

2022-11-04 12:27:35

2025-04-15 07:00:00

勒索軟件金融欺詐網(wǎng)絡(luò)安全

2021-01-18 15:25:46

比特幣資金私鑰

2019-05-22 14:42:40

華為谷歌挑戰(zhàn)

2023-10-06 13:33:11

自動駕駛技術(shù)

2024-11-14 13:52:50

2020-10-22 11:42:06

服務(wù)器

2023-01-04 10:02:53

強化學習自動駕駛

2020-12-08 10:53:36

物聯(lián)網(wǎng)安全物聯(lián)網(wǎng)IOT
點贊
收藏

51CTO技術(shù)棧公眾號