偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何使用深度強(qiáng)化學(xué)習(xí)幫助自動(dòng)駕駛汽車通過交叉路口?

開發(fā) 開發(fā)工具
在這篇論文中,作者為我們提供了一種使用深度強(qiáng)化學(xué)習(xí)的新策略。與當(dāng)前基于規(guī)則的方法相比,該方法能以一種有用的方式存儲(chǔ)和操作知識(shí)并解讀其中的信息,從而在任務(wù)完成時(shí)間和目標(biāo)成功率等指標(biāo)上達(dá)到更好的表現(xiàn)。

交叉路口是自動(dòng)駕駛系統(tǒng)所面臨的難點(diǎn)之一。今年五月,來(lái)自賓夕法尼亞大學(xué)、本田研究院和喬治亞理工學(xué)院的研究者提出了一種使用深度強(qiáng)化學(xué)習(xí)幫助自動(dòng)駕駛汽車通過交叉路口的方法。機(jī)器之心技術(shù)分析師 Shixin Gu 對(duì)這項(xiàng)研究進(jìn)行了解讀,論文原文可訪問:https://arxiv.org/abs/1705.01196

對(duì)無(wú)人汽車的研究已經(jīng)不再僅僅局限于識(shí)別交通燈或交通標(biāo)志的簡(jiǎn)單過程,而已經(jīng)擴(kuò)展到了多個(gè)生活場(chǎng)景中。用于衡量自動(dòng)汽車的一個(gè)關(guān)鍵標(biāo)準(zhǔn)是看自動(dòng)汽車是否能夠通過沒有信號(hào)的交叉路口。在這篇論文中,作者為我們提供了一種使用深度強(qiáng)化學(xué)習(xí)的新策略。與當(dāng)前基于規(guī)則的方法相比,該方法能以一種有用的方式存儲(chǔ)和操作知識(shí)并解讀其中的信息,從而在任務(wù)完成時(shí)間和目標(biāo)成功率等指標(biāo)上達(dá)到更好的表現(xiàn)。該論文還表明,通過這個(gè)新策略使用深度強(qiáng)化學(xué)習(xí)可以實(shí)現(xiàn)更好的結(jié)果,平均成功率可以達(dá)到 99.64%,進(jìn)行一次嘗試的時(shí)間成功地縮短到了平均 5.5 秒。該論文也指出在提升穩(wěn)健性上還需要更多努力。

1. 引言

即使是人類司機(jī),交通事故中也有高達(dá) 20% 發(fā)生在交叉路口 [1]。這就意味著無(wú)人駕駛汽車要想學(xué)好通過交叉路口不是件容易的事。要成功通過交叉路口,需要完成三件事:1) 理解汽車的動(dòng)態(tài)行為,2) 解讀其他司機(jī)的意圖,3) 以可被預(yù)測(cè)的方式行動(dòng)以便其他司機(jī)能夠合適地響應(yīng)。這需要在大量有沖突的目標(biāo)之間尋找平衡,其中包括安全性、效率和最小化對(duì)車流的破壞。

基于規(guī)則的處理交叉路口任務(wù)的方法主要分為兩大類:協(xié)同方法(cooperative methods)[2] 和啟發(fā)式方法(heuristic methods)[3]。由于需要車輛與車輛之間的通信,協(xié)同方法不能擴(kuò)展用于通用的交叉路口處理。當(dāng)前最佳的方法是一種基于碰撞時(shí)間(TTC/time-to-collision)[4] 的基于規(guī)則的方法。TTC 有很多優(yōu)勢(shì),比如它很可靠,但也有一些局限性。首先,TTC,由于假設(shè)汽車速度恒定,所以 TTC 模型會(huì)忽略幾乎所有關(guān)于司機(jī)意圖的信息。其次,人類司機(jī)的不可預(yù)測(cè)的行為使得基于規(guī)則的算法用起來(lái)非常復(fù)雜。最后,有很多案例表明使用 TTC 可能過于小心謹(jǐn)慎,這會(huì)帶來(lái)不必要的延遲。

正如該論文提到的那樣,用于處理交叉路口任務(wù)的機(jī)器學(xué)習(xí)方法主要有三種:模仿學(xué)習(xí)(imitation learning)、在線規(guī)劃(online planning)和離線學(xué)習(xí)(offline learning)。該論文的作者選擇了離線學(xué)習(xí)方法,并且也解釋了模仿學(xué)習(xí)和在線規(guī)劃不合適的原因。對(duì)于模仿學(xué)習(xí)而言,當(dāng)其智能體處于一個(gè)其從未學(xué)習(xí)過的狀態(tài)時(shí),它就無(wú)法提供解決方案。在線規(guī)劃模型則依賴于已有的準(zhǔn)確的生成模型。圖 1 給出了通過繁忙的交叉路口的過程。

[[198437]]

 

圖 1:通過一個(gè)繁忙的交叉路口。紅色車是自動(dòng)汽車,黃色車是當(dāng)前交通狀況。目標(biāo)是確定一路上的加速方式。

2. 方法

在這一節(jié),該論文的作者將交叉路口處理任務(wù)看作是強(qiáng)化學(xué)習(xí)問題。他們使用了一個(gè)深度 Q 網(wǎng)絡(luò)(DQN)來(lái)學(xué)習(xí)狀態(tài)-動(dòng)作價(jià)值 Q 函數(shù)。該方法可以分為 5 個(gè)部分:

強(qiáng)化學(xué)習(xí)(RL):這部分是介紹強(qiáng)化學(xué)習(xí),我將使用最簡(jiǎn)單的方法來(lái)描述強(qiáng)化學(xué)習(xí)的過程。在強(qiáng)化學(xué)習(xí)模型中,處在狀態(tài) st 的智能體會(huì)根據(jù)在時(shí)間 t 的策略 p 采取動(dòng)作 at,然后該智能體轉(zhuǎn)換到狀態(tài) st+1,并獲得獎(jiǎng)勵(lì) rt。這被形式化為了一個(gè)馬爾可夫決策過程(MDP),然后使用 Q 學(xué)習(xí)來(lái)執(zhí)行優(yōu)化。

Q 學(xué)習(xí):這部分介紹了 Q 學(xué)習(xí)。我推薦讀者先學(xué)習(xí)一下 Q 學(xué)習(xí),這樣讀這篇論文會(huì)更容易。Q 學(xué)習(xí)的本質(zhì)是使用動(dòng)作價(jià)值函數(shù) Qp(s,a) 的平均值來(lái)估計(jì)實(shí)際值,而且其會(huì)隨數(shù)據(jù)的增加而更新。

動(dòng)態(tài)幀跳過(Dynamic Frame Skipping):動(dòng)態(tài)幀跳過是選擇(options)[5] 的一種簡(jiǎn)化版本,讓智能體可以在更長(zhǎng)的時(shí)間范圍里選擇動(dòng)作,這可以改善智能體的學(xué)習(xí)時(shí)間。

經(jīng)驗(yàn)回放優(yōu)先級(jí)排序(Prioritized Experience Replay):該論文使用了經(jīng)驗(yàn)回放來(lái)打破智能體連續(xù)步驟之間的關(guān)聯(lián)。經(jīng)驗(yàn)回放緩沖器(experience replay buffer)會(huì)保存之前的軌跡,這意味著發(fā)生頻率較低的重要序列也會(huì)被采樣。這將能避免排序列表的計(jì)算,平衡各種軌跡的獎(jiǎng)勵(lì)的樣本可以替代這種計(jì)算。

狀態(tài)-動(dòng)作表征:因?yàn)樽詣?dòng)汽車使用了傳感器,所以允許大量的狀態(tài)和動(dòng)作表征。這篇論文提出了兩種表征。第一是序列動(dòng)作(sequential action),其中智能體會(huì)獲得一個(gè)期望路徑,然后決定選擇加速、減速或保持速度。第二是 Time-to-Go,其中智能體要確定等待或出發(fā)的時(shí)間。前者讓我們可以觀察是否更復(fù)雜的行為就更好,后者讓我們可以關(guān)注出發(fā)時(shí)間,從而讓我們可以了解出發(fā)時(shí)間變化會(huì)如何影響汽車的表現(xiàn)。

3. 實(shí)驗(yàn)

在這一部分,論文作者基于各種交叉路口場(chǎng)景訓(xùn)練了兩個(gè) DQN(序列動(dòng)作和 Time-to-Go)。然后他們將得到的表現(xiàn)與啟發(fā)式 Time-to-Collision(TTC)算法進(jìn)行了比較。TTC 策略使用了單個(gè)閾值來(lái)決定何時(shí)通過路口,這也是本論文分析的基準(zhǔn)。本論文使用了 Sumo 模擬器 [6] 來(lái)運(yùn)行實(shí)驗(yàn)。該模擬軟件包可以幫助用戶模擬不同場(chǎng)景下的各種交通情況。它可以幫助建模道路網(wǎng)絡(luò)、道路標(biāo)志、交通燈、大量汽車,而且還可以促進(jìn)在線的交互和車輛控制。如圖 2 所示,有 5 種不同的交叉路口場(chǎng)景。該論文作者給出了一系列參數(shù)來(lái)設(shè)置場(chǎng)景,并且還給出了 4 個(gè)評(píng)估該方法的指標(biāo):成功百分比、碰撞百分比、平均時(shí)間和平均制動(dòng)時(shí)間。對(duì)于 TTC 和 Time-to-Go DQN,所有的狀態(tài)表征都忽略了遮擋,并假設(shè)所有的汽車都總是可見的。

序列動(dòng)作網(wǎng)絡(luò)(sequential action network)是一個(gè)帶有 leaky ReLU 激活函數(shù)的全連接網(wǎng)絡(luò)。其中有 3 個(gè)隱藏層,每個(gè)隱藏層有 100 個(gè)節(jié)點(diǎn);最后還有一個(gè)線性層,有 12 個(gè)輸出,分別對(duì)應(yīng)于 4 個(gè)時(shí)間尺度(1、2、4、8 個(gè)時(shí)間步驟)的 3 個(gè)動(dòng)作(加速、減速和保持速度)。Time-to-Go DQN 網(wǎng)絡(luò)使用了一個(gè)卷積神經(jīng)網(wǎng)絡(luò),其帶有兩個(gè)卷積層和一個(gè)全連接層。第一個(gè)卷積層有 32 個(gè) 6×6 的濾波器,步幅為 2;第二個(gè)卷積層有 64 個(gè) 3×3 的濾波器,步幅也為 2;全連接層有 100 個(gè)節(jié)點(diǎn)。所有層都使用了 leaky ReLU 激活函數(shù)。最后的線性輸出層有 5 個(gè)輸出:一個(gè) go 動(dòng)作和 4 個(gè)時(shí)間尺度(1、2、4、8 個(gè)時(shí)間步驟)的 wait 動(dòng)作。在本實(shí)驗(yàn)中,經(jīng)驗(yàn)回放緩沖器可存儲(chǔ) 100,000 個(gè)時(shí)間步驟,并且有兩個(gè)緩沖器,一個(gè)用于碰撞,另一個(gè)用于成功和超時(shí)。對(duì)于獎(jiǎng)勵(lì),該論文使用 +1 表示成功,-10 表示碰撞,-0.01 用于步驟成本。

不同交叉路口場(chǎng)景的可視化

圖 2:不同交叉路口場(chǎng)景的可視化

4. 結(jié)果

不同算法的比較

表 1:不同算法的比較

結(jié)果可見于表 1、圖 3、圖 4,我們可以看到以下結(jié)果:

(1)TTC 方法在任何場(chǎng)景下都沒有碰撞。在 DQN 方法中,DQN Time-to-Go 有比 DQN-sequential 遠(yuǎn)遠(yuǎn)更低的碰撞率。

(2)與 TTC 相比,DQN 方法在實(shí)現(xiàn)目標(biāo)上要有效得多。平均而言,DQN Time-to-Go 在實(shí)現(xiàn)目標(biāo)上比 TTC 快 28%,DQN Sequential 比 TTC 快 19%。這意味著 DQN 方法有減少交通堵塞的潛力。

(3)除了一個(gè)案例外,DQN Time-to-Go 有最高的幾率得到最好的結(jié)果,參見圖 3.

所有方法和場(chǎng)景的結(jié)果比較

圖 3:所有方法和場(chǎng)景的結(jié)果比較

(4)盡管 DQN 方法顯著更高效,但它們并不如 TTC 一樣善于最小化碰撞次數(shù)。

(5)在圖 4 中,我們可以看到當(dāng)論文作者在速度與安全性之間尋求權(quán)衡時(shí),DQN 的表現(xiàn)超越了 TTC 的表現(xiàn)。這說明設(shè)計(jì)一個(gè) 0 碰撞率的算法是可能的。

隨著 TTC 的閾值變化,通過時(shí)間與碰撞率的權(quán)衡

圖 4:隨著 TTC 的閾值變化,通過時(shí)間與碰撞率的權(quán)衡

注意 DQN 的表現(xiàn)在每個(gè)案例中都最好。由于尺度原因,高難度場(chǎng)景沒有包括進(jìn)來(lái),但結(jié)果是類似的。

由于 DQN 沒有實(shí)現(xiàn) 0% 的碰撞率,所以該論文作者嘗試尋找解決這一問題的方法,因?yàn)?0 碰撞率是非常重要的。根據(jù)多任務(wù)學(xué)習(xí) [7] 的核心原理,作者認(rèn)為在多場(chǎng)景上訓(xùn)練可以提升表現(xiàn)。圖 5 給出了遷移表現(xiàn),具體數(shù)據(jù)參見表 2 和表 3,這將有助于作者理解深度網(wǎng)絡(luò)系統(tǒng)的泛化方式。我們可以看到更有難度的場(chǎng)景可以遷移到更容易的場(chǎng)景,但車道數(shù)量的變化會(huì)帶來(lái)干擾。

遷移表現(xiàn)

圖 5:遷移表現(xiàn)。在一個(gè)場(chǎng)景中訓(xùn)練的網(wǎng)絡(luò)在不同的場(chǎng)景中運(yùn)行,以評(píng)估每種方法的泛化能力。

DQN Sequential 的遷移表現(xiàn);表 3:DQN Time-to-Go 的遷移表現(xiàn)

表 2:DQN Sequential 的遷移表現(xiàn);表 3:DQN Time-to-Go 的遷移表現(xiàn)

然后論文作者給出了一個(gè)定性分析。在該分析中,作者指出該 DQN 可以準(zhǔn)確預(yù)測(cè)遠(yuǎn)處車道在當(dāng)前車輛通過該車道時(shí)的交通狀況。另外該 DQN 司機(jī)還能預(yù)測(cè)即將到來(lái)的車流是否有足夠的時(shí)間制動(dòng)。作者還解釋了會(huì)有一些碰撞的原因。這種由離散化(discretization)導(dǎo)致的碰撞會(huì)在汽車幾乎錯(cuò)過即將到來(lái)的車流時(shí)產(chǎn)生影響。論文還指出 TTC 往往會(huì)等到道路完全清空后才通過,如圖 6 所示,這種方法在實(shí)際情況下是不夠好的。

DQN Time-to-Go 預(yù)測(cè)開闊空間出現(xiàn)的時(shí)機(jī)

圖 6:DQN Time-to-Go 預(yù)測(cè)開闊空間出現(xiàn)的時(shí)機(jī),然后開始按預(yù)期的明確路徑加速。TTC 會(huì)等到所有車都走過,但這會(huì)錯(cuò)失機(jī)會(huì)。

5. 結(jié)論

對(duì)于這篇論文,作者提到了三個(gè)貢獻(xiàn)。第一個(gè)貢獻(xiàn)是將當(dāng)前多種深度學(xué)習(xí)技術(shù)結(jié)合起來(lái)提升水平的全新思想。第二個(gè)貢獻(xiàn)是在 5 個(gè)不同的交叉路口模擬場(chǎng)景中將 DQN 與 TTC 的表現(xiàn)進(jìn)行了比較分析。第三個(gè)貢獻(xiàn)是分析了訓(xùn)練后的 DQN 策略遷移到不同場(chǎng)景的能力。

 

在我看來(lái),未來(lái)還有兩個(gè)方面有待提升。一是卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)。有更多的復(fù)雜場(chǎng)景時(shí),更深度的神經(jīng)網(wǎng)絡(luò)可以得到更好的結(jié)果。我們可以在參考文獻(xiàn) [8] 中找到同樣的結(jié)論,有一家自動(dòng)駕駛公司將深度學(xué)習(xí)看作是打造可信賴的無(wú)人駕駛汽車的唯一可行方式,因?yàn)轳{駛涉及到的情況太多了,而且很多事情都很艱難和微妙。另一個(gè)方面是關(guān)于碰撞率。我認(rèn)為應(yīng)該還有另一種讓碰撞率為 0 的方法,因?yàn)樵谌祟愡x擇無(wú)人駕駛汽車時(shí),安全性無(wú)疑是最重要的部分。這里只是通過這個(gè)模型或算法還不能實(shí)現(xiàn)這個(gè)目標(biāo),應(yīng)該還有其它解決這個(gè)問題的方式。在奧迪汽車中,工程師應(yīng)用了毫米波雷達(dá)、激光雷達(dá)、相機(jī)、超聲波探頭等等設(shè)備來(lái)互相補(bǔ)償和驗(yàn)證,這可以幫助汽車做出正確的選擇

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動(dòng)駕駛

2023-08-05 13:08:54

2020-11-06 10:36:39

自動(dòng)駕駛

2021-11-18 22:43:56

自動(dòng)駕駛技術(shù)安全

2022-11-21 11:50:59

2020-10-23 15:51:36

深度學(xué)習(xí)自動(dòng)駕駛人工智能

2024-10-10 09:26:07

2021-01-26 21:26:10

自動(dòng)駕駛AI人工智能

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動(dòng)駕駛

2022-07-05 11:21:12

自動(dòng)駕駛汽車技術(shù)

2022-04-06 10:47:30

自動(dòng)駕駛汽車安全

2022-05-21 23:46:16

自動(dòng)駕駛雷達(dá)傳感器

2021-11-15 23:53:54

自動(dòng)駕駛機(jī)器物聯(lián)網(wǎng)

2024-04-10 14:10:33

自動(dòng)駕駛強(qiáng)化學(xué)習(xí)

2017-03-27 10:28:20

2020-05-28 11:33:00

大數(shù)據(jù)5G網(wǎng)絡(luò)

2023-07-18 15:57:23

自動(dòng)駕駛

2024-06-21 15:12:14

2020-01-09 08:42:23

自動(dòng)駕駛AI人工智能

2018-10-25 15:35:01

自動(dòng)駕駛人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)