強(qiáng)化學(xué)習(xí)應(yīng)用在自動(dòng)駕駛中:一種通過(guò)人指導(dǎo)并基于優(yōu)先經(jīng)驗(yàn)的方法
arXiv在2021年9月26日上傳的論文“Prioritized Experience-based Reinforcement Learning with Human Guidance: Methodology and Application to Autonomous Driving“,作者來(lái)自新加坡NTU(南洋理工)。
強(qiáng)化學(xué)習(xí)(RL)需要定義和計(jì)算來(lái)解決優(yōu)化和控制問(wèn)題,這可能會(huì)損害其發(fā)展前景。將人的指導(dǎo)引入強(qiáng)化學(xué)習(xí)是提高學(xué)習(xí)性能的一種很有前途的方法,本文建立了一個(gè)基于人指導(dǎo)的強(qiáng)化學(xué)習(xí)框架。
所提出的是一種在強(qiáng)化學(xué)習(xí)過(guò)程中適應(yīng)人指導(dǎo)的 優(yōu)先經(jīng)驗(yàn)重放(prioritized experience replay,PER) 機(jī)制,提高RL算法的效率和性能。為減輕人的繁重工作量,基于增量在線學(xué)習(xí)(incremental online learning)方法建立一個(gè)行為模型來(lái)模仿人。
作者設(shè)計(jì)了兩個(gè)具有挑戰(zhàn)性的自動(dòng)駕駛?cè)蝿?wù)來(lái)評(píng)估所提出的算法:一個(gè)是T-路口無(wú)保護(hù)左轉(zhuǎn),另一個(gè)是高速堵車(chē)。
最近強(qiáng)化學(xué)習(xí)引入深度神經(jīng)網(wǎng)絡(luò)提出了一些流行方法,如rainbow deep Q-learning, proximal policy optimization (PPO) 和 soft actor-critic (SAC), 能夠處理高維環(huán)境表征和泛化等。
不過(guò)問(wèn)題是環(huán)境和智體的交互比較低效率。為此引入人的指導(dǎo),有3個(gè)途徑:1)人的專家反饋,給行為打分(behavior score);2)人的干預(yù),一般是reward shaping方法;3)人的演示,上下文中監(jiān)督學(xué)習(xí)。
如圖是本文方法的RL算法框架:
提出的基于人指導(dǎo)優(yōu)先經(jīng)驗(yàn)回放(PER)機(jī)制中,TDQA表示提出的優(yōu)先計(jì)算方案,即Time Difference Q-advantage,數(shù)字1-4表示數(shù)據(jù)的流向順序,動(dòng)作信號(hào)的虛線表示該框架允許間歇性的人在環(huán)(human-in-the-loop )的指導(dǎo)。
強(qiáng)化學(xué)習(xí)基于離散MDP來(lái)定義交互過(guò)程,這里采用不帶策略的AC(actor- critic)架構(gòu)。策略函數(shù)(即 actor )最大化價(jià)值函數(shù)Q,Q來(lái)自累計(jì)的未來(lái)reward,基于一個(gè)Bellman價(jià)值函數(shù)(即 critic )。
這個(gè)Bellman 價(jià)值函數(shù)只對(duì)最優(yōu)策略進(jìn)行評(píng)估,而不管執(zhí)行交互的策略。 因此,RL 將策略評(píng)估過(guò)程和策略行為解耦,這使智體以一種不帶策略的方式更新?tīng)顟B(tài)。
作者用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近來(lái)制定actor和 critic,然后可以通過(guò)損失函數(shù)實(shí)現(xiàn)目標(biāo)。
傳統(tǒng)上,緩沖區(qū)存儲(chǔ)的經(jīng)驗(yàn)服從均勻分布,用均勻隨機(jī)抽樣從緩沖區(qū)獲取批量經(jīng)驗(yàn),用于 RL 訓(xùn)練。在有限經(jīng)驗(yàn)重放機(jī)制中,經(jīng)驗(yàn)受制于非均勻分布,實(shí)際優(yōu)先級(jí)取決于TD誤差(temporal difference error)。
較大的 TD誤差表明,經(jīng)驗(yàn)值得在更高程度上學(xué)習(xí)。 因此,基于 TD誤差的優(yōu)先經(jīng)驗(yàn)回放(PER)機(jī)制可以提高 RL 的訓(xùn)練效率。
在強(qiáng)化學(xué)習(xí)的訓(xùn)練中,采用了兩種人指導(dǎo)的行為方式:干預(yù)和演示。
干預(yù) :人的參與者識(shí)別 RL 交互場(chǎng)景,并根據(jù)先驗(yàn)知識(shí)和推理能力確定是否應(yīng)該進(jìn)行指導(dǎo)。 如果人參與者決定進(jìn)行干預(yù),可以操縱設(shè)備從 RL 智體(部分或全部)獲得控制權(quán)。 干預(yù)通常發(fā)生在 RL 智體做災(zāi)難性操作或陷入局部最優(yōu)陷阱。 因此,RL 可以學(xué)會(huì)避免干預(yù)出現(xiàn)的不利情況。
演示 :當(dāng)干預(yù)事件發(fā)生時(shí),人的參與者會(huì)執(zhí)行行動(dòng),產(chǎn)生相應(yīng)的獎(jiǎng)勵(lì)信號(hào)和下一步狀態(tài)。 生成的轉(zhuǎn)換組(transition tuple)可以看作是一段演示數(shù)據(jù),因?yàn)槭怯扇瞬呗远皇?RL 行為策略造成的。 RL 算法可以從演示中學(xué)習(xí)人的專家行為。
在 RL 智體與環(huán)境的標(biāo)準(zhǔn)交互中,RL 的行為策略會(huì)輸出探索環(huán)境的動(dòng)作。一旦動(dòng)作被發(fā)送到環(huán)境,交互的轉(zhuǎn)換組將被記錄并存儲(chǔ)到經(jīng)驗(yàn)重放緩存(buffer)。 特別注意的是,來(lái)自人的策略和 RL 策略的操作存儲(chǔ)在同一個(gè)緩沖區(qū)中。
由于先驗(yàn)知識(shí)和推理能力,人的演示通常比 RL 行為策略的大多數(shù)探索更重要。 因此,需要一種更有效的方法來(lái)加權(quán)緩存的專家演示。 文中采用一種 基于優(yōu)點(diǎn)的度量( advantage-based measure ) ,而不是傳統(tǒng)的優(yōu)先經(jīng)驗(yàn)重放(PER) TD 誤差,以建立優(yōu)先專家演示重放機(jī)制。
除了TD 誤差度量外,該優(yōu)點(diǎn)度量(因?yàn)榛赒計(jì)算,故稱為 QA ,即 Q-advantage )也評(píng)估應(yīng)該在多大程度去檢索特定的專家演示轉(zhuǎn)換組。通過(guò) RL 訓(xùn)練過(guò)程,RL 智體的能力發(fā)生變化,一個(gè)專家演示轉(zhuǎn)換組的優(yōu)先級(jí)也隨之變化,這就產(chǎn)生了動(dòng)態(tài)優(yōu)先機(jī)制。整個(gè)機(jī)制稱為 TDQA ,把兩個(gè)度量組合成一個(gè)對(duì)人的指導(dǎo)測(cè)度。
優(yōu)先機(jī)制引入了對(duì)價(jià)值函數(shù)期望估計(jì)的偏差,因?yàn)樗淖兞司彺嬷械慕?jīng)驗(yàn)分布。 有偏的價(jià)值網(wǎng)絡(luò)對(duì)強(qiáng)化學(xué)習(xí)漸近性影響不大,但在某些情況下可能會(huì)影響成熟策略的穩(wěn)定性和魯棒性。 作為可選操作,可以通過(guò)引入重要性采樣(importance-sampling )權(quán)重到價(jià)值網(wǎng)絡(luò)的損失函數(shù),來(lái)退火偏差。
下面討論人的參與者在 RL 訓(xùn)練環(huán)的行為:人的參與者可以干預(yù)該過(guò)程獲得控制權(quán),并用專家行動(dòng)替代 RL 智體行動(dòng);由于持續(xù)重復(fù)訓(xùn)練情節(jié)和未成熟的 RL 策略,人的參與者在訓(xùn)練過(guò)程中不斷進(jìn)行演示顯得很乏味,因此間歇性干預(yù)(intermittent intervention)成為更可行的解決方案。 這種情況下,人參與者只會(huì)干預(yù)那些關(guān)鍵場(chǎng)景(災(zāi)難行為或陷入局部最優(yōu))拯救 RL 智體并延長(zhǎng)訓(xùn)練時(shí)間。
這里采用reward shaping方法,可防止 RL 陷入那些人為干預(yù)的狀態(tài)。 然而,它僅在一個(gè)人為干預(yù)事件的第一時(shí)間觸發(fā)懲罰。 這背后的原理是,一旦人的參與者獲得控制權(quán),其專家演示會(huì)慣性地持續(xù)一段時(shí)間,這里只有最初的場(chǎng)景被確認(rèn)為關(guān)鍵場(chǎng)景。
下面把上述組件集成在一起,即優(yōu)先人在環(huán)( Prioritized Human-In-the-Loop,即PHIL ) RL。具體來(lái)說(shuō),通過(guò)基于人指導(dǎo)的actor- critic框架,配備優(yōu)先專家演示重放和基于干預(yù)的reward shaping 機(jī)制來(lái)獲得整體的人在環(huán) (human-in-the-loop)RL 配置。 基于不帶策略 RL 算法,即雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3 ),來(lái)實(shí)例化這個(gè) PHIL 算法。 上述組件適用于各種 不帶策略的 actor-critic RL 算法。
最后,整個(gè)PHIL-TD3算法總結(jié)如下所示:
結(jié)合前面的PHIL-RL,需要一個(gè)人的策略模型。該模型通過(guò)模仿實(shí)際人參與者的行為策略,來(lái)減輕人在環(huán) RL 過(guò)程的工作量。
雖然人參與者進(jìn)行 PHIL-RL 對(duì)提高性能最有幫助,但過(guò)度參與會(huì)使人疲勞。 作者訓(xùn)練了一個(gè)回歸模型,與 RL 運(yùn)行同時(shí)模仿人類(lèi)策略,這個(gè)策略模型在必要時(shí)可以替代人。
分析一下RL 訓(xùn)練過(guò)程的人行為:人類(lèi)干預(yù)間歇性地施加到環(huán)中,人演示逐漸補(bǔ)充到訓(xùn)練集(緩存)中;考慮到這一點(diǎn),利用在線-和基于增量-的模仿學(xué)習(xí)算法(即Data Aggregation,DAgger)訓(xùn)練人策略模型,該算法不受離線大規(guī)模演示數(shù)據(jù)的收集影響。
注意:如果使用這個(gè)人策略模型與 PHIL 合作,模型的激活條件將根據(jù)特定環(huán)境手動(dòng)定義。
下面討論如何應(yīng)用在自動(dòng)駕駛場(chǎng)景:選擇端到端問(wèn)題的兩個(gè)應(yīng)用,即T-路口無(wú)保護(hù)左轉(zhuǎn)和高速堵車(chē)。
如圖是自動(dòng)駕駛?cè)蝿?wù)的環(huán)境配置: a 在 CARLA 建立的 T -路口設(shè)計(jì)的無(wú)保護(hù)左轉(zhuǎn)場(chǎng)景; b 左轉(zhuǎn)場(chǎng)景鳥(niǎo)瞰圖,紅色虛線表示左轉(zhuǎn)軌跡; c 設(shè)計(jì)的在 CARLA 建立的高速公路擁堵場(chǎng)景; d 擁堵場(chǎng)景的鳥(niǎo)瞰圖,其中紅色虛線表示跟車(chē)軌跡。
T-路口無(wú)保護(hù)左轉(zhuǎn) :小路的自車(chē)試圖左轉(zhuǎn)并匯入主干道,路口沒(méi)有交通信號(hào)引導(dǎo)車(chē)輛;假設(shè)自車(chē)的橫向路徑由其他技術(shù)規(guī)劃,而縱向控制分配給 RL 智體;周?chē)?chē)輛以 [4, 6] m/s 范圍隨機(jī)的不同速度進(jìn)行初始化,并由intelligent driver model (IDM) 控制執(zhí)行車(chē)道保持行為;所有周?chē)鸟{駛員都具有侵略性,這意味著他們不會(huì)讓路給自車(chē);所有車(chē)輛的控制間隔設(shè)為 0.1 秒。
高速擁堵 :自車(chē)陷入嚴(yán)重?fù)矶虏⒈黄渌?chē)輛緊緊包圍; 因此它試圖縮小與領(lǐng)先車(chē)的差距,并以目標(biāo)速度進(jìn)行跟車(chē);假設(shè)縱向控制由 IDM 完成,目標(biāo)速度為 6m/s,而橫向控制分配給 RL 智體;周?chē)?chē)輛初始化速度范圍為 [4, 6] m/s,并由 IDM 控制以執(zhí)行跟車(chē)行為;所有車(chē)輛的控制間隔設(shè)置為 0.1 秒;擁擠的周?chē)?chē)輛覆蓋了車(chē)道標(biāo)記,而自車(chē)道沒(méi)有特定的前車(chē),在這種情況下可能導(dǎo)致傳統(tǒng)的橫向規(guī)劃方法無(wú)效。
下面定義RL的狀態(tài)
RL的動(dòng)作對(duì)兩個(gè)場(chǎng)景是不同的:
T-路口左轉(zhuǎn)
高速擁堵
獎(jiǎng)勵(lì)(reward)對(duì)兩個(gè)場(chǎng)景也是不同的:
T-路口左轉(zhuǎn)
高速
價(jià)值和策略函數(shù)的近似采用Deep CNN,如圖所示:a)策略函數(shù);b)價(jià)值函數(shù)
輔助函數(shù):主要做車(chē)輛控制;當(dāng)RL操縱方向盤(pán)時(shí),縱向控制由IDM實(shí)現(xiàn);當(dāng) RL 操縱踏板縫隙時(shí),橫向運(yùn)動(dòng)目標(biāo)是通過(guò)比例積分 (PI) 控制器跟蹤規(guī)劃的航路點(diǎn)。
實(shí)驗(yàn)比較的基準(zhǔn)算法是:
- IA-TD3:Intervention Aided Reinforcement Learning (IARL)
- HI-TD3:Human Intervention Reinforcement Learning (HIRL)
- RD2-TD3:Recurrent Replay Distributed Demonstration-based DQN (R2D3)
- PER-TD3:vanilla Prioritized experience replay (PER)
RL訓(xùn)練和推理的實(shí)驗(yàn)工作流如圖(a-b)所示:
訓(xùn)練 硬件包括駕駛模擬器和高性能工作站。駕駛模擬器用于收集人駕駛數(shù)據(jù)以訓(xùn)練人的策略模型,工作站專門(mén)處理 RL 訓(xùn)練。 采用高保真自動(dòng)駕駛仿真平臺(tái) CARLA來(lái)實(shí)現(xiàn)駕駛場(chǎng)景并生成RL-環(huán)境交互信息。
測(cè)試 硬件是機(jī)器人車(chē)輛。訓(xùn)練后的RL策略在車(chē)輛的計(jì)算平臺(tái)上實(shí)現(xiàn),通過(guò)無(wú)線網(wǎng)絡(luò)與CARLA服務(wù)器進(jìn)行通信。車(chē)載 RL 策略從 CARLA 接收狀態(tài)信息并將其控制命令發(fā)回,遠(yuǎn)程操作完成自動(dòng)駕駛?cè)蝿?wù)。機(jī)器人車(chē)輛旨在測(cè)試 RL 策略在當(dāng)前車(chē)載計(jì)算和通信情況下是否有效。
部分實(shí)驗(yàn)結(jié)果比較如下:
作者提出了一種算法 PHIL-TD3,旨在提高人在環(huán) (human-in-the-loop )RL 的算法能力。 另外,引入了人的行為建模機(jī)制來(lái)減輕人參與者的工作量。 PHIL-TD3 解決兩個(gè)具有挑戰(zhàn)性的自動(dòng)駕駛?cè)蝿?wù),即無(wú)保護(hù)T-路口左轉(zhuǎn)和高速擁堵。














































