偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

深度強(qiáng)化學(xué)習(xí)處理真實(shí)世界的自動(dòng)駕駛

人工智能 新聞
與模擬器相關(guān)的主要問題之一在于模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的差異,這是由于難以在模擬器內(nèi)真實(shí)再現(xiàn)真實(shí)世界的情況造成的。

arXiv論文“Tackling Real-World Autonomous Driving using Deep Reinforcement Learning“,上傳于2022年7月5日,作者來自意大利的帕爾馬大學(xué)Vislab和安霸公司(收購(gòu)Vislab)。

在典型的自主駕駛流水線中,規(guī)控系統(tǒng)代表了兩個(gè)最關(guān)鍵的組件,其中傳感器檢索的數(shù)據(jù)和感知算法處理的數(shù)據(jù)用于實(shí)現(xiàn)安全舒適的自動(dòng)駕駛行為。特別是,規(guī)劃模塊預(yù)測(cè)自動(dòng)駕駛汽車在執(zhí)行正確的高級(jí)操作時(shí)應(yīng)遵循的路徑,同時(shí)控制系統(tǒng)執(zhí)行一系列低級(jí)操作,控制轉(zhuǎn)向、油門和制動(dòng)。

這項(xiàng)工作提出一種無模型(model- free)深度強(qiáng)化學(xué)習(xí)(DRL)規(guī)劃器,訓(xùn)練一個(gè)預(yù)測(cè)加速度和轉(zhuǎn)向角的神經(jīng)網(wǎng)絡(luò),從而獲得一個(gè)用自主駕駛汽車的定位和感知算法輸出的數(shù)據(jù)駕駛車輛的單個(gè)模塊。特別是,經(jīng)過充分模擬訓(xùn)練的系統(tǒng)能夠在模擬和真實(shí)(帕爾馬城區(qū))無障礙環(huán)境中平穩(wěn)安全地駕駛,證明了該系統(tǒng)具有良好的泛化能力,也可以在訓(xùn)練場(chǎng)景以外的環(huán)境駕駛。此外,為了將系統(tǒng)部署在真實(shí)的自動(dòng)駕駛汽車上,并減少模擬性能和真實(shí)性能之間的差距,作者還開發(fā)一個(gè)由微型神經(jīng)網(wǎng)絡(luò)表示的模塊,該模塊能夠在模擬訓(xùn)練期間復(fù)現(xiàn)真實(shí)環(huán)境的汽車動(dòng)態(tài)行為。

在過去幾十年中,從簡(jiǎn)單的、基于規(guī)則的方法到實(shí)現(xiàn)基于AI的智能系統(tǒng),車輛自動(dòng)化水平的提高取得了巨大進(jìn)展。特別是,這些系統(tǒng)旨在解決基于規(guī)則的方法的主要局限性,即缺乏與其他道路使用者的協(xié)商和交互,以及對(duì)場(chǎng)景動(dòng)態(tài)性理解較差。

強(qiáng)化學(xué)習(xí)(RL)廣泛用于解決使用離散控制空間輸出的任務(wù),如圍棋、Atari游戲或國(guó)際象棋以及連續(xù)控制空間的自主駕駛。特別是,RL算法廣泛應(yīng)用于自主駕駛領(lǐng)域,用于開發(fā)決策和機(jī)動(dòng)執(zhí)行系統(tǒng),如主動(dòng)變道、車道保持、超車機(jī)動(dòng)、十字路口和環(huán)島處理等。

本文采用D-A3C的延遲版本,屬于所謂的Actor-Critics算法家族。特別由兩個(gè)不同的實(shí)體組成:Actor和Critics。Actor的目的是選擇智體必須執(zhí)行的動(dòng)作,而Critics 估計(jì)狀態(tài)值函數(shù),即智體特定狀態(tài)的良好程度。換句話說,Actor是動(dòng)作上的概率分布π(a | s;θπ)(其中θ是網(wǎng)絡(luò)參數(shù)),critics是估計(jì)狀態(tài)值函數(shù)v(st;θv)=E(Rt | st),其中R是期待的回報(bào)。

內(nèi)部開發(fā)的高清地圖實(shí)現(xiàn)了仿真模擬器;場(chǎng)景的示例如圖a所示,是在真實(shí)自動(dòng)駕駛汽車測(cè)試系統(tǒng)的部分地圖區(qū)域,而圖b顯示智體感知的周圍視圖,對(duì)應(yīng)于50×50米的區(qū)域,被分為四個(gè)通道:障礙物(圖c),可駕駛空間(圖d)、智體應(yīng)遵循的路徑(圖e)和停止線(圖f)。模擬器中高清地圖允許檢索有關(guān)外部環(huán)境的多個(gè)信息,如位置或車道數(shù)、道路限速等。

專注于實(shí)現(xiàn)平穩(wěn)安全的駕駛風(fēng)格,因此在靜態(tài)場(chǎng)景中訓(xùn)練智體,不包括障礙物或其他道路使用者,學(xué)習(xí)遵循路線并遵守速度限制。

使用如圖所示的神經(jīng)網(wǎng)絡(luò)對(duì)智體進(jìn)行訓(xùn)練,每100毫秒預(yù)測(cè)一次轉(zhuǎn)向角和加速度。分為兩個(gè)子模塊:第一個(gè)子模塊能夠定義轉(zhuǎn)向角sa,第二個(gè)子模塊用于定義加速度acc。這兩個(gè)子模塊的輸入由4個(gè)通道(可駕駛空間、路徑、障礙物和停止線)表示,對(duì)應(yīng)于智體的周圍視圖。每個(gè)視覺輸入通道包含4個(gè)84×84像素的圖像,以便為智體提供過去狀態(tài)的歷史。與此視覺輸入一起,網(wǎng)絡(luò)接收5個(gè)標(biāo)量參數(shù),包括目標(biāo)速度(道路速度限制)、智體的當(dāng)前速度、當(dāng)前速度-目標(biāo)速度比,以及與轉(zhuǎn)向角和加速度相關(guān)的最后動(dòng)作。

為了保證探索(exploration),采用兩個(gè)高斯分布對(duì)兩個(gè)子模塊輸出進(jìn)行采樣,獲得相對(duì)加速度(acc=N(μacc,σacc))和轉(zhuǎn)向角(sa=N(μsa,σsa))。標(biāo)準(zhǔn)差σacc和σsa在訓(xùn)練階段由神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)和調(diào)制,估計(jì)模型的不確定性。此外,該網(wǎng)絡(luò)使用兩個(gè)不同的獎(jiǎng)勵(lì)函數(shù)R-acc-t和R-sa-t,分別與加速度和轉(zhuǎn)向角相關(guān),生成相應(yīng)的狀態(tài)值估計(jì)(vacc和vsa)。

神經(jīng)網(wǎng)絡(luò)在帕爾馬城市的四個(gè)場(chǎng)景進(jìn)行訓(xùn)練。對(duì)于每個(gè)場(chǎng)景,創(chuàng)建多個(gè)實(shí)例,智體在這些實(shí)例上相互獨(dú)立。每個(gè)智體遵循運(yùn)動(dòng)學(xué)自行車模型,取值轉(zhuǎn)向角為[-0.2,+0.2],加速度為[-2.0 m,+2.0 m]。在該片段開始時(shí),每個(gè)智體以隨機(jī)速度([0.0, 8.0])開始駕駛,并遵循其預(yù)定路徑,并遵守道路速度限制。該城區(qū)的道路速度限制在4 ms到8.3 ms之間。

最后,由于訓(xùn)練場(chǎng)景中沒有障礙物,因此片段可以在以下一種終端狀態(tài)下結(jié)束:

  • 達(dá)成目標(biāo):智體達(dá)到最終目標(biāo)位置。
  • 駕駛出道路:智體超出其預(yù)定路徑,錯(cuò)誤地預(yù)測(cè)轉(zhuǎn)向角。
  • 時(shí)間到了:完成片段的時(shí)間失效;這主要是由于加速度輸出的謹(jǐn)慎預(yù)測(cè),駕駛速度低于道路速度限制。

為了獲得能夠在模擬和真實(shí)環(huán)境中順利駕駛汽車的策略,獎(jiǎng)勵(lì)成型對(duì)實(shí)現(xiàn)預(yù)期行為至關(guān)重要。特別是,定義兩個(gè)不同的獎(jiǎng)勵(lì)函數(shù)來分別評(píng)估兩個(gè)動(dòng)作:R-acc-t和R-sa-t分別與加速度和轉(zhuǎn)向角有關(guān),定義如下:

其中

R-sa-t和R-acc-t在公式中都有一個(gè)元素,用于懲罰兩個(gè)連續(xù)動(dòng)作,其加速度和轉(zhuǎn)向角的差值分別大于某個(gè)閾值δacc和δsa。特別是,兩個(gè)連續(xù)加速度之間的差值計(jì)算如下:?acc=| acc(t)? acc(t? 1) | ,而racc_indecision的定義如下:

相反,轉(zhuǎn)向角的兩個(gè)連續(xù)預(yù)測(cè)之間的差值計(jì)算為?sa=| sa(t)? sa(t? 1)|, 而 rsa_indecision定義如下:

最后,R-acc-t和R-sa-t取決于智體實(shí)現(xiàn)的終端狀態(tài):

  • 達(dá)成目標(biāo):代理達(dá)到目標(biāo)位置,因此兩個(gè)獎(jiǎng)勵(lì)的rterminal設(shè)置為+1.0;
  • 駕駛出道路:智能體偏離其路徑,主要是由于對(duì)轉(zhuǎn)向角的預(yù)測(cè)不準(zhǔn)確。因此,將負(fù)信號(hào)-1.0指定給Rsa,t,負(fù)信號(hào)0.0給R-acc-t;
  • 時(shí)間到了:完成該片段的可用時(shí)間失效,這主要是由于智體的加速預(yù)測(cè)過于謹(jǐn)慎;因此,rterminal假設(shè)?1.0給R-acc-t,0.0給R-sa-t。

與模擬器相關(guān)的主要問題之一在于模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的差異,這是由于難以在模擬器內(nèi)真實(shí)再現(xiàn)真實(shí)世界的情況造成的。為了克服這個(gè)問題,用一個(gè)合成模擬器以簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的輸入,并減少模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的差距。事實(shí)上,作為神經(jīng)網(wǎng)絡(luò)輸入的4個(gè)通道(障礙物、駕駛空間、路徑和停止線)包含的信息可以通過感知和定位算法以及嵌入在真實(shí)自動(dòng)駕駛汽車上的高清地圖輕松再現(xiàn)。

此外,使用模擬器的另一個(gè)相關(guān)問題與模擬智體執(zhí)行目標(biāo)動(dòng)作與自動(dòng)駕駛汽車執(zhí)行該命令的兩個(gè)方式不同有關(guān)。實(shí)際上,在時(shí)間t計(jì)算的目標(biāo)動(dòng)作,理想情況下可以在模擬的同一精確時(shí)刻立即生效。不同的是,這不會(huì)發(fā)生在真實(shí)車輛上,因?yàn)檎鎸?shí)情況是,此類目標(biāo)動(dòng)作將以某種動(dòng)態(tài)執(zhí)行,從而導(dǎo)致執(zhí)行延遲(t+δ)。因此,有必要在仿真中引入此類響應(yīng)時(shí)間,以便在真正的自動(dòng)駕駛汽車上訓(xùn)練智體去處理此類延遲。

為此,為了實(shí)現(xiàn)更真實(shí)的行為,首先訓(xùn)練智體,將低通濾波器添加到智體必須執(zhí)行的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)動(dòng)作中。如圖所示,藍(lán)色曲線表示在模擬中采用目標(biāo)動(dòng)作(其示例的轉(zhuǎn)向角)發(fā)生的理想和瞬時(shí)響應(yīng)時(shí)間。然后,引入低通濾波器后,綠色曲線識(shí)別模擬的智體響應(yīng)時(shí)間。相反,橙色曲線顯示自動(dòng)駕駛車輛在執(zhí)行相同轉(zhuǎn)向動(dòng)作的行為。然而,可以從圖中注意到,模擬車輛和真實(shí)車輛之間的響應(yīng)時(shí)間差異仍然相關(guān)。

事實(shí)上,神經(jīng)網(wǎng)絡(luò)預(yù)先設(shè)定的加速度和轉(zhuǎn)向角點(diǎn)不是可行的命令,并且沒有考慮一些因素,例如系統(tǒng)的慣性、執(zhí)行器的延遲和其他非理想因素。因此,為了盡可能真實(shí)地再現(xiàn)真實(shí)車輛的動(dòng)力學(xué),開發(fā)一個(gè)由3個(gè)全連接層(深度響應(yīng))組成的小型神經(jīng)網(wǎng)絡(luò)組成的模型。深度響應(yīng)行為的曲線圖如上圖的紅色虛線所示,可以注意到與代表真實(shí)自動(dòng)駕駛汽車的橙色曲線非常相似。鑒于訓(xùn)練場(chǎng)景沒有障礙物和交通車輛,所描述的問題對(duì)于轉(zhuǎn)向角的活動(dòng)更為明顯,但同樣的想法已應(yīng)用于加速度輸出。

用自動(dòng)駕駛汽車上收集的數(shù)據(jù)集訓(xùn)練深度響應(yīng)模型,其中輸入對(duì)應(yīng)于人類駕駛員給車輛的命令(加速器壓力和方向盤轉(zhuǎn)動(dòng)),輸出對(duì)應(yīng)于車輛的油門、制動(dòng)和彎曲,可以用GPS、里程計(jì)或其他技術(shù)測(cè)量。通過這種方式,將此類模型嵌入模擬器中,獲得更具可擴(kuò)展性的系統(tǒng),從而再現(xiàn)自動(dòng)駕駛汽車的行為。因此,深度響應(yīng)模塊對(duì)于轉(zhuǎn)向角的校正至關(guān)重要,但即使以不太明顯的方式,對(duì)于加速度也是必要的,并且隨著障礙物的引入,這一點(diǎn)將清晰可見。

在真實(shí)數(shù)據(jù)上測(cè)試了兩種不同的策略,以驗(yàn)證深度響應(yīng)模型對(duì)系統(tǒng)的影響。隨后,驗(yàn)證車輛正確地沿著路徑行駛,并且遵守高清地圖得到的速度限制。最后,證明通過模仿學(xué)習(xí)(Imitation Learning)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練可以顯著縮短總訓(xùn)練時(shí)間。

策略如下:

  • 策略1:不使用深度響應(yīng)模型進(jìn)行訓(xùn)練,但使用低通濾波器模擬真實(shí)車輛對(duì)目標(biāo)動(dòng)作的響應(yīng)。
  • 策略2:通過引入深度響應(yīng)模型進(jìn)行訓(xùn)練,確保更現(xiàn)實(shí)的動(dòng)態(tài)。

在模擬中執(zhí)行的測(cè)試對(duì)這兩種策略都產(chǎn)生了良好的結(jié)果。事實(shí)上,無論是在訓(xùn)練過的場(chǎng)景,還是在沒有訓(xùn)練的地圖區(qū)域,智體都能夠在100%的情況下以平穩(wěn)安全的行為達(dá)到目標(biāo)。

通過在真實(shí)場(chǎng)景中測(cè)試策略,得到了不同的結(jié)果。策略1無法處理車輛動(dòng)力學(xué),與模擬中的智體相比,其執(zhí)行預(yù)測(cè)動(dòng)作的方式不同;通過這種方式,策略1將觀察到其預(yù)測(cè)結(jié)果的意外狀態(tài),導(dǎo)致自動(dòng)駕駛汽車上的含噪和不舒適行為。

這種行為也會(huì)影響系統(tǒng)的可靠性,事實(shí)上,有時(shí)需要人工協(xié)助以避免自動(dòng)駕駛汽車駛出道路。

相反,在對(duì)自動(dòng)駕駛汽車進(jìn)行的所有真實(shí)測(cè)試中,策略2從未要求人類接管,因?yàn)橹儡囕v動(dòng)態(tài)以及系統(tǒng)將如何演變?yōu)轭A(yù)測(cè)動(dòng)作。唯一需要人為干預(yù)的情況是避免其他道路使用者;然而,這些情況不被視為失敗,因?yàn)椴呗?和策略2都是在無障礙場(chǎng)景中訓(xùn)練的。

為了更好地理解策略1和策略2之間的差異,如圖是神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的轉(zhuǎn)向角以及在真實(shí)世界測(cè)試的短時(shí)窗口內(nèi)到中心車道的距離。可以注意到這兩種策略行為是完全不同的,策略1(藍(lán)色曲線)與策略2(紅色曲線)相比是嘈雜和不安全的,這證明了深度響應(yīng)模塊對(duì)于在真正自動(dòng)駕駛汽車上部署策略至關(guān)重要。

為了克服RL的限制,即需要數(shù)百萬片段才能達(dá)到最優(yōu)解,通過模仿學(xué)習(xí)(IL)進(jìn)行了預(yù)訓(xùn)練。此外,即使IL的趨勢(shì)是訓(xùn)練大型模型,也使用相同的小型神經(jīng)網(wǎng)絡(luò)(約100萬個(gè)參數(shù)),因?yàn)橄敕ㄊ抢^續(xù)使用RL框架訓(xùn)練系統(tǒng),以確保更具魯棒性和泛化能力。這樣,不會(huì)增加硬件資源的使用,考慮到未來可能的多智體訓(xùn)練,這一點(diǎn)至關(guān)重要。

IL訓(xùn)練階段使用的數(shù)據(jù)集由模擬智體生成,這些智體遵循基于規(guī)則的方法運(yùn)動(dòng)。特別是,對(duì)于彎曲,用pure pursuit的跟蹤算法,其中智體的目的是沿著特定的航路點(diǎn)移動(dòng)。相反,用IDM模型來控制智體的縱向加速度。

為了創(chuàng)建數(shù)據(jù)集,基于規(guī)則的智體在四個(gè)訓(xùn)練場(chǎng)景上運(yùn)動(dòng),每100毫秒保存一次標(biāo)量參數(shù)和四個(gè)視覺輸入。相反,輸出由pure pursuit算法和IDM模型給出。

與輸出相對(duì)應(yīng)的兩個(gè)橫向和縱向控件僅表示元組(μacc,μsa)。因此,在IL訓(xùn)練階段,不估計(jì)標(biāo)準(zhǔn)差(σacc,σsa)的值,也不估計(jì)值函數(shù)(vacc,vsa)。這些特征以及深度響應(yīng)模塊在IL+RL訓(xùn)練階段學(xué)習(xí)。

如圖所示,展示從預(yù)訓(xùn)練階段(藍(lán)色曲線,IL+RL)開始訓(xùn)練同一神經(jīng)網(wǎng)絡(luò),并和四種情況下RL(紅色曲線,純RL)結(jié)果比較。即使IL+RL訓(xùn)練需要的次數(shù)比純RL少,并且趨勢(shì)也更穩(wěn)定,但這兩種方法都取得良好的成功率(如圖a)。

此外,圖b中所示的獎(jiǎng)勵(lì)曲線證明,使用純RL方法獲得的策略(紅色曲線)甚至沒有達(dá)到更多訓(xùn)練時(shí)間的可接受解,而IL+RL策略在幾個(gè)片段內(nèi)達(dá)到最優(yōu)解(圖b中的藍(lán)色曲線)。這種情況下,最優(yōu)解由橙色虛線表示。該基線表示,用在4個(gè)場(chǎng)景執(zhí)行50000片段的模擬智體獲得的平均獎(jiǎng)勵(lì)。模擬的智體遵循確定性規(guī)則,與收集IL預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)則相同,即用pure pursuit規(guī)則做彎曲和IDM規(guī)則做縱向加速度。這兩種方法之間的差距可能更明顯,訓(xùn)練系統(tǒng)執(zhí)行更復(fù)雜的機(jī)動(dòng),其中可能需要智體交互。

責(zé)任編輯:張燕妮 來源: 知乎
相關(guān)推薦

2023-08-05 13:08:54

2017-07-30 15:16:31

深度強(qiáng)化學(xué)習(xí)遷移交叉路口

2024-04-10 14:10:33

自動(dòng)駕駛強(qiáng)化學(xué)習(xí)

2021-10-15 15:29:59

自動(dòng)駕駛數(shù)據(jù)人工智能

2022-09-04 14:38:00

世界模型建模IRIS

2020-11-06 10:36:39

自動(dòng)駕駛

2023-09-26 13:33:27

AI自動(dòng)駕駛

2023-03-23 18:42:45

AI強(qiáng)化學(xué)習(xí)

2017-03-07 13:55:30

自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2020-07-17 17:43:49

深度學(xué)習(xí)

2024-10-10 09:26:07

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-10-23 15:51:36

深度學(xué)習(xí)自動(dòng)駕駛人工智能

2022-01-18 10:51:09

自動(dòng)駕駛數(shù)據(jù)人工智能

2021-01-26 21:26:10

自動(dòng)駕駛AI人工智能

2025-01-26 11:00:00

2023-02-21 15:26:26

自動(dòng)駕駛特斯拉

2019-04-10 15:37:32

人工智能自動(dòng)駕駛技術(shù)

2018-09-04 19:30:29

人工智能自動(dòng)駕駛機(jī)器學(xué)習(xí)

2025-03-24 09:50:00

大模型自動(dòng)駕駛AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)