清華IEEE論文:利用新型訓(xùn)練方法,幫自動(dòng)駕駛決策擺脫「路側(cè)干擾」
近日,來(lái)自清華大學(xué)的學(xué)者提出了一套基于自動(dòng)編碼器實(shí)現(xiàn)的新訓(xùn)練方法,使其能夠忽略輸入圖像中的無(wú)關(guān)特征,同時(shí)保留相關(guān)特征。與現(xiàn)有的端到端提取方法相比,該方法只需要圖像級(jí)標(biāo)簽,降低了標(biāo)記成本。

研究者發(fā)現(xiàn),通過(guò)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNNs)模型來(lái)處理編碼器的輸出,并產(chǎn)生一個(gè)轉(zhuǎn)向角來(lái)控制車輛,可驗(yàn)證了該方法的有效性。整個(gè)端到端的自動(dòng)駕駛方法可以忽略不相關(guān)特征的影響,即使這些特征在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的時(shí)候也不存在。
基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)編碼器
論文作者列出了相應(yīng)算法的主要思想和基本過(guò)程:該系統(tǒng)由自動(dòng)編碼器和自動(dòng)編碼器組成如圖1所示。來(lái)自前置攝像頭的圖像作為輸入提供給自動(dòng)編碼器。自動(dòng)編碼器由編碼器和解碼器組成,編碼器的輸出作為CNN的輸入,CNN計(jì)算并輸出轉(zhuǎn)向角度來(lái)控制車輛。

(圖1、完整系統(tǒng)的示意圖,該系統(tǒng)包含一個(gè)自動(dòng)編碼器來(lái)消除圖像中的無(wú)關(guān)特征,以及一個(gè)產(chǎn)生控制命令的CNN)
自動(dòng)編碼器是一種人工神經(jīng)網(wǎng)絡(luò),它旨在以無(wú)監(jiān)督的方式學(xué)習(xí)高效的數(shù)據(jù)編碼。它學(xué)習(xí)如何有效地對(duì)數(shù)據(jù)進(jìn)行編碼,并將數(shù)據(jù)從編碼后的表示重構(gòu)為盡可能接近原始數(shù)據(jù)的表示。自編碼器的兩個(gè)主要應(yīng)用是降維和信息檢索。雖然降維與我們的任務(wù)相似,但由于它們都需要從輸入中提取有用的特征,所以通常不會(huì)去除特征。
最近,自動(dòng)編碼器被證明可應(yīng)用于不同的任務(wù),如圖像處理方面,自動(dòng)編碼器可以達(dá)成圖像壓縮和圖像去噪,然而這些任務(wù)對(duì)精準(zhǔn)的路側(cè)物體識(shí)別意義不大。
在圖形壓縮工作中,圖像被壓縮以降低存儲(chǔ)或傳輸?shù)某杀?;在圖像去噪任務(wù)中,噪聲圖像被傳輸?shù)皆紙D像中。噪聲圖像作為輸入,原始圖像作為標(biāo)簽來(lái)訓(xùn)練網(wǎng)絡(luò)。另外,噪聲圖像應(yīng)該與原始圖像完全相同。
從文中的例子來(lái)看,如果將不相關(guān)的物體作為噪聲處理,那么圖像去噪的方法似乎可以用來(lái)提取相關(guān)的特征。但是,在實(shí)際駕駛場(chǎng)景中,天空、樹木等不相關(guān)的物體是無(wú)法去除的,所以這種方法并不可行。
Auto-Encoder如何配合CNNs
研究者提出,算法的目的是在保留所有相關(guān)特征的同時(shí),從圖像中去除所有與決策無(wú)關(guān)的特征。為了降低標(biāo)簽的成本,最好只使用圖像級(jí)標(biāo)簽訓(xùn)練網(wǎng)絡(luò)。
同時(shí),為了滿足端到端方法的定義,特征提取過(guò)程的輸出應(yīng)該具有隱含意義。與CNNs相比,自動(dòng)編碼器在這方面是一個(gè)更好的選擇:它不可能直接理解編碼器的輸出,而是將其轉(zhuǎn)換為原始輸入,因?yàn)樗撕洼斎胍粯佣嗟男畔ⅰ?/span>
解碼器的輸出和原始輸入之間總是有一些錯(cuò)誤。換句話說(shuō),總有一些信息丟失。在理想情況下,算法的目標(biāo)是確保任何丟失的信息只包含不相關(guān)的特征,同時(shí)保留想要保留的特征。為了實(shí)現(xiàn)這一點(diǎn),網(wǎng)絡(luò)需要被教導(dǎo)哪些類型的特征應(yīng)該保留,哪些應(yīng)該消除。然后,經(jīng)過(guò)多次重復(fù)訓(xùn)練過(guò)程,網(wǎng)絡(luò)就具備了從輸入中提取所需特征的能力。
那么,CNNs在其中的作用又是什么呢?我們系統(tǒng)的CNN體系結(jié)構(gòu)如圖1所示,它包括三個(gè)卷積層和四個(gè)全連通層,其中最后一層輸出控制命令(即方向盤角度)。
訓(xùn)練CNN時(shí),自動(dòng)編碼器的參數(shù)保持不變。在良好場(chǎng)景的專業(yè)駕駛測(cè)試過(guò)程中,訓(xùn)練圖像會(huì)包含很多正常狀態(tài)的圖像。不過(guò),一旦車輛偏離了當(dāng)前車道的中心,CNN就可能無(wú)法做出正確的決定。
為了避免該問(wèn)題,研究者采用如圖2所示的在線訓(xùn)練方法:由網(wǎng)絡(luò)控制車輛,同時(shí)由專家提供控制命令。訓(xùn)練過(guò)程中獲取的圖像將作為訓(xùn)練數(shù)據(jù),而專家給出的命令作為標(biāo)簽,這些數(shù)據(jù)隨后被用來(lái)訓(xùn)練網(wǎng)絡(luò)。
由于網(wǎng)絡(luò)是隨機(jī)初始化的,在訓(xùn)練的早期,車輛經(jīng)常處于異常狀態(tài),避免了正常圖像過(guò)多的問(wèn)題。

(圖2、CNN培訓(xùn)過(guò)程。實(shí)線表示用于控制車輛的信息流,虛線表示用于訓(xùn)練模型的信息流)
利用仿真實(shí)現(xiàn)的模擬器和數(shù)據(jù)集描述(Dataset Description)
展示了仿真模擬器和數(shù)據(jù)收集過(guò)程,并將開發(fā)的系統(tǒng)與具有相同網(wǎng)絡(luò)結(jié)構(gòu)的基線模型的性能進(jìn)行了比較。
仿真環(huán)境采用PreScan構(gòu)建,PreScan是智能車輛系統(tǒng)開發(fā)的仿真環(huán)境,用戶可以在其中設(shè)計(jì)逼真的交通場(chǎng)景。一旦特定的交通場(chǎng)景完成,該工具可以自動(dòng)生成Simulink模型,用于測(cè)試自動(dòng)駕駛算法。
為此,研究者制定了以下四個(gè)測(cè)試計(jì)劃。
1)測(cè)試方案一:算法在場(chǎng)景1-1進(jìn)行訓(xùn)練,在場(chǎng)景1-3和場(chǎng)景1-4進(jìn)行測(cè)試。
2)測(cè)試方案二:算法在場(chǎng)景1-2進(jìn)行訓(xùn)練,在場(chǎng)景1-3和場(chǎng)景1-4進(jìn)行測(cè)試。
3)測(cè)試方案三:算法在場(chǎng)景2-1進(jìn)行訓(xùn)練,在場(chǎng)景2-3和場(chǎng)景2-4進(jìn)行測(cè)試。
4)測(cè)試方案四:算法在場(chǎng)景2-2進(jìn)行訓(xùn)練,在場(chǎng)景2-3和場(chǎng)景2-4進(jìn)行測(cè)試。

(圖3、內(nèi)置PreScan的場(chǎng)景)
自動(dòng)解碼器訓(xùn)練過(guò)程需要收集正、負(fù)樣本。在所構(gòu)建的場(chǎng)景中,道路和車道標(biāo)志是影響駕駛指令的主要因素,而樹木和天空則無(wú)關(guān)緊要。研究者先在模擬環(huán)境中隨機(jī)拍攝圖片,然后將每個(gè)圖像分配給一個(gè)數(shù)據(jù)集,如下所示。
如果圖像主要由道路特征組成,則將其歸類為陽(yáng)性樣本。另一方面,如果圖像主要由樹木或天空特征組成,則將其歸類為負(fù)樣本。否則,如果相關(guān)特征和不相關(guān)特征的比例幾乎相同,則丟棄圖像。正、負(fù)樣本集如圖4所示。
在訓(xùn)練CNN的方法中,用于訓(xùn)練目的的數(shù)據(jù)是在訓(xùn)練過(guò)程中收集的。前置攝像頭拍攝的輸入圖像尺寸為240 × 320 × 3。由于任務(wù)是保持在車道上,標(biāo)簽即轉(zhuǎn)向角度可以通過(guò)跟蹤算法來(lái)確定,該算法可以控制車輛沿著車道的中心線行駛,且該跟蹤算法由PreScan環(huán)境提供。

(圖4、部分?jǐn)?shù)據(jù)集用于訓(xùn)練自動(dòng)編碼器 )
綜合看來(lái),該論文提出了一種新的訓(xùn)練方法,即允許自動(dòng)編碼器從輸入圖像中提取有用的特征,并將其應(yīng)用到端到端自動(dòng)駕駛方法中,以忽略不相關(guān)的路邊目標(biāo)。
從中我們可以得到一些結(jié)論:首先,在訓(xùn)練自動(dòng)編碼器時(shí)采用正負(fù)交替采樣,編碼器可學(xué)會(huì)從輸入圖像中去除那些不相關(guān)的特征,從而保證輸出特征映射只包含相關(guān)特征。在解碼器輸出的圖像中,不相關(guān)的物體,如樹木和天空,實(shí)際上是無(wú)法區(qū)分的,而道路和車道標(biāo)記是清晰的。
同時(shí),文中所提出的訓(xùn)練方法僅依賴圖像級(jí)標(biāo)記即可對(duì)自動(dòng)編碼器進(jìn)行訓(xùn)練。與現(xiàn)有的端到端多任務(wù)自動(dòng)駕駛方法相比,該方法降低了標(biāo)簽成本。
另外,使用自動(dòng)編碼器與CNN組成的端到端自動(dòng)駕駛方法,即使訓(xùn)練數(shù)據(jù)中幾乎沒(méi)有不相關(guān)的物體,也不會(huì)受到路邊不相關(guān)物體的影響。由此提煉出的模型和基線模型不容易受到陰影的影響。當(dāng)陽(yáng)光角度設(shè)置為45°,提出的模型仍然提供良好的性能,而基線模型無(wú)法保持車輛在車道上。
這種方法目前的一個(gè)限制是「簡(jiǎn)單的場(chǎng)景」。為了擴(kuò)大應(yīng)用范圍,可以有不同的無(wú)關(guān)對(duì)象,如建筑物和周圍的車輛。該模型中的CNN可以用強(qiáng)化學(xué)習(xí)算法代替來(lái)處理動(dòng)態(tài)場(chǎng)景。也可以考慮有限范圍的道路測(cè)試。此外,為了處理如此復(fù)雜的圖像,決策網(wǎng)絡(luò)的架構(gòu)也將被擴(kuò)展。
原文鏈接:
Wang, T., Luo, Y., Liu, J., Chen, R., & Li, K. (2022). End-to-end self-driving approach independent of irrelevant roadside objects with auto-encoder. IEEE Transactions on Intelligent Transportation Systems, 23(1), 641-650. doi:http://dx.doi.org/10.1109/TITS.2020.3018473
主要作者信息:
Yugong Luo(IEEE成員)——分別在1996年和1999年分別獲得重慶大學(xué)科技學(xué)士和科學(xué)碩士學(xué)位。2003年獲得清華大學(xué)博士學(xué)位?,F(xiàn)任清華大學(xué)汽車與交通學(xué)院教授。他撰寫了70多篇期刊文章,擁有31項(xiàng)專利。主要研究方向?yàn)橹悄芑ヂ?lián)電動(dòng)汽車動(dòng)力學(xué)與控制、汽車噪聲控制。
Tinghan Wang——在2016年獲得了清華大學(xué)的科技學(xué)士學(xué)位,目前正在攻讀博士學(xué)位。他的研究興趣包括基于深度神經(jīng)網(wǎng)絡(luò)的端到端自動(dòng)駕駛和深度強(qiáng)化學(xué)習(xí)。
Jinxin Liu——于2017年獲得合肥工業(yè)大學(xué)理工科學(xué)士學(xué)位。他目前在攻讀清華大學(xué)博士學(xué)位。主要研究方向?yàn)槠囈鈭D識(shí)別和行為規(guī)劃。
































