端到端的自動(dòng)駕駛會(huì)取代Apollo、autoware這類(lèi)框架嗎?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes
- 作者單位:百度
- 作者:共一 Jiang-Tian Zhai, Ze Feng,百度王井東組
- 發(fā)表:arXiv
- 論文鏈接:https://arxiv.org/abs/2305.10430
- 代碼鏈接:https://github.com/E2E-AD/AD-MLP
關(guān)鍵詞:端到端自動(dòng)駕駛,nuScenes 開(kāi)環(huán)評(píng)估
1. 摘要
現(xiàn)有的自動(dòng)駕駛系統(tǒng)通常被分為三個(gè)主任務(wù):感知、預(yù)測(cè)和規(guī)劃;規(guī)劃任務(wù)涉及到基于內(nèi)部意圖和外部環(huán)境來(lái)預(yù)測(cè)自車(chē)的運(yùn)動(dòng)軌跡,并操縱車(chē)輛。大部分現(xiàn)有方案在 nuScenes 數(shù)據(jù)集上評(píng)估他們的方法,評(píng)價(jià)指標(biāo)為 L2 error 和碰撞率(collision rate)
本文重新對(duì)現(xiàn)有的評(píng)價(jià)指標(biāo)做了評(píng)估,探索他們是否能夠準(zhǔn)確地度量不同方法的優(yōu)越性。本文還設(shè)計(jì)了一個(gè) MLP-based 方法,將原始 sensor 數(shù)據(jù)(歷史軌跡、速度等)作為輸入,直接輸出自車(chē)的未來(lái)軌跡,不使用任何感知和預(yù)測(cè)信息,例如 camera 圖像或者 LiDAR。令人驚訝的是:這樣一個(gè)簡(jiǎn)單的方法在 nuScenes 數(shù)據(jù)集上達(dá)到了 SOTA 的 planning 性能,減少了 30% 的 L2 error。我們進(jìn)一步深入分析,對(duì)于 nuScenes 數(shù)據(jù)集上的規(guī)劃任務(wù)很重要的因子提供了一些新的見(jiàn)解。我們的觀察還表明,我們需要重新思考 nuScenes 中端到端自動(dòng)駕駛的開(kāi)環(huán)評(píng)測(cè)方案。
2. 論文的目的、貢獻(xiàn)及結(jié)論
本文希望對(duì) nuScenes 上端到端自動(dòng)駕駛的開(kāi)環(huán)評(píng)測(cè)方案做評(píng)估;不使用視覺(jué)和 Lidar 的情況下,只使用自車(chē)狀態(tài)和高級(jí)命令(一共 21 維的向量)作為輸入就可以在 nuScenes 上達(dá)到 Planning 的 SOTA。作者由此指出了 nuScenes 上開(kāi)環(huán)評(píng)測(cè)的不可靠性,給出了兩個(gè)分析:nuScenes 數(shù)據(jù)集上自車(chē)軌跡傾向于直行或者曲率非常小的曲線;碰撞率的檢測(cè)和網(wǎng)格密度相關(guān),并且數(shù)據(jù)集的碰撞標(biāo)注也有噪聲,當(dāng)前評(píng)估碰撞率的方法不夠魯棒和準(zhǔn)確;
3. 論文的方法
3.1 簡(jiǎn)介及相關(guān)工作簡(jiǎn)述
現(xiàn)存的自動(dòng)駕駛模型涉及到多個(gè)獨(dú)立任務(wù),例如感知、預(yù)測(cè)和規(guī)劃。這種設(shè)計(jì)簡(jiǎn)化了跨團(tuán)隊(duì)寫(xiě)作的難度,但也會(huì)由于各個(gè)任務(wù)的優(yōu)化和訓(xùn)練的獨(dú)立性,導(dǎo)致整個(gè)系統(tǒng)的信息丟失和誤差累積。端到端的方法被提出,這類(lèi)方法從自車(chē)和周?chē)h(huán)境的時(shí)空特征學(xué)習(xí)中受益。
相關(guān)工作:ST-P3[1] 提出一種可解釋的基于視覺(jué)的端到端系統(tǒng),將感知、預(yù)測(cè)和規(guī)劃的特征學(xué)習(xí)進(jìn)行統(tǒng)一。UniAD[2] 對(duì) Planning 任務(wù)進(jìn)行系統(tǒng)化設(shè)計(jì),采用基于 query 的設(shè)計(jì)連接中間多個(gè)任務(wù),可以對(duì)多個(gè)任務(wù)的關(guān)系進(jìn)行建模和編碼;VAD[3] 以完全向量化的方式對(duì)場(chǎng)景進(jìn)行建模,不需要稠密的特征表示,在計(jì)算上更為高效。
本文希望探索現(xiàn)有的評(píng)估指標(biāo)是否能準(zhǔn)確地度量不同方法的優(yōu)劣。本文僅使用了自車(chē)在行駛中的的物理狀態(tài)(現(xiàn)有方法所使用信息的子集)來(lái)開(kāi)展實(shí)驗(yàn),而不是使用相機(jī)和激光雷達(dá)提供的感知和預(yù)測(cè)信息??傊疚牡哪P蜎](méi)有用視覺(jué)或者點(diǎn)云特征的編碼器,直接將自車(chē)的物理信息編碼為一維向量,在 concat 之后送到 MLP 中。訓(xùn)練使用 GT 軌跡進(jìn)行監(jiān)督,模型直接預(yù)測(cè)自車(chē)未來(lái)一定時(shí)間內(nèi)的軌跡點(diǎn)。follow 之前的工作,在 nuScenes 數(shù)據(jù)集上使用 L2 Error 和碰撞率(collision rate.)進(jìn)行評(píng)估
雖然模型設(shè)計(jì)簡(jiǎn)單,但獲得了最好的 Planning 結(jié)果,本文將此歸因于當(dāng)前評(píng)估指標(biāo)的不足。事實(shí)上,通過(guò)使用過(guò)去的自車(chē)軌跡、速度、加速度和時(shí)間連續(xù)性,就可以在一定程度上反映出自車(chē)在未來(lái)的運(yùn)動(dòng)
3.2 模型結(jié)構(gòu)
模型結(jié)構(gòu)總覽
模型輸入包括兩部分:自車(chē)狀態(tài)以及代表未來(lái)短期運(yùn)動(dòng)趨勢(shì)的高級(jí)命令。
自車(chē)狀態(tài):搜集了自車(chē)過(guò)去 =4幀的運(yùn)動(dòng)軌跡、瞬時(shí)速度和加速度
高級(jí)命令:由于我們的模型不使用高精地圖,所以需要高級(jí)命令進(jìn)行導(dǎo)航。按照常見(jiàn)的作法,定義了三種類(lèi)型的命令:左轉(zhuǎn)、直行和右轉(zhuǎn)。具體來(lái)講,當(dāng)自車(chē)在未來(lái) 3s 中將向左或向右位移大于 2m 時(shí),將相應(yīng)的命令設(shè)置為左轉(zhuǎn)或者右轉(zhuǎn),否則則是直行。使用維度為 1x3 的 one-hot 編碼來(lái)表示高級(jí)命令
網(wǎng)絡(luò)結(jié)構(gòu):網(wǎng)絡(luò)就是簡(jiǎn)單的三層 MLP(輸入到輸出的維度分別為 21-512-512-18),最終輸出的幀數(shù)=6,每一幀輸出自車(chē)的軌跡位置(x,y 坐標(biāo))以及航向角(heading 角)
損失函數(shù)
損失函數(shù):使用 L1 損失函數(shù)進(jìn)行懲罰
4. 論文的實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集:在 nuScenes 數(shù)據(jù)集上做實(shí)驗(yàn),nuScenes 數(shù)據(jù)集包括 1K 場(chǎng)景和大約 40K 關(guān)鍵幀,主要收集在波士頓和新加坡,使用配備 LiDAR 和周視攝像頭的車(chē)輛。為每一幀收集的數(shù)據(jù)包括多視角 Camear 圖像、LiDAR、速度、加速度等。
評(píng)測(cè)指標(biāo):使用 ST-P3 論文的評(píng)測(cè)代碼(https://github.com/OpenPerceptionX/ST-P3/blob/main/stp3/metrics.py)。評(píng)估1s、2s和3s時(shí)間范圍的輸出軌跡。為了評(píng)估預(yù)測(cè)的自車(chē)軌跡的質(zhì)量,計(jì)算了兩個(gè)常用的指標(biāo):
L2 Error :以米為單位,分別在下一個(gè) 1s、2s 和 3s 時(shí)間范圍內(nèi)自車(chē)的預(yù)測(cè)軌跡和真實(shí)軌跡之間計(jì)算平均 L2 誤差;
碰撞率(collision rate):以百分比為單位。為了確定自車(chē)與其他物體碰撞的頻率,通過(guò)在預(yù)測(cè)軌跡上的每個(gè)航路點(diǎn)放置一個(gè)表示自車(chē)的 box ,然后檢測(cè)與當(dāng)前場(chǎng)景中車(chē)輛和行人的邊界框的是否發(fā)生了碰撞,以計(jì)算碰撞率。
超參數(shù)設(shè)置及硬件:PaddlePaddle 和 PyTorch 框架,AdamW 優(yōu)化器(4e-6 lr 及 1e-2 weight decay),cosine scheduler,訓(xùn)了 6 個(gè) epoch,batch size 為 4,用了一張 V100
4.2 實(shí)驗(yàn)結(jié)果
表1 和現(xiàn)有的基于感知的方法進(jìn)行比較
在表 1 中進(jìn)行了一些消融實(shí)驗(yàn)。以分析速度、加速度、軌跡和 High-level Command 對(duì)本文模型性能的影響。令人驚訝的是,僅使用軌跡作為輸入,沒(méi)有感知信息,本文的 Baseline 模型已經(jīng)實(shí)現(xiàn)了比所有現(xiàn)有方法更低的平均 L2 誤差。
當(dāng)我們逐漸向輸入添加加速度、速度和 High-level Command 時(shí),平均 L2 誤差和碰撞率從 0.35m 降低到 0.23m,將 0.33% 降低到 0.12%。同時(shí)將 Ego State 和 High-level Command 作為輸入的模型實(shí)現(xiàn)了最低的 L2 誤差和碰撞率,超過(guò)了所有先前最先進(jìn)的基于感知的方法,如最后一行所示。
4.3 實(shí)驗(yàn)分析
文章從兩個(gè)角度分析了自我車(chē)輛狀態(tài)在nuScenes訓(xùn)練集上的分布:未來(lái)3s的軌跡點(diǎn);航向角(heading / yaw角)和曲率角(curvature angles)
nuScenes 訓(xùn)練集的分布分析。
在圖 2 (a) 中繪制了訓(xùn)練集中的所有未來(lái) 3s 軌跡點(diǎn)。從圖中可以看出,軌跡主要集中在中間部分(直),軌跡主要是直線,或曲率非常小的曲線。
航向角表示相對(duì)于當(dāng)前時(shí)間的未來(lái)行駛方向,而曲率角反映了車(chē)輛的轉(zhuǎn)彎速度。如圖 2 (b) 和 (c) 所示,近 70% 的航向角和曲率角分別位于 -0.2 到 0.2 和 -0.02 到 0.02 弧度的范圍內(nèi)。這一發(fā)現(xiàn)與從軌跡點(diǎn)分布中得出的結(jié)論是一致的。
基于上述對(duì)軌跡點(diǎn)、航向角和曲率角分布的分析,本文認(rèn)為在 nuScenes 訓(xùn)練集中,自車(chē)傾向于沿直線前進(jìn),在短時(shí)間范圍內(nèi)行駛時(shí)以小角度前進(jìn)。
Occupancy map 的不同網(wǎng)格大小引起 GT 軌跡會(huì)發(fā)生碰撞
在計(jì)算碰撞率時(shí),現(xiàn)有方法的常見(jiàn)做法是將車(chē)輛和行人等對(duì)象投影到鳥(niǎo)瞰圖 (BEV) 空間中,然后將它們轉(zhuǎn)換為圖中的占用區(qū)域。而這就是精度損失之處,我們發(fā)現(xiàn)一小部分 GT 軌跡樣本(約2%)也與占用網(wǎng)格中的障礙物重疊,但自車(chē)在收集數(shù)據(jù)時(shí)實(shí)際上不會(huì)與其他任何對(duì)象發(fā)生碰撞,這導(dǎo)致碰撞被錯(cuò)誤檢測(cè)。當(dāng) ego 車(chē)輛接近某些對(duì)象時(shí)會(huì)導(dǎo)致錯(cuò)誤的碰撞,例如小于單個(gè) Occupancy map 像素的尺寸。
圖三展示了這種現(xiàn)象的示例,以及兩種不同網(wǎng)格大小的地面實(shí)況軌跡的碰撞檢測(cè)結(jié)果。橙色是可能被誤檢為碰撞的車(chē)輛,在右下角所示的較小網(wǎng)格尺寸(0.1m)下,評(píng)估系統(tǒng)正確地將 GT 軌跡識(shí)別為不碰撞,但在右下角較大的網(wǎng)格尺寸(0.5m)下,會(huì)出現(xiàn)錯(cuò)誤的碰撞檢測(cè)。
在觀察占用網(wǎng)格大小對(duì)軌跡碰撞檢測(cè)的影響后,我們測(cè)試了網(wǎng)格大小為0.6m。nuScenes 訓(xùn)練集有 4.8% 的碰撞樣本,而驗(yàn)證集有 3.0%。值得一提的是,當(dāng)我們之前使用 0.5m 的網(wǎng)格大小時(shí),驗(yàn)證集中只有 2.0% 的樣本被錯(cuò)誤分類(lèi)為碰撞。這再次證明了當(dāng)前評(píng)估碰撞率的方法不夠魯棒和準(zhǔn)確的。
作者總結(jié):本文的主要目的是提出我們的觀察結(jié)果,而不是提出一個(gè)新的模型。盡管我們的模型在 nuScenes 數(shù)據(jù)集上表現(xiàn)良好,但我們承認(rèn)它只是一個(gè)不切實(shí)際的玩具,無(wú)法在現(xiàn)實(shí)世界中發(fā)揮作用。在沒(méi)有自車(chē)狀態(tài)的情況下駕駛是一項(xiàng)難以克服的挑戰(zhàn)。盡管如此,我們希望我們的見(jiàn)解將促進(jìn)該領(lǐng)域的進(jìn)一步研究,對(duì)端到端自動(dòng)駕駛的進(jìn)步能夠重新評(píng)估。
5. 文章評(píng)價(jià)
這篇文章是對(duì)近期端到端自動(dòng)駕駛在 nuScenes 數(shù)據(jù)集上評(píng)測(cè)的一次正本清源。不論是隱式端到端直接出 Planning 信號(hào),還是顯式端到端有中間環(huán)節(jié)的輸出,很多都是在 nuScenes 數(shù)據(jù)集上評(píng)測(cè)的 Planning 指標(biāo),而 Baidu 這篇文章指出這種評(píng)測(cè)并不靠譜。這種文章其實(shí)還蠻有意思,發(fā)出來(lái)其實(shí)是打了很多同行的臉,但是也是在積極地推動(dòng)行業(yè)往前走,或許端到端不用做到 Planning(感知預(yù)測(cè)端到端即可),或許大家在評(píng)估性能的時(shí)候多做一些閉環(huán)測(cè)試(CARLA 模擬器等),能夠更好地推動(dòng)自動(dòng)駕駛社區(qū)的進(jìn)步,能夠把論文落到實(shí)車(chē)上。自動(dòng)駕駛這條路,還是任重而道遠(yuǎn)~
參考
- ^ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning
- ^Planning-oriented Autonomous Driving
- ^VAD: Vectorized Scene Representation for Efficient Autonomous Driving
原文鏈接:https://mp.weixin.qq.com/s/skNDMk4B1rtvJ_o2CM9f8w