無(wú)圖最強(qiáng)Trick | MapDistill:速度精度雙起飛,讓End2End更絲滑 !
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&個(gè)人理解
在線高精(HD)地圖構(gòu)建是自動(dòng)駕駛領(lǐng)域的一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù)。最近,人們對(duì)不依賴于激光雷達(dá)等其他傳感器的基于環(huán)視相機(jī)的低成本方法越來(lái)越感興趣。然而只使用視覺(jué)傳感器的方法缺乏明確的深度信息,需要更大的主干網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)令人滿意的性能。為了解決這個(gè)問(wèn)題,我們首次采用知識(shí)蒸餾(Knowledge Distillation, KD)思想進(jìn)行高效的高精地圖構(gòu)建,引入了一種新的基于KD的在線矢量高精地圖構(gòu)建方法MapDistill。MapDistill將知識(shí)從高準(zhǔn)確性的Camera-LiDAR融合模型轉(zhuǎn)移到輕量級(jí)的僅依賴相機(jī)的模型。具體而言,我們采用師生架構(gòu),即Camera-LiDAR融合模型作為教師,輕量的只基于相機(jī)的模型作為學(xué)生,并設(shè)計(jì)了雙BEV轉(zhuǎn)換模塊,以促進(jìn)跨模態(tài)知識(shí)對(duì)齊。此外,我們還提出了一個(gè)適用于在線高精地圖構(gòu)建任務(wù)的全面蒸餾方案,包括跨模態(tài)關(guān)系蒸餾、雙層特征蒸餾和地圖任務(wù)頭蒸餾。這種方法一定程度上解決了模態(tài)間知識(shí)轉(zhuǎn)移的困難,使學(xué)生模型能夠?qū)W習(xí)更好的用于高精地圖構(gòu)建的特征表示。我們?cè)谀壳白罹哂刑魬?zhàn)性的nuScenes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了MapDistill的有效性,超越了基線方法7.7 mAP或?qū)崿F(xiàn)4.5倍的加速。
項(xiàng)目鏈接:https://github.com/Ricky-Developer/MapDistill
領(lǐng)域背景介紹
在線高精地圖提供了豐富、精確的駕駛場(chǎng)景靜態(tài)環(huán)境信息,是自動(dòng)駕駛系統(tǒng)規(guī)劃與導(dǎo)航模塊的基礎(chǔ)。最近,基于多視角相機(jī)的在線高精地圖構(gòu)建由于BEV感知技術(shù)的重大進(jìn)展而受到越來(lái)越多的關(guān)注。相較于只基于激光雷達(dá)的方法和基于激光雷達(dá)與相機(jī)融合的方法,只基于多視角相機(jī)的方法具有更低的部署成本。但由于缺乏深度信息,目前的基于純視覺(jué)的方案常常采用參數(shù)更多的骨干網(wǎng)絡(luò)進(jìn)行有效的特征提取以取得較好的性能。因此,在實(shí)際部署中權(quán)衡基于攝像機(jī)的模型的性能和效率是至關(guān)重要的。
知識(shí)蒸餾(Knowledge Distillation, KD)作為訓(xùn)練高效而準(zhǔn)確的模型最實(shí)用的技術(shù)之一,在相關(guān)領(lǐng)域受到了極大的關(guān)注?;谥R(shí)蒸餾的方法通常將知識(shí)從訓(xùn)練有素的大模型(教師)轉(zhuǎn)移到小模型(學(xué)生)。這類方法在圖像分類、二維目標(biāo)檢測(cè)、語(yǔ)義分割和三維目標(biāo)檢測(cè)等許多領(lǐng)域取得了顯著進(jìn)展。以前的方法大多遵循需學(xué)生網(wǎng)絡(luò)邏輯與教師網(wǎng)絡(luò)邏輯相匹配的teacher-student范式。最近,基于BEV的知識(shí)蒸餾方法推動(dòng)了3D目標(biāo)檢測(cè)任務(wù)的發(fā)展。這類方法統(tǒng)一了BEV空間中的圖像和點(diǎn)云特征,并在師生范式中自適應(yīng)地跨非同質(zhì)表示傳遞知識(shí)。此前的工作使用強(qiáng)激光雷達(dá)教師模型幫助相機(jī)學(xué)生模型進(jìn)行訓(xùn)練,如BEVDistill、UVTR、BEVLGKD、TiG-BEV和DistillBEV。最近,UniDistill提出了一種用于3D目標(biāo)檢測(cè)的通用跨模態(tài)知識(shí)蒸餾框架。
與這些方法相比,基于BEV的在線高精地圖構(gòu)建知識(shí)蒸餾方法在兩個(gè)關(guān)鍵方面有所不同:首先,檢測(cè)頭(DetHead)對(duì)目標(biāo)進(jìn)行分類和定位輸出,而在在線矢量高精地圖構(gòu)建模型(如MapTR)中地圖頭(MapHead)往往輸出的是分類和點(diǎn)回歸結(jié)果。其次,現(xiàn)有的基于BEV的3D目標(biāo)檢測(cè)知識(shí)蒸餾方法通常側(cè)重于對(duì)準(zhǔn)前景目標(biāo)的特征,以減輕背景環(huán)境的不利影響,這顯然不適合高精地圖的構(gòu)建。因此,將基于BEV的3D目標(biāo)檢測(cè)知識(shí)蒸餾方法直接應(yīng)用于的高精地圖構(gòu)建中,由于兩者任務(wù)的內(nèi)在差異性,無(wú)法獲得滿意的結(jié)果(實(shí)驗(yàn)結(jié)果見(jiàn)表1)。據(jù)我們所知,基于BEV的用于在線高精地圖構(gòu)建的知識(shí)蒸餾方法仍處于探索階段。
為了填補(bǔ)這一空白,我們提出了一種新的基于知識(shí)蒸餾的方法MapDistill,將知識(shí)從高性能的教師模型轉(zhuǎn)移到高效的學(xué)生模型。首先,我們采用師生架構(gòu),即相機(jī)-激光雷達(dá)融合模型作為教師,輕量化的只基于相機(jī)傳感器的模型作為學(xué)生,并設(shè)計(jì)了雙BEV轉(zhuǎn)換模塊,以促進(jìn)跨模態(tài)知識(shí)升華,同時(shí)保持成本效益的只基于相機(jī)傳感器的建圖方案部署。在此基礎(chǔ)上,我們提出了一種包含跨模態(tài)關(guān)系蒸餾、雙層特征蒸餾和地圖頭部蒸餾的綜合蒸餾方案,以減輕模態(tài)之間的知識(shí)轉(zhuǎn)移挑戰(zhàn),并幫助學(xué)生模型學(xué)習(xí)改進(jìn)的高精地圖構(gòu)建特征表示。具體來(lái)說(shuō),我們首先為學(xué)生模型引入了跨模態(tài)關(guān)系蒸餾損失,以便從融合教師模型中更好地學(xué)習(xí)跨模態(tài)表示。其次,為了更好地實(shí)現(xiàn)語(yǔ)義知識(shí)轉(zhuǎn)移,我們?cè)诮y(tǒng)一的BEV空間中對(duì)低級(jí)和高級(jí)特征表示都采用了兩級(jí)特征蒸餾損失。最后,我們特別引入了為高精地圖構(gòu)建任務(wù)量身定制的地圖頭蒸餾損失,包括分類損失和點(diǎn)對(duì)點(diǎn)損失,它可以使學(xué)生的最終預(yù)測(cè)與教師的預(yù)測(cè)非常相似。在具有挑戰(zhàn)性的nuScenes數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了MapDistill的有效性,超越了現(xiàn)有競(jìng)爭(zhēng)對(duì)手超過(guò)7.7 mAP或4.5倍的加速,如圖1所示。
圖1:nuScenes數(shù)據(jù)集上不同方法的比較。我們?cè)趩蝹€(gè)NVIDIA RTX 3090 GPU上對(duì)推理速度進(jìn)行基準(zhǔn)測(cè)試。MapDistill可以在速度(FPS)和精度(mAP)之間實(shí)現(xiàn)更好的平衡。
本文的貢獻(xiàn)主要體現(xiàn)在三個(gè)方面:
- 我們提出了一種用于在線高精地圖構(gòu)建任務(wù)的有效知識(shí)蒸餾模型架構(gòu),包括相機(jī)-激光雷達(dá)融合教師模型,帶有雙BEV轉(zhuǎn)換模塊的輕量級(jí)相機(jī)學(xué)生模型,該模塊促進(jìn)了不同模式內(nèi)部、之間的知識(shí)轉(zhuǎn)移,同時(shí)具備低成本、易部署的特征。
- 我們提出了一種同時(shí)支持跨模態(tài)關(guān)系蒸餾、兩級(jí)特征蒸餾和地圖頭蒸餾的綜合蒸餾方案。通過(guò)減輕模態(tài)之間的知識(shí)轉(zhuǎn)移挑戰(zhàn),該方法可以幫助學(xué)生模型更好地學(xué)習(xí)高精地圖構(gòu)建的特征表示。
- MapDistill的性能優(yōu)于最先進(jìn)的(SOTA)方法,可以作為基于知識(shí)蒸餾的高精地圖構(gòu)建研究的強(qiáng)大基線。
MapDistill
在本節(jié)中,我們將詳細(xì)描述我們提出的MapDistill。我們首先在圖2中給出了整個(gè)框架的概述圖示,并在2.1節(jié)中闡明了教師模型和學(xué)生模型的模型設(shè)計(jì)。然后,我們?cè)诘?.2節(jié)詳細(xì)闡述MapDistill的細(xì)節(jié),如跨模態(tài)關(guān)系蒸餾、兩級(jí)特征蒸餾和地圖頭蒸餾。
圖2:MapDistill由一個(gè)基于多模態(tài)融合的教師模型(上)和一個(gè)基于輕量級(jí)相機(jī)傳感器的學(xué)生模型(下)組成。此外,為了使教師模型能夠?qū)⒅R(shí)傳遞給學(xué)生,我們采用了三種蒸餾損失以指導(dǎo)學(xué)生模型產(chǎn)生相似的特征和預(yù)測(cè),即跨模態(tài)關(guān)系蒸餾、兩級(jí)特征蒸餾和地圖頭蒸餾。特別說(shuō)明,推理只使用學(xué)生模型進(jìn)行。
2.1 模型整體架構(gòu)
融合模型(教師):為了將Camera-LiDAR融合教師模型的知識(shí)轉(zhuǎn)移到學(xué)生模型,我們首先基于最先進(jìn)的MapTR模型建立了基于融合的高精地圖構(gòu)建基線。如圖二上半部分所示,融合的MapTR模型有兩個(gè)分支。對(duì)于相機(jī)分支,首先使用Resnet50提取多視圖圖像特征。接下來(lái),使用GKT作為2D-to-BEV轉(zhuǎn)換模塊,將多視圖特征轉(zhuǎn)換為BEV空間。生成的攝像機(jī)BEV特征可表示,其中H、W、C分別表示BEV特征的高度、寬度和通道數(shù),上標(biāo)T為“teacher”的縮寫。激光雷達(dá)分支采用SECOND進(jìn)行點(diǎn)云體素化和特征編碼,采用Bevfusion中的展平操作將點(diǎn)云特征投影到BEV空間,表示為。此后,MapTR將和聚合,并使用全卷積網(wǎng)絡(luò)進(jìn)行處理,獲取融合鳥(niǎo)瞰特征。此后,MapTR使用以融合BEV特征作為輸入的地圖編碼器產(chǎn)生高維BEV特征。
然后,教師地圖頭(MapHead)使用分類和點(diǎn)分支來(lái)生成地圖元素類別和點(diǎn)位置的最終預(yù)測(cè):
基于相機(jī)傳感器的模型(學(xué)生):為了提升實(shí)際部署的實(shí)時(shí)推理速度,我們采用MapTR的相機(jī)分支作為學(xué)生模型的基礎(chǔ)。特別的,我們使用Resnet18作為主干來(lái)提取多視圖特征,這可以使網(wǎng)絡(luò)輕量級(jí)且易于部署。在MapTR的基礎(chǔ)上,為了模擬教師模型的多模態(tài)融合管道,我們提出了一個(gè)雙流 BEV轉(zhuǎn)換模塊,將多視圖特征轉(zhuǎn)換成兩個(gè)不同的BEV子空間。具體的來(lái)說(shuō),我們首先使用GKT生成第一個(gè)子空間特征,其中上標(biāo)S表示“student”的縮寫。然后我們使用LSS生成另一個(gè)子空間的鳥(niǎo)瞰特征。此后,我們使用全卷積網(wǎng)絡(luò)融合上述兩個(gè)子空間鳥(niǎo)瞰特征,獲得融合BEV特征。
2.2 MapDistill的細(xì)節(jié)
跨模態(tài)關(guān)系蒸餾:跨模態(tài)關(guān)系蒸餾的核心思想是讓學(xué)生模型在訓(xùn)練過(guò)程中模仿教師模型的跨模態(tài)注意力。更具體地說(shuō),對(duì)于教師模型,我們調(diào)整相機(jī)BEV特征和激光雷達(dá)BEV特征轉(zhuǎn)換為2D patches序列,表示為。之后,我們計(jì)算來(lái)自教師分支的跨模態(tài)注意力,包含C2L注意和L2C注意力,如下所示:
對(duì)于學(xué)生分支,我們使用相同的策略:
此后,我們提出了跨模態(tài)關(guān)系蒸餾,采用KL散度損失幫助對(duì)齊學(xué)生分支與教師分支的跨模態(tài)注意力。
兩級(jí)特征蒸餾:為了方便學(xué)生模型從教師模型中吸收豐富的語(yǔ)義/幾何知識(shí),我們利用融合的BEV特征進(jìn)行特征級(jí)蒸餾。具體來(lái)說(shuō),我們通過(guò)MSE損失,讓老師分支的low-level融合BEV特征監(jiān)督學(xué)生分支對(duì)應(yīng)的low-level BEV特征:
相似地,我們使用MSE損失幫助對(duì)齊由地圖編碼器生成的和:
我們使用兩級(jí)特征蒸餾進(jìn)行統(tǒng)一表示:
地圖任務(wù)頭蒸餾:為了使學(xué)生的最終預(yù)測(cè)接近老師的預(yù)測(cè),我們進(jìn)一步提出了地圖任務(wù)頭蒸餾。具體來(lái)說(shuō),我們使用教師模型生成的預(yù)測(cè)作為偽標(biāo)簽,通過(guò)地圖任務(wù)頭損失來(lái)監(jiān)督學(xué)生模型。地圖任務(wù)頭損失由兩部分表示,其中分類損失函數(shù)用于地圖元素分類,基于曼哈頓距離的點(diǎn)對(duì)點(diǎn)損失用于點(diǎn)位置的回歸:
實(shí)驗(yàn)
與SOTA方法的比較
我們?cè)趎uScenes數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn)。我們將我們的方法與兩類最先進(jìn)的基線進(jìn)行了比較,即基于攝像機(jī)的高精地圖構(gòu)建方法,以及最初被設(shè)計(jì)用于實(shí)現(xiàn)基于BEV的3D目標(biāo)檢測(cè)的知識(shí)蒸餾方法。對(duì)于基于知識(shí)蒸餾的方法,我們實(shí)現(xiàn)了三種基于bev的三維目標(biāo)檢測(cè)方法,并針對(duì)高精地圖構(gòu)建任務(wù)進(jìn)行了修改,分別是BEV-LGKD、BEVDistill和UnDistill。為了公平起見(jiàn),我們使用與我們的方法相同的教師和學(xué)生模型。實(shí)驗(yàn)結(jié)果如表1所示。
消融實(shí)驗(yàn):
三項(xiàng)知識(shí)蒸餾損失函數(shù)的影響:如表2所示,在模型變量(a)、(b)、(c)中,我們單獨(dú)使用不同的蒸餾損失對(duì)學(xué)生分支進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,與基線方法相比,三項(xiàng)損失函數(shù)均對(duì)模型表現(xiàn)出提升。此外,模型變量(d)、(e)、(f)證明了不同蒸餾損失項(xiàng)的結(jié)果是相互補(bǔ)充的。最終,將所有的蒸餾損失融合在一起,我們得到了完整的MapDistill結(jié)果,實(shí)現(xiàn)了53.6mAP的先進(jìn)性能。
不同高精地圖構(gòu)建方法的消融研究:如表5(a)所示,為了探究MapDistill與不同高精地圖構(gòu)建方法的兼容性,我們綜合對(duì)比了兩種流行的方法,結(jié)果如表5a所示。其中,Teacher model-1和Teacher model-2分別是使用SwinTransformer-T的MapTR變體模型和最先進(jìn)的MapTRv2模型。注意,兩個(gè)學(xué)生模型都使用Resnet 18作為主干來(lái)提取多視圖特征。實(shí)驗(yàn)結(jié)果表明,效果更好的教師模型將教出更好的學(xué)生模型。由于已完成預(yù)訓(xùn)練的教師模型已經(jīng)獲得了構(gòu)建高精地圖的寶貴知識(shí),學(xué)生模型可以通過(guò)知識(shí)蒸餾技術(shù)(例如所提出的MapDistill)有效地利用這些知識(shí),從而增強(qiáng)其執(zhí)行相同任務(wù)的能力。此外,結(jié)果表明我們的方法對(duì)不同的教師模型都是有效的。
各種學(xué)生模型的消融研究:如表5(b)所示,為了探究MapDistill在不同學(xué)生模型下的泛化能力,我們綜合考察了兩種流行的骨干網(wǎng)絡(luò)作為學(xué)生模型的骨干。其中Student model- i和Student model- ii是指學(xué)生模型分別采用Resnet50和SwinTransformer-T作為主干提取多視圖特征。這里我們使用MapTR作為Teacher,即表1中的R50&Sec融合模型作為教師模型。實(shí)驗(yàn)結(jié)果表明,我們的方法始終能取得較好的結(jié)果,證明了方法的有效性和泛化能力。
可視化結(jié)果
如圖4所示,我們比較了來(lái)自不同模型的預(yù)測(cè),即基于相機(jī)-激光雷達(dá)的教師模型,沒(méi)有MapDistill的基于攝像機(jī)的學(xué)生模型(基線方法),以及帶有MapDistill的基于攝像機(jī)的學(xué)生模型。各模型的mAP值分別為62.5、45.9、53.6,如表1所示。我們觀察到基線模型的預(yù)測(cè)有很大的不準(zhǔn)確性。然而,采用MapDistill方法部分糾正了這些錯(cuò)誤,提高了預(yù)測(cè)精度。
圖4:nuScenes val 數(shù)據(jù)集的可視化結(jié)果。(a) 輸入的6個(gè)視角圖像。(b)GT (c)基于攝像頭-激光雷達(dá)的教師模型的結(jié)果。(d)沒(méi)有MapDistill的基于相機(jī)的學(xué)生模型的結(jié)果(基線)。(e)使用MapDistill的基于相機(jī)的學(xué)生模型的結(jié)果。
結(jié)論
在本文中,我們提出了一種名為MapDistill的新方法,通過(guò)相機(jī)-激光雷達(dá)融合模型蒸餾來(lái)提高只基于相機(jī)的在線高精地圖構(gòu)建效率,產(chǎn)生一種經(jīng)濟(jì)高效且準(zhǔn)確的解決方案。MapDistill是建立在一個(gè)相機(jī)-激光雷達(dá)融合的教師模型,一個(gè)輕量級(jí)的只依賴于相機(jī)的學(xué)生模型,和一個(gè)專門設(shè)計(jì)的雙流BEV轉(zhuǎn)換模塊。此外,我們還提出了一種包含跨模態(tài)關(guān)系蒸餾、兩級(jí)特征蒸餾和地圖任務(wù)頭蒸餾的綜合蒸餾方案,促進(jìn)了不同模態(tài)內(nèi)部和不同模態(tài)之間的知識(shí)轉(zhuǎn)移,幫助學(xué)生模型獲得更好的性能。大量的實(shí)驗(yàn)和分析驗(yàn)證了我們的MapDistill的設(shè)計(jì)選擇和有效性。
局限性與社會(huì)影響:使用知識(shí)蒸餾策略,學(xué)生模式可以繼承教師模式的弱點(diǎn)。更具體地說(shuō),如果教師模型是有偏見(jiàn)的,或者對(duì)不利的天氣條件和/或長(zhǎng)尾情景沒(méi)有魯棒性,那么學(xué)生模型可能表現(xiàn)得類似。MapDistill具有成本效益,在自動(dòng)駕駛等實(shí)際應(yīng)用中顯示出巨大的潛力。