偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

參數(shù)少60%還不掉點(diǎn)!浙大EfficientFuser:端到端如何高效融合?

人工智能 新聞
今天為大家分享浙江大學(xué)最新的工作EfficientFuser!與SOTA的輕量級方法相比,EfficientFuser僅使用了37.6%的參數(shù)和8.7%的計算量,就能取得相同性能!

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&出發(fā)點(diǎn)

為了應(yīng)對傳感器融合和安全風(fēng)險預(yù)測的挑戰(zhàn),當(dāng)前利用模仿學(xué)習(xí)的閉環(huán)自動駕駛神經(jīng)網(wǎng)絡(luò)通常需要大量的參數(shù)和計算資源來運(yùn)行。鑒于車載計算機(jī)有限的計算能力,這里引入了一種緊湊而強(qiáng)大的解決方案,名為EfficientFuser。該方法采用EfficientViT進(jìn)行視覺信息提取,并通過交叉注意力整合特征圖。隨后,它利用僅含解碼器的transformer將多個特征進(jìn)行融合。為了進(jìn)行預(yù)測,將可學(xué)習(xí)向量作為標(biāo)記embedding,以通過注意力機(jī)制探索任務(wù)與傳感器特征之間的關(guān)聯(lián)。在CARLA仿真平臺上進(jìn)行評估,EfficientFuser表現(xiàn)出色,與最先進(jìn)的輕量級方法相比,僅使用了37.6%的參數(shù)和8.7%的計算量,同時駕駛評分僅低0.4%,安全評分接近領(lǐng)先的增強(qiáng)安全性的方法,展示了其在自動駕駛系統(tǒng)中的有效性和實(shí)際應(yīng)用潛力。

當(dāng)前領(lǐng)域背景

深度神經(jīng)網(wǎng)絡(luò)的成功為基于數(shù)據(jù)驅(qū)動學(xué)習(xí)的自動駕駛(AD)方法鋪平了道路,這些方法利用大規(guī)模數(shù)據(jù)和計算。這使得端到端自動駕駛(E2E AD)系統(tǒng)成為現(xiàn)實(shí)。E2E AD被定義為完全可微的程序,直接將原始傳感器數(shù)據(jù)映射到計劃動作或低級控制命令,從而消除了對中間模塊的需求。這不僅簡化了開發(fā),而且有可能提高性能。E2E AD主要在兩個主要方向上發(fā)展:強(qiáng)化學(xué)習(xí)(RL)和模仿學(xué)習(xí)(IL)。雖然RL能夠增強(qiáng)對數(shù)據(jù)分布變化的魯棒性,但最近駕駛場景生成的進(jìn)步,加上BEV數(shù)據(jù)的日益可用性,使得IL變得越來越有吸引力。

早期的基于模仿學(xué)習(xí)(IL)的端到端自動駕駛(E2E AD)利用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)提取圖像特征并直接模仿控制動作。然而,由于數(shù)據(jù)可用性和計算能力的限制,這些早期系統(tǒng)難以獲得良好的性能。隨后,大多數(shù)研究轉(zhuǎn)向了預(yù)測軌跡(即waypoints)。LBC利用策略提煉,其中使用鳥瞰圖(BEV)語義地圖訓(xùn)練的教師模型預(yù)測未來的waypoints。而學(xué)生模型僅使用圖像數(shù)據(jù),從教師的預(yù)測中學(xué)習(xí)。TransFuser使用兩個CNNs分別提取圖像和激光雷達(dá)(LiDAR)信息,然后利用轉(zhuǎn)換器在每個下采樣步驟中融合這些信息。類似地,InterFuser使用CNNs提取傳感器特征,但利用編碼器-解碼器結(jié)構(gòu)額外融合了交通規(guī)則和車輛密度信息,旨在實(shí)現(xiàn)安全的駕駛策略。TCP結(jié)合了兩種預(yù)測目標(biāo),將控制動作和一段時間內(nèi)的waypoints引入訓(xùn)練,并使用了一種混合軌跡跟蹤器和行為預(yù)測結(jié)果的控制方法。

盡管端到端方法具有潛力,但它們面臨著一個關(guān)鍵障礙:深度神經(jīng)網(wǎng)絡(luò)(DNN)龐大的計算需求與自動駕駛(AD)對實(shí)時、低延遲操作的需求之間存在不匹配。當(dāng)前的車載硬件難以處理DNN的復(fù)雜架構(gòu)和大量參數(shù),從而限制了端到端系統(tǒng)在現(xiàn)實(shí)世界中的可行性。最近,越來越多的研究開始關(guān)注輕量級神經(jīng)網(wǎng)絡(luò)(NN)的設(shè)計。MobileNet利用深度可分離卷積來提高計算效率,同時不損失準(zhǔn)確性。MCUNet則進(jìn)一步推動了小型化的極限,將網(wǎng)絡(luò)適配到僅有256KB內(nèi)存的嵌入式平臺上,極大地擴(kuò)展了在資源受限環(huán)境中的部署可能性。盡管在輕量級NN設(shè)計方面取得了進(jìn)展,但專門為端到端自動駕駛系統(tǒng)量身定制的此類網(wǎng)絡(luò)仍然稀缺。

為了克服端到端自動駕駛(E2E AD)的計算障礙,這里引入了EfficientFuser,這是一個強(qiáng)大且硬件友好的模型,它使用EfficientViT從多視角進(jìn)行特征提取,并采用僅解碼器的轉(zhuǎn)換器結(jié)合任務(wù)引導(dǎo)嵌入進(jìn)行預(yù)測。交叉注意力機(jī)制無縫地在不同尺度上整合了多視角信息。值得注意的是,EfficientFuser在保持強(qiáng)大功能和效率的同時,所需的參數(shù)和計算量更少,非常適合于實(shí)際應(yīng)用。主要貢獻(xiàn)如下:

  • EfficientFuser通過交叉注意力機(jī)制融合多個camera視角,提供了對環(huán)境更豐富的理解,同時計算負(fù)擔(dān)不大。
  • 使用僅解碼器的轉(zhuǎn)換器進(jìn)行預(yù)測過程,通過學(xué)習(xí)到的向量作為嵌入令牌,解碼器通過注意力機(jī)制找到任務(wù)與傳感器特征之間的聯(lián)系。
  • 預(yù)測的waypoints和控制輸入被動態(tài)混合,提供了對不同駕駛場景的靈活適應(yīng)性和潛在的安全行為。

EfficientFuser結(jié)構(gòu)

如圖1所示,該架構(gòu)包含三個組件:(1) 交叉注意力特征融合。(2) 僅解碼器的transformer用于預(yù)測。(3) 動態(tài)混合行為預(yù)測結(jié)果和waypoints跟蹤器actions。

圖片

EfficientFuser的決策過程基于一個廣泛的輸入狀態(tài)x,它融合了多個數(shù)據(jù)源:傳感器信號i,通過車輛相機(jī)捕捉實(shí)時環(huán)境狀況;車輛速度v,表示當(dāng)前速度;以及高級導(dǎo)航信息g,包括來自全局規(guī)劃器的離散導(dǎo)航指令和目標(biāo)坐標(biāo)。為了調(diào)節(jié)車輛的速度和方向,系統(tǒng)生成油門∈[0, 1]、剎車∈[0, 1]和轉(zhuǎn)向∈[-1, 1]的輸出,分別控制加速、減速和轉(zhuǎn)向。

模仿學(xué)習(xí)(IL)的目標(biāo)是學(xué)習(xí)一個策略π,該策略能夠模仿專家π* 的行為。TCP認(rèn)為軌跡和控制動作都包含重要的駕駛信息,因此兩者都應(yīng)作為模仿目標(biāo)。EfficientFuser遵循TCP的設(shè)置。不同之處在于,TCP首先預(yù)測軌跡,然后利用軌跡來指導(dǎo)控制動作的預(yù)測,而EfficientFuser則在解碼器中通過注意力機(jī)制完全交換這兩者之間的信息,并同時進(jìn)行預(yù)測。模仿目標(biāo)可以表述為:

圖片

其中,$D ~ (x, [π^_t, π^_c]) $是一個數(shù)據(jù)集,包含從專家那里收集的狀態(tài)-動作對。πc 表示控制分支的策略,πt 表示軌跡預(yù)測。L 是衡量專家動作與模型動作之間接近程度的損失。

Roach 被用作專家,它是一個相對簡單的模型,通過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練得到,并可以訪問特權(quán)信息。這些信息涵蓋了駕駛環(huán)境的各個方面,如道路、車道、路線、車輛、行人、交通信號燈和停車標(biāo)志,所有這些都被渲染成2D鳥瞰圖(BEV)圖像。與基于手工規(guī)則的專家相比,Roach可以為控制動作預(yù)測提供潛在特征作為中間監(jiān)督,使訓(xùn)練更加穩(wěn)定。

1)結(jié)構(gòu)設(shè)計

該結(jié)構(gòu)結(jié)合了視覺transformer(ViT)和大語言模型(LLM)中的僅解碼器transformer。

圖片

2)Image Backbone

EfficientViT 被用作視覺主干網(wǎng)絡(luò)。它首先將輸入圖像分割成更小的塊(例如,16x16 像素)。然后,將這些block展平并視為一系列標(biāo)記(token),類似于句子中的單詞。隨后,transformer的自注意力機(jī)制對這些圖像塊token進(jìn)行操作,這使得 ViT 能夠?qū)W習(xí)圖像不同區(qū)域之間的復(fù)雜關(guān)系。雖然標(biāo)準(zhǔn)的 ViT 往往需要大量的計算資源,但采用級聯(lián)group注意力(Cascaded Group Attention)的 EfficientViT 能夠保持高效。這種方法允許更快的處理速度和更低的內(nèi)存使用量。與基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的融合方法 Transfuser 不同,后者在每個下采樣之后都依賴于多個transformer層進(jìn)行融合,ViT 可以直接與小圖像block一起工作。對于 Transfuser 來說,在transformer階段之前,CNN 仍然需要進(jìn)行特征池化以減少計算負(fù)擔(dān),之后可能還需要進(jìn)行插值以恢復(fù)分辨率。這種插值可能會損害原始特征圖的完整性。

為了保留原始圖像特征,采用了一種利用兩個圖像主干網(wǎng)絡(luò)之間交叉注意力的方法,這能夠?qū)崿F(xiàn)兩個視角之間的知識交換,引導(dǎo)它們關(guān)注特定區(qū)域的相關(guān)特征,如圖2所示。

圖片

3) Decoder Transformer

在序列處理領(lǐng)域,Transformer通常依賴于編碼器-解碼器結(jié)構(gòu)。編碼器首先處理輸入序列(圖像塊)并提取關(guān)鍵信息,最終生成一個context 向量,該向量捕獲了整個輸入的本質(zhì)。然后,解碼器接手,利用context 向量和來自其他信息(如速度、命令、占用圖等)的查詢來逐個生成輸出序列的元素。這就是InterFuser的工作原理。

受流行的大型語言模型(如GPT[18])的啟發(fā),我們采用僅解碼器的轉(zhuǎn)換器架構(gòu)來對所有輸入數(shù)據(jù)進(jìn)行統(tǒng)一學(xué)習(xí)。研究表明,這種僅解碼器的框架不僅提供了增強(qiáng)的泛化能力,還具有更簡潔的結(jié)構(gòu)、更高的操作效率和更好的可擴(kuò)展性。

與典型的基于transformer的架構(gòu)(該架構(gòu)交互標(biāo)記特征然后將其送入預(yù)測頭)不同,我們的方法引入了一個獨(dú)特的預(yù)測嵌入向量。該向量使用從高斯分布中抽取的隨機(jī)值進(jìn)行初始化,并在整個訓(xùn)練過程中學(xué)習(xí)預(yù)測任務(wù)的特征表示。這種技術(shù)不僅提高了解碼器組件的可擴(kuò)展性,還利用注意力機(jī)制在早期階段識別標(biāo)記之間的有利關(guān)系。示意圖如圖3所示。

圖片

4) Dynamic control

與TCP(傳輸控制協(xié)議)不同,TCP優(yōu)先考慮模型預(yù)測的控制量,而忽略了waypoints跟蹤器的控制量,而本文認(rèn)為,底層控制器的偏好應(yīng)根據(jù)駕駛場景動態(tài)調(diào)整。

為了實(shí)現(xiàn)這一目標(biāo),開發(fā)了一個損失估計器,它利用waypoints頭部中的GRU(門控循環(huán)單元)的隱藏特征和控制頭部的中間特征作為輸入,從而對兩者的訓(xùn)練損失進(jìn)行建模。該過程的結(jié)果被用作預(yù)測置信度的度量,進(jìn)而用于調(diào)整最終控制序列的偏好。更具體地說,可以表述如下:

圖片

實(shí)驗(yàn)結(jié)果

評估指標(biāo)。使用四個指標(biāo)來評估方法的有效性:駕駛分?jǐn)?shù)(DS)、路線完成率(RC)、參數(shù)數(shù)量(Param)和浮點(diǎn)運(yùn)算次數(shù)(Flops)。其中,DS和RC用于表示駕駛效果,Param和Flops用于表示神經(jīng)網(wǎng)絡(luò)的效率。

駕駛分?jǐn)?shù)(DS)是Carla排行榜的主要指標(biāo),它是路線完成率和違規(guī)罰分的乘積。RC表示智能體完成的路線距離百分比。Param指的是需要保存的參數(shù)總數(shù),它代表神經(jīng)網(wǎng)絡(luò)的大小,并通常決定了運(yùn)行神經(jīng)網(wǎng)絡(luò)所需的存儲空間量。Flops是衡量通過網(wǎng)絡(luò)執(zhí)行一次前向傳播(推理)所需的計算成本的指標(biāo)。

數(shù)據(jù)集。使用CARLA模擬器進(jìn)行訓(xùn)練和測試,具體是CARLA 0.9.10版本。在7個城鎮(zhèn)上進(jìn)行訓(xùn)練,在Town05上進(jìn)行評估。選擇Town05進(jìn)行評估是因?yàn)榕c其他CARLA城鎮(zhèn)相比,其可駕駛區(qū)域具有較大的多樣性,例如多車道和單車道道路、高速公路和出口、橋梁和地道。為了進(jìn)一步提高駕駛安全性的評估,將涉及行人突然出現(xiàn)和車輛異常行為的場景集成到模擬環(huán)境中??紤]兩種評估設(shè)置:(1) Town05 Short:32條100-500米的短路線,每條路線包含3個路口;(2) Town05 Long:10條1000-2000米的長路線,每條路線包含10個路口。天氣條件為晴朗中午。

訓(xùn)練。使用EfficientViT-m1和m0作為視覺主干,并加載ImageNet預(yù)訓(xùn)練權(quán)重。其他部分使用高斯隨機(jī)數(shù)進(jìn)行初始化。EfficientFuser以0.0005的學(xué)習(xí)率訓(xùn)練60個周期,然后以0.0001的學(xué)習(xí)率再訓(xùn)練60個周期。bs大小為256。使用Adam優(yōu)化器,權(quán)重衰減為1e-7。每30個周期將學(xué)習(xí)率減半。設(shè)置了四個損失部分,即速度損失Ls、特征損失Lf、航點(diǎn)損失Lw和控制損失Lc。Lf和Ls是中間監(jiān)督,用于指導(dǎo)訓(xùn)練,這與TCP類似。

結(jié)果對比

表1展示了在公開的Carla排行榜框架內(nèi),EfficientFuser與其他顯著研究的比較分析。EfficientFuser的性能以兩個不同版本進(jìn)行闡述。初始版本結(jié)合了前視圖和焦點(diǎn)視圖(即增強(qiáng)的正面視角)的輸入,圖像分辨率為256x256?!案鼘捯曇啊钡3窒嗤南鄼C(jī)方向,但將圖像寬度擴(kuò)展到768像素,從而捕捉更廣泛的信息。

EfficientFuser顯著減小了基于模仿學(xué)習(xí)的閉環(huán)自動駕駛模型的大小,達(dá)到了前所未有的水平。與最先進(jìn)的輕量級方法TCP相比,EfficientFuser的模型大小僅為TCP的37.6%,計算需求僅為TCP的8.5%。盡管EfficientFuser的神經(jīng)網(wǎng)絡(luò)(NN)大小顯著減小,但在Town05 Short場景中,其駕駛分?jǐn)?shù)(DS)僅下降了0.4%。與在相似參數(shù)和計算負(fù)載下的CIL相比,EfficientFuser表現(xiàn)出色,在DS上獲得了顯著的73分優(yōu)勢。

圖片

作為一種前沿的易于實(shí)現(xiàn)的閉環(huán)自動駕駛解決方案,InterFuser在路線完成率(RC)上與EfficientFuser相似,但駕駛分?jǐn)?shù)(DS)提高了6.3分。然而,這一提升是以參數(shù)數(shù)量增加8.4倍和計算需求增加31.6倍為代價的。基于檢測結(jié)果,這些模型通常采取謹(jǐn)慎的方法,建議在車輛長時間靜止且路徑上沒有任何障礙物時緩慢行駛。憑借其增強(qiáng)的安全駕駛策略,InterFuser甚至?xí)R別到遠(yuǎn)處下一個無法到達(dá)的路口紅燈并停下來——這種行為不符合典型的人類駕駛模式,而EfficientFuser則不會出現(xiàn)這種情況。

為了突出EfficientFuser的安全性能,我們在Town05 Short上報告了各種方法因違規(guī)而受到的處罰。EfficientFuser在安全性方面顯著超過了TCP和Transfuser設(shè)定的基準(zhǔn),并且僅略遜于以安全為核心的InterFuser。

圖片

EfficientFuser采用了一種新穎的方法,通過引入一個可學(xué)習(xí)的嵌入向量來進(jìn)行預(yù)測。這種方法與傳統(tǒng)做法不同,后者通常直接將傳感器標(biāo)記信息輸入到預(yù)測頭中。通過采用這種設(shè)計,EfficientFuser開始在早期階段探索預(yù)測目標(biāo)與輸入數(shù)據(jù)之間的相關(guān)性,從而生成特定于任務(wù)的表示。為了說明這種方法的影響,我們可視化了兩個代表性的注意力圖。紅線將來自不同信息源的標(biāo)記分隔開。以橫坐標(biāo)為例,從左到右分別是預(yù)測標(biāo)記、測量標(biāo)記、側(cè)視圖標(biāo)記和主視圖標(biāo)記。

圖片

消融實(shí)驗(yàn)

為了全面調(diào)查系統(tǒng)架構(gòu)并評估提出方法的有效性,進(jìn)行了一系列消融研究。首先,評估了使用不同大小的圖像主干的影響以及跨注意力融合器帶來的性能提升。隨后,我們探索了改變解碼器層深度和實(shí)現(xiàn)可學(xué)習(xí)向量嵌入的影響。最后,動態(tài)控制調(diào)整與TCP中采用的靜態(tài)分配方法進(jìn)行了比較。這些實(shí)驗(yàn)的結(jié)果均在Town05 Short上收集,為分析每個組件對整體性能的貢獻(xiàn)提供了全面的視角。

跨注意力融合是一種高效的方法,在EfficientFuser中僅增加了5.7%的額外參數(shù)和7.2%的計算量。盡管其計算需求很小,但跨注意力在EfficientFuser中發(fā)揮著關(guān)鍵作用。缺少這種多級圖像信息交互會顯著影響系統(tǒng)的有效性,導(dǎo)致駕駛分?jǐn)?shù)大幅降低14.9分。這凸顯了跨注意力在促進(jìn)有效特征融合和提高模型做出明智決策能力方面的重要性。

圖片

直觀上,人們可能會認(rèn)為更大的圖像主干由于其增強(qiáng)的特征提取能力會產(chǎn)生更好的結(jié)果。然而,如表2所示,主干大小的增加實(shí)際上降低了模型的性能。這種反直覺的結(jié)果可能歸因于訓(xùn)練任務(wù)的復(fù)雜性,這阻礙了更大主干充分訓(xùn)練潛力的發(fā)揮。

在評估解碼器層時,建立了兩組比較分析。第一組研究了解碼器層深度變化的影響。隨后考察了我們提出的將可學(xué)習(xí)向量作為預(yù)測標(biāo)記的方法。為了比較,進(jìn)行了另一項(xiàng)實(shí)驗(yàn),其中沒有使用可學(xué)習(xí)向量并將其集成到標(biāo)記維度中,而是對傳感器特征進(jìn)行了平均處理,并將其發(fā)送到預(yù)測頭以觀察對預(yù)測的影響。這些調(diào)查的結(jié)果列于表3中。

圖片

盡管引入了一些輕微的計算開銷,但EfficientFuser所使用的可學(xué)習(xí)向量方法顯著提高了駕駛性能。關(guān)于解碼器層的深度,很明顯增加深度并不一定會提高性能。雖然車輛的響應(yīng)能力(RC)可能會增加,但駕駛得分(DS)卻大幅下降,這表明車輛開始忽視與安全相關(guān)的信息。這一現(xiàn)象在視覺注意力圖中也可以觀察到;從第七層開始,焦點(diǎn)從預(yù)測標(biāo)記轉(zhuǎn)移到加強(qiáng)某些測量標(biāo)記信息的方向上。

EfficientFuser采用了TCP使用的混合控制,并結(jié)合了動態(tài)分配策略。為了驗(yàn)證動態(tài)調(diào)整方法的有效性,我們進(jìn)行了關(guān)于TCP設(shè)置和動態(tài)設(shè)置的實(shí)驗(yàn)。表4中的結(jié)果證實(shí)了動態(tài)分配組件的有效性,提高了駕駛得分(DS)和響應(yīng)能力(RC)。

圖片

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2022-11-08 15:11:17

GPU開源

2022-09-02 10:20:44

網(wǎng)絡(luò)切片網(wǎng)絡(luò)5G

2011-04-22 09:25:37

思科數(shù)據(jù)中心交換矩陣融合技術(shù)

2022-09-21 11:48:40

端到端音視頻測試用戶體驗(yàn)

2022-10-19 09:27:39

2024-08-29 09:40:51

2024-04-17 09:50:28

自動駕駛端到端

2010-01-20 16:12:16

專家答疑端到端加密保護(hù)數(shù)據(jù)

2018-08-13 21:19:07

Weld開源數(shù)據(jù)

2009-06-12 15:35:36

直播

2009-11-04 17:31:17

2009-07-14 13:28:54

微軟虛擬化服務(wù)器虛擬化hyperv

2021-05-27 14:23:50

加密端到端加密加密技術(shù)

2020-10-26 13:51:11

Kafka數(shù)據(jù)端到端

2021-06-30 09:00:00

測試Web軟件

2024-02-21 09:14:32

端到端自動駕駛

2015-04-14 10:28:25

戴爾云計算

2024-04-19 16:15:30

云計算

2018-12-19 08:24:32

2021-06-28 21:24:29

5G網(wǎng)絡(luò)安全網(wǎng)絡(luò)風(fēng)險
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號