『拯救』開(kāi)放異構(gòu)場(chǎng)景 | HEAL:最新可擴(kuò)展協(xié)作感知框架
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
協(xié)同感知技術(shù)能夠有效解決自動(dòng)駕駛車輛單體感知中存在的障礙物遮擋、視角受限、以及遠(yuǎn)距離感知能力弱等問(wèn)題。然而,現(xiàn)有的工作都做了一個(gè)過(guò)分簡(jiǎn)單的假設(shè),即參與協(xié)作的智能體使用相同的傳感器,部署相同的感知模型。在現(xiàn)實(shí)情況下,發(fā)生協(xié)作的智能體極有可能異構(gòu)的,并且傳感器模態(tài)和感知模型的類別將不斷增加。新出現(xiàn)的異構(gòu)智能體的模態(tài)和模型會(huì)和已有的智能體存在顯著的域差異(domain gap),難以實(shí)現(xiàn)協(xié)作。
為了解決這一實(shí)際挑戰(zhàn),ICLR 2024的最新研究文章 《An Extensible Framework for Open Heterogeneous Collaborative Perception》定義了開(kāi)放異構(gòu)協(xié)作感知問(wèn)題(Open Heterogeneous Collaborative Perception):如何將不斷出現(xiàn)的新異構(gòu)智能體類型加入已有協(xié)作感知系統(tǒng),同時(shí)確保高感知性能和低加入成本?來(lái)自上海交通大學(xué)、南加州大學(xué)和上海人工智能實(shí)驗(yàn)室的研究者們?cè)诒疚闹刑岢隽薍EAL(HEterogeneous ALliance):一種可擴(kuò)展的異構(gòu)智能體協(xié)作框架,有效解決了開(kāi)放異構(gòu)協(xié)作感知問(wèn)題的兩大痛點(diǎn)。
同時(shí),他們搭建了一個(gè)集成了多個(gè)協(xié)作感知數(shù)據(jù)集、多個(gè)協(xié)作感知算法、支持多模態(tài)的代碼框架,目前已經(jīng)跟隨HEAL完全開(kāi)源。論文作者表示這是當(dāng)前最完整的協(xié)作感知代碼框架,相信能讓更多人快速上手多模態(tài)、異構(gòu)的協(xié)作感知研究。
- 論文鏈接:https://arxiv.org/abs/2401.13964
- 代碼鏈接:https://github.com/yifanlu0227/HEAL
研究背景和意義
近年來(lái),自動(dòng)駕駛領(lǐng)域在學(xué)術(shù)界和工業(yè)界都受到了極大的關(guān)注。但真實(shí)世界中道路情況復(fù)雜多變,加上單車傳感器可能被周圍車輛遮擋,給單車的自動(dòng)駕駛感知帶來(lái)極大挑戰(zhàn)(如下圖)。多智能體之間的協(xié)作感知為單體感知存在的這些問(wèn)題提供了解決方案。隨著通信技術(shù)的發(fā)展,多個(gè)智能體之間可以利用通信共享彼此的感知信息,結(jié)合自身傳感器信息與其他智能體的信息,對(duì)周圍環(huán)境進(jìn)行感知。通過(guò)智能體之間的協(xié)作,每個(gè)智能體可以獲取自身視野盲區(qū)與可視距離以外的信息,有助于提升每個(gè)智能體的感知以及決策能力。
圖 1. 視線遮擋造成的“鬼探頭”問(wèn)題,單車感知受限
在這一研究領(lǐng)域,大多數(shù)當(dāng)前工作基于一個(gè)看似合理但過(guò)于簡(jiǎn)化的假設(shè):所有智能體必須是同構(gòu)的;即所有智能體的感知系統(tǒng)都使用相同的傳感器,并共享相同的檢測(cè)模型。然而,在現(xiàn)實(shí)世界中,不同智能體的模態(tài)和模型很可能是異構(gòu)的,且新的模態(tài)、模型可能會(huì)不斷出現(xiàn)。由于傳感器技術(shù)和算法的快速迭代,從一開(kāi)始就確定所有參與協(xié)作的智能體類別(包括模態(tài)和模型)是不切實(shí)際的。當(dāng)一個(gè)從未出現(xiàn)在訓(xùn)練集中的異構(gòu)智能體希望加入?yún)f(xié)作時(shí),它不可避免地會(huì)遇到與現(xiàn)有智能體之間的域差異(domain gap)。這一差異將阻礙其與現(xiàn)有智能體進(jìn)行特征融合的能力,并顯著限制了協(xié)作感知的可擴(kuò)展性。
因此,開(kāi)放異構(gòu)協(xié)作感知問(wèn)題隨之而生:如何將不斷出現(xiàn)的新智能體類型加入到現(xiàn)有的協(xié)作感知系統(tǒng),同時(shí)確保高感知性能和低集成成本?
圖 2. (a) 同構(gòu)協(xié)作感知 (b) 異構(gòu)協(xié)作感知 (c) 考慮新異構(gòu)智能體加入的開(kāi)放異構(gòu)協(xié)作感知 (d) HEAL在使用最少訓(xùn)練成本的同時(shí)達(dá)到了最佳的協(xié)作感知性能
為了解決這個(gè)問(wèn)題,一個(gè)可行的解決方案是后融合。通過(guò)融合每個(gè)智能體的感知輸出(如3D包圍框),后融合繞過(guò)了新智能體和現(xiàn)有智能體之間的異構(gòu)性,且訓(xùn)練只需要發(fā)生在單智能體類別上。然而,后融合的性能并不理想,并被證明特別容易受到定位噪聲和通信延遲等干擾因素等影響。另一種潛在的方法是完全集體培訓(xùn),它匯總了協(xié)作中的所有智能體類型進(jìn)行協(xié)作訓(xùn)練,以克服領(lǐng)域差異。然而,每次引入新的智能體類型時(shí),這種方法都需要重新訓(xùn)練所有模型。隨著新異構(gòu)智能體的不斷出現(xiàn),訓(xùn)練的代價(jià)急劇上升。HEAL提出了一個(gè)全新的開(kāi)放異構(gòu)協(xié)作框架,同時(shí)具有完全集體訓(xùn)練的高性能和后融合的低訓(xùn)練成本。
問(wèn)題定義
開(kāi)放異構(gòu)協(xié)作感知問(wèn)題考慮如下場(chǎng)景:將具有先前未出現(xiàn)的模態(tài)或者模型的異構(gòu)智能體類別加入到已有的協(xié)作系統(tǒng)中。不失一般性的,我們考慮場(chǎng)景初始由個(gè)同構(gòu)的智能體組成,他們配備了相同類別的傳感器、部署了相同的檢測(cè)模型,并且都具有相互通信的能力。這些同構(gòu)的智能體構(gòu)成了一個(gè)已有的協(xié)作系統(tǒng)。隨后,場(chǎng)景中從未出現(xiàn)過(guò)的模態(tài)或感知模型的異構(gòu)智能體加入到協(xié)作系統(tǒng)當(dāng)中。這種動(dòng)態(tài)特性是在現(xiàn)實(shí)世界中部署協(xié)作感知的一個(gè)顯著特征:智能體類別不會(huì)在開(kāi)始時(shí)被完全確定,其類型數(shù)量可能會(huì)隨著時(shí)間的推移而增加。它與先前的異構(gòu)協(xié)作感知問(wèn)題(其中異構(gòu)的類別是提前確定好并固定的)也截然不同。
方法介紹
本文提出的開(kāi)放異構(gòu)協(xié)作感知框架HEAL(HEterogeneous ALliance),設(shè)計(jì)了兩階段的方法來(lái)將新的異構(gòu)智能體加入到協(xié)作中,以實(shí)現(xiàn)不斷增長(zhǎng)的異構(gòu)聯(lián)盟:i)協(xié)作基類訓(xùn)練,令初始智能體訓(xùn)練一個(gè)特征融合協(xié)作網(wǎng)絡(luò)并創(chuàng)建統(tǒng)一的特征空間;ii)新智能體訓(xùn)練,將新智能體的特征與之前建立的統(tǒng)一特征空間對(duì)齊,從而允許新智能體和已有智能體進(jìn)行特征層面的協(xié)作。
對(duì)于每個(gè)新智能體類型加入?yún)f(xié)作,只需要第二階段的訓(xùn)練。值得注意的是,第二階段的訓(xùn)練可以由智能體所有者獨(dú)立進(jìn)行,不涉及與已有智能體的集體訓(xùn)練。這允許新智能體的加入有較低的訓(xùn)練成本,同時(shí)還能保護(hù)新智能體的模型細(xì)節(jié)不被暴露。
圖 3. HEAL的整體框架
一階段:協(xié)作基類訓(xùn)練
我們將場(chǎng)景中一開(kāi)始存在的個(gè)同構(gòu)智能體作為協(xié)作基類,并且訓(xùn)練一個(gè)基于特征融合的協(xié)作感知網(wǎng)絡(luò)。我們提出一個(gè)新穎的金字塔融合網(wǎng)絡(luò)來(lái)提取并融合多智能體的特征,具體在于:對(duì)于每個(gè)同構(gòu)智能體的編碼器編碼出來(lái)的BEV特征,我們讓他經(jīng)過(guò)多層不同尺度的ResNeXt網(wǎng)絡(luò),以提取粗粒度和細(xì)粒度的特征信息。對(duì)于不同尺度的特征圖,我們都對(duì)其應(yīng)用前景預(yù)測(cè)器網(wǎng)絡(luò),估計(jì)BEV每個(gè)特征位置存在車輛等前景的概率。在協(xié)作者之間,前景的概率圖會(huì)被歸一化,作為將特征圖逐像素加權(quán)融合的權(quán)重分布。獲得不同尺度下的融合特征圖以后,我們利用一系列上采樣網(wǎng)絡(luò),將其轉(zhuǎn)化到相同的特征圖尺寸,并且得到最終融合的特征圖。
圖 4. 金字塔融合網(wǎng)絡(luò)
融合后的特征圖會(huì)經(jīng)過(guò)一個(gè)檢測(cè)頭,轉(zhuǎn)為最終的協(xié)作檢測(cè)結(jié)果。協(xié)作檢測(cè)結(jié)果和前景的概率圖都受到ground-truth的監(jiān)督。經(jīng)過(guò)訓(xùn)練后,協(xié)作網(wǎng)絡(luò)(金字塔融合網(wǎng)絡(luò))的參數(shù)保存了協(xié)作基類的相關(guān)特征信息,構(gòu)建了一個(gè)共享的特征空間,用于后續(xù)新異構(gòu)智能體的對(duì)齊。
二階段:新智能體訓(xùn)練
我們考慮加入一種新的異構(gòu)智能體類型。我們提出一種新穎的后向?qū)R方法。核心想法是利用上一階段的金字塔融合網(wǎng)絡(luò)和檢測(cè)頭作為新智能體的檢測(cè)器后端,并僅更新前端編碼器相關(guān)的參數(shù)。
值得注意的是,我們對(duì)新的異構(gòu)類別的單個(gè)智能體進(jìn)行單體訓(xùn)練,不涉及智能體之間的協(xié)作。因此,金字塔融合網(wǎng)絡(luò)的輸入是單張?zhí)卣鲌D,而不是一階段中的多智能體特征圖。隨著預(yù)訓(xùn)練的金字塔融合模塊和檢測(cè)頭被確立為后端和固定,訓(xùn)練過(guò)程演變?yōu)樽屒岸司幋a器適應(yīng)后端的參數(shù),從而使新智能體編碼的特征與統(tǒng)一特征空間保持一致。由于特征和已有智能體的特征對(duì)齊,他們能實(shí)現(xiàn)高性能的特征層面的協(xié)作。
后向?qū)R還顯示了一個(gè)獨(dú)特的優(yōu)勢(shì):訓(xùn)練僅在新的單個(gè)智能體上進(jìn)行。這大大降低了每次新智能體加入的訓(xùn)練成本和時(shí)空同步的數(shù)據(jù)采集成本。此外,它防止新代理的模型細(xì)節(jié)暴露給他人,并允許新智能體的所有者使用自己的傳感器數(shù)據(jù)訓(xùn)練模型。這將顯著解決汽車公司在部署車輛協(xié)作感知技術(shù)(V2V)時(shí)可能存在的許多顧慮。
實(shí)驗(yàn)結(jié)果
本文在OPV2V數(shù)據(jù)集的基礎(chǔ)上,提出了一個(gè)更加數(shù)據(jù)異構(gòu)的OPV2V-H數(shù)據(jù)集,補(bǔ)充了每輛車輛16線和32線的激光雷達(dá)數(shù)據(jù),以及4個(gè)深度攝像頭的數(shù)據(jù)。在OPV2V-H數(shù)據(jù)集和真實(shí)數(shù)據(jù)集DAIR-V2X上的實(shí)驗(yàn)結(jié)果表明,HEAL顯著地降低了異構(gòu)智能體加入?yún)f(xié)作的一系列訓(xùn)練成本(訓(xùn)練參數(shù),F(xiàn)LOPs,訓(xùn)練時(shí)間等等),還保持了極高的協(xié)作檢測(cè)性能。
圖 5. HEAL同時(shí)擁有高性能和低訓(xùn)練成本
存在定位噪聲和特征壓縮的情況下,HEAL依然保持了最佳的檢測(cè)性能,展示了在更加接近現(xiàn)實(shí)的設(shè)定下,HEAL是目前最有效的協(xié)作感知算法。