偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

再上新臺(tái)階!視覺大語(yǔ)言模型在自動(dòng)駕駛和智能交通中的最新應(yīng)用

人工智能 智能汽車
智能移動(dòng)在現(xiàn)代文明中至關(guān)重要,推動(dòng)經(jīng)濟(jì)增長(zhǎng),支持城市發(fā)展,加強(qiáng)社會(huì)聯(lián)系。近年來(lái),深度學(xué)習(xí)和計(jì)算能力的快速發(fā)展深刻地影響了交通運(yùn)輸,提高了其效率和智能化。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&&一點(diǎn)思考

當(dāng)前VLM, LLM十分的熱門, 尤其是在自動(dòng)駕駛領(lǐng)域, 自動(dòng)駕駛的輸入本身就是多模態(tài)的, 這里面最重要的就是圖像和語(yǔ)言信息, 所以如何將圖像和文本信息綜合利用, 以及如何充分利用LLM是當(dāng)前急需要探索的, 目前其實(shí)已有部分工作是關(guān)于VLM及LLM在自動(dòng)駕駛中應(yīng)用的, 比如為了利用文本信息,為了出可解釋性, 但是其實(shí)VLM與LLM在自動(dòng)駕駛中的應(yīng)用遠(yuǎn)不止這些, 可以結(jié)合的地方有很多, 比如感知, 決策,規(guī)劃, 可以分別從這些方向入手探討結(jié)合的方向。另外不光是自動(dòng)駕駛領(lǐng)域,應(yīng)該說整個(gè)cv領(lǐng)域在接下來(lái)都會(huì)有不少這方面的工作, 比如目標(biāo)檢測(cè),分割,  跟蹤, 分類,  行人ReID, 車輛ReID等,都可以借助VLM與LLM, 重新思考新的駕構(gòu), 使得性能再上一個(gè)新的臺(tái)階.

這項(xiàng)工作的意義

視覺語(yǔ)言模型(VLM)在自動(dòng)駕駛(AD)和智能交通系統(tǒng)(ITS)領(lǐng)域的應(yīng)用引起了廣泛關(guān)注,這是因?yàn)樗鼈兊某錾阅芎屠么笮驼Z(yǔ)言模型(LLM)的能力。通過整合語(yǔ)言數(shù)據(jù),車輛和交通系統(tǒng)能夠深入理解現(xiàn)實(shí)環(huán)境,提高駕駛安全性和效率。在這項(xiàng)工作中,我們對(duì)這個(gè)領(lǐng)域的語(yǔ)言模型的進(jìn)展進(jìn)行了全面的調(diào)研,包括當(dāng)前的模型和數(shù)據(jù)集。此外,還探討了潛在的應(yīng)用和新興的研究方向。最后,全面討論了挑戰(zhàn)和研究空白。

有哪些貢獻(xiàn)?

智能移動(dòng)在現(xiàn)代文明中至關(guān)重要,推動(dòng)經(jīng)濟(jì)增長(zhǎng),支持城市發(fā)展,加強(qiáng)社會(huì)聯(lián)系。近年來(lái),深度學(xué)習(xí)和計(jì)算能力的快速發(fā)展深刻地影響了交通運(yùn)輸,提高了其效率和智能化。智能移動(dòng)的兩個(gè)新興領(lǐng)域是自動(dòng)駕駛(AD)和智能交通系統(tǒng)(ITS)。

自動(dòng)駕駛力圖使車輛能夠感知環(huán)境并智能駕駛。當(dāng)前的自動(dòng)駕駛技術(shù),尤其是與感知和預(yù)測(cè)相關(guān)的技術(shù),極大地受益于計(jì)算機(jī)視覺的進(jìn)步。例如,感知模塊通常使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)或Transformer ,從相機(jī)或激光雷達(dá)等傳感器中處理數(shù)據(jù),準(zhǔn)確識(shí)別和定位周圍的實(shí)體。然而,盡管取得了這些技術(shù)上的突破,當(dāng)前的計(jì)算機(jī)視覺解決方案仍然在復(fù)雜和快速變化的環(huán)境中面臨困難。它們經(jīng)常無(wú)法捕捉復(fù)雜細(xì)節(jié)或理解上下文,從而導(dǎo)致潛在的安全問題,并限制了向更先進(jìn)的自動(dòng)駕駛的發(fā)展。

另一方面, 智能交通系統(tǒng)旨在提高交通安全性和流動(dòng)性, 但盡管多年來(lái)它們的效率和可靠性有所提高,但挑戰(zhàn)仍然存在。例如,實(shí)時(shí)交通流量預(yù)測(cè)很容易受到天氣、碰撞事件或道路施工等各種環(huán)境因素的影響。

LLM 和VLM 的出現(xiàn)為當(dāng)前自動(dòng)駕駛和智能交通系統(tǒng)固有的局限性提供了潛在解決方案。這些新穎的技術(shù)綜合了語(yǔ)言和視覺數(shù)據(jù),為車輛和系統(tǒng)深入理解周圍環(huán)境的未來(lái)帶來(lái)了希望。這標(biāo)志著智能、高效和可解釋的交通運(yùn)輸?shù)男聲r(shí)代。除了增強(qiáng)AD或ITS中的傳統(tǒng)任務(wù),如目標(biāo)檢測(cè)或交通流量預(yù)測(cè),新興領(lǐng)域還包括零樣本感知和事故分析,如下圖所示

考慮到將語(yǔ)言模型應(yīng)用于自動(dòng)駕駛和智能系統(tǒng)的研究激增,系統(tǒng)和全面的調(diào)研對(duì)于研究界非常重要。然而,現(xiàn)有的調(diào)研要重點(diǎn)在LLMs、VLMs、AD、TS各自領(lǐng)域上比較分散,沒有一個(gè)綜述系統(tǒng)地探討VLMs在AD和ITS中的應(yīng)用。

為此,我們對(duì)自動(dòng)駕駛和智能交通系統(tǒng)中視覺語(yǔ)言模型的現(xiàn)有算法進(jìn)行了綜述,突出了研究界的最新技術(shù)趨勢(shì)。

整體框架如下

該工作的主要貢獻(xiàn)可以總結(jié)如下:

  • 首次提出了關(guān)于視覺語(yǔ)言模型在自動(dòng)駕駛和智能交通系統(tǒng)中應(yīng)用的全面調(diào)研。
  • 系統(tǒng)地總結(jié)和分析了現(xiàn)有的工作和數(shù)據(jù)集。
  • 探討了VLMs在自動(dòng)駕駛和智能交通系統(tǒng)中的潛在應(yīng)用和技術(shù)進(jìn)展。
  • 對(duì)該領(lǐng)域中的挑戰(zhàn)和研究空白進(jìn)行了深入討論。

領(lǐng)域背景介紹

這一節(jié)主要是對(duì)自動(dòng)駕駛, 智能交通系統(tǒng)以及大語(yǔ)言模型,視覺語(yǔ)言模型的大致介紹.

自動(dòng)駕駛

自動(dòng)駕駛目標(biāo)是開發(fā)出能夠在沒有人類干預(yù)的情況下能自動(dòng)導(dǎo)航和完成控制的車輛,以減少事故并提高交通效率。根據(jù)美國(guó)汽車工程師學(xué)會(huì)定義的駕駛自動(dòng)化等級(jí)可以從0級(jí)(無(wú)自動(dòng)化)到5級(jí)(完全自動(dòng)化)。隨著自主性的增加,人類干預(yù)減少,而車輛對(duì)環(huán)境的理解要求增加。目前,大多數(shù)商用車輛處于2級(jí)或3級(jí),提供部分自動(dòng)化但仍需要駕駛員監(jiān)督。現(xiàn)有的自動(dòng)駕駛解決方案可以大致分為經(jīng)典模塊化范式和端到端方法。然而,這些方案都面臨著諸如可解釋性、泛化性、因果混淆、魯棒性等嚴(yán)重挑戰(zhàn)。研究人員嘗試使用各種方法來(lái)解決這些問題,但構(gòu)建一個(gè)安全、穩(wěn)定和可解釋的自動(dòng)駕駛系統(tǒng)仍然是一個(gè)未解決的課題。

智能交通系統(tǒng)

智能交通系統(tǒng)(ITS)利用先進(jìn)技術(shù)來(lái)通過優(yōu)化更廣泛的交通環(huán)境來(lái)提高交通效率和安全性。通過整合道路傳感器和道路用戶等各種來(lái)源的實(shí)時(shí)數(shù)據(jù),ITS包括一系列廣泛的服務(wù)和應(yīng)用,從自適應(yīng)交通信號(hào)控制到實(shí)時(shí)交通監(jiān)測(cè)、事故探測(cè)和預(yù)測(cè)、交通流預(yù)測(cè)以及協(xié)同車輛基礎(chǔ)設(shè)施系統(tǒng)。盡管ITS在感知、通信和機(jī)器學(xué)習(xí)技術(shù)方面的發(fā)展增強(qiáng)了其應(yīng)用范圍,但仍然需要解決一些重要挑戰(zhàn)。駕駛是一項(xiàng)社交活動(dòng),通常需要與其他交通參與者頻繁交互,但當(dāng)前系統(tǒng)仍然缺乏人類所依賴的智能和常識(shí)。

大語(yǔ)言模型

大型語(yǔ)言模型(LLMs)通常指具有龐大參數(shù)量的語(yǔ)言模型,往往達(dá)到十億或更多。LLMs最顯著的特點(diǎn)是展示了新興的能力,如在眾多下游任務(wù)中具備少樣本或零樣本遷移學(xué)習(xí)的能力,強(qiáng)大的多步推理能力和能夠遵循指令的能力,這些通常在較小模型中不存在。ChatGPT,特別是GPT-3.5,標(biāo)志著LLMs發(fā)展的一個(gè)里程碑。自發(fā)布以來(lái),GPT-3.5一直因其卓越性能而受到關(guān)注。越來(lái)越多的研究人員開始探索和利用LLMs強(qiáng)大的語(yǔ)言理解、解釋、分析和推理能力來(lái)解決以前難以甚至無(wú)法解決的問題。

視覺語(yǔ)言模型

視覺-語(yǔ)言模型(VLM)將自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(CV)的功能結(jié)合起來(lái),打破了文本和視覺之間的邊界。

隨著LLMs的興起,越來(lái)越多的注意力也開始放在探索如何將視覺模塊有效地整合到LLMs中以執(zhí)行多模態(tài)任務(wù)上。

在AD中,主流的視覺-語(yǔ)言模型可以根據(jù)輸入和輸出的模態(tài)類型廣泛分為Multimodal-to-Text (M2T) 、Multimodal-to-Vision (M2V) 和Vision-to-Text (V2T) 。如圖所示,

圖片

M2T通常將圖像文本或視頻文本作為輸入,并生成文本作為輸出;相應(yīng)地,M2V接受圖像文本作為輸入,并生成圖像或視頻作為輸出,而V2T則將圖像或視頻作為輸入,并生成文本作為輸出。

如下圖所示,

根據(jù)模態(tài)之間的信息連接方法,AD中使用的VLMs可以分為Vision-Text-Fusion (VTF)和Vision-Text-Matching (VTM) 。VTF使用各種融合方法有效地整合了視覺嵌入和語(yǔ)言嵌入,并共同優(yōu)化了用于目標(biāo)任務(wù)的特征表示。相反,VTM,包括圖像文本匹配和視頻文本匹配,通過迫使視覺文本對(duì)在語(yǔ)義上靠近,并且不配對(duì)實(shí)例相互遠(yuǎn)離,學(xué)習(xí)了一個(gè)聯(lián)合表示空間,實(shí)現(xiàn)了跨模態(tài)的語(yǔ)義對(duì)齊,及跨模態(tài)的語(yǔ)義傳播。CLIP  是VLMs中的一個(gè)重要里程碑,通過對(duì)大量的圖像文本對(duì)進(jìn)行對(duì)比學(xué)習(xí),捕捉與語(yǔ)言相關(guān)的圖像特征表示,并實(shí)現(xiàn)了zeor-shot樣本遷移能力。

視覺語(yǔ)言模型VLMs在自動(dòng)駕駛中的應(yīng)用

VLMs在自動(dòng)駕駛中有越來(lái)越多的嘗試。在本節(jié)中,介紹了在AD中存在的VLM工作,包括感知與理解,導(dǎo)航與規(guī)劃,決策與控制,端到端AD,和數(shù)據(jù)生成。總結(jié)的當(dāng)前方法如表所示

圖片

感知和理解

在自動(dòng)駕駛感知中,尤其是那些在大規(guī)模圖像-文本匹配數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的VLM模型,已經(jīng)推動(dòng)了許多新的研究。這些研究利用預(yù)訓(xùn)練VLMs的豐富先驗(yàn)知識(shí)來(lái)提升感知和理解的性能,并進(jìn)一步引入了許多新的任務(wù)。

行人檢測(cè)

行人檢測(cè)中固有的挑戰(zhàn)包括類似人體的物體混淆和邊際案例樣本不足。為此,VLPD 首次提出了一種視覺語(yǔ)言額外注釋的方法,以增強(qiáng)模型區(qū)分混淆的類似人體物體的能力,主要方法是利用CLIP獲取逐像素明確的語(yǔ)義上下文,并通過對(duì)比學(xué)習(xí)將行人特征與其他類別的特征進(jìn)行距離計(jì)算,提高對(duì)更廣泛案例的檢測(cè)能力。UMPD也利用了CLIP中的zeros-shot語(yǔ)義類,并提出了一種完全無(wú)監(jiān)督的多視角行人檢測(cè)方法,無(wú)需手工標(biāo)注。

對(duì)象引用

與傳統(tǒng)的感知任務(wù)相比,如目標(biāo)檢測(cè)、跟蹤和語(yǔ)義分割,引入語(yǔ)言使模型能夠獲得更細(xì)粒度和全面無(wú)約束的理解周圍環(huán)境的能力。

對(duì)象引用(OR)是該領(lǐng)域的一個(gè)典型任務(wù), 目的是根據(jù)語(yǔ)言的query用框或者M(jìn)ask把對(duì)應(yīng)的物體給顯示出來(lái).

MSSG  在自動(dòng)駕駛場(chǎng)景中提出了一種多模態(tài)3D單一物體指代(SOR)任務(wù)。它通過在鳥瞰視圖(BEV)下融合圖像、LiDAR和語(yǔ)言特征來(lái)訓(xùn)練多模態(tài)單次定位模型,并從檢測(cè)器直接預(yù)測(cè)目標(biāo)區(qū)域,無(wú)需后處理。TransRMOT  將SOR任務(wù)擴(kuò)展到多物體指代和跟蹤(MOR-T),并基于KITTI數(shù)據(jù)集構(gòu)建了Refer-KITTI baselin。給定一個(gè)語(yǔ)言query,TransRMOT可以在視頻中檢測(cè)和跟蹤任意數(shù)量的指代對(duì)象。類似地,PromptTrack  提出了nuScenes數(shù)據(jù)集的語(yǔ)言提示集合,并構(gòu)建了NuPrompt baseline。與ReferKITTI相比,NuPrompt繼承了nuScenes的多視角屬性,使其適用于多視角MOR-T任務(wù)。

開放詞匯的三維物體檢測(cè)和語(yǔ)義分割

由于VLMs的zero-shot以及跨模態(tài)的能力, 目標(biāo)檢測(cè)和語(yǔ)義分割都具備在未知樣本上執(zhí)行開放詞匯檢測(cè)和分割的能力。UP-VL框架首先提出了一種無(wú)監(jiān)督的多模態(tài)自動(dòng)標(biāo)記流程,用于生成點(diǎn)級(jí)特征和對(duì)象級(jí)邊界框以及跟蹤信息,以進(jìn)行開放詞匯類別無(wú)關(guān)的3D檢測(cè)器監(jiān)督,并在推斷時(shí)進(jìn)一步用于提供3D邊界框。結(jié)合通過相似性匹配分配的語(yǔ)義標(biāo)簽,UP-VL框架實(shí)現(xiàn)了AD場(chǎng)景中靜止和移動(dòng)交通參與者的無(wú)監(jiān)督開放詞匯3D檢測(cè)和跟蹤(OV-3DOD-T)。OpenScene 利用2D-3D投影對(duì)應(yīng)來(lái)強(qiáng)制使3D點(diǎn)云嵌入和相應(yīng)的融合2D圖像特征保持一致?;旧?,它將3D點(diǎn)云表示與CLIP的圖像-文本表示對(duì)齊,以獲取密集3D點(diǎn)特征的零樣本理解能力.OpenScene主要在室內(nèi)場(chǎng)景中進(jìn)行評(píng)估,但也在Nuscenes上展現(xiàn)出令人滿意的開放詞匯三維語(yǔ)義分割(OV-3DSS)能力。CLIP2Scene探索了如何利用CLIP來(lái)輔助自主駕駛中的3D場(chǎng)景理解。通過在像素文本映射和像素點(diǎn)映射之間尋找模態(tài)之間的關(guān)聯(lián),CLIP2Scene分別構(gòu)建了點(diǎn)文本對(duì)和像素點(diǎn)文本對(duì)進(jìn)行對(duì)比學(xué)習(xí)訓(xùn)練。客觀性也是為了確保3D點(diǎn)特征及其相應(yīng)的語(yǔ)言實(shí)現(xiàn)語(yǔ)義一致性,從而促進(jìn)OV-3DSS。實(shí)驗(yàn)證明,使用CLIP2Scene作為預(yù)訓(xùn)練遠(yuǎn)遠(yuǎn)優(yōu)于其他自監(jiān)督方法。

交通場(chǎng)景理解

一個(gè)正確而高水平的對(duì)交通場(chǎng)景的理解對(duì)駕駛安全至關(guān)重要。在下圖中,

圖片

展示了GPT-4V 在一個(gè)交通事故場(chǎng)景和一個(gè)具有潛在風(fēng)險(xiǎn)的城市道路場(chǎng)景中的理解能力示例。有幾個(gè)探索性工作利用VLMs通過特定的下游任務(wù)來(lái)理解交通場(chǎng)景。比如可以通過對(duì)場(chǎng)景圖像進(jìn)行描述來(lái)理解交通場(chǎng)景,也可以將視覺信息轉(zhuǎn)化為語(yǔ)言描述,然后利用LLMs的強(qiáng)大推理能力來(lái)解決語(yǔ)義異常檢測(cè) (SAD)。NuScenes-QA 基于nuScenes數(shù)據(jù)集,在自動(dòng)駕駛場(chǎng)景中建立了視覺問答 (VQA) 任務(wù)的baseline,為后續(xù)的研究提供了基礎(chǔ)。Talk2BEV 采用鳥瞰 (BEV) 檢測(cè)模型、密集字幕模型和文本識(shí)別模型構(gòu)建了真實(shí)語(yǔ)言增強(qiáng)的BEV地圖,并根據(jù)VQA任務(wù)評(píng)估模型在視覺和空間理解方面的性能。目前這方面的工作都還處于早期階段, 相信將來(lái)在這塊兒應(yīng)該會(huì)有越來(lái)越多的有趣的工作。

導(dǎo)航與規(guī)劃

在導(dǎo)航領(lǐng)域,隨著VLM的進(jìn)步,尤其是CLIP 的提出,語(yǔ)言引導(dǎo)導(dǎo)航(LGN)任務(wù)開始從特定的預(yù)定義位置描述擴(kuò)展到自由和任意的指令,這也推動(dòng)了語(yǔ)言增強(qiáng)地圖的發(fā)展。

語(yǔ)言導(dǎo)航

Talk to the Vehicle 提出了一種路標(biāo)生成網(wǎng)絡(luò)(WGN),它將語(yǔ)義占用和預(yù)定義的自然語(yǔ)言編碼(NLE)映射到局部路標(biāo)。規(guī)劃模塊然后使用局部路標(biāo)來(lái)預(yù)測(cè)執(zhí)行軌跡。Ground then Navigation 通過使用CLIP解決了語(yǔ)言導(dǎo)航任務(wù)。它提出了一個(gè)流水線,將視頻幀,歷史軌跡上下文和語(yǔ)言命令作為輸入,并輸出在每個(gè)時(shí)間戳上預(yù)測(cè)的導(dǎo)航mask和軌跡。ALT-Pilot 通過結(jié)合語(yǔ)言標(biāo)志物(包括街道標(biāo)志,交通信號(hào)和其他重要環(huán)境特征)來(lái)增強(qiáng)OpenStreetMap(OSM)道路網(wǎng)絡(luò),以替代傳統(tǒng)的內(nèi)存和計(jì)算昂貴的高清LiDAR地圖。ALT-Pilot還利用CLIP在推斷時(shí)預(yù)先計(jì)算每個(gè)標(biāo)志物的特征描述符,并使用余弦相似度將它們與像素級(jí)視覺描述符進(jìn)行匹配,從而促進(jìn)了從語(yǔ)言導(dǎo)航指令到地圖位置的對(duì)應(yīng),從而幫助多模態(tài)定位和導(dǎo)航。

預(yù)測(cè)和規(guī)劃

一些研究還開始探索如何利用LLMs來(lái)提升運(yùn)動(dòng)規(guī)劃和軌跡預(yù)測(cè)的性能。GPT-driver 將運(yùn)動(dòng)規(guī)劃重新制定為語(yǔ)言建模問題,并將GPT-3.5模型轉(zhuǎn)化為自動(dòng)駕駛的運(yùn)動(dòng)規(guī)劃器,想法主要是利用其強(qiáng)大的推理和泛化能力。CoverNet-T  提出了使用基于文本的場(chǎng)景描述和柵格化場(chǎng)景圖像訓(xùn)練聯(lián)合編碼器進(jìn)行軌跡預(yù)測(cè)的方法。它表明,基于文本的場(chǎng)景表示補(bǔ)充了圖像編碼的優(yōu)勢(shì),并且聯(lián)合編碼器優(yōu)于各自的對(duì)應(yīng)部分。

決策與控制

在自動(dòng)駕駛的決策和控制領(lǐng)域,有幾項(xiàng)工作試圖利用LLM的強(qiáng)大常識(shí)理解和推理能力來(lái)輔助駕駛員或是模擬并完全替代駕駛員。通過在AD中利用LLM進(jìn)行閉環(huán)控制,大多數(shù)工作引入了一個(gè)記憶模塊,用于記錄駕駛場(chǎng)景、經(jīng)驗(yàn)和其他重要的駕駛信息。

LanguageMPC 采用LLMs作為決策組件,解決需要人類常識(shí)理解的復(fù)雜自動(dòng)駕駛場(chǎng)景。Drive as You Speak 提出了一個(gè)框架,將LLMs整合到自動(dòng)駕駛中,并相應(yīng)協(xié)調(diào)其他模塊。駕駛員可以通過LLMs直接與車輛進(jìn)行通信。該框架包括一個(gè)內(nèi)存模塊,將過去的駕駛場(chǎng)景經(jīng)驗(yàn)保存在向量數(shù)據(jù)庫(kù)中,其中包括決策線索、推理過程和其他有價(jià)值的信息。然后,LLMs根據(jù)所獲得的經(jīng)驗(yàn)和常識(shí)做出決策。DiLU 研究了人類駕駛員的駕駛方法,并提出了一個(gè)使用推理、記憶和反射模塊促進(jìn)LLMs與環(huán)境交互的范例。該方法將人類駕駛員的這些知識(shí)驅(qū)動(dòng)能力嵌入到自動(dòng)駕駛系統(tǒng)中。DwLLMs 將交通參與者和環(huán)境編碼為對(duì)象級(jí)向量。它采用了一個(gè)兩階段的預(yù)訓(xùn)練和微調(diào)方法,使模型能夠理解駕駛場(chǎng)景并生成駕駛動(dòng)作。SurrealDriver 提出了一個(gè)基于LLMs的類人自動(dòng)駕駛框架,該框架在CARLA模擬器內(nèi)運(yùn)行。通過記憶和安全機(jī)制,LLMs能夠完成情境理解、決策和動(dòng)作生成。它還學(xué)習(xí)人類駕駛員的駕駛習(xí)慣,并在閉環(huán)中持續(xù)優(yōu)化駕駛技能。DLaH 引入了推理、解釋和記憶模塊,構(gòu)建了一個(gè)基于GPT-3.5 和LLaMA-Adapter v2 的自動(dòng)駕駛系統(tǒng)。它在場(chǎng)景理解和解決模擬中的長(zhǎng)尾問題方面表現(xiàn)出強(qiáng)大的能力。

盡管現(xiàn)有的自動(dòng)駕駛控制和決策工作完全依賴于低級(jí)邏輯模型 (LLMs),但它們可以通過視覺-LLMs連接器與感知模塊輕松連接,實(shí)現(xiàn)mid-to-mid或端到端的自動(dòng)駕駛。

此外,為自動(dòng)駕駛系統(tǒng)設(shè)計(jì)一個(gè)專門適用的視覺語(yǔ)言模型(VLMs)連接器是一個(gè)有前景的方向。相信在不久的將來(lái)會(huì)涌現(xiàn)出大量工作。

端到端自主駕駛

端到端自動(dòng)駕駛系統(tǒng)是一個(gè)完全可微的系統(tǒng),它將原始傳感器數(shù)據(jù)作為輸入,并產(chǎn)生規(guī)劃和/或低級(jí)控制動(dòng)作作為輸出,這與VLMs中的M2T模型的結(jié)構(gòu)非常契合。由于這種自然的協(xié)同作用,一些研究開始探索將M2T VLMs模型應(yīng)用于端到端自動(dòng)駕駛的可行性。與傳統(tǒng)的端到端自主駕駛系統(tǒng)相比,基于大規(guī)模VLMs的端到端自動(dòng)駕駛系統(tǒng)具有強(qiáng)大的可解釋性、可信度和復(fù)雜的場(chǎng)景理解能力,為端到端自動(dòng)駕駛的實(shí)際應(yīng)用和實(shí)現(xiàn)鋪平了道路。DriveGPT4  是利用大規(guī)模VLMs進(jìn)行端到端自動(dòng)駕駛?cè)蝿?wù)的開創(chuàng)性工作,它將原始傳感器數(shù)據(jù)和人類問題作為輸入,并輸出預(yù)測(cè)的控制信號(hào)和相應(yīng)的答案。它保留了LLMs強(qiáng)大的zero-shot能力,并能處理未知情境。ADAPT 提出了一個(gè)基于Transformer模型的端到端自動(dòng)駕駛流程。通過視頻輸入,ADAPT 連續(xù)輸出控制信號(hào)以及操作的敘述和推理描述。與DriveGPT4不同,ADAPT 不包含視覺問答模塊,而是將可解釋的端到端自動(dòng)駕駛轉(zhuǎn)化為視覺字幕生成任務(wù)。

數(shù)據(jù)生成

借助生成網(wǎng)絡(luò)的進(jìn)展和成功,將條件生成模型應(yīng)用于自動(dòng)駕駛中,可以生成大規(guī)模高質(zhì)量的數(shù)據(jù),從而推動(dòng)數(shù)據(jù)驅(qū)動(dòng)型自動(dòng)駕駛的發(fā)展。DriveGAN 學(xué)習(xí)駕駛視頻序列及其相應(yīng)的控制信號(hào)。通過將場(chǎng)景組件分解為動(dòng)作相關(guān)和動(dòng)作無(wú)關(guān)的特征,它可以控制生成視頻中的車輛行為。這種能力使得高保真度、可控性的神經(jīng)仿真和自動(dòng)駕駛數(shù)據(jù)生成成為可能。BEVControl  以素描風(fēng)格的BEV布局和文本提示作為輸入,生成街景的多視角圖像。它引入了控制器和協(xié)調(diào)器元素,確保素描和輸出之間的幾何一致性,以及多視角圖像之間的外觀一致性。這種方法有助于基于BEV素描進(jìn)行可控自動(dòng)駕駛場(chǎng)景樣本生成的可能性。一些工作將世界模型納入自動(dòng)駕駛數(shù)據(jù)生成,以實(shí)現(xiàn)更合理、可預(yù)測(cè)和結(jié)構(gòu)化的環(huán)境模擬。DriveDreamer 是一個(gè)完全從真實(shí)駕駛場(chǎng)景中學(xué)習(xí)的自動(dòng)駕駛世界模型。它經(jīng)歷了兩個(gè)訓(xùn)練階段:首先從真實(shí)駕駛視頻中理解和建模駕駛場(chǎng)景,從而獲取結(jié)構(gòu)化的交通信息。第二階段通過視頻預(yù)測(cè)任務(wù)構(gòu)建駕駛世界模型,獲得預(yù)測(cè)能力。GAIA-1 將視頻、動(dòng)作和文本描述作為輸入,利用世界模型的強(qiáng)大能力來(lái)學(xué)習(xí)結(jié)構(gòu)化表示并理解環(huán)境,將這些輸入編碼成一系列的標(biāo)記。然后,它采用去噪視頻擴(kuò)散模型作為視頻解碼器,實(shí)現(xiàn)高度逼真的視頻。

VLMs在智能交通系統(tǒng)中的應(yīng)用

智能交通系統(tǒng)越來(lái)越普及,并且作為實(shí)現(xiàn)完全自動(dòng)駕駛能力的重要一步 。ITS通常由多傳感器設(shè)置組成,由于其豐富而密集的語(yǔ)義信息,攝像頭幾乎總是存在的。與AD類似,VLMs也可以在許多方面促進(jìn)ITS的發(fā)展,包括ITS感知和理解  ,以及ITS管理系統(tǒng) 以及VLMs在ITS中的潛在應(yīng)用。當(dāng)前的工作如下表所示.

圖片

ITS的感知和理解

安裝在交通基礎(chǔ)設(shè)施上的多傳感器系統(tǒng)數(shù)量的快速增長(zhǎng)極大增強(qiáng)了ITS的能力。它促進(jìn)了對(duì)交通環(huán)境的更全面的感知和理解,使ITS能夠準(zhǔn)確地識(shí)別和解讀復(fù)雜的交通場(chǎng)景。

語(yǔ)言引導(dǎo)的車輛檢索

車輛檢索是ITS感知和理解的關(guān)鍵組成部分。為了引起研究人員在這個(gè)方向上的關(guān)注,AI City Challenge作為一個(gè)挑戰(zhàn)任務(wù)舉辦了基于自然語(yǔ)言描述的車輛檢索。作為這一集體努力的一部分,提出了一種基于自然語(yǔ)言的車輛多粒度檢索方法。關(guān)鍵概念是引入基于語(yǔ)言增強(qiáng)的多查詢檢索模塊。這個(gè)模塊的思想是利用多個(gè)不完美的語(yǔ)言描述來(lái)實(shí)現(xiàn)更高的魯棒性和準(zhǔn)確性。另外MLVR提出了一種多模態(tài)語(yǔ)言車輛檢索框架,它使用文本和圖像提取器進(jìn)行特征編碼,隨后通過視頻識(shí)別模塊生成視頻向量序列。通過集成結(jié)合各種車輛特征的模塊,MLVR為匹配控制創(chuàng)建了更豐富的車輛向量,并實(shí)現(xiàn)了語(yǔ)言引導(dǎo)的檢索。

交通視覺場(chǎng)景推理

在ITS中,利用VLM的另一個(gè)新興領(lǐng)域是視覺場(chǎng)景事件理解,通常形成為視覺問答(VQA)任務(wù)。文獻(xiàn)70,提出了一種基于自動(dòng)生成標(biāo)題的弱監(jiān)督交通領(lǐng)域視頻問答與自動(dòng)字幕方法。其核心貢獻(xiàn)在于利用自動(dòng)生成的合成標(biāo)題對(duì)在線可用的城市交通視頻進(jìn)行微調(diào),并將額外的交通領(lǐng)域知識(shí)注入到訓(xùn)練模型中。文獻(xiàn)71提出了一種跨模態(tài)問題推理框架,用于識(shí)別事件級(jí)問題推理的時(shí)間原因背景?;谧⒁饬Φ哪K能夠?qū)W習(xí)時(shí)間因果場(chǎng)景和問題對(duì)。文獻(xiàn)72引入了Tem-Adapter,通過學(xué)習(xí)時(shí)間依賴關(guān)系來(lái)減小圖像和視頻領(lǐng)域之間的差距。在交通視頻問答任務(wù)中表現(xiàn)出良好的性能。AnomalyCLIP采用CLIP模型進(jìn)行視頻異常檢測(cè)。通過指定異常類別并使用上下文優(yōu)化,它區(qū)分正常樣本和異常樣本,使模型能夠識(shí)別異常實(shí)例。AnomalyCLIP在包括路邊異常檢測(cè)在內(nèi)的各種數(shù)據(jù)集上取得了良好的結(jié)果。VLM增強(qiáng)的語(yǔ)義異常識(shí)別算法可以進(jìn)一步擴(kuò)展到ITS中的災(zāi)害或緊急響應(yīng)。

ITS管理系統(tǒng)

ITS管理系統(tǒng)基于實(shí)時(shí)感知和場(chǎng)景理解提高交通系統(tǒng)的運(yùn)營(yíng)安全性和效率。通過管理交通信號(hào),促進(jìn)順暢交通流動(dòng),及時(shí)更新道路狀況,并提供及時(shí)事故報(bào)警。流量管理。先驅(qū)性研究探索了在交通流量管理領(lǐng)域中利用LLMs的應(yīng)用,尤其是在交通信號(hào)控制方面。PromptGAT引入了一種基于提示的基于場(chǎng)地行動(dòng)轉(zhuǎn)換方法,這是LLMs在交通信號(hào)控制的實(shí)際應(yīng)用中解決模擬到真實(shí)轉(zhuǎn)換問題的首次應(yīng)用。利用LLMs理解天氣條件對(duì)交通狀態(tài)和道路類型的影響,增強(qiáng)了在實(shí)際場(chǎng)景中政策的適用性,有效縮小模擬到真實(shí)的差距。

潛在應(yīng)用

雖然許多方法已經(jīng)探索了在各種交通場(chǎng)景中利用VLM的能力,但VLM在ITS中的全部潛力尚未得到充分發(fā)揮。

事故預(yù)測(cè)和檢測(cè)

及時(shí)檢測(cè)和預(yù)測(cè)事故的能力對(duì)確保道路安全至關(guān)重要。當(dāng)前基于視覺的交通事故檢測(cè)(TAD)和交通事故預(yù)測(cè)(TAA)仍面臨著各種挑戰(zhàn),包括長(zhǎng)尾和安全關(guān)鍵屬性、復(fù)雜場(chǎng)景演變、惡劣環(huán)境和確定性不確定性。大模型VLM,憑借其在零樣本泛化、深刻場(chǎng)景理解、邊界案例識(shí)別和多步推理方面的卓越能力,成為解決當(dāng)前挑戰(zhàn)的有希望的解決方案。

崩潰報(bào)告

快速崩潰分析可以提高交通效率并防止進(jìn)一步擁堵。M2V有條件的生成式虛擬語(yǔ)言模型代表一種潛在的解決方案。通過利用駕車人員記錄的視頻鏡頭以及他們的描述,該模型能夠即時(shí)生成事故現(xiàn)場(chǎng)的敘述。根據(jù)事故發(fā)生時(shí)的駕駛員陳述,可以顯著縮短處理意外情況的響應(yīng)時(shí)間。

停車管理系統(tǒng)

智能停車解決方案可以利用語(yǔ)言引導(dǎo)導(dǎo)航和運(yùn)動(dòng)規(guī)劃領(lǐng)域中展示的LLMs的規(guī)劃能力,顯著減少在城市地區(qū)尋找停車位的時(shí)間。通過與停車位管理系統(tǒng)集成,可以為車輛提供語(yǔ)言引導(dǎo)的路線指示,協(xié)助停車管理。通過與車輛端的語(yǔ)言引導(dǎo)導(dǎo)航系統(tǒng)接口,這種方法可以進(jìn)一步增強(qiáng),潛在地實(shí)現(xiàn)自動(dòng)停車解決方案。

數(shù)據(jù)集

關(guān)于這方面的數(shù)據(jù)集可以參考下表

圖片

討論

基于前面的論述,本節(jié)深入討論與語(yǔ)言模型在自動(dòng)駕駛和智能交通系統(tǒng)中的挑戰(zhàn)和研究空白,并概述未來(lái)研究的潛在方向。

自動(dòng)駕駛基礎(chǔ)模型

現(xiàn)有的基礎(chǔ)模型包括視覺基礎(chǔ)模型、語(yǔ)言基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型,為自動(dòng)駕駛基礎(chǔ)模型(ADFM)的可行性奠定了基礎(chǔ)。ADFM定義為在廣泛多樣的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的模型,在解釋性、推理、預(yù)測(cè)和自省能力方面表現(xiàn)出色,并且在感知、理解、規(guī)劃、控制和決策等各種自動(dòng)駕駛?cè)蝿?wù)中具有高效性。一些研究已經(jīng)做出了初步嘗試,但如何將現(xiàn)有基礎(chǔ)模型調(diào)整為ADFM,以使自動(dòng)駕駛的客觀性得以保持,仍然是一個(gè)相對(duì)未開拓的領(lǐng)域。

數(shù)據(jù)可用性和格式

盡管已經(jīng)有許多現(xiàn)成的大規(guī)模自動(dòng)駕駛數(shù)據(jù)集可用,但它們并不適合直接用于LLMs在AD和ITS中。例如,如何生成基于AD數(shù)據(jù)集的指令調(diào)整數(shù)據(jù)集并設(shè)計(jì)指令格式以適應(yīng)ADFM的適應(yīng)性仍然幾乎沒有研究。此外,一個(gè)大規(guī)模的圖像-文本交通特定對(duì)數(shù)據(jù)集也可以對(duì)AD和ITS的發(fā)展非常有幫助,特別是對(duì)于依賴于VTM預(yù)訓(xùn)練模型的目標(biāo)檢測(cè)、語(yǔ)義分割、語(yǔ)言引導(dǎo)導(dǎo)航和語(yǔ)言引導(dǎo)檢索的方法。

安全駕車對(duì)齊

LLMs 可能會(huì)產(chǎn)生與人類價(jià)值觀相沖突的有偏見、有害的內(nèi)容,需要進(jìn)行對(duì)齊調(diào)整。同樣,當(dāng)訓(xùn)練10個(gè)自動(dòng)駕駛基礎(chǔ)模型時(shí),對(duì)其控制策略、決策和響應(yīng)機(jī)制與安全標(biāo)準(zhǔn)進(jìn)行調(diào)整是至關(guān)重要的,以確保遵守穩(wěn)定、安全和健康的駕駛價(jià)值觀。在LLMs對(duì)齊調(diào)整方面,已有的技術(shù),如來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF) 和監(jiān)督對(duì)齊調(diào)整,都值得在這個(gè)領(lǐng)域嘗試。

多模態(tài)適應(yīng)性

如前面講的目前利用LLMs進(jìn)行運(yùn)動(dòng)規(guī)劃、控制和決策的方法常常直接將傳感器數(shù)據(jù)轉(zhuǎn)換為文本表達(dá),或者通過現(xiàn)有的感知算法或從仿真器中直接提取。雖然這種模塊化方法簡(jiǎn)化了實(shí)驗(yàn),但可能導(dǎo)致上下文和環(huán)境信息的丟失,并且嚴(yán)重依賴于感知算法的性能。因此,在自動(dòng)駕駛場(chǎng)景中,研究建立視覺語(yǔ)言連接的可能性,可以是通過 VTM、VTF 或兩者的混合作為簡(jiǎn)單手動(dòng)重新制定的替代方向,值得追求。

時(shí)間場(chǎng)景理解

自動(dòng)駕駛和ITS中的場(chǎng)景理解通常需要從視頻中獲取時(shí)間信息,以連續(xù)感知和理解交通環(huán)境和交通參與者的動(dòng)態(tài)和因果關(guān)系。僅使用圖像級(jí)別的VLMs 是不夠的。例如,無(wú)法單憑一張單一圖像 判斷車禍的具體原因。如下圖

因此,如何處理交通場(chǎng)景的時(shí)間傳感器數(shù)據(jù)是一個(gè)仍需探索的問題。一種可能的方法是訓(xùn)練一個(gè)視頻-語(yǔ)言模型,在這方面,所有現(xiàn)有的視頻-語(yǔ)言適配器都有潛在的應(yīng)用價(jià)值。另一種可能的路線涉及將視頻數(shù)據(jù)轉(zhuǎn)換為可以由圖像-語(yǔ)言模型處理的范式,通過必要的集成時(shí)間適配器層和微調(diào),從而增強(qiáng)模型對(duì)交通環(huán)境中的時(shí)空信息的理解能力。

計(jì)算資源和處理速度

實(shí)時(shí)處理和有限的計(jì)算資源對(duì)自動(dòng)駕駛和智能交通系統(tǒng)中模型部署構(gòu)成重大挑戰(zhàn)。當(dāng)前的LLM通常包含數(shù)十億個(gè)參數(shù),使得微調(diào)和推理都需要高度的資源消耗,無(wú)法滿足實(shí)時(shí)要求。有幾種現(xiàn)有技術(shù)可以緩解這些問題。例如,參數(shù)高效微調(diào)(PEFT)減少可訓(xùn)練參數(shù)的數(shù)量,同時(shí)保持令人滿意的模型性能,從而最小化了微調(diào)過程中的資源消耗。此外,與通用的LLM不同,自動(dòng)駕駛所需的知識(shí)通常是專業(yè)化和領(lǐng)域特定的,LLM所包含的大部分知識(shí)實(shí)際上對(duì)自動(dòng)駕駛來(lái)說是冗余的。因此,采用知識(shí)蒸餾來(lái)訓(xùn)練一個(gè)更小、更適合自動(dòng)駕駛的模型是可行的方法。深度學(xué)習(xí)中的其他常見模型壓縮技術(shù),如量化和修剪,也適用于這個(gè)。

結(jié)論

這個(gè)綜述總結(jié)了自動(dòng)駕駛和智能交通系統(tǒng)中視覺語(yǔ)言模型VLM的背景、當(dāng)前進(jìn)展、潛在應(yīng)用和未來(lái)發(fā)展方向。它全面總結(jié)和分析了該領(lǐng)域中的一些重要任務(wù)、方法和數(shù)據(jù)集。根據(jù)當(dāng)前的研究,本工作闡述了目前的挑戰(zhàn)、潛在的解決方案和未來(lái)的研究方向。

paper鏈接: https://arxiv.org/abs/2310.14414

原文鏈接:https://mp.weixin.qq.com/s/quGg0nK7jxv40ZXJ1F3KCg

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2018-05-02 11:25:59

智能交通

2024-03-19 13:12:36

自動(dòng)駕駛模型

2023-01-12 09:25:11

自動(dòng)駕駛

2024-02-23 11:27:00

數(shù)據(jù)技術(shù)

2023-12-15 09:58:44

自動(dòng)駕駛技術(shù)模型

2024-03-12 09:24:38

智能駕駛

2023-07-18 15:57:23

自動(dòng)駕駛

2023-12-08 10:10:56

模型論文調(diào)研

2023-02-13 12:15:41

自動(dòng)駕駛算法

2024-09-04 10:20:00

自動(dòng)駕駛模型

2023-10-24 09:53:56

自動(dòng)駕駛模型

2024-08-13 12:39:23

2023-05-06 10:02:37

深度學(xué)習(xí)算法

2023-03-14 09:40:33

自動(dòng)駕駛

2021-11-10 15:07:22

自動(dòng)駕駛技術(shù)安全

2024-04-26 08:53:46

自動(dòng)駕駛人工智能大型語(yǔ)言模型

2023-09-05 16:35:49

自動(dòng)駕駛

2023-10-30 09:42:29

自動(dòng)駕駛模型

2024-02-20 11:26:07

物聯(lián)網(wǎng)

2024-02-28 09:59:25

模型自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)