東京大學(xué)最新!CoVLA:用于自動(dòng)駕駛的綜合視覺(jué)-語(yǔ)言-動(dòng)作數(shù)據(jù)集
原標(biāo)題:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2408.10845
作者單位:Turing Inc. 東京大學(xué) University of Tsukuba Keio Research Institute at SFC National Institute of Informatics
論文思路:
自動(dòng)駕駛,特別是在復(fù)雜和意外場(chǎng)景中的導(dǎo)航,要求具備復(fù)雜的推理和規(guī)劃能力。雖然多模態(tài)大語(yǔ)言模型(MLLMs)在這方面提供了一個(gè)有前途的途徑,但其應(yīng)用主要局限于理解復(fù)雜的環(huán)境上下文或生成高層次的駕駛指令,只有少數(shù)研究將其應(yīng)用擴(kuò)展到端到端路徑規(guī)劃。一個(gè)主要的研究瓶頸是缺乏包含視覺(jué)、語(yǔ)言和動(dòng)作的大規(guī)模標(biāo)注數(shù)據(jù)集。為了解決這個(gè)問(wèn)題,本文提出了CoVLA(Comprehensive Vision-Language-Action)數(shù)據(jù)集,這是一個(gè)包含超過(guò)80小時(shí)真實(shí)駕駛視頻的廣泛數(shù)據(jù)集。該數(shù)據(jù)集利用了一種基于自動(dòng)數(shù)據(jù)處理和描述(caption)生成流程的新穎且可擴(kuò)展的方法,生成了與詳細(xì)自然語(yǔ)言描述的駕駛環(huán)境和操作相匹配的精確駕駛軌跡。這種方法利用了車(chē)內(nèi)傳感器的原始數(shù)據(jù),使其在規(guī)模和標(biāo)注豐富性上超越了現(xiàn)有的數(shù)據(jù)集。使用CoVLA,本文研究了能夠在各種駕駛場(chǎng)景中處理視覺(jué)、語(yǔ)言和動(dòng)作的MLLMs的駕駛能力。本文的結(jié)果顯示了本文的模型在生成連貫的語(yǔ)言和動(dòng)作輸出方面的強(qiáng)大能力,強(qiáng)調(diào)了視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型在自動(dòng)駕駛領(lǐng)域的潛力。通過(guò)提供一個(gè)全面的平臺(tái)用于訓(xùn)練和評(píng)估VLA模型,該數(shù)據(jù)集為構(gòu)建穩(wěn)健、可解釋和數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛系統(tǒng)奠定了基礎(chǔ),助力于更安全和更可靠的自動(dòng)駕駛車(chē)輛。
主要貢獻(xiàn):
- 本文介紹了CoVLA數(shù)據(jù)集,這是一個(gè)大規(guī)模數(shù)據(jù)集,提供了多種駕駛場(chǎng)景的軌跡目標(biāo),以及詳細(xì)的逐幀情境描述。
- 本文提出了一種可擴(kuò)展的方法,通過(guò)傳感器融合準(zhǔn)確估計(jì)軌跡,并自動(dòng)生成關(guān)鍵駕駛信息的逐幀文本描述。
- 本文開(kāi)發(fā)了CoVLA-Agent,這是一種基于CoVLA數(shù)據(jù)集的新型VLA模型,用于可解釋的端到端自動(dòng)駕駛。本文的模型展示了持續(xù)生成駕駛場(chǎng)景描述和預(yù)測(cè)軌跡的能力,為更可靠的自動(dòng)駕駛鋪平了道路。
論文設(shè)計(jì):
自動(dòng)駕駛技術(shù)面臨的一個(gè)關(guān)鍵挑戰(zhàn)在于應(yīng)對(duì)多樣且不可預(yù)測(cè)的駕駛環(huán)境的“長(zhǎng)尾”問(wèn)題[35, 63]。自動(dòng)駕駛車(chē)輛不僅需要在常見(jiàn)場(chǎng)景中導(dǎo)航,還必須應(yīng)對(duì)罕見(jiàn)和復(fù)雜的情況,這就需要廣泛的世界知識(shí)和高級(jí)推理能力[20]。這要求對(duì)環(huán)境有深刻的理解,并且具備超越物體識(shí)別的推理能力,能夠解釋其行為并據(jù)此規(guī)劃行動(dòng)。視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型通過(guò)無(wú)縫整合視覺(jué)感知、語(yǔ)言理解和動(dòng)作規(guī)劃,已成為實(shí)現(xiàn)這一目標(biāo)的有前途的途徑。近期在VLA領(lǐng)域的進(jìn)展,特別是在機(jī)器人[4, 28, 40]和自動(dòng)駕駛[45]方面,展示了其在實(shí)現(xiàn)更健壯和智能的駕駛系統(tǒng)方面的潛力。
然而,將VLA模型應(yīng)用于自動(dòng)駕駛的一個(gè)主要障礙是缺乏有效結(jié)合視覺(jué)數(shù)據(jù)、語(yǔ)言描述和駕駛動(dòng)作的大規(guī)模數(shù)據(jù)集?,F(xiàn)有的數(shù)據(jù)集在規(guī)模和全面標(biāo)注方面往往不足,尤其是語(yǔ)言方面,通常需要繁重的人工工作。這限制了能夠處理現(xiàn)實(shí)世界駕駛復(fù)雜性的健壯VLA模型的發(fā)展和評(píng)估。
本文介紹了CoVLA(Comprehensive Vision-Language-Action)數(shù)據(jù)集,這是一個(gè)旨在克服現(xiàn)有局限性的新型大規(guī)模數(shù)據(jù)集。CoVLA數(shù)據(jù)集利用可擴(kuò)展的自動(dòng)化標(biāo)注和描述生成方法,創(chuàng)建了一個(gè)包含10,000個(gè)真實(shí)駕駛場(chǎng)景、總計(jì)超過(guò)80小時(shí)視頻的豐富數(shù)據(jù)集。每個(gè)30秒的場(chǎng)景都包含精確的駕駛路徑和詳細(xì)的自然語(yǔ)言描述,這些描述來(lái)源于同步的前置相機(jī)錄像和車(chē)內(nèi)傳感器數(shù)據(jù)。這個(gè)豐富的數(shù)據(jù)集允許對(duì)駕駛環(huán)境和代理行為進(jìn)行更深入的理解。為了展示其在推進(jìn)自動(dòng)駕駛研究方面的有效性,本文開(kāi)發(fā)了CoVLA-Agent,這是一種基于本文數(shù)據(jù)集進(jìn)行訓(xùn)練的VLA模型,用于軌跡預(yù)測(cè)和交通場(chǎng)景描述生成。本文的研究結(jié)果表明,即使在需要復(fù)雜和高級(jí)判斷的情況下,本文的VLA模型也能夠做出一致且精確的預(yù)測(cè)。
本節(jié)深入介紹了CoVLA數(shù)據(jù)集,詳細(xì)描述了其結(jié)構(gòu)、內(nèi)容以及用于創(chuàng)建這一寶貴自動(dòng)駕駛研究資源的方法。本文重點(diǎn)介紹了其對(duì)多樣化真實(shí)世界駕駛場(chǎng)景的覆蓋、同步的多模態(tài)數(shù)據(jù)流(前置相機(jī)、車(chē)內(nèi)信號(hào)及其他傳感器)以及大規(guī)模標(biāo)注數(shù)據(jù):10,000個(gè)駕駛場(chǎng)景,總計(jì)超過(guò)80小時(shí)的視頻,每個(gè)場(chǎng)景都包含精確的逐幀軌跡和描述標(biāo)注。為了創(chuàng)建這個(gè)廣泛的VLA數(shù)據(jù)集,本文開(kāi)發(fā)了一種新穎且可擴(kuò)展的方法,從原始數(shù)據(jù)中自動(dòng)生成場(chǎng)景描述和真實(shí)軌跡。
圖1. CoVLA框架概述。本文開(kāi)發(fā)了CoVLA數(shù)據(jù)集,這是一個(gè)用于自動(dòng)駕駛的綜合數(shù)據(jù)集,包含獨(dú)特的10,000個(gè)視頻片段、描述駕駛場(chǎng)景的逐幀語(yǔ)言描述以及未來(lái)的軌跡動(dòng)作。本文還展示了CoVLA-Agent,這是一種基于VLM的路徑規(guī)劃模型,能夠預(yù)測(cè)車(chē)輛的未來(lái)軌跡,并提供其行為和推理的文本描述。
表1. 含有語(yǔ)言和動(dòng)作數(shù)據(jù)的駕駛數(shù)據(jù)集比較。
圖2. 數(shù)據(jù)集生成 pipeline 概述。本文自動(dòng)標(biāo)注視頻幀和傳感器信號(hào)以生成軌跡和其他標(biāo)簽。此外,本文對(duì)視頻幀應(yīng)用自動(dòng)描述生成,以生成行為和推理的描述。
圖3. CoVLA數(shù)據(jù)集的示例幀。顯示了估計(jì)的軌跡(綠色線)和由描述生成模型生成的描述。關(guān)鍵對(duì)象以藍(lán)色粗體文本突出顯示,而描述中的錯(cuò)誤以紅色粗體文本顯示。
圖4. 車(chē)輛速度和轉(zhuǎn)向角的數(shù)據(jù)分布。紅色條表示采樣前的分布,而黃色條顯示采樣后的分布。請(qǐng)注意,為了清晰展示,(b)中使用了對(duì)數(shù)刻度。
在本節(jié)中,本文介紹了基線模型CoVLA-Agent的開(kāi)發(fā)和評(píng)估方法,該模型利用CoVLA數(shù)據(jù)集的豐富性來(lái)完成自動(dòng)駕駛?cè)蝿?wù)。本文詳細(xì)描述了實(shí)驗(yàn)設(shè)置,包括數(shù)據(jù)集、模型配置、訓(xùn)練過(guò)程和評(píng)估指標(biāo),并對(duì)結(jié)果進(jìn)行了分析。
架構(gòu):如圖5所示,CoVLA-Agent是一個(gè)為自動(dòng)駕駛設(shè)計(jì)的VLA模型。本文使用預(yù)訓(xùn)練的Llama-2(7B)[52]作為語(yǔ)言模型,并使用CLIP ViT-L(224×224像素)[43]作為視覺(jué)編碼器。此外,本文的模型將自車(chē)速度作為輸入,通過(guò)多層感知器(MLP)轉(zhuǎn)換為嵌入向量。CLIP ViT-L提取的視覺(jué)特征與速度嵌入和文本嵌入拼接在一起,然后輸入到Llama-2模型中。對(duì)于軌跡預(yù)測(cè),使用特殊的 tokens 作為軌跡查詢。這些軌跡查詢的輸出經(jīng)過(guò)MLP層處理,生成10個(gè)(x, y, z)坐標(biāo)的序列,表示車(chē)輛相對(duì)于當(dāng)前位置的預(yù)測(cè)軌跡,覆蓋三秒的時(shí)間范圍。
訓(xùn)練:基于這種架構(gòu),本文在兩個(gè)任務(wù)上訓(xùn)練CoVLA-Agent,分別是交通場(chǎng)景描述生成和軌跡預(yù)測(cè)。對(duì)于交通場(chǎng)景描述生成,本文使用交叉熵?fù)p失作為損失函數(shù);對(duì)于軌跡預(yù)測(cè),本文采用均方誤差損失。最終,訓(xùn)練的目標(biāo)是最小化一個(gè)組合損失函數(shù),其中兩個(gè)損失被等權(quán)重對(duì)待。
圖5. CoVLA-Agent的架構(gòu)。
實(shí)驗(yàn)結(jié)果:
圖6. CoVLA-Agent在各種交通場(chǎng)景下的軌跡預(yù)測(cè)結(jié)果。紅線表示在預(yù)測(cè)描述條件下的預(yù)測(cè)軌跡,藍(lán)線表示在真實(shí)描述條件下的預(yù)測(cè)軌跡,綠線表示真實(shí)軌跡。
表2. 不同條件的定量比較。
表3. 平均ADE和FDE最大的前10個(gè)單詞。這些單詞對(duì)應(yīng)的是從單幀中難以估計(jì)的運(yùn)動(dòng)。明確表示運(yùn)動(dòng)的單詞以粗體顯示。
總結(jié):
本文介紹了CoVLA數(shù)據(jù)集,這是一個(gè)用于自動(dòng)駕駛的VLA模型的新型數(shù)據(jù)集。通過(guò)利用可擴(kuò)展的自動(dòng)化方法,本文構(gòu)建了一個(gè)大規(guī)模、全面的數(shù)據(jù)集,并豐富了詳細(xì)的語(yǔ)言標(biāo)注?;谶@個(gè)穩(wěn)健的數(shù)據(jù)集,本文開(kāi)發(fā)了CoVLA-Agent,這是一種先進(jìn)的VLA自動(dòng)駕駛模型。評(píng)估結(jié)果強(qiáng)調(diào)了該模型在生成連貫的語(yǔ)言和動(dòng)作輸出方面的強(qiáng)大能力。這些發(fā)現(xiàn)突顯了VLA多模態(tài)模型的變革潛力,并為未來(lái)的自動(dòng)駕駛研究創(chuàng)新鋪平了道路。