大模型「上車」關(guān)鍵一步:全球首個(gè)語(yǔ)言+自動(dòng)駕駛開(kāi)源數(shù)據(jù)集來(lái)了
DriveLM是一個(gè)基于語(yǔ)言的驅(qū)動(dòng)項(xiàng)目,它包含一個(gè)數(shù)據(jù)集和一個(gè)模型。通過(guò)DriveLM,我們介紹了自動(dòng)駕駛(AD)中大型語(yǔ)言模型的推理能力,以做出決策并確保可解釋的規(guī)劃。
在DriveLM的數(shù)據(jù)集中,將人工書寫的推理邏輯作為連接,促進(jìn)感知、預(yù)測(cè)和規(guī)劃(P3)。在模型中,我們提出了一個(gè)具有思維圖能力的AD視覺(jué)語(yǔ)言模型,以產(chǎn)生更好的規(guī)劃結(jié)果。目前,數(shù)據(jù)集的演示已經(jīng)發(fā)布,完整的數(shù)據(jù)集和模型將在未來(lái)發(fā)布。
項(xiàng)目鏈接:https://github.com/OpenDriveLab/DriveLM


What is Graph-of-Thoughts in AD?
數(shù)據(jù)集最令人興奮的方面是,P3中的問(wèn)答(QA)以圖形風(fēng)格的結(jié)構(gòu)連接,QA對(duì)作為每個(gè)節(jié)點(diǎn),對(duì)象的關(guān)系作為邊。
與純語(yǔ)言的思維樹(shù)或思維圖相比,我們更傾向于多模態(tài)。在AD域中這樣做的原因是,從原始傳感器輸入到最終控制動(dòng)作,每個(gè)階段都定義了AD任務(wù)。


DriveLM數(shù)據(jù)集中包含什么?
基于主流的nuScenes數(shù)據(jù)集構(gòu)建我們的數(shù)據(jù)集。DriveLM最核心的元素是基于幀的P3 QA。感知問(wèn)題需要模型識(shí)別場(chǎng)景中的對(duì)象。預(yù)測(cè)問(wèn)題要求模型預(yù)測(cè)場(chǎng)景中重要對(duì)象的未來(lái)狀態(tài)。規(guī)劃問(wèn)題促使模型給出合理的規(guī)劃行動(dòng),避免危險(xiǎn)的行動(dòng)。
標(biāo)定過(guò)程如何?
- 關(guān)鍵幀選擇。給定一個(gè)剪輯中的所有幀,注釋器將選擇需要注釋的關(guān)鍵幀。標(biāo)準(zhǔn)是,這些框架應(yīng)該涉及自車運(yùn)動(dòng)狀態(tài)的變化(變道、突然停車、停車后啟動(dòng)等)。
 - 關(guān)鍵對(duì)象選擇。給定關(guān)鍵幀,注釋器需要拾取周圍六個(gè)圖像中的關(guān)鍵對(duì)象。標(biāo)準(zhǔn)是這些物體應(yīng)該能夠影響自車(交通信號(hào)燈、過(guò)街行人、其他車輛)
 - 問(wèn)答注釋。給定這些關(guān)鍵對(duì)象,我們會(huì)自動(dòng)生成關(guān)于感知、預(yù)測(cè)和規(guī)劃的單個(gè)或多個(gè)對(duì)象的問(wèn)題。更多細(xì)節(jié)可以在我們的演示數(shù)據(jù)中找到。
 















 
 
 















 
 
 
 