偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="1ejwm"></center>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DriveGPT4：自動駕駛或?qū)⒂瓉鞧PT時刻？結(jié)合LLM的端到端系統(tǒng)來了！

作者：Zhenhua Xu 2023-10-13 09:43:36

人工智能智能汽車

DriveGPT4是世界首個專注于可解釋的端到端自動駕駛的工作。當(dāng)與傳統(tǒng)方法和視頻理解LLM一起在多個任務(wù)上進(jìn)行評估時，DriveGPT4表現(xiàn)出SOTA的定性和定量性能。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

筆者的個人理解

在過去的十年里，自動駕駛在學(xué)術(shù)界和工業(yè)界都得到了快速發(fā)展。然而其有限的可解釋性仍然是一個懸而未決的重大問題，嚴(yán)重阻礙了自動駕駛的發(fā)展進(jìn)程。以前使用小語言模型的方法由于缺乏靈活性、泛化能力和魯棒性而未能解決這個問題。近兩年隨著ChatGPT的出現(xiàn)，多模態(tài)大型語言模型（LLM）因其通過文本處理和推理非文本數(shù)據(jù)（如圖像和視頻）的能力而受到研究界的極大關(guān)注。因此一些工作開始嘗試將自動駕駛和大語言模型結(jié)合起來，今天汽車人為大家分享的DriveGPT4就是利用LLM的可解釋實(shí)現(xiàn)的端到端自動駕駛系統(tǒng)。DriveGPT4能夠解釋車輛動作并提供相應(yīng)的推理，以及回答用戶提出的各種問題以增強(qiáng)交互。此外，DriveGPT4以端到端的方式預(yù)測車輛的運(yùn)動控制。這些功能源于專門為無人駕駛設(shè)計(jì)的定制視覺指令調(diào)整數(shù)據(jù)集。DriveGPT4也是世界首個專注于可解釋的端到端自動駕駛的工作。當(dāng)與傳統(tǒng)方法和視頻理解LLM一起在多個任務(wù)上進(jìn)行評估時，DriveGPT4表現(xiàn)出SOTA的定性和定量性能。

項(xiàng)目主頁：https://tonyxuqaq.github.io/projects/DriveGPT4/

總結(jié)來說，DriveGPT4的主要貢獻(xiàn)如下：

為可解釋的自動駕駛開發(fā)了一個新的視覺指令調(diào)整數(shù)據(jù)集。
提出了一個全新的多模態(tài)LLM—DriveGPT4。DriveGPT4對創(chuàng)建的數(shù)據(jù)集進(jìn)行了微調(diào)，可以處理多模態(tài)輸入數(shù)據(jù)，并提供文本輸出和預(yù)測的控制信號。
在多個任務(wù)上評估所有方法，DriveGPT4的性能優(yōu)于所有基線。此外，DriveGPT4可以通過零樣本泛化處理看不見的場景。

通過ChatGPT生成指令數(shù)據(jù)

具體來說，DriveGPT4訓(xùn)練使用的視頻和標(biāo)簽是從BDD-X數(shù)據(jù)集中收集的，該數(shù)據(jù)集包含約20000個樣本，包括16803個用于訓(xùn)練的clip和2123個用于測試的clip。每個clip采樣8個圖像。此外，它還提供每幀的控制信號數(shù)據(jù)（例如，車輛速度和車輛轉(zhuǎn)彎角度）。BDD-X為每個視頻clip提供了關(guān)于車輛行動描述和行動理由的文本注釋，如圖1所示。在以前的工作中，ADAPT訓(xùn)練caption網(wǎng)絡(luò)來預(yù)測描述和理由。但是，提供的描述和標(biāo)簽是固定的和剛性的。如果人類用戶希望了解更多關(guān)于車輛的信息并詢問日常問題，那么過去的工作可能會功虧一簣。因此，僅BDD-X不足以滿足可解釋自動駕駛的要求。

由ChatGPT/GPT4生成的指令調(diào)整數(shù)據(jù)已被證明在自然語言處理、圖像理解和視頻理解中對性能增強(qiáng)是有效的。ChatGPT/GPT4可以訪問更高級別的信息（例如，圖像標(biāo)記的captions、GT目標(biāo)邊界框），并可以用于提示生成對話、描述和推理。目前，還沒有為自動駕駛目的定制的視覺指令跟隨數(shù)據(jù)集。因此，我們在ChatGPT的輔助下，基于BDD-X創(chuàng)建了自己的數(shù)據(jù)集。

修正問題回答。由于BDD-X為每個視頻clip提供了車輛動作描述、動作理由和控制信號序列標(biāo)簽，因此我們直接使用ChatGPT基于這些標(biāo)簽生成一組三輪問答（QA）。首先，我們創(chuàng)建三個問題集：Qa、Qj和Qc。

Qa包含相當(dāng)于“這輛車目前的行動是什么？”的問題。
Qj包含相當(dāng)于“為什么車輛會有這種行為？”的問題。
Qc包含相當(dāng)于“預(yù)測下一幀中車輛的速度和轉(zhuǎn)彎角度”的問題。

LLM可以同時學(xué)習(xí)預(yù)測和解釋車輛動作。但是如前所述，這些QA具有固定和嚴(yán)格的格式。由于缺乏多樣性，僅對這些QA進(jìn)行訓(xùn)練會降低LLM的推理能力，使其無法回答其他形式的問題。

ChatGPT生成的對話。為了解決上述問題，ChatGPT作為一名教師以生成更多關(guān)于自車的對話。提示通常遵循LLaVA中使用的提示設(shè)計(jì)。為了使ChatGPT能夠“看到”視頻，YOLOv8用于檢測視頻每幀中常見的目標(biāo)（例如，車輛、行人）。所獲得的目標(biāo)框作為更高級別的信息饋送到ChatGPT。除了目標(biāo)檢測結(jié)果外，ChatGPT還可以訪問視頻clip的真實(shí)控制信號序列和captions?；谶@些特權(quán)信息，ChatGPT會被提示生成關(guān)于自車、紅綠燈、轉(zhuǎn)彎方向、變道、周圍物體、物體之間的空間關(guān)系等的多輪和類型的對話。詳細(xì)提示見附錄。

最后，我們收集了28K的視頻文本指令如下樣本，包括由ChatGPT生成的16K固定QA和12K對話。生成的示例如表1所示。

DriveGPT4

模型架構(gòu)

DriveGPT4是一個多功能多模態(tài)的LLM，能夠處理各種輸入類型，包括視頻、文本和控制信號。視頻被均勻地采樣到固定數(shù)量的圖像中，并使用基于Valley的視頻標(biāo)記器將視頻幀轉(zhuǎn)換為文本域標(biāo)記。從RT-2中汲取靈感，文本和控制信號使用相同的文本標(biāo)記器，這意味著控制信號可以被解釋為一種語言，并被LLM有效地理解和處理。所有生成的令牌都被連接起來并輸入到LLM中。本文采用LLaMA 2作為LLM。在生成預(yù)測的令牌后，de-tokenizer對其進(jìn)行解碼以恢復(fù)人類語言。解碼文本包含固定格式的預(yù)測信號。DriveGPT4的整體架構(gòu)如圖2所示。

視頻標(biāo)記器。視頻標(biāo)記器基于Valley。對于每個視頻幀，使用預(yù)訓(xùn)練的CLIP視覺編碼器來提取其特征。的第一個通道表示的全局特征，而其他256個通道響應(yīng)的patch特征。為了簡潔地表示，的全局特征被稱為，而的局部patch特征被表示為。然后，整個視頻的時間視覺特征可以表示為：

同時，整個視頻的空間視覺特征由下式給出：

最終，使用projector將視頻的時間特征T和空間特征S都投影到文本域中。tokenizer的詳細(xì)結(jié)構(gòu)如圖3所示。

文本和控制信號。受RT-2的啟發(fā)，控制信號的處理類似于文本，因?yàn)樗鼈儗儆谕挥蚩臻g。控制信號直接嵌入文本中進(jìn)行提示，并使用默認(rèn)的LLaMA標(biāo)記器。在本研究中，ego車輛的速度v和轉(zhuǎn)向角?被視為目標(biāo)控制信號。轉(zhuǎn)向角度表示當(dāng)前幀和初始幀之間的相對角度。在獲得預(yù)測的令牌后，LLaMA的tokenizer用于將令牌解碼回文本。DriveGPT4預(yù)測后續(xù)步驟的控制信號，即（vN+1，?N+1）。預(yù)測的控制信號使用固定格式嵌入輸出文本中，通過簡單的后處理可以輕松提取。表2中給出了DriveGPT4的輸入和輸出示例。

訓(xùn)練

與以往LLM相關(guān)研究一致，DriveGPT4的訓(xùn)練包括兩個階段：（1）預(yù)訓(xùn)練階段，重點(diǎn)是視頻文本對齊；以及（2）微調(diào)階段，旨在訓(xùn)練LLM回答與端到端自動駕駛相關(guān)的問題。

預(yù)訓(xùn)練。與LLaVA和Valley一致，該模型對來自CC3M數(shù)據(jù)集的593K個圖像-文本對和來自WebVid-10M數(shù)據(jù)集的100K個視頻-文本對進(jìn)行了預(yù)訓(xùn)練。預(yù)訓(xùn)練圖像和視頻包含各種主題，并不是專門為自動駕駛應(yīng)用設(shè)計(jì)的。在此階段，CLIP編碼器和LLM權(quán)重保持固定。只有視頻標(biāo)記器被訓(xùn)練為將視頻與文本對齊。

微調(diào)。在這個階段，DriveGPT4中的LLM與可解釋的端到端自動駕駛的視覺標(biāo)記器一起進(jìn)行訓(xùn)練。為了使DriveGPT4能夠理解和處理主要知識，它使用前文中生成的28K視頻文本指令進(jìn)行訓(xùn)練。為了保持DriveGPT4回答日常問題的能力，還使用了LLaVA生成的80K指令跟蹤數(shù)據(jù)。因此，在微調(diào)階段，DriveGPT4使用28K視頻文本指令跟隨數(shù)據(jù)以及80K圖像文本指令跟隨的數(shù)據(jù)進(jìn)行訓(xùn)練。前者確保了DriveGPT4可以應(yīng)用于可互操作的端到端自動駕駛，而后者增強(qiáng)了數(shù)據(jù)靈活性，有助于保持DriveGPT4的通用問答能力。

實(shí)驗(yàn)

可解釋的自動駕駛

在本節(jié)評估了DriveGPT4及其解釋生成的基線，包括車輛行動描述、行動理由和有關(guān)車輛狀態(tài)的其他問題。ADAPT是最先進(jìn)的基線工作。最近的多模式視頻理解LLM也被考慮進(jìn)行比較。ADAPT采用32幀視頻作為輸入，而其他方法則采用8幀視頻作為輸出。

評估指標(biāo)。為了詳細(xì)評估這些方法，本文報告了NLP社區(qū)中廣泛使用的多個指標(biāo)得分，包括BLEU4、METEOR和CIDEr。然而，這些指標(biāo)主要衡量單詞級別的性能，而沒有考慮語義，這可能會導(dǎo)致意想不到的評估結(jié)果。鑒于ChatGPT強(qiáng)大的推理能力，它被用來衡量預(yù)測質(zhì)量，并提供更合理的分?jǐn)?shù)。ChatGPT會被提示分配一個介于0和1之間的數(shù)字分?jǐn)?shù)，分?jǐn)?shù)越高表示預(yù)測精度越高?；贑hatGPT的評估的詳細(xì)提示見附錄。度量比較示例如圖4所示。與傳統(tǒng)指標(biāo)相比，Chat-GPT生成的分?jǐn)?shù)為評估提供了更合理、更令人信服的依據(jù)。

行動描述和理由。考慮到評估的成本和效率，DriveGPT4在來自BDD-X測試集的500個隨機(jī)采樣的視頻clip上進(jìn)行了測試。目標(biāo)是盡可能根據(jù)給定標(biāo)簽預(yù)測車輛行動描述和理由。評估結(jié)果顯示在表3中。結(jié)果表明，與之前最先進(jìn)的（SOTA）方法ADAPT相比，DriveGPT4實(shí)現(xiàn)了卓越的性能，盡管ADAPT使用32幀視頻，而DriveGPT4只有8幀視頻作為輸入。

附加問答。上述車輛行動描述和理由具有相對固定的格式。為了進(jìn)一步評估DriveGPT的可解釋能力和靈活性，在第3節(jié)中生成了其他問題。BDD-X測試集中的100個隨機(jī)采樣的視頻片段用于生成問題。與行動描述和理由相比，這些問題更加多樣化和靈活。評價結(jié)果如表4所示。ADAPT無法回答除車輛操作說明和理由之外的其他問題。之前的視頻了解LLM可以回答這些問題，但他們沒有學(xué)習(xí)到駕駛領(lǐng)域的知識。與所有基線相比，DriveGPT4呈現(xiàn)出優(yōu)異的結(jié)果，展示了其靈活性。

端到端控制

在本節(jié)評估了DriveGPT4及其開環(huán)控制信號預(yù)測的基線，特別關(guān)注速度和轉(zhuǎn)向角。所有方法都需要基于順序輸入來預(yù)測下一單個幀的控制信號。

評估指標(biāo)。繼之前關(guān)于控制信號預(yù)測的工作之后，我們使用均方根誤差（RMSE）和閾值精度（Aτ）進(jìn)行評估。τ測量預(yù)測誤差低于τ的測試樣本的比例。為了進(jìn)行全面比較，我們將τ設(shè)置為多個值：{0.1，0.5，1.0，5.0}。

定量結(jié)果。在去除帶有錯誤控制信號標(biāo)簽的樣本后，BDD-X測試集中的所有其他樣本用于控制評估。先前最先進(jìn)的（SOTA）方法ADAPT和DriveGPT4的定量結(jié)果如表5所示。DriveGPT4實(shí)現(xiàn)了卓越的控制預(yù)測結(jié)果。

定性結(jié)果

我們進(jìn)一步提供了多種定性結(jié)果，便于直觀比較。首先，BDD-X測試集的兩個示例如圖5所示。然后，為了驗(yàn)證DriveGPT4的泛化能力，我們將DriveGPT4應(yīng)用于圖6中零樣本會話生成的NuScenes數(shù)據(jù)集。最后，我們在視頻游戲上嘗試DriveGPT4，以進(jìn)一步測試其泛化能力。一個例子如圖7所示。

消融實(shí)驗(yàn)

消融實(shí)驗(yàn)如表6所示：

結(jié)論

本文介紹了DriveGPT4，一個使用多模態(tài)LLM的可解釋的端到端自動駕駛系統(tǒng)。在ChatGPT的幫助下，開發(fā)了一個新的自動駕駛解釋數(shù)據(jù)集，并用于微調(diào)DriveGPT4，使其能夠響應(yīng)人類對車輛的提問。DriveGPT4利用輸入視頻、文本和歷史控制信號來生成對問題的文本響應(yīng)，并預(yù)測車輛操作的控制信號。它在各種任務(wù)中都優(yōu)于基線模型，如車輛動作描述、動作論證、一般問題分析和控制信號預(yù)測。此外，DriveGPT4通過零樣本自適應(yīng)表現(xiàn)出強(qiáng)大的泛化能力。

原文鏈接：https://mp.weixin.qq.com/s/tIuMUdTlp1_R-D06kRO8Qg

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<dfn id="uzhre"><fieldset id="uzhre"><label id="uzhre"></label></fieldset></dfn>

<big id="uzhre"><samp id="uzhre"><meter id="uzhre"></meter></samp></big>

<sub id="uzhre"></sub>