偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

港科大最新!Vista:一種具有高保真度和多功能可控的世界模型

人工智能 智能汽車
本文提出了Vista,這是一種具有增強(qiáng)保真度和可控性的可泛化駕駛世界模型。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

原標(biāo)題:Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

論文鏈接:https://arxiv.org/pdf/2405.17398

代碼鏈接:github.com/OpenDriveLab/Vista

作者單位:香港科技大學(xué) 上海人工智能實(shí)驗(yàn)室OpenDriveLab University of Tübingen Tübingen AI Center 香港大學(xué)

論文思路:

世界模型可以預(yù)見(jiàn)不同動(dòng)作的結(jié)果,這對(duì)于自動(dòng)駕駛至關(guān)重要。然而,現(xiàn)有的駕駛世界模型在泛化到未見(jiàn)環(huán)境、關(guān)鍵細(xì)節(jié)的預(yù)測(cè)保真度以及靈活應(yīng)用的動(dòng)作可控性方面仍存在局限性。本文提出了Vista,這是一種具有高保真度和多功能可控性的通用駕駛世界模型?;趯?duì)現(xiàn)有方法的系統(tǒng)診斷,本文引入了幾個(gè)關(guān)鍵成分來(lái)解決這些局限性。為了在高分辨率下準(zhǔn)確預(yù)測(cè)現(xiàn)實(shí)世界的動(dòng)態(tài),本文提出了兩種新的損失函數(shù),以促進(jìn)對(duì)移動(dòng)實(shí)例和結(jié)構(gòu)信息的學(xué)習(xí)。本文還設(shè)計(jì)了一種有效的潛在替換(latent replacement)方法,將歷史幀作為先驗(yàn)注入,以實(shí)現(xiàn)連貫的長(zhǎng)時(shí)間滾動(dòng)預(yù)測(cè)(rollouts)。對(duì)于動(dòng)作可控性(action controllability),本文通過(guò)一種高效的學(xué)習(xí)策略,結(jié)合了從高層意圖(命令、目標(biāo)點(diǎn))到低層操作(軌跡、角度和速度)的一套多功能控制。在大規(guī)模訓(xùn)練之后,Vista的能力可以無(wú)縫地泛化到不同的場(chǎng)景。對(duì)多個(gè)數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,Vista在超過(guò)70%的比較中優(yōu)于最先進(jìn)的通用視頻生成器,并在FID上超過(guò)表現(xiàn)最佳的駕駛世界模型55%,在FVD上超過(guò)27%。此外,本文首次利用Vista自身的能力,在不訪問(wèn)真實(shí)動(dòng)作(ground truth actions)的情況下,建立了一個(gè)通用的獎(jiǎng)勵(lì)機(jī)制,用于真實(shí)世界動(dòng)作評(píng)估。

主要貢獻(xiàn):

(1) 本文提出了Vista,這是一種通用的駕駛世界模型,能夠在高時(shí)空分辨率下預(yù)測(cè)逼真的未來(lái)。通過(guò)捕捉動(dòng)態(tài)(capture dynamics)和保持結(jié)構(gòu)(preserve structures)的兩種新?lián)p失函數(shù),以及詳盡的動(dòng)態(tài)先驗(yàn)以維持長(zhǎng)時(shí)間滾動(dòng)預(yù)測(cè)(long-horizon rollouts)的一致性,其預(yù)測(cè)保真度得到了極大提升。

(2) 在高效學(xué)習(xí)策略的推動(dòng)下,本文通過(guò)統(tǒng)一的條件接口將多功能動(dòng)作可控性集成到Vista中。Vista的動(dòng)作可控性還可以在零樣本的情況下泛化到不同領(lǐng)域。

(3) 本文在多個(gè)數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn),以驗(yàn)證Vista的有效性。它優(yōu)于最具競(jìng)爭(zhēng)力的通用視頻生成器,并在nuScenes數(shù)據(jù)集上設(shè)立了新的最先進(jìn)水平。本文的實(shí)驗(yàn)證據(jù)表明,Vista可以用作評(píng)估動(dòng)作的獎(jiǎng)勵(lì)函數(shù)(reward function)。

網(wǎng)絡(luò)設(shè)計(jì):

在可擴(kuò)展學(xué)習(xí)技術(shù)的驅(qū)動(dòng)下,自動(dòng)駕駛在過(guò)去幾年中取得了令人鼓舞的進(jìn)展 [17, 54, 129]。然而,對(duì)于當(dāng)前最先進(jìn)的技術(shù)而言,復(fù)雜和分布外的情況仍然難以處理 [77]。一種有前景的解決方案是世界模型 [53, 70],它們從歷史觀察和替代動(dòng)作中推斷出世界的可能未來(lái)狀態(tài),從而評(píng)估這些動(dòng)作的可行性。世界模型有潛力在不確定性中進(jìn)行推理并避免災(zāi)難性錯(cuò)誤 [50, 70, 120],從而促進(jìn)自動(dòng)駕駛中的泛化和安全性。

盡管世界模型的主要前景是賦予其在新環(huán)境中的泛化能力,但現(xiàn)有的駕駛世界模型仍受限于數(shù)據(jù)規(guī)模 [84, 118, 120, 137, 140] 和地理覆蓋范圍 [50, 57]。如表1和圖1所總結(jié)的那樣,它們通常還局限于低幀率和低分辨率,導(dǎo)致關(guān)鍵細(xì)節(jié)的丟失。此外,大多數(shù)模型僅支持單一的控制模式,例如轉(zhuǎn)向角和速度。這不足以表達(dá)從高層意圖到低層操作的各種動(dòng)作形式,并且與流行的規(guī)劃算法的輸出不兼容 [12, 14, 19, 52, 54, 60]。此外,動(dòng)作可控性在未見(jiàn)數(shù)據(jù)集上的泛化能力研究不足。這些局限性阻礙了現(xiàn)有工作的適用性,因此開(kāi)發(fā)一種能夠克服這些局限性的世界模型勢(shì)在必行。

為此,本文引入了Vista,這是一種在跨領(lǐng)域泛化、高保真預(yù)測(cè)和多模態(tài)動(dòng)作可控性方面表現(xiàn)出色的駕駛世界模型。具體來(lái)說(shuō),本文在全球駕駛視頻的大型語(yǔ)料庫(kù) [130] 上開(kāi)發(fā)了預(yù)測(cè)模型,以培養(yǎng)其泛化能力。為了實(shí)現(xiàn)連貫的未來(lái)推斷,本文將Vista基于三種基本的動(dòng)態(tài)先驗(yàn)條件(見(jiàn)第3.1節(jié))。不僅依賴于標(biāo)準(zhǔn)的擴(kuò)散損失 [5],本文還引入了兩種顯式損失函數(shù),以增強(qiáng)動(dòng)態(tài)并保持結(jié)構(gòu)細(xì)節(jié)(見(jiàn)第3.1節(jié)),從而提升Vista在高分辨率下模擬逼真未來(lái)的能力。為了實(shí)現(xiàn)靈活的可控性,本文結(jié)合了一套多功能動(dòng)作格式,包括高層意圖(如命令和目標(biāo)點(diǎn))以及低層操作(如軌跡、轉(zhuǎn)向角和速度)。這些動(dòng)作條件通過(guò)一個(gè)統(tǒng)一接口注入,并通過(guò)高效的訓(xùn)練策略進(jìn)行學(xué)習(xí)(見(jiàn)第3.2節(jié))。因此,如圖2所示,Vista獲得了以10 Hz和576×1024像素預(yù)測(cè)逼真未來(lái)的能力,并在各種粒度水平上實(shí)現(xiàn)了多功能動(dòng)作可控性。本文還展示了Vista作為通用獎(jiǎng)勵(lì)函數(shù)評(píng)估不同動(dòng)作可靠性的潛力。

表1:真實(shí)世界的駕駛世界模型。Vista在大規(guī)模高質(zhì)量駕駛數(shù)據(jù)上訓(xùn)練,能夠在高時(shí)空分辨率下運(yùn)行,并支持多功能動(dòng)作可控性。

圖片

圖1:分辨率比較。Vista的預(yù)測(cè)分辨率高于以往文獻(xiàn)中的模型。

圖2:Vista的能力。Vista可以從任意環(huán)境出發(fā),在高時(shí)空分辨率下預(yù)測(cè)逼真且連續(xù)的未來(lái)(A-B)。它可以通過(guò)多模態(tài)動(dòng)作進(jìn)行控制(C),并作為通用獎(jiǎng)勵(lì)函數(shù)評(píng)估真實(shí)世界的駕駛動(dòng)作(D)。

圖3:[左]:Vista流程。除了初始幀,Vista還可以通過(guò)潛在替換吸收更多關(guān)于未來(lái)動(dòng)態(tài)的先驗(yàn)知識(shí)。其預(yù)測(cè)可以通過(guò)不同的動(dòng)作進(jìn)行控制,并通過(guò)自回歸展開(kāi)擴(kuò)展到長(zhǎng)時(shí)間范圍。[右]:訓(xùn)練過(guò)程。Vista分為兩個(gè)訓(xùn)練階段,在第二階段中凍結(jié)預(yù)訓(xùn)練權(quán)重以學(xué)習(xí)動(dòng)作控制。

圖4:損失設(shè)計(jì)示意圖。與標(biāo)準(zhǔn)擴(kuò)散損失(b)均勻分布不同,本文的動(dòng)態(tài)增強(qiáng)損失(d)能夠自適應(yīng)地集中在關(guān)鍵區(qū)域(c)(例如移動(dòng)的車輛和道路邊緣)進(jìn)行動(dòng)態(tài)建模。此外,通過(guò)顯式監(jiān)督高頻特征(e),可以增強(qiáng)結(jié)構(gòu)細(xì)節(jié)(例如邊緣和車道)的學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果:

圖5:在相同條件幀下由不同模型預(yù)測(cè)的駕駛未來(lái)。本文將Vista與公開(kāi)可用的視頻生成模型在其默認(rèn)配置下進(jìn)行對(duì)比。盡管之前的模型會(huì)產(chǎn)生不對(duì)齊和損壞的結(jié)果,Vista則不會(huì)出現(xiàn)這些問(wèn)題。

圖6:[頂部]:長(zhǎng)時(shí)間預(yù)測(cè)。Vista可以在沒(méi)有太多退化的情況下預(yù)測(cè)15秒高分辨率的未來(lái),涵蓋長(zhǎng)距離駕駛。藍(lán)線的長(zhǎng)度表示之前工作中展示的最長(zhǎng)預(yù)測(cè)時(shí)間。[底部]:SVD的長(zhǎng)期擴(kuò)展結(jié)果。SVD未能像Vista那樣自回歸地生成一致的高保真視頻。

圖7:人工評(píng)估結(jié)果。數(shù)值表示一個(gè)模型優(yōu)于另一個(gè)模型的百分比。Vista在兩個(gè)指標(biāo)上都優(yōu)于現(xiàn)有的工作。

圖8:動(dòng)作控制的效果。應(yīng)用動(dòng)作控制將生成與真實(shí)數(shù)據(jù)更為相似的預(yù)測(cè)。

圖9:多功能動(dòng)作可控性。Vista能夠在多種情景下響應(yīng)多模態(tài)動(dòng)作條件,預(yù)測(cè)相應(yīng)的結(jié)果。更多結(jié)果請(qǐng)參見(jiàn)附錄E。

圖10:[左]:在Waymo上的不同L2誤差的平均獎(jiǎng)勵(lì)。[右]:案例研究。本文的獎(jiǎng)勵(lì)的相對(duì)對(duì)比可以正確評(píng)估L2誤差無(wú)法判斷的動(dòng)作。

圖11:動(dòng)態(tài)先驗(yàn)的效果。注入更多的動(dòng)態(tài)先驗(yàn)可以產(chǎn)生與真實(shí)值更一致的未來(lái)運(yùn)動(dòng),例如左側(cè)白色車輛和廣告牌的運(yùn)動(dòng)。

圖12:[左]:動(dòng)態(tài)增強(qiáng)損失的效果。通過(guò)動(dòng)態(tài)增強(qiáng)損失監(jiān)督的模型生成更逼真的動(dòng)態(tài)。在第一個(gè)例子中,前車沒(méi)有保持靜止,而是正常前進(jìn)。在第二個(gè)例子中,當(dāng)自車向右轉(zhuǎn)向時(shí),樹(shù)木自然地向左移動(dòng),遵循現(xiàn)實(shí)世界的幾何規(guī)則。[右]:結(jié)構(gòu)保持損失的效果。所提出的損失使物體在移動(dòng)時(shí)輪廓更加清晰。

總結(jié):

本文提出了Vista,這是一種具有增強(qiáng)保真度和可控性的可泛化駕駛世界模型。通過(guò)系統(tǒng)性的研究,Vista能夠以高時(shí)空分辨率預(yù)測(cè)真實(shí)且連續(xù)的未來(lái)。它還具備多功能動(dòng)作可控性,能夠泛化到未見(jiàn)過(guò)的場(chǎng)景。此外,Vista可以被構(gòu)建為一個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估動(dòng)作。本文希望Vista能夠引發(fā)更廣泛的興趣,推動(dòng)可泛化自主系統(tǒng)的發(fā)展。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2025-04-02 08:50:00

AI視頻生成

2025-01-03 10:00:00

3D自動(dòng)駕駛生成

2024-09-10 11:21:30

2023-01-09 13:18:59

AI

2024-12-30 13:40:00

2021-07-21 09:49:32

量子存儲(chǔ)計(jì)算機(jī)

2025-06-03 08:40:00

2024-12-23 15:46:59

2024-11-26 09:43:37

2015-12-18 16:15:55

架構(gòu)新型計(jì)算模型

2021-04-14 14:50:27

計(jì)算機(jī)模型 技術(shù)

2023-08-21 08:00:00

人工智能大型語(yǔ)言模型

2021-11-16 14:11:59

語(yǔ)音合成微軟人工智能

2021-04-14 15:03:16

數(shù)據(jù)性能存儲(chǔ)

2021-06-04 08:58:41

Linux運(yùn)維Linux系統(tǒng)

2023-02-26 23:10:09

存儲(chǔ)Linux架構(gòu)

2023-07-25 15:10:36

Linux存儲(chǔ)

2024-06-25 11:11:12

2020-12-09 10:15:34

Pythonweb代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)