偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

突破自動駕駛視頻生成極限:港中文&港科大&華為聯(lián)手推出MagicDriveDiT

人工智能 新聞
現(xiàn)在,香港中文大學(xué)、香港科技大學(xué)和華為聯(lián)手向這一長期挑戰(zhàn)發(fā)起了沖鋒:推出MagicDriveDiT,重新定義自動駕駛視頻生成的標(biāo)準(zhǔn)。

可控視頻生成,對于自動駕駛技術(shù)而言,同樣非常重要。

比如,生成高質(zhì)量、長時間且可控的高質(zhì)量街景視頻,可以滿足開發(fā)自動駕駛應(yīng)用的數(shù)據(jù)缺口。

圖片

現(xiàn)在,香港中文大學(xué)、香港科技大學(xué)和華為聯(lián)手向這一長期挑戰(zhàn)發(fā)起了沖鋒:推出MagicDriveDiT,重新定義自動駕駛視頻生成的標(biāo)準(zhǔn)。

目前該工作同時支持昇騰Ascend NPU以及NVIDIA GPU訓(xùn)練和推理。

具體而言,MagicDriveDiT基于DiT架構(gòu)設(shè)計。通過流匹配技術(shù)和漸進式訓(xùn)練策略,MagicDriveDiT不僅提升了系統(tǒng)的擴展能力,還能有效生成復(fù)雜場景。這一方法極大地提高了視頻生成的質(zhì)量,尤其是在生成高分辨率和長時間視頻方面表現(xiàn)突出。

圖片

精確場景控制

先來看MagicDriverDiT的生成效果。

通過精確的場景控制,MagicDriveDiT可以生成許多少見的行駛路況。

比如無信號燈路口讓行:

圖片

路邊起步變道:

圖片

以及夜間行車等。

值得一提的是,MagicDriveDiT既支持單個物體的精確控制:

圖片

也支持復(fù)雜的自車3D軌跡控制。

圖片

MagicDriveDiT的整體設(shè)計框架

架構(gòu)設(shè)計方面,首先,MagicDriveDiT將跨視角一致性模塊引入STDiT3的基礎(chǔ)模塊中,提出了MVDiT模塊來處理多視角視頻合成。

其次,對于自動駕駛場景中常見的多種控制,MagicDriveDiT在STDiT3的基礎(chǔ)上采用額外的控制分支以及交叉注意力分別處理不同的控制種類信號。

此前的視頻生成都是基于2DVAE編碼實現(xiàn)的,控制條件的空間編碼模塊并不適用于3DVAE的時空潛變量。針對現(xiàn)有方法在可擴展性和控制條件整合方面的不足,MagicDriveDiT采用空間-時間條件編碼技術(shù),實現(xiàn)了對時空潛變量的精確控制。這種方法使得生成的視頻在視覺效果上更加逼真,能夠滿足自動駕駛應(yīng)用對高質(zhì)量街景視頻的需求。

以下視頻空間編碼和時空編碼對比,此前的視頻控制方法并不適用于3DVAE的時空潛變量:

圖片

MagicDriveDiT提出的條件時空編碼模塊:

圖片

訓(xùn)練方法上,MagicDriveDiT發(fā)現(xiàn),提高視頻分辨率對于生成內(nèi)容的質(zhì)量提升最明顯。

因此,MagicDriveDiT采用了分辨率優(yōu)先的漸進式的訓(xùn)練策略,加速模型訓(xùn)練收斂,并且逐漸適配更高分辨率和更長的視頻。此外,通過混合數(shù)據(jù)訓(xùn)練,MagicDriveDiT還實現(xiàn)了視頻長度外推的能力,可以直接生成超越訓(xùn)練長度的視頻。

圖片

△MagicDriveDiT 采用的漸進式訓(xùn)練策略

實驗結(jié)果顯示,MagicDriveDiT在生成真實街景視頻方面的表現(xiàn)優(yōu)于現(xiàn)有的其他方法,不僅在分辨率上有所突破,還在幀數(shù)上實現(xiàn)了顯著提升,實現(xiàn)了前所未有的視頻生成效果。

圖片
圖片

與相關(guān)工作的分辨率、時長對比結(jié)果如下:

圖片

更多內(nèi)容請見論文:https://arxiv.org/abs/2411.13807

項目地址:https://github.com/flymin/MagicDriveDiT

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-28 09:31:44

2025-02-14 10:56:58

2024-10-28 07:30:00

2024-12-03 09:49:07

2024-10-11 09:32:48

2025-01-02 09:12:34

2025-04-02 09:50:00

機器人訓(xùn)練數(shù)據(jù)

2017-03-20 07:25:18

人工智能NVIDIA自動駕駛

2024-12-26 09:17:27

2024-11-06 13:03:49

2023-08-09 17:10:01

論文獲獎

2023-09-21 12:33:31

3DAI

2025-06-12 11:56:30

模型框架開源

2024-07-15 07:30:00

自動駕駛AI

2024-12-30 13:40:00

2023-10-17 13:27:49

自動駕駛數(shù)據(jù)

2023-05-17 13:51:30

CVPR武大華為

2023-10-23 10:11:36

自動駕駛技術(shù)

2024-02-19 08:31:10

SoraAIOpenAI
點贊
收藏

51CTO技術(shù)棧公眾號