偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

登上NeurIPS,Genesis開創(chuàng)無需OCC引導(dǎo)的多模態(tài)生成新范式,在視頻與激光雷達指標上達到SOTA水平

人工智能 新聞
為了以結(jié)構(gòu)化語義引導(dǎo)生成過程,本文引入了 DataCrafter,可提供場景級與實例級的信息描述。在 nuScenes 基準數(shù)據(jù)集上的大量實驗表明,Genesis 在視頻與激光雷達指標上均達到了當前 SOTA 水平。

由華中科技大學(xué)與小米汽車提出了業(yè)內(nèi)首個無需 OCC 引導(dǎo)的多模態(tài)的圖像 - 點云聯(lián)合生成框架 Genesis。該算法只需基于場景描述和布局(包括車道線和 3D 框),就可以生成逼真的圖像和點云視頻。


  • 論文題目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
  • 論文鏈接:https://arxiv.org/abs/2506.07497
  • Github 鏈接:xiaomi-research/genesis

Genesis 采用兩階段架構(gòu):第一階段基于透視圖投影的布局和場景描述等條件,利用基于 DiT 的擴散模型學(xué)習(xí) 3D 變分自編碼器編碼的環(huán)視圖特征; 第二階段將第一階段多視角視頻序列轉(zhuǎn)到鳥瞰圖的特征空間,并結(jié)合場景描述和布局等條件,學(xué)習(xí) 2D 自編碼器編碼的點云特征。

為了以結(jié)構(gòu)化語義引導(dǎo)生成過程,本文引入了 DataCrafter (一個基于 VLM 的數(shù)據(jù)標注模塊),可提供場景級與實例級的信息描述。在 nuScenes 基準數(shù)據(jù)集上的大量實驗表明,Genesis 在視頻與激光雷達指標上均達到了當前 SOTA 水平。

本文的主要貢獻總結(jié)如下:

  • 統(tǒng)一的多模態(tài)生成架構(gòu)。Genesis 采用統(tǒng)一的 pipeline,視頻和 LiDAR 分支都在共享相同的條件輸入,包括場景描述和布局等,這確保了生成的多模態(tài)數(shù)據(jù)的一致性。為進一步保證點云和圖像背景的信息一致性,我們將 RGB 透視圖轉(zhuǎn)到鳥瞰圖視角下的特征下,并把該特征作為條件輸入到基于點云擴散模型中,從而加強兩種模態(tài)的一致性,該過程無需依賴 occupancy 或體素等中間體。
  • 通過 DataCrafter 進行結(jié)構(gòu)化語義信息提取。為了提高語義可控性,本文引入了 DataCrafter,這是一個基于視覺語言模型構(gòu)建的 caption 數(shù)據(jù)處理模塊。它提取多視圖、場景級和實例級描述,這些描述融合到密集的語言引導(dǎo)式先驗中。這些 caption 數(shù)據(jù)為視頻和 LiDAR 生成器提供了詳細的語義指導(dǎo),從而產(chǎn)生不僅逼真而且可解釋和可控的輸出。

引言

在自動駕駛技術(shù)向高階邁進的進程中,構(gòu)建多樣化、高擬真度的駕駛場景數(shù)據(jù)集,已成為不可或缺的關(guān)鍵環(huán)節(jié)。合成數(shù)據(jù)因為其可編輯,易泛化的特點得到了廣泛的關(guān)注?,F(xiàn)有研究雖在視頻生成、LiDAR 序列合成領(lǐng)域取得顯著進展,但如何實現(xiàn)視覺與幾何模態(tài)間的深度協(xié)同與一致性表達,仍屬亟待攻克的前沿課題。

如圖 1,當前主流的駕駛場景生成方案,多聚焦于 RGB 視頻或 LiDAR 點云的單模態(tài)數(shù)據(jù)生成。這些方法雖極大推動了場景生成技術(shù)的發(fā)展,卻未能充分挖掘多模態(tài)融合的協(xié)同優(yōu)勢。在處理 RGB 視頻與其他傳感器數(shù)據(jù)時,模態(tài)間的對齊精度不足,導(dǎo)致生成結(jié)果難以滿足實際應(yīng)用需求。許多方法采用基于 BEV 地圖或 3D 框的 “布局 - 數(shù)據(jù)” 單步生成模式,這種依賴粗略空間先驗的架構(gòu),在捕捉復(fù)雜交通動態(tài)與精細語義細節(jié)時存在天然缺陷。

盡管 UniScene 等研究嘗試引入占用網(wǎng)格實現(xiàn)多模態(tài)生成,但實際自動駕駛場景中 OCC 標簽的獲取是非常昂貴的,這嚴重限制了生成模型在工業(yè)界的應(yīng)用。另外,現(xiàn)有多模態(tài)生成方案多依賴粗略標簽或通用標題模型提供語義標簽,未能有效利用現(xiàn)代視覺語言模型(VLM)的細粒度語義解析能力。這種語義標簽的缺失,直接影響生成場景的真實性、可控性,以及時空邏輯的連貫性。

具體工作

DataCrafter 模塊

本文提出 DataCrafter, 一個專為多視角自動駕駛視頻設(shè)計的 Caption 數(shù)據(jù)生成模塊,旨在實現(xiàn)以下兩項核心功能:

(1) 訓(xùn)練階段數(shù)據(jù)篩選:借助預(yù)訓(xùn)練視覺語言模型的圖像理解能力,對原始訓(xùn)練片段進行評估,僅篩選高質(zhì)量片段用于訓(xùn)練。(2) 結(jié)構(gòu)化語義提?。豪靡曈X語言模型對多視角視頻片段提取細粒度語義信息,為多模態(tài)生成任務(wù)提供豐富的結(jié)構(gòu)化語義條件。

具體流程如下:首先,將多視角輸入視頻分割為片段,每個片段都由基于視覺語言模型的模塊進行評分:

其中項表示由視覺語言模型得出的子分數(shù),為固定權(quán)重。

評分體系涵蓋三類關(guān)鍵視覺屬性:(1) 圖像清晰度:如模糊、畸變、臟污等;(2) 結(jié)構(gòu)合理性:如遮擋程度、結(jié)構(gòu)混亂、場景完整性等;(3) 美學(xué)特性:如逆光、過暗過亮、曝光異常、色彩偏差等。

僅得分高于設(shè)定閾值的片段會被保留用于訓(xùn)練,并進一步進行語義標注。相較于現(xiàn)有方法僅使用單視角圖像進行標注或?qū)⒍嘁暯菆D像拼接后統(tǒng)一標注的策略,前者容易造成信息缺失,后者則常出現(xiàn)語義冗余、視角沖突以及跨視角信息不一致等問題,本文為確保多視圖間的一致性,多視角場景描述經(jīng)預(yù)訓(xùn)練 VLM 的語言編碼器和冗余消除函數(shù)處理,去除冗余并生成統(tǒng)一語義表示。最終,每個片段生成層次化場景描述。

其中編碼全局場景語境 (如天氣、道路類型、時間), 每個物體實例由類別、邊界框 和有根據(jù)的描述構(gòu)成。通過該模塊的結(jié)構(gòu)設(shè)計,模塊能夠生成具備跨視角一致性的語義表征,從而為視頻與 LiDAR 模態(tài)的聯(lián)合生成提供細粒度的語義引導(dǎo)。

視頻生成模型

如圖 2 中 camera_branch,Genesis 的視頻生成模塊以 DiT 為骨干,引入 3D-VAE 編碼與結(jié)構(gòu)化語義先驗,構(gòu)建出具備時空一致性的生成架構(gòu)。Camera 分支將場景布局信息與語言描述通過注意力機制深度耦合,使生成的視頻不僅具備視覺真實感,更能遵循語義邏輯。

我們發(fā)現(xiàn),目前自動駕駛場景視頻生成的疼點在于行人難以清晰地生成,為此,我們創(chuàng)新性地利用 YOLOv8x-Pose 檢測行人姿態(tài)并投影到各視角,以此增強動態(tài)場景的語義表達。

具體實現(xiàn)上,我們首先構(gòu)建包含車道段和 3D 邊界框的結(jié)構(gòu)化場景布局,將其投影到各視角 2D 圖像平面形成語義控制圖,再通過 Control-DiT 模塊的交叉注意力機制在每個去噪時間步融入這些結(jié)構(gòu)化先驗,實現(xiàn)對生成過程的引導(dǎo)。

在隱空間編碼方面,借助 3D VAE 將多幀 BEV 圖壓縮為隱空間表示,解碼器從去噪詞元中重建 BEV 語義。訓(xùn)練目標函數(shù)為:

通過交叉熵損失、KL 散度和 Lovasz 損失的聯(lián)合優(yōu)化,確保語義信息的準確捕捉。此外,通過 DataCrafter 模塊生成的場景描述經(jīng) T5 編碼器處理為文本嵌入,與 BEV 圖編碼后的特征共同作為條件輸入 DiT 塊,通過交叉注意力實現(xiàn)高階語義對生成的調(diào)制:

最后,模塊集成的語義對齊控制 Transformer 通過控制注意力將語義特征注入擴散塊早期階段,并結(jié)合空間自注意力、跨視角注意力和時間注意力機制,全面保障多視角視頻生成的時空連貫性與語義保真度。

激光雷達生成模型

如圖 2 中 lidar_branch,激光雷達生成模塊致力于生成幾何精確且時空連貫的點云序列,通過點云自動編碼器與時空擴散模塊的協(xié)同設(shè)計,結(jié)合跨模態(tài)語義條件實現(xiàn)多傳感器數(shù)據(jù)的一致性生成。

如圖 4,首先,點云自動編碼器將稀疏點云體素化為 BEV 網(wǎng)格,利用 Swin Transformer 骨干網(wǎng)絡(luò)壓縮為隱空間特征,再通過 Swin 解碼器與 NeRF 渲染模塊重建點云,過程中采用空間跳躍算法減少空網(wǎng)格誤差,并通過深度 L1 損失、占用損失和表面正則化損失優(yōu)化訓(xùn)練,同時引入后處理過濾噪聲點。

時空擴散模塊以自動編碼器的隱空間特征為基礎(chǔ),采用雙 DiT 網(wǎng)絡(luò)結(jié)合 ControlNet 架構(gòu),集成場景描述、道路圖等語義條件,以及 3D 邊界框幾何條件;為保證跨模態(tài)一致,通過 LSS 算法將視頻分支的 RGB 圖像轉(zhuǎn)為 BEV 特征,與道路圖特征拼接后輸入 ControlNet。擴散過程中,隱空間詞元通過交叉注意力融合語義與幾何嵌入,交叉注意力操作的公式為:

其中,嵌入值分別來自道路草圖和三維邊界框。為確保時間一致性,STDiT-Block-L 采用了多頭自注意操作。給定輸入,標記更新為。

在無首幀條件設(shè)定下,本文的方法實現(xiàn)了 83.10 的多幀 FVD 和 14.90 的多幀 FID,優(yōu)于 DriveDreamer-2 等先前的工作。在有首幀條件設(shè)定下,本文的方法進一步提升至 16.95 的 FVD 和 4.24 的 FID,與 MiLA 相比展現(xiàn)出具有競爭力的結(jié)果,同時保持了時間一致性和結(jié)構(gòu)保真度。在有噪聲隱空間設(shè)定下,在 6019 個樣本上實現(xiàn)了 67.87 的 FVD 和 6.45 的 FID,超過了 UniScene 報告的先前最佳結(jié)果。

LiDAR 生成結(jié)果

表 2 展現(xiàn)了先前最先進的方法與本文提出的 Genesis 框架在激光雷達序列生成性能方面的定量比較。評估標準遵循 HERMES 的設(shè)定進行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空間范圍內(nèi),使用 Chamfer distance 作為主要指標。在短期和長期預(yù)測方面,Genesis 始終優(yōu)于現(xiàn)有方法。在預(yù)測時長為 1 秒時,它的 Chamfer distance 達到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在預(yù)測時長為 3 秒時,優(yōu)勢擴大到相對減少 45%(從 1.17 降至 0.633)。

下游任務(wù)實驗

本文的方法在多個下游感知任務(wù)上評估了生成數(shù)據(jù)的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目標檢測中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文評估了生成數(shù)據(jù)在 BEVFusion 3D 目標檢測框架上的有效性。在所有設(shè)置中,本文的方法都取得了一致的改進,mAP 從 66.87 提高到 67.78,NDS 從 69.65 提高到 71.13。攝像頭和激光雷達模態(tài)的聯(lián)合生成實現(xiàn)了的最高增益(+0.91 mAP / +1.48 NDS),證明了多模態(tài)生成的互補優(yōu)勢。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-02-07 09:31:19

自動駕駛3D

2023-09-06 09:59:12

雷達技術(shù)

2025-09-16 10:28:57

2025-08-27 09:08:00

AI視覺模型

2022-01-13 13:38:29

激光雷達車燈

2023-09-08 11:55:19

雷達視覺

2022-02-16 10:56:32

雷達4D汽車

2024-04-24 11:29:54

模型雷達

2019-04-24 23:02:25

激光雷達3D檢測

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2023-05-22 10:00:09

雷達激光

2024-03-25 12:40:19

訓(xùn)練模型

2023-04-25 11:49:28

3D視覺

2023-06-16 09:55:29

2023-05-16 10:32:33

雷達技術(shù)

2024-04-19 12:38:20

3D檢測
點贊
收藏

51CTO技術(shù)棧公眾號