偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICRA 2025|清華x光輪:自駕世界模型生成和理解事故場景

人工智能 新聞
光輪智能(Lightwheel)和來自來自清華、香港科技大學、吉林大學、南京理工大學、北京理工大學、復旦大學等的研究團隊,提出了AVD2(Accident Video Diffusion for Accident Video Description),提高行業(yè)的自動駕駛事故場景的安全能力。

近年來,自動駕駛技術(shù)快速發(fā)展,蘿卜快跑已經(jīng)無縫融入了武漢的交通,不少車企的智駕系統(tǒng)也都上路了。

然而,在復雜交通環(huán)境中,如何理解和預防事故仍然是一個巨大挑戰(zhàn)。比如前段時間特斯拉 FSD 終于入華。但中國版 FSD 似乎有些「水土不服」,頻繁闖紅燈、開上人行道、逆行,被網(wǎng)友調(diào)侃為「美國司機直接來中國開車」。

同時,現(xiàn)有的方法往往難以準確解釋事故發(fā)生的原因,并缺乏有效的預防策略。此外,由于事故數(shù)據(jù)較為稀缺,自動駕駛系統(tǒng)在面對突發(fā)情況時往往難以作出合理決策。

為了解決這一問題,光輪智能(Lightwheel)和來自來自清華、香港科技大學、吉林大學、南京理工大學、北京理工大學、復旦大學等的研究團隊,提出了AVD2(Accident Video Diffusion for Accident Video Description),提高行業(yè)的自動駕駛事故場景的安全能力。

AVD2 是一個創(chuàng)新的事故視頻生成與描述框架,旨在提升自動駕駛系統(tǒng)對事故場景的理解。通過生成與自然語言描述和推理高度一致的事故視頻,AVD2 增強了對事故場景的建模能力。

同時,該團隊還貢獻了 EMM-AU(Enhanced Multi-Modal Accident Video Understanding)數(shù)據(jù)集,以推動事故分析和預防的研究。

  • 項目主頁鏈接:https://an-answer-tree.github.io/
  • 論文鏈接:https://arxiv.org/abs/2502.14801
  • EMM-AU 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip
  • 代碼鏈接:https://github.com/An-Answer-tree/AVD2

模型架構(gòu)

AVD2 框架包含兩個主要部分:視頻生成和事故分析。通過生成與事故描述一致的高質(zhì)量視頻,并結(jié)合自然語言解釋,AVD2 能夠更深入地理解事故場景。

視頻生成

AVD2 的視頻生成部分旨在基于輸入的事故描述生成具有現(xiàn)實感的交通事故視頻。該部分使用了 Open-Sora 1.2 模型,并通過兩個階段的微調(diào)來優(yōu)化模型:

1. 第一階段 Finetune:基于 MM-AU 數(shù)據(jù)集 對 Open-Sora 1.2 模型進行預訓練,生成與事故場景相關(guān)的視頻。

2. 第二階段 Finetune:利用選取的 2,000 個詳細事故場景視頻進一步微調(diào)模型,以確保生成的視頻與真實事故場景高度一致。

通過這一過程,AVD2 能夠根據(jù)描述生成多個具有高保真度的事故視頻,用于進一步的事故理解和分析。

  • 生成視頻的增強

為了提高視頻質(zhì)量,AVD2 框架采用 RRDBNet 模型,在 Real-ESRGAN 框架下進行超分辨率處理。每個生成的低分辨率視頻幀都被提升到更高的分辨率,以增強細節(jié)并減少偽影,從而為后續(xù)的分析提供高質(zhì)量的視頻數(shù)據(jù)。

事故分析

AVD2 的事故分析部分結(jié)合了視頻理解與自然語言處理技術(shù),主要包括兩個任務(wù):

  • 車輛行為描述和原因分析(如何規(guī)避)

AVD2 生成兩個自然語言描述:

1. 車輛行為描述:基于輸入的視頻,生成描述車輛動作的句子(例如:“車輛右轉(zhuǎn)”)。

2. 原因解釋:解釋為什么車輛執(zhí)行這一動作(例如:“因為前方交通信號燈變綠”)。同時進一步給出如何規(guī)避事故的發(fā)生(例如:“轉(zhuǎn)彎前應環(huán)顧四周注意直行車輛”)。

這兩個任務(wù)共同協(xié)作,利用 Vision-Language Transformer(視覺 - 語言 Transformer)來進行多任務(wù)學習。模型同時學習生成描述與推理任務(wù),增強了兩者之間的關(guān)聯(lián)性,從而提高了整體性能。

  • 多任務(wù)學習與文本生成

多任務(wù)學習方法使得 AVD2 能夠聯(lián)合訓練行為描述任務(wù)和事故原因理解任務(wù),以及預防措施任務(wù)。

通過這種方式,AVD2 在生成的事故視頻基礎(chǔ)上,結(jié)合視覺特征與文本特征進行分析,不僅可以描述事故發(fā)生的過程,還能為事故的預防提供有價值的建議。

AVD2 的整體架構(gòu)

在圖中,輸入視頻通過 SwinBERT 進行處理,生成視頻特征,隨后這些特征被輸入到不同的任務(wù)模塊中進行預測和描述生成。同時,SCST(自我批判序列訓練)機制被用來優(yōu)化生成文本的質(zhì)量。

生成與分析模塊的協(xié)同工作

AVD2 框架中的生成模塊與分析模塊緊密配合,生成的事故視頻不僅為自動駕駛系統(tǒng)提供了訓練數(shù)據(jù),還為系統(tǒng)提供了關(guān)于事故行為的詳細解釋和原因分析。兩者結(jié)合,大大提升了系統(tǒng)的透明度和可解釋性。

實驗結(jié)果

該團隊通過多種機器評測指標(如 BLEU、METEOR、CIDEr 等)對 AVD2 進行了評估,并與現(xiàn)有的先進方法進行了對比。

以下是 AVD2 與 ADAPT 框架 (Jin et al., 2023) 在描述任務(wù)與解釋和預防任務(wù)上的比較結(jié)果:(MM-AU 為原始數(shù)據(jù)集 (Fang et al., 2024),EMM-AU 為該團隊結(jié)合生成的事故數(shù)據(jù)集新提出的數(shù)據(jù)集,SR 為經(jīng)過超分處理后的數(shù)據(jù)集)

如上所示,AVD2 在所有評測指標上優(yōu)于 ADAPT,尤其是在 CIDEr 指標上,AVD2 在動作描述和原因解釋(預防措施)兩個方面都表現(xiàn)出了更好的性能。

可視化結(jié)果

以下是 AVD2 對事故場景的可視化結(jié)果,在此展示兩個不同的事故視頻及對視頻的分析:

第一張圖示例:車輛變道未打轉(zhuǎn)向燈,未給優(yōu)先通行車輛讓路,導致了潛在的碰撞風險。

 第二張圖示例:由于過快的車速,剎車距離不足,造成了跟車過近的危險情況。

未來,該團隊將計劃進一步優(yōu)化 AVD2 框架,并將此新技術(shù)通過光輪智能的端到端自動駕駛應用于客戶的上車訓練評測中,以促進自動駕駛技術(shù)的安全在產(chǎn)業(yè)界真正落地。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-02-24 14:22:00

3D視覺模型

2025-08-14 18:11:01

自動駕駛3DAI

2025-10-29 09:03:20

2024-10-16 09:50:32

2025-10-24 15:33:04

2025-03-27 10:54:06

2024-12-27 10:00:00

數(shù)據(jù)自動駕駛

2024-04-18 12:16:37

MetaAIOpenEQA

2024-06-25 08:43:25

C#編程模型

2023-07-12 09:56:24

智能

2023-10-23 10:11:36

自動駕駛技術(shù)

2025-03-12 10:07:06

2025-07-15 09:00:00

2025-03-05 00:22:00

2024-09-10 10:07:19

2025-07-02 09:21:30

2025-06-10 08:45:00

2024-02-19 08:58:00

模型AI

2025-04-08 09:30:00

模型AI機器人
點贊
收藏

51CTO技術(shù)棧公眾號