真實(shí)場(chǎng)景也能批量造「險(xiǎn)」!VLM+擴(kuò)散模型打造真實(shí)域自動(dòng)駕駛極限測(cè)試
近期,懂車帝的《懂車智煉場(chǎng)》欄目對(duì)量產(chǎn)自動(dòng)駕駛系統(tǒng)的NOA輔助駕駛功能進(jìn)行了安全關(guān)鍵場(chǎng)景測(cè)試。
結(jié)果顯示,在黑夜施工工地、高速公路前方車輛發(fā)生事故以及障礙物后突然駛出車輛等高風(fēng)險(xiǎn)場(chǎng)景中,目前尚無任何系統(tǒng)能夠在測(cè)試中做到完全避免事故。
這類安全關(guān)鍵場(chǎng)景在真實(shí)道路上雖不常見,但一旦發(fā)生,可能導(dǎo)致人員傷亡或嚴(yán)重交通事故。
為了提升自動(dòng)駕駛系統(tǒng)在此類情境下的可靠性,必須在多樣化且高風(fēng)險(xiǎn)的安全關(guān)鍵場(chǎng)景中進(jìn)行廣泛測(cè)試。
然而,這類極端場(chǎng)景在現(xiàn)實(shí)中采集難度極高——發(fā)生頻率低、風(fēng)險(xiǎn)大、難以批量獲取。
在仿真環(huán)境中,類似的場(chǎng)景雖然可以批量制造,但現(xiàn)有模擬器在畫面真實(shí)度上與現(xiàn)實(shí)仍有差距,難以直接用于真實(shí)域下端到端系統(tǒng)的極限測(cè)試。
為此,來自浙江大學(xué)與與哈工大(深圳)的研究團(tuán)隊(duì)提出了SafeMVDrive——首個(gè)面向真實(shí)域的多視角安全關(guān)鍵駕駛視頻生成框架。
它將VLM關(guān)鍵車輛選擇器與兩階段軌跡生成結(jié)合,驅(qū)動(dòng)多視角視頻生成模型,在真實(shí)域中實(shí)現(xiàn)批量制造高保真安全關(guān)鍵視頻,可用于對(duì)端到端自動(dòng)駕駛系統(tǒng)的安全性測(cè)試。
論文地址:https://arxiv.org/abs/2505.17727
項(xiàng)目地址:https://zhoujiawei3.github.io/SafeMVDrive/
代碼地址:https://github.com/zhoujiawei3/SafeMVDrive
數(shù)據(jù)集地址:https://huggingface.co/datasets/JiaweiZhou/SafeMVDrive
為了實(shí)現(xiàn)高質(zhì)量真實(shí)域多視角安全關(guān)鍵場(chǎng)景,研究人員首先嘗試將安全軌跡模擬與多視角視頻生成模型結(jié)合,用真實(shí)域視頻驅(qū)動(dòng)極限測(cè)試。然而在實(shí)踐中,他們發(fā)現(xiàn)存在兩大挑戰(zhàn):
一是安全關(guān)鍵車輛的選擇。現(xiàn)有方法大多依賴簡(jiǎn)單的啟發(fā)式規(guī)則(如選擇最近車輛),缺乏對(duì)場(chǎng)景關(guān)系的視覺理解,容易選錯(cuò)目標(biāo)車輛,導(dǎo)致生成場(chǎng)景的安全關(guān)鍵性不足或生成失??;
二是多視角視頻生成模型的泛化性問題。由于現(xiàn)有模型在訓(xùn)練時(shí)幾乎沒有接觸過碰撞或近距離互動(dòng)等極端場(chǎng)景數(shù)據(jù),在這些情況下的生成質(zhì)量明顯下降。
為此,研究團(tuán)隊(duì)提出了兩項(xiàng)關(guān)鍵創(chuàng)新:
- VLM關(guān)鍵車輛選擇器:引入經(jīng)過GRPO微調(diào)的視覺語言模型,從多視角真實(shí)畫面中推理交通互動(dòng)關(guān)系,精準(zhǔn)識(shí)別最有可能制造危險(xiǎn)的對(duì)抗車輛;
 - 雙階段軌跡生成:先生成符合物理規(guī)律的碰撞軌跡,再轉(zhuǎn)化為「接近碰撞但成功規(guī)避」的軌跡,既保留緊張刺激的安全關(guān)鍵特征,又保持視頻生成的高保真度。
 
SafeMVDrive能夠批量生成高保真、多視角的安全關(guān)鍵駕駛視頻,顯著提高極端場(chǎng)景的覆蓋率,并在保持畫質(zhì)與真實(shí)感的同時(shí),為端到端自動(dòng)駕駛系統(tǒng)的極限壓測(cè)提供更具挑戰(zhàn)性的測(cè)試數(shù)據(jù)。
效果展示
對(duì)于給定的多視角圖像,SafeMVDrive能夠在真實(shí)域生成高質(zhì)量的安全關(guān)鍵多視角視頻,其中不僅包含目標(biāo)車輛的安全關(guān)鍵行為(如加塞、急剎、后方突然加速),還呈現(xiàn)出自車(當(dāng)前多視角攝像機(jī)安裝車輛)的相應(yīng)規(guī)避動(dòng)作。

側(cè)方車輛突然加塞,自車輕微向右轉(zhuǎn)向避讓

后方車輛突然加速,自車向左變道以躲避

后方車輛突然加速,自車同步提速進(jìn)行規(guī)避

前方車輛突然減速,自車變道并減速避讓
如下圖所示,相比于將開源數(shù)據(jù)集中的自然軌跡用于多視角視頻生成模型(Origin),以及簡(jiǎn)單的將碰撞軌跡模擬生成的軌跡與多視角視頻生成模型結(jié)合(Naive)而言,SafeMVDrive兼顧視頻真實(shí)性質(zhì)量以及場(chǎng)景危險(xiǎn)性。

第一列自然軌跡生成的視頻較常見,第二列碰撞軌跡生成的視頻未段車輛變形失真,第三列本框架生成的視頻兼具真實(shí)性與安全關(guān)鍵性
方法概述
SafeMVDrive的核心目標(biāo),是從一個(gè)給定的初始場(chǎng)景中批量生成真實(shí)域多視角安全關(guān)鍵駕駛視頻。

整個(gè)方法由三大模塊組成:
VLM車輛選擇器:多視角畫面中鎖定安全關(guān)鍵車
在極端駕駛場(chǎng)景的構(gòu)造中,第一步是決定哪輛車會(huì)對(duì)自車構(gòu)成威脅。
傳統(tǒng)方法常依賴非視覺信息即數(shù)據(jù)集標(biāo)注并結(jié)合啟發(fā)式規(guī)則(如距離最近的車輛)選擇。這種簡(jiǎn)單的規(guī)則往往無法覆蓋復(fù)雜的交通場(chǎng)景,并且可能因?yàn)閿?shù)據(jù)集漏標(biāo)注導(dǎo)致選擇的車輛無法以自然的軌跡與自車發(fā)生碰撞。
如下圖所示,右圖展示的是非視覺信息即數(shù)據(jù)集標(biāo)注,失去了對(duì)于安全關(guān)鍵車輛信息判斷至關(guān)重要的障礙物標(biāo)注,導(dǎo)致傳統(tǒng)的啟發(fā)式規(guī)則方法錯(cuò)誤判斷認(rèn)為大巴可以與自車發(fā)生自然軌跡的碰撞,實(shí)際上其并無法繞過障礙物與自車發(fā)生碰撞。

研究人員提出利用初始場(chǎng)景的多視角圖像中的視覺信息,配合VLM的場(chǎng)景理解能力實(shí)現(xiàn)更有效的安全關(guān)鍵車輛選擇。
首先,研究人員利用碰撞軌跡模擬自動(dòng)化生成「初始場(chǎng)景——安全關(guān)鍵車輛」配對(duì)數(shù)據(jù)集,之后利用GRPO算法微調(diào)VLM,最終地得到了基于VLM的安全關(guān)鍵車輛選擇器。
雙階段軌跡生成:從「碰撞」到「規(guī)避」
現(xiàn)有安全關(guān)鍵軌跡生成方法多以制造碰撞事件為目標(biāo),但由于當(dāng)前多視角視頻生成器缺乏真實(shí)多視角碰撞數(shù)據(jù),這類碰撞控制信號(hào)往往導(dǎo)致生成畫質(zhì)下降。
為此,研究人員提出雙階段規(guī)避軌跡生成策略,在保留安全關(guān)鍵特征的同時(shí)生成可被現(xiàn)有視頻生成器真實(shí)渲染的規(guī)避場(chǎng)景。
第一階段為碰撞軌跡模擬:基于可控?cái)U(kuò)散軌跡生成模型,從初始單幀場(chǎng)景出發(fā),通過test-time loss guidance引導(dǎo)對(duì)抗車輛與自車發(fā)生有效碰撞。研究人員設(shè)計(jì)了三類損失:
對(duì)抗損失:在碰撞發(fā)生前按時(shí)間衰減加權(quán),最小化兩車間距離,鼓勵(lì)對(duì)抗車輛快速逼近自車,并在碰撞后將損失置零以避免不自然的「粘連」行為;
無碰損失:約束除自車與對(duì)抗車輛外的其他車輛避免碰撞;
在路損失:懲罰駛?cè)敕强尚旭倕^(qū)域的軌跡,保持交通合理性。
第二階段為規(guī)避軌跡轉(zhuǎn)化:在保持第一階段所有非自車軌跡不變的前提下,僅更新自車軌跡,并以無碰損失和在路損失引導(dǎo)自車規(guī)避對(duì)抗車輛,從而將原本的碰撞場(chǎng)景自然轉(zhuǎn)化為安全關(guān)鍵的規(guī)避場(chǎng)景。
這種方式既保留了對(duì)抗車輛的威脅性動(dòng)作,又確保了生成結(jié)果的真實(shí)感和物理合理性。
最終,經(jīng)過篩選的規(guī)避軌跡被用于驅(qū)動(dòng)多視角視頻生成器,得到兼具安全關(guān)鍵性與視覺真實(shí)感的駕駛視頻。
多視角視頻生成:真實(shí)域合成高保真「險(xiǎn)情」
在SafeMVDrive的最后一步,研究團(tuán)隊(duì)采用了多視角視頻生成模塊,將雙階段軌跡生成器輸出的「規(guī)避型」安全關(guān)鍵軌跡轉(zhuǎn)化為高保真真實(shí)域視頻。
具體來說,他們選用UniMLVG作為骨干網(wǎng)絡(luò),該模型不僅支持顯式控制自車與周圍車輛的運(yùn)動(dòng)軌跡,還能在較長(zhǎng)時(shí)間跨度內(nèi)保持視頻質(zhì)量穩(wěn)定。
轉(zhuǎn)換過程中,生成的規(guī)避軌跡會(huì)被編碼成逐幀控制信號(hào)(3D邊界框、高清地圖、相機(jī)參數(shù)),并結(jié)合多視角初始幀與時(shí)間及天氣文本描述輸入視頻生成器。
由于安全關(guān)鍵場(chǎng)景持續(xù)時(shí)間較長(zhǎng),SafeMVDrive采用自回歸滾動(dòng)生成方式:每段視頻的最后一幀作為下一段的起始幀,對(duì)應(yīng)時(shí)間窗口的控制信號(hào)則用于引導(dǎo)后續(xù)生成。
通過這種迭代,完整的碰撞規(guī)避軌跡最終被渲染為真實(shí)域的多視角「險(xiǎn)情」視頻,兼顧安全關(guān)鍵性與畫面真實(shí)感
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)從兩個(gè)方面進(jìn)行了評(píng)估:生成視頻的真實(shí)感與安全關(guān)鍵性,以及對(duì)抗車輛選擇的準(zhǔn)確度。
高保真危險(xiǎn)場(chǎng)景批量生成
如下表所示,SafeMVDrive在生成真實(shí)域多視角視頻的同時(shí),顯著提升了安全關(guān)鍵場(chǎng)景的覆蓋率和多樣性。

在碰撞率指標(biāo)上,它生成的場(chǎng)景比開源數(shù)據(jù)集中自然軌跡用于多視角視頻生成模型(Origin)更具挑戰(zhàn)性,且在保持高碰撞率的同時(shí),畫質(zhì)與真實(shí)感依然接近真實(shí)視頻,遠(yuǎn)優(yōu)于將碰撞軌跡模擬生成的軌跡直接與多視角視頻生成模型結(jié)合生成的視頻(Naive)。
精準(zhǔn)鎖定安全關(guān)鍵車輛
如下圖所示,在對(duì)抗車輛選擇任務(wù)中,VLM關(guān)鍵車輛選擇器通過多視角畫面推理交通關(guān)系,有效的分析場(chǎng)景并且選擇了合適的安全關(guān)鍵車輛。

如下表所示,VLM關(guān)鍵車輛選擇器兼顧了精度與召回率,識(shí)別出的目標(biāo)車輛更符合真實(shí)交通邏輯,明顯優(yōu)于基線方法。這保證了后續(xù)生成的安全關(guān)鍵車輛模擬的高效率以及場(chǎng)景的豐富度。

作者介紹
本文由浙江大學(xué)與哈工大(深圳)的研究團(tuán)隊(duì)共同完成,感謝所有參與的作者。以下為部分作者簡(jiǎn)介:
周家葳,哈工大(深圳)碩士研究生,研究方向?yàn)樽詣?dòng)駕駛內(nèi)容生成與世界模型。
呂林燁,哈工大(深圳)博士研究生,主要關(guān)注人工智能安全,涵蓋自動(dòng)駕駛與大語言模型。
李渝,浙江大學(xué)「百人計(jì)劃」研究員,長(zhǎng)期從事人工智能軟硬件安全與測(cè)試方法研究。















 
 
 

















 
 
 
 