物理視頻真實(shí)生成!大連理工&莫納什大學(xué)團(tuán)隊(duì)提出物理合理的視頻生成框架
最近,來自大連理工和莫納什大學(xué)的團(tuán)隊(duì)提出了物理真實(shí)的視頻生成框架 VLIPP。通過利用視覺語言模型來將物理規(guī)律注入到視頻擴(kuò)散模型的方法來提升視頻生成中的物理真實(shí)性。

- 論文主頁: https://madaoer.github.io/projects/physically_plausible_video_generation/
- 論文鏈接: https://arxiv.org/abs/2503.23368

視頻擴(kuò)散模型近年來取得了顯著進(jìn)展,能夠生成高度逼真的視頻內(nèi)容,其作為世界模擬器的潛力已引起學(xué)界廣泛關(guān)注。然而,盡管功能強(qiáng)大,這類模型由于內(nèi)在物理理解的缺失,相信大家在使用 VDMs 的時(shí)候一定會(huì)發(fā)現(xiàn)問題:VDMs 生成的視頻并不符合物理規(guī)律。即使是商用的閉源模型,在物理場(chǎng)景上的表現(xiàn)也不夠理想。

本文認(rèn)為這樣的局限有兩個(gè)原因,首先是視頻擴(kuò)散模型的訓(xùn)練數(shù)據(jù)一般是文本 - 視頻對(duì),其中包含物理現(xiàn)象的數(shù)據(jù)占比很少,且物理現(xiàn)象在視頻中表現(xiàn)存在高度的抽象性和多樣性,很難去獲取合適的數(shù)據(jù)來進(jìn)行訓(xùn)練。其次,擴(kuò)散模型更多依賴記憶和案例模仿,無法抽象出一般的物理規(guī)則,無法真正理解物理。
為突破這一局限,本文提出了一種新穎的符合物理規(guī)律的視頻生成框架,通過顯式引入物理約束來解決該問題。作者發(fā)現(xiàn)語言模型對(duì)于物理有一定的理解能力,如果告訴語言模型兩個(gè)正在發(fā)生碰撞的小球的位置,它能夠大概地預(yù)測(cè)出這兩個(gè)小球在發(fā)生碰撞之后的后續(xù)位置。受此啟發(fā),本文提出的生成框架包含兩個(gè)階段,第一階段將視覺語言模型作為粗粒度的運(yùn)動(dòng)規(guī)劃器,使其提供一個(gè)粗略的物理可能的運(yùn)動(dòng)路徑,第二階段將視頻擴(kuò)散模型作為一個(gè)細(xì)粒度的運(yùn)動(dòng)合成器,根據(jù)上一階段預(yù)測(cè)的物理可能的路徑來生成細(xì)粒度的運(yùn)動(dòng)。
實(shí)驗(yàn)結(jié)果表明,本文提出的框架能生成符合物理規(guī)律的運(yùn)動(dòng)序列,對(duì)比評(píng)估顯示了該方法相較于現(xiàn)有技術(shù)在物理視頻生成上的顯著優(yōu)越性。這一成果證明了將語言模型的物理知識(shí)先驗(yàn)引入擴(kuò)散模型的可能性,并為擴(kuò)散模型作為世界模擬器帶來了更大的可能性。
方法

在這項(xiàng)工作中,研究者們提出了一種針對(duì)物理場(chǎng)景的視頻生成框架,如上圖所示,利用視覺語言模型理解物理定律和規(guī)劃可能的運(yùn)動(dòng)路徑,根據(jù)預(yù)測(cè)的路徑在運(yùn)動(dòng)可控的擴(kuò)散模型中生成視頻。
具體來說,在第一階段中,作者將視頻中常見的物理現(xiàn)象分為六類:重力、動(dòng)量守恒、光學(xué)、熱力學(xué)、磁學(xué)和流體力學(xué),語言模型根據(jù)視頻的場(chǎng)景描述提取符合該場(chǎng)景的物理定律,結(jié)合物理定律和圖像信息進(jìn)行思維鏈?zhǔn)酵评?,逐步分析物理定律帶來的影響,以及其在視覺空間上的對(duì)應(yīng),最終預(yù)測(cè)出圖像空間內(nèi)對(duì)象的未來邊界框位置。

第二階段中,擴(kuò)散模型需要根據(jù)預(yù)測(cè)的運(yùn)動(dòng)路徑進(jìn)行視頻生成。作者認(rèn)為在上一階段中視覺語言模型可能存在幻覺和規(guī)劃錯(cuò)誤的情況,因此規(guī)劃的路徑只能作為粗粒度的運(yùn)動(dòng)引導(dǎo)。在本階段通過規(guī)劃的運(yùn)動(dòng)路徑合成運(yùn)動(dòng)序列,并根據(jù)光流計(jì)算得到結(jié)構(gòu)化噪聲,結(jié)合視頻擴(kuò)散模型的生成先驗(yàn)來細(xì)化粗略的生成先驗(yàn),以生成與真實(shí)世界動(dòng)態(tài)一致的物理上合理的運(yùn)動(dòng)。
實(shí)驗(yàn)結(jié)果




在實(shí)驗(yàn)環(huán)節(jié),本文在兩個(gè)評(píng)估物理場(chǎng)景視頻真實(shí)性的指標(biāo)上與現(xiàn)有的方法進(jìn)行了定性和定量的對(duì)比。如圖和表所示,本文的方法在兩個(gè)評(píng)估指標(biāo) Physical-IQ 和 PhyGenBench 上都取得了最佳的表現(xiàn)效果,并在機(jī)械運(yùn)動(dòng)、流體運(yùn)動(dòng)、熱力學(xué)和材料學(xué)等方面表現(xiàn)突出。

下面展示更多的實(shí)驗(yàn)結(jié)果。






結(jié)論
雖然 VDMs 現(xiàn)在能夠生成視覺真實(shí)程度非常高的視頻,但由于它本身缺乏對(duì)于物理定律的理解從而無法生成物理可能的視頻。本論文提出了新穎的視頻生成框架,通過將物理定律注入到 VDMs 中來提升對(duì)物理的理解。實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的視頻生成框架要明顯優(yōu)于現(xiàn)在的方法。這一成果證明了將語言模型的物理知識(shí)先驗(yàn)引入擴(kuò)散模型的可能性,并為擴(kuò)散模型作為世界模擬器帶來了更大的可能性。

































