偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="6dbj2"><delect id="6dbj2"></delect></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

物理視頻真實(shí)生成！大連理工&莫納什大學(xué)團(tuán)隊(duì)提出物理合理的視頻生成框架

作者：機(jī)器之心 2025-04-18 09:25:00

人工智能新聞

本文提出了一種新穎的符合物理規(guī)律的視頻生成框架，通過顯式引入物理約束來解決該問題。作者發(fā)現(xiàn)語言模型對(duì)于物理有一定的理解能力，如果告訴語言模型兩個(gè)正在發(fā)生碰撞的小球的位置，它能夠大概地預(yù)測(cè)出這兩個(gè)小球在發(fā)生碰撞之后的后續(xù)位置。

最近，來自大連理工和莫納什大學(xué)的團(tuán)隊(duì)提出了物理真實(shí)的視頻生成框架 VLIPP。通過利用視覺語言模型來將物理規(guī)律注入到視頻擴(kuò)散模型的方法來提升視頻生成中的物理真實(shí)性。

論文主頁: https://madaoer.github.io/projects/physically_plausible_video_generation/
論文鏈接: https://arxiv.org/abs/2503.23368

視頻擴(kuò)散模型近年來取得了顯著進(jìn)展，能夠生成高度逼真的視頻內(nèi)容，其作為世界模擬器的潛力已引起學(xué)界廣泛關(guān)注。然而，盡管功能強(qiáng)大，這類模型由于內(nèi)在物理理解的缺失，相信大家在使用 VDMs 的時(shí)候一定會(huì)發(fā)現(xiàn)問題：VDMs 生成的視頻并不符合物理規(guī)律。即使是商用的閉源模型，在物理場(chǎng)景上的表現(xiàn)也不夠理想。

本文認(rèn)為這樣的局限有兩個(gè)原因，首先是視頻擴(kuò)散模型的訓(xùn)練數(shù)據(jù)一般是文本 - 視頻對(duì)，其中包含物理現(xiàn)象的數(shù)據(jù)占比很少，且物理現(xiàn)象在視頻中表現(xiàn)存在高度的抽象性和多樣性，很難去獲取合適的數(shù)據(jù)來進(jìn)行訓(xùn)練。其次，擴(kuò)散模型更多依賴記憶和案例模仿，無法抽象出一般的物理規(guī)則，無法真正理解物理。

為突破這一局限，本文提出了一種新穎的符合物理規(guī)律的視頻生成框架，通過顯式引入物理約束來解決該問題。作者發(fā)現(xiàn)語言模型對(duì)于物理有一定的理解能力，如果告訴語言模型兩個(gè)正在發(fā)生碰撞的小球的位置，它能夠大概地預(yù)測(cè)出這兩個(gè)小球在發(fā)生碰撞之后的后續(xù)位置。受此啟發(fā)，本文提出的生成框架包含兩個(gè)階段，第一階段將視覺語言模型作為粗粒度的運(yùn)動(dòng)規(guī)劃器，使其提供一個(gè)粗略的物理可能的運(yùn)動(dòng)路徑，第二階段將視頻擴(kuò)散模型作為一個(gè)細(xì)粒度的運(yùn)動(dòng)合成器，根據(jù)上一階段預(yù)測(cè)的物理可能的路徑來生成細(xì)粒度的運(yùn)動(dòng)。

實(shí)驗(yàn)結(jié)果表明，本文提出的框架能生成符合物理規(guī)律的運(yùn)動(dòng)序列，對(duì)比評(píng)估顯示了該方法相較于現(xiàn)有技術(shù)在物理視頻生成上的顯著優(yōu)越性。這一成果證明了將語言模型的物理知識(shí)先驗(yàn)引入擴(kuò)散模型的可能性，并為擴(kuò)散模型作為世界模擬器帶來了更大的可能性。

方法

在這項(xiàng)工作中，研究者們提出了一種針對(duì)物理場(chǎng)景的視頻生成框架，如上圖所示，利用視覺語言模型理解物理定律和規(guī)劃可能的運(yùn)動(dòng)路徑，根據(jù)預(yù)測(cè)的路徑在運(yùn)動(dòng)可控的擴(kuò)散模型中生成視頻。

具體來說，在第一階段中，作者將視頻中常見的物理現(xiàn)象分為六類：重力、動(dòng)量守恒、光學(xué)、熱力學(xué)、磁學(xué)和流體力學(xué)，語言模型根據(jù)視頻的場(chǎng)景描述提取符合該場(chǎng)景的物理定律，結(jié)合物理定律和圖像信息進(jìn)行思維鏈?zhǔn)酵评?，逐步分析物理定律帶來的影響，以及其在視覺空間上的對(duì)應(yīng)，最終預(yù)測(cè)出圖像空間內(nèi)對(duì)象的未來邊界框位置。

第二階段中，擴(kuò)散模型需要根據(jù)預(yù)測(cè)的運(yùn)動(dòng)路徑進(jìn)行視頻生成。作者認(rèn)為在上一階段中視覺語言模型可能存在幻覺和規(guī)劃錯(cuò)誤的情況，因此規(guī)劃的路徑只能作為粗粒度的運(yùn)動(dòng)引導(dǎo)。在本階段通過規(guī)劃的運(yùn)動(dòng)路徑合成運(yùn)動(dòng)序列，并根據(jù)光流計(jì)算得到結(jié)構(gòu)化噪聲，結(jié)合視頻擴(kuò)散模型的生成先驗(yàn)來細(xì)化粗略的生成先驗(yàn)，以生成與真實(shí)世界動(dòng)態(tài)一致的物理上合理的運(yùn)動(dòng)。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)環(huán)節(jié)，本文在兩個(gè)評(píng)估物理場(chǎng)景視頻真實(shí)性的指標(biāo)上與現(xiàn)有的方法進(jìn)行了定性和定量的對(duì)比。如圖和表所示，本文的方法在兩個(gè)評(píng)估指標(biāo) Physical-IQ 和 PhyGenBench 上都取得了最佳的表現(xiàn)效果，并在機(jī)械運(yùn)動(dòng)、流體運(yùn)動(dòng)、熱力學(xué)和材料學(xué)等方面表現(xiàn)突出。

下面展示更多的實(shí)驗(yàn)結(jié)果。

結(jié)論

雖然 VDMs 現(xiàn)在能夠生成視覺真實(shí)程度非常高的視頻，但由于它本身缺乏對(duì)于物理定律的理解從而無法生成物理可能的視頻。本論文提出了新穎的視頻生成框架，通過將物理定律注入到 VDMs 中來提升對(duì)物理的理解。實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的視頻生成框架要明顯優(yōu)于現(xiàn)在的方法。這一成果證明了將語言模型的物理知識(shí)先驗(yàn)引入擴(kuò)散模型的可能性，并為擴(kuò)散模型作為世界模擬器帶來了更大的可能性。

責(zé)任編輯：張燕妮來源：機(jī)器之心

視頻生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<samp id="wsh0m"><delect id="wsh0m"></delect></samp>