偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

SIGGRAPH 2025 | 快手可靈團(tuán)隊(duì)提出3D感知的可控電影級(jí)視頻生成工作CineMaster!

人工智能 新聞
近期,可靈研究團(tuán)隊(duì)在「3D 感知可控視頻生成」領(lǐng)域做出了首次嘗試,推出了電影級(jí)文本到視頻生成框架 CineMaster。

Sora、可靈等視頻生成模型令人驚艷的性能表現(xiàn)使得創(chuàng)作者僅依靠文本輸入就能夠創(chuàng)作出高質(zhì)量的視頻內(nèi)容。然而,我們常見(jiàn)的電影片段通常是由導(dǎo)演在一個(gè)場(chǎng)景中精心布置多個(gè)目標(biāo)的運(yùn)動(dòng)、攝像機(jī)拍攝角度后再剪輯而成的。例如,在拍攝賽車(chē)追逐的場(chǎng)景時(shí),鏡頭通常跟隨賽車(chē)運(yùn)動(dòng),并通過(guò)扣人心弦的超車(chē)時(shí)刻來(lái)展示賽事的白熱化。而如今的視頻生成模型無(wú)法實(shí)現(xiàn) 3D 場(chǎng)景中目標(biāo)、相機(jī)聯(lián)合控制的文本到視頻創(chuàng)作,限制了 AI 影視制作的能力。

近期,可靈研究團(tuán)隊(duì)在「3D 感知可控視頻生成」領(lǐng)域做出了首次嘗試,推出了電影級(jí)文本到視頻生成框架 CineMaster,允許用戶在提供全局文本描述的基礎(chǔ)上,通過(guò)提出的交互式工作流輔助用戶像專(zhuān)業(yè)導(dǎo)演一樣布置場(chǎng)景,設(shè)定目標(biāo)與相機(jī)的運(yùn)動(dòng),指導(dǎo)模型生成用戶想要的視頻內(nèi)容。目前該論文已錄用于 SIGGRAPH 2025。

圖片


論文標(biāo)題:CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

  • 論文地址:https://arxiv.org/abs/2502.08639
  • 項(xiàng)目主頁(yè):https://cinemaster-dev.github.io/


圖片

CineMaster 支持 3D 感知的目標(biāo)、相機(jī)運(yùn)動(dòng)控制

a) 目標(biāo)相機(jī)聯(lián)合控制

圖片b) 目標(biāo)運(yùn)動(dòng)控制

圖片

c) 相機(jī)運(yùn)動(dòng)控制

圖片

可以觀察到,CineMaster 可以根據(jù)用戶提供的多模態(tài)細(xì)粒度的控制信號(hào)生成期望的視頻,支持較大幅度的目標(biāo)、相機(jī)運(yùn)動(dòng)的可控生成。

CineMaster 框架

CineMaster 通過(guò)兩階段的工作流,實(shí)現(xiàn)高度可控的文本到視頻生成:


階段 1:構(gòu)建 3D 感知的控制信號(hào)。用戶可以通過(guò)交互式界面在 3D 空間中調(diào)整物體的邊界框(3D Bounding Box)和攝像機(jī)位置,這個(gè)過(guò)程類(lèi)似于真實(shí)的電影拍攝過(guò)程,即導(dǎo)演多次調(diào)整演員在場(chǎng)景中的排布和相機(jī)的運(yùn)動(dòng)。隨后,導(dǎo)出相機(jī)軌跡和每幀的投影深度圖,作為后續(xù)生成的條件信號(hào)。


階段 2:如圖所示,該方法框架通過(guò)語(yǔ)義布局 ControlNet 的架構(gòu)集成了物體的運(yùn)動(dòng)控制信號(hào)和物體的類(lèi)別標(biāo)簽信息,從而明確地控制每個(gè)目標(biāo)的運(yùn)動(dòng)。此外,通過(guò) Camera Adapter 集成了相機(jī)運(yùn)動(dòng)控制信號(hào)表示視頻序列的全局運(yùn)動(dòng)。


圖片


CineMaster 訓(xùn)練數(shù)據(jù)構(gòu)建流程

圖片

數(shù)據(jù)構(gòu)建流程旨在從任意視頻中提取 3D bounding boxes、類(lèi)別標(biāo)簽、視頻相機(jī)軌跡,主要包含 4 個(gè)步驟:

  • 通過(guò) Qwen2-VL 增強(qiáng)的實(shí)體描述提升開(kāi)放詞匯目標(biāo)檢測(cè)模型 Grounding DINO 的性能,并通過(guò) SAM v2 實(shí)現(xiàn)視頻實(shí)例分割;
  • 利用 DepthAnything V2 估計(jì)視頻的絕對(duì)深度;
  • 在每個(gè)目標(biāo)的 Mask 最大幀通過(guò)深度投影分割結(jié)果到點(diǎn)云空間計(jì)算 3D bounding box;
  • 訪問(wèn)由 Spatial Tracker 實(shí)現(xiàn)的 3D 點(diǎn)跟蹤結(jié)果,計(jì)算所有目標(biāo)在視頻序列中的 3D bounding box,并投影整個(gè) 3D 場(chǎng)景得到深度圖。

此外,該框架利用 MonST3R 計(jì)算了視頻的相機(jī)軌跡。

對(duì)比結(jié)果

圖片

上圖中研究者將 CineMaster 與基線方法進(jìn)行了比較。據(jù)觀察,基線方法無(wú)法顯式地關(guān)聯(lián)給定的運(yùn)動(dòng)條件和相應(yīng)的目標(biāo),也存在目標(biāo)運(yùn)動(dòng)和相機(jī)運(yùn)動(dòng)耦合的問(wèn)題。而 CineMaster 可以合成符合文本提示、目標(biāo)、相機(jī)控制信號(hào)的高質(zhì)量視頻。請(qǐng)?jiān)L問(wèn)項(xiàng)目主頁(yè)查看視頻結(jié)果。

總結(jié)

在本文中,研究者期望為用戶提供強(qiáng)大的 3D 感知的可控視頻生成能力,讓用戶能夠像專(zhuān)業(yè)導(dǎo)演一樣創(chuàng)作。為此,首先設(shè)計(jì)了一個(gè) 3D 感知的交互工作流,允許用戶直觀地編輯目標(biāo)和相機(jī)的運(yùn)動(dòng);隨后開(kāi)發(fā)了一個(gè)多模態(tài)條件控制視頻生成模型,生成用戶想要的視頻。此外,該方法精心設(shè)計(jì)了一套從任意視頻中提取 3D 控制信號(hào)的數(shù)據(jù)構(gòu)建流程,為 3D 可控視頻生成領(lǐng)域的研究提供了實(shí)踐經(jīng)驗(yàn)。

更多細(xì)節(jié)請(qǐng)參閱原論文。

快手視覺(jué)生成與互動(dòng)中心 (Kuaishou Visual Generation and Interaction Center)是「可靈」視頻生成大模型背后的核心團(tuán)隊(duì),主要技術(shù)方向是視覺(jué)內(nèi)容生成和多模態(tài)互動(dòng)。我們致力于通過(guò)計(jì)算機(jī)視覺(jué)/圖形學(xué)、多模態(tài)機(jī)器學(xué)習(xí)、XR/HCI等多領(lǐng)域的交叉,一方面幫助每個(gè)人更好的表達(dá)自己和創(chuàng)作優(yōu)質(zhì)內(nèi)容,另一方面為每個(gè)人提供更好的內(nèi)容體驗(yàn)和交互方式。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-10-23 09:23:18

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-08-14 16:30:00

3D AIGC

2025-01-14 09:24:46

2025-09-15 08:49:00

AI視頻生成模型

2025-08-20 07:06:23

2023-08-15 08:36:20

ChatGPT模型

2024-12-12 08:35:58

2025-10-20 08:52:00

2025-04-09 13:11:27

2024-05-06 12:24:00

模型訓(xùn)練

2025-07-24 08:30:00

2025-01-14 14:02:05

2024-07-31 15:30:05

2025-06-11 09:00:00

2025-07-28 11:49:02

2025-03-27 09:24:16

2023-12-22 09:29:07

模型3D

2025-04-10 09:10:00

模型AI評(píng)測(cè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)