偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<meter id="t1ofj"></meter>}<rt id="t1ofj"><strong id="t1ofj"></strong></rt>

<thead id="t1ofj"></thead>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

SIGGRAPH 2025 | 快手可靈團(tuán)隊(duì)提出3D感知的可控電影級(jí)視頻生成工作CineMaster！

2025-05-12 08:25:00

人工智能新聞

近期，可靈研究團(tuán)隊(duì)在「3D 感知可控視頻生成」領(lǐng)域做出了首次嘗試，推出了電影級(jí)文本到視頻生成框架 CineMaster。

Sora、可靈等視頻生成模型令人驚艷的性能表現(xiàn)使得創(chuàng)作者僅依靠文本輸入就能夠創(chuàng)作出高質(zhì)量的視頻內(nèi)容。然而，我們常見(jiàn)的電影片段通常是由導(dǎo)演在一個(gè)場(chǎng)景中精心布置多個(gè)目標(biāo)的運(yùn)動(dòng)、攝像機(jī)拍攝角度后再剪輯而成的。例如，在拍攝賽車(chē)追逐的場(chǎng)景時(shí)，鏡頭通常跟隨賽車(chē)運(yùn)動(dòng)，并通過(guò)扣人心弦的超車(chē)時(shí)刻來(lái)展示賽事的白熱化。而如今的視頻生成模型無(wú)法實(shí)現(xiàn) 3D 場(chǎng)景中目標(biāo)、相機(jī)聯(lián)合控制的文本到視頻創(chuàng)作，限制了 AI 影視制作的能力。

近期，可靈研究團(tuán)隊(duì)在「3D 感知可控視頻生成」領(lǐng)域做出了首次嘗試，推出了電影級(jí)文本到視頻生成框架 CineMaster，允許用戶在提供全局文本描述的基礎(chǔ)上，通過(guò)提出的交互式工作流輔助用戶像專(zhuān)業(yè)導(dǎo)演一樣布置場(chǎng)景，設(shè)定目標(biāo)與相機(jī)的運(yùn)動(dòng)，指導(dǎo)模型生成用戶想要的視頻內(nèi)容。目前該論文已錄用于 SIGGRAPH 2025。

論文標(biāo)題：CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

論文地址：https://arxiv.org/abs/2502.08639
項(xiàng)目主頁(yè)：https://cinemaster-dev.github.io/

CineMaster 支持 3D 感知的目標(biāo)、相機(jī)運(yùn)動(dòng)控制

a) 目標(biāo)相機(jī)聯(lián)合控制

b) 目標(biāo)運(yùn)動(dòng)控制

c) 相機(jī)運(yùn)動(dòng)控制

可以觀察到，CineMaster 可以根據(jù)用戶提供的多模態(tài)細(xì)粒度的控制信號(hào)生成期望的視頻，支持較大幅度的目標(biāo)、相機(jī)運(yùn)動(dòng)的可控生成。

CineMaster 框架

CineMaster 通過(guò)兩階段的工作流，實(shí)現(xiàn)高度可控的文本到視頻生成：

階段 1：構(gòu)建 3D 感知的控制信號(hào)。用戶可以通過(guò)交互式界面在 3D 空間中調(diào)整物體的邊界框（3D Bounding Box）和攝像機(jī)位置，這個(gè)過(guò)程類(lèi)似于真實(shí)的電影拍攝過(guò)程，即導(dǎo)演多次調(diào)整演員在場(chǎng)景中的排布和相機(jī)的運(yùn)動(dòng)。隨后，導(dǎo)出相機(jī)軌跡和每幀的投影深度圖，作為后續(xù)生成的條件信號(hào)。

階段 2：如圖所示，該方法框架通過(guò)語(yǔ)義布局 ControlNet 的架構(gòu)集成了物體的運(yùn)動(dòng)控制信號(hào)和物體的類(lèi)別標(biāo)簽信息，從而明確地控制每個(gè)目標(biāo)的運(yùn)動(dòng)。此外，通過(guò) Camera Adapter 集成了相機(jī)運(yùn)動(dòng)控制信號(hào)表示視頻序列的全局運(yùn)動(dòng)。

CineMaster 訓(xùn)練數(shù)據(jù)構(gòu)建流程

數(shù)據(jù)構(gòu)建流程旨在從任意視頻中提取 3D bounding boxes、類(lèi)別標(biāo)簽、視頻相機(jī)軌跡，主要包含 4 個(gè)步驟：

通過(guò) Qwen2-VL 增強(qiáng)的實(shí)體描述提升開(kāi)放詞匯目標(biāo)檢測(cè)模型 Grounding DINO 的性能，并通過(guò) SAM v2 實(shí)現(xiàn)視頻實(shí)例分割；
利用 DepthAnything V2 估計(jì)視頻的絕對(duì)深度；
在每個(gè)目標(biāo)的 Mask 最大幀通過(guò)深度投影分割結(jié)果到點(diǎn)云空間計(jì)算 3D bounding box；
訪問(wèn)由 Spatial Tracker 實(shí)現(xiàn)的 3D 點(diǎn)跟蹤結(jié)果，計(jì)算所有目標(biāo)在視頻序列中的 3D bounding box，并投影整個(gè) 3D 場(chǎng)景得到深度圖。

此外，該框架利用 MonST3R 計(jì)算了視頻的相機(jī)軌跡。

對(duì)比結(jié)果

上圖中研究者將 CineMaster 與基線方法進(jìn)行了比較。據(jù)觀察，基線方法無(wú)法顯式地關(guān)聯(lián)給定的運(yùn)動(dòng)條件和相應(yīng)的目標(biāo)，也存在目標(biāo)運(yùn)動(dòng)和相機(jī)運(yùn)動(dòng)耦合的問(wèn)題。而 CineMaster 可以合成符合文本提示、目標(biāo)、相機(jī)控制信號(hào)的高質(zhì)量視頻。請(qǐng)?jiān)L問(wèn)項(xiàng)目主頁(yè)查看視頻結(jié)果。

總結(jié)

在本文中，研究者期望為用戶提供強(qiáng)大的 3D 感知的可控視頻生成能力，讓用戶能夠像專(zhuān)業(yè)導(dǎo)演一樣創(chuàng)作。為此，首先設(shè)計(jì)了一個(gè) 3D 感知的交互工作流，允許用戶直觀地編輯目標(biāo)和相機(jī)的運(yùn)動(dòng)；隨后開(kāi)發(fā)了一個(gè)多模態(tài)條件控制視頻生成模型，生成用戶想要的視頻。此外，該方法精心設(shè)計(jì)了一套從任意視頻中提取 3D 控制信號(hào)的數(shù)據(jù)構(gòu)建流程，為 3D 可控視頻生成領(lǐng)域的研究提供了實(shí)踐經(jīng)驗(yàn)。

更多細(xì)節(jié)請(qǐng)參閱原論文。

快手視覺(jué)生成與互動(dòng)中心 (Kuaishou Visual Generation and Interaction Center）是「可靈」視頻生成大模型背后的核心團(tuán)隊(duì)，主要技術(shù)方向是視覺(jué)內(nèi)容生成和多模態(tài)互動(dòng)。我們致力于通過(guò)計(jì)算機(jī)視覺(jué)/圖形學(xué)、多模態(tài)機(jī)器學(xué)習(xí)、XR/HCI等多領(lǐng)域的交叉，一方面幫助每個(gè)人更好的表達(dá)自己和創(chuàng)作優(yōu)質(zhì)內(nèi)容，另一方面為每個(gè)人提供更好的內(nèi)容體驗(yàn)和交互方式。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

3D 視頻生成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)