偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

SIGGRAPH Asia 2025|電影級(jí)運(yùn)鏡一鍵克??!港中文&快手可靈團(tuán)隊(duì)發(fā)布CamCloneMaster

人工智能 新聞
香港中文大學(xué)與快手可靈團(tuán)隊(duì)聯(lián)合提出了一種全新的運(yùn)鏡可控的視頻生成框架 CamCloneMaster。

本文第一作者羅亞文,香港中文大學(xué) MMLab 博士一年級(jí)在讀,研究方向?yàn)橐曨l生成,導(dǎo)師為薛天帆教授。個(gè)人主頁:https://luo0207.github.io/yawenluo/

作為視頻創(chuàng)作者,你是否曾夢想復(fù)刻《盜夢空間》里顛覆物理的旋轉(zhuǎn)鏡頭,或是重現(xiàn)《泰坦尼克號(hào)》船頭經(jīng)典的追蹤運(yùn)鏡?

在 AI 視頻生成中,這些依賴精確相機(jī)運(yùn)動(dòng)的創(chuàng)意,實(shí)現(xiàn)起來卻往往異常困難。

一個(gè)直接的想法是先用相機(jī)位姿估計(jì)模型從參考視頻中提取相機(jī)參數(shù),然后使用相機(jī)參數(shù)作為控制條件引導(dǎo)視頻生成過程。

然而,這條看似容易的路徑,實(shí)則充滿了陷阱:現(xiàn)實(shí)場景中的動(dòng)態(tài)物體和復(fù)雜遮擋關(guān)系,常常導(dǎo)致模型估算出的相機(jī)參數(shù)出現(xiàn)偏差或錯(cuò)誤,讓生成的運(yùn)鏡效果與預(yù)期大相徑庭。

為了解決這一痛點(diǎn),香港中文大學(xué)與快手可靈團(tuán)隊(duì)聯(lián)合提出了一種全新的運(yùn)鏡可控的視頻生成框架 CamCloneMaster。它引入了一種「參考即用」的新范式,用戶只需提供一段參考視頻,模型就能直接「克隆」其相機(jī)運(yùn)動(dòng)并應(yīng)用于新內(nèi)容,從根本上告別了對(duì)相機(jī)參數(shù)的依賴。該工作被計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議 SIGGRAPH Asia 2025 接收,其訓(xùn)練、測試代碼和高質(zhì)量渲染數(shù)據(jù)集 CamClone Dataset 均已開源。該工作所提出的數(shù)據(jù)集規(guī)模宏大,包含115萬數(shù)據(jù)對(duì),39.1萬視頻,覆蓋40個(gè)不同的3D場景,9.77萬條多樣化的相機(jī)軌跡。

  • 論文標(biāo)題:CamCloneMaster: Enabling Reference-based Camera Control for Video Generation
  • 項(xiàng)目主頁:https://camclonemaster.github.io/
  • 論文:https://arxiv.org/abs/2506.03140
  • 數(shù)據(jù)集:https://huggingface.co/datasets/KwaiVGI/CameraClone-Dataset
  • 代碼:https://github.com/KwaiVGI/CamCloneMaster

CamCloneMaster 能力展示

a) 相機(jī)可控的圖生視頻(I2V)

b) 相機(jī)可控的視頻重運(yùn)鏡(V2V)

CamCloneMaster 創(chuàng)新點(diǎn)

研究者表示,CamCloneMaster 的主要?jiǎng)?chuàng)新點(diǎn)是:

  • 提出了一種全新的、無需相機(jī)參數(shù)的參考式控制范式:用戶僅需提供一個(gè)參考視頻,就能直觀、便捷地控制生成視頻的鏡頭運(yùn)動(dòng)。
  • 設(shè)計(jì)了一個(gè)簡潔高效的統(tǒng)一框架:通過 Token 拼接策略,在單個(gè)模型內(nèi)同時(shí)實(shí)現(xiàn)了相機(jī)可控的 I2V 和 V2V 任務(wù),避免了額外的控制模塊,參數(shù)效率極高。
  • 構(gòu)建并開源了首個(gè)大規(guī)模相機(jī)運(yùn)鏡克隆數(shù)據(jù)集,為相機(jī)運(yùn)鏡控制提供了寶貴的研究數(shù)據(jù)資源。

CamCloneMaster 算法解讀

如上圖所示,CamCloneMaster 的核心算法和框架極為簡單有效:它將作為條件的相機(jī)運(yùn)動(dòng)參考視頻(Camera Motion Reference)和可選的內(nèi)容參考視頻(Content Reference),通過一個(gè) 3D VAE 編碼器轉(zhuǎn)換成潛在空間的 Latent Tokens。

隨后,這些條件 Tokens 與需要去噪的目標(biāo)視頻的噪聲 Tokens,在時(shí)間維度(Frame Dimension)上進(jìn)行直接拼接。拼接后的序列被送入 Diffusion Transformer 中進(jìn)行處理。這種設(shè)計(jì)使得模型可以通過注意力機(jī)制來學(xué)習(xí)如何利用來自參考視頻的相機(jī)運(yùn)動(dòng)線索和內(nèi)容信息,從而指導(dǎo)視頻的生成。

Camera Clone 數(shù)據(jù)集

為了有效地訓(xùn)練模型學(xué)習(xí)「克隆」相機(jī)運(yùn)動(dòng),團(tuán)隊(duì)使用虛幻引擎 5(Unreal Engine 5)構(gòu)建了一個(gè)龐大的高質(zhì)量合成數(shù)據(jù)集——Camera Clone Dataset:

  • 規(guī)模宏大:包含 115 萬數(shù)據(jù)對(duì)和 39.1 萬個(gè)視頻,覆蓋 40 個(gè)不同的 3D 場景、3.91 萬個(gè)機(jī)位點(diǎn)和 9.77 萬條多樣化的相機(jī)軌跡。
  • 數(shù)據(jù)配對(duì):數(shù)據(jù)集的關(guān)鍵特性是提供了大量的三元組視頻——運(yùn)鏡參考視頻、內(nèi)容參考視頻以及目標(biāo)視頻。
  • 多樣性豐富:相機(jī)軌跡涵蓋了從簡單的平移、旋轉(zhuǎn)到復(fù)雜的組合路徑,模擬了真實(shí)世界中各種可能的拍攝手法。

實(shí)驗(yàn)結(jié)果

在定量和定性比較中,CamCloneMaster 在各項(xiàng)指標(biāo)上均顯著優(yōu)于當(dāng)前的 SOTA 方法:

定性實(shí)驗(yàn)結(jié)果:

定量實(shí)驗(yàn)結(jié)果:

無論是在相機(jī)運(yùn)動(dòng)的準(zhǔn)確性(更低的旋轉(zhuǎn)和平移誤差),還是在生成視頻的視覺質(zhì)量(更低的 FVD/FID)和時(shí)序連貫性上,CamCloneMaster 都展現(xiàn)出了卓越的性能。

總結(jié)

CamCloneMaster 通過一種直觀、高效的參考式控制方法,極大地簡化了 AI 視頻生成中的相機(jī)運(yùn)動(dòng)控制。其統(tǒng)一的 I2V 和 V2V 框架,以及優(yōu)越的性能表現(xiàn),驗(yàn)證了基于參考視頻的運(yùn)鏡控制這一思路的巨大潛力。同時(shí),開源的大規(guī)模數(shù)據(jù)集也將為社區(qū)的相關(guān)研究提供強(qiáng)有力的支持,有望推動(dòng) AIGC 視頻創(chuàng)作進(jìn)入一個(gè)運(yùn)鏡更自由、表達(dá)更豐富的新階段。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-05-12 08:25:00

2025-05-14 09:15:00

2025-08-21 10:17:35

2024-07-15 12:27:08

2021-12-02 07:50:29

分支服務(wù)git worktre

2025-08-29 08:59:59

2025-07-24 08:30:00

2025-10-21 08:47:00

AI模型框架

2021-12-20 08:15:25

SpringFeignClientSpring Clou

2025-10-23 16:56:40

AI模型訓(xùn)練

2015-02-09 15:25:52

換膚

2023-12-19 15:45:07

Linux工具

2012-10-18 14:41:31

2025-09-16 09:06:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)