偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)視頻生成新突破!Phantom搞定多人物/主體一致性

人工智能 新聞
Phantom在主體一致性保持方面取得了突破性進(jìn)展,不僅支持多主體,還能同時(shí)保持主體的完整性。

視頻生成模型當(dāng)中已經(jīng)不缺強(qiáng)者了,但保持多主體一致性依然是一項(xiàng)重大挑戰(zhàn)。

字節(jié)智能創(chuàng)作團(tuán)隊(duì)專門針對(duì)這個(gè)問題,推出了主體一致性視頻生成模型Phantom(“幻影”)。

Phantom在主體一致性保持方面取得了突破性進(jìn)展,不僅支持多主體,還能同時(shí)保持主體的完整性。

圖片

無論是人物、物品、服裝、動(dòng)物,還是充滿奇幻色彩的虛擬角色,它都能精準(zhǔn)抓取其關(guān)鍵特征,并自然地融入生成的視頻中。

比如下面這段視頻當(dāng)中,“幻影”就結(jié)合了場(chǎng)景、服裝、配飾等要素,原創(chuàng)出了“歌劇魅影”的片段:

精準(zhǔn)抓取關(guān)鍵特征,視頻融合更自然

身份保持視頻生成

借助面部參考圖像,Phantom生成的視頻不僅能嚴(yán)格鎖定主體的身份特征,還能依據(jù)豐富多樣的提示詞,演繹出各種精彩內(nèi)容。

例如,上傳一張人物照片,模型會(huì)以此為藍(lán)本,生成該人物在不同場(chǎng)景下說話、行動(dòng)的視頻。

人物的面部輪廓、五官細(xì)節(jié)以及獨(dú)特的表情神態(tài),都能被高度還原,仿佛照片中的人物“活”了過來,在屏幕上真實(shí)地演繹著各種故事。

單參考主體視頻生成

只需一張參考圖像,無論是可愛小動(dòng)物的萌態(tài)瞬間,還是時(shí)尚服裝的獨(dú)特魅力,亦或是神秘虛擬角色的奇幻冒險(xiǎn),Phantom都能精準(zhǔn)捕捉主體的細(xì)節(jié),將其生動(dòng)地呈現(xiàn)在視頻中。

還有下面的小狗照片,Phantom可以呈現(xiàn)它在溫馨的房間里歡快奔跑的可愛模樣,柔軟的毛發(fā)、靈動(dòng)的眼神和俏皮的神態(tài),都被細(xì)膩地刻畫出來,讓人仿佛能感受到活潑與快樂。

多參考主體視頻生成

Phantom支持同時(shí)上傳多張參考圖像,這一強(qiáng)大功能使得復(fù)雜交互場(chǎng)景的視頻生成成為可能。

在群體場(chǎng)景創(chuàng)作中,只需上傳多個(gè)人物的照片,就能讓他們?cè)谝曨l中自然地聊天。

在一些產(chǎn)品展示的場(chǎng)景,結(jié)合產(chǎn)品圖片和相關(guān)場(chǎng)景圖片,Phantom能生成非常具有吸引力的產(chǎn)品展示視頻,將產(chǎn)品的特點(diǎn)和優(yōu)勢(shì)完美呈現(xiàn),為產(chǎn)品推廣注入強(qiáng)大動(dòng)力。

虛擬試穿場(chǎng)景,只需上傳服裝和人物照片,就能看到人物身著該服裝的動(dòng)態(tài)效果,這有望為電商行業(yè)帶來全新的營(yíng)銷模式,讓消費(fèi)者的購(gòu)物體驗(yàn)更加直觀和有趣。

總之,Phantom在和一眾領(lǐng)先的商業(yè)化工具對(duì)比中,從視頻質(zhì)量,文本響應(yīng),主體一致性等多個(gè)維度處于優(yōu)勢(shì),尤其在人臉I(yè)D一致性方面的評(píng)估領(lǐng)先。

圖片

圖片

基于主體的DiT視頻生成方案

目前,基礎(chǔ)視頻生成模型主要集中在兩個(gè)主要任務(wù)——文本生成視頻(Text-to-Video,T2V)和圖像生成視頻(Image-to-Video,I2V)。

視頻生成T2V利用語言模型來理解輸入文本指令,并生成描述預(yù)期角色、動(dòng)作和背景的視覺內(nèi)容。

盡管它允許創(chuàng)造性和富有想象力的內(nèi)容組合,但由于固有的隨機(jī)性,往往難以生成一直符合預(yù)期的結(jié)果。

另一方面,I2V通常是提供圖像的首幀以及可選的文本描述,以將靜態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)視頻。

雖然更具可控性,但內(nèi)容的豐富度往往受到首幀“復(fù)制粘貼”性質(zhì)的限制。通過從圖像中捕捉主體并根據(jù)文本提示靈活生成視頻。

Phantom是一個(gè)基于DiT的視頻生成框架,它的主要意圖是實(shí)現(xiàn)主體到視頻的生成(Subject-to-video,S2V)。

其本質(zhì)在于平衡文本和圖像這兩種模式的提示,要求模型同時(shí)對(duì)齊文本指令和參考圖像內(nèi)容。

從而既滿足T2V所發(fā)揮創(chuàng)造性的優(yōu)勢(shì),又不像I2V生成的視頻限制為輸入圖的延展。

圖片

具體來說,數(shù)據(jù)層面Phantom通過構(gòu)建文本-圖片-視頻三元組數(shù)據(jù),讓模型學(xué)習(xí)不同模態(tài)之間的對(duì)齊。

為了緩解類似I2V生成視頻“復(fù)制粘貼”輸入圖的問題,通過匹配不同視頻中的主體元素,并過濾掉具有高度視覺相似性的對(duì)象來構(gòu)建交叉配對(duì)數(shù)據(jù)。

交叉配對(duì)數(shù)據(jù)可以來自同一長(zhǎng)視頻的不同片段,也可以來自數(shù)據(jù)庫中檢索參考對(duì)象。這些主體元素主要包括人、動(dòng)物、物體、背景等等。

此外,多個(gè)元素之間的交互可以進(jìn)一步對(duì)場(chǎng)景進(jìn)行分類,例如多人交互、人與寵物交互、人與物體交互。

模型層面,Phantom繼承自MMDiT的架構(gòu)。

在輸入頭部分,視頻編碼器和文本編碼器分別繼承自基模權(quán)重,將輸入視頻和文本prompt分別編碼得到相應(yīng)的latent feature。

為了不影響MMDiT本身的結(jié)構(gòu),參考圖被特定視覺編碼器編碼,然后分別與視頻特征和文本特征拼接,并分別輸入到MMDiT的vision branch和text branch進(jìn)行計(jì)算。

團(tuán)隊(duì)簡(jiǎn)介

智能創(chuàng)作團(tuán)隊(duì)是字節(jié)跳動(dòng)AI&多媒體技術(shù)中臺(tái),通過建設(shè)領(lǐng)先的計(jì)算機(jī)視覺、音視頻編輯、特效處理等技術(shù),支持抖音、剪映、即夢(mèng)等公司內(nèi)眾多產(chǎn)品線;

同時(shí)通過火山引擎為外部ToB合作伙伴提供業(yè)界最前沿的智能創(chuàng)作能力與行業(yè)解決方案。

文中示例僅為展示模型效果。如有侵權(quán)或冒犯,請(qǐng)聯(lián)系論文作者,將及時(shí)刪除。
E-mail:libingchuan@bytedance.com

論文鏈接:
https://arxiv.org/abs/2502.11079項(xiàng)目網(wǎng)站:
https://phantom-video.github.io/Phantom/
代碼網(wǎng)址:
https://github.com/Phantom-video/Phantom

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-06 09:41:06

2025-07-03 09:09:51

2024-01-22 08:59:00

AI

2024-11-26 17:56:38

2017-07-25 14:38:56

數(shù)據(jù)庫一致性非鎖定讀一致性鎖定讀

2022-12-14 08:23:30

2021-02-05 08:00:48

哈希算法?機(jī)器

2021-02-02 12:40:50

哈希算法數(shù)據(jù)

2025-05-09 12:39:08

2024-09-24 15:51:02

2024-12-05 14:20:00

模型AI

2022-03-22 09:54:22

Hash算法

2021-06-30 21:13:49

CPUCache數(shù)據(jù)

2022-10-19 12:22:53

并發(fā)扣款一致性

2020-11-24 09:03:41

一致性MySQLMVCC

2020-05-12 10:43:22

Redis緩存數(shù)據(jù)庫

2025-03-20 09:20:00

2021-02-04 06:30:26

Python編程語言

2022-08-29 08:38:00

事務(wù)一致性
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)