偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過(guò)跨模態(tài)對(duì)齊生成主題一致的視頻，超多應(yīng)用場(chǎng)景

作者：AIGC Studio 2025-05-06 09:41:06

人工智能新聞

Phantom是一種基于文本-圖像-視頻三元組學(xué)習(xí)實(shí)現(xiàn)跨模態(tài)對(duì)齊的主體一致性視頻生成方法。通過(guò)重新設(shè)計(jì)聯(lián)合文本-圖像注入機(jī)制并利用動(dòng)態(tài)特征集成，Phantom 在統(tǒng)一的單/多主體生成和人臉 ID 保存任務(wù)中展現(xiàn)出極具競(jìng)爭(zhēng)力的性能，并在定量評(píng)估中超越了商業(yè)解決方案。

Phantom 是一個(gè)統(tǒng)一的視頻生成框架，適用于單主題和多主題參考，基于現(xiàn)有的文本轉(zhuǎn)視頻和圖像轉(zhuǎn)視頻架構(gòu)構(gòu)建。它通過(guò)重新設(shè)計(jì)聯(lián)合文本-圖像注入模型，利用文本-圖像-視頻三元組數(shù)據(jù)實(shí)現(xiàn)跨模態(tài)對(duì)齊。此外，它在人物生成中強(qiáng)調(diào)主題一致性，同時(shí)增強(qiáng)了身份保留視頻生成。

相關(guān)鏈接

論文：https://arxiv.org/abs/2502.11079
代碼：https://github.com/Phantom-video/Phantom
主頁(yè)：https://phantom-video.github.io/Phantom/
ComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper/tree/dev

身份保護(hù)視頻生成

使用面部參考圖像生成主體視頻。Phantom嚴(yán)格保留參考面部的身份，同時(shí)根據(jù)提供的提示生成生動(dòng)的視頻。

單參考主題到視頻生成

使用單個(gè)參考圖像生成主體視頻。Phantom可以保持各種主體的完整性，包括物體、衣服、動(dòng)物、虛擬角色等。

多參考主題到視頻的生成

使用多個(gè)參考圖像生成主體視頻。Phantom可以實(shí)現(xiàn)多個(gè)主體之間的逼真互動(dòng)，例如群體互動(dòng)、產(chǎn)品演示、虛擬試穿等。

論文介紹

Phantom：通過(guò)跨模態(tài)對(duì)齊生成主題一致的視頻

視頻生成基礎(chǔ)模型的不斷發(fā)展演變，并應(yīng)用于各種應(yīng)用，而主題一致的視頻生成仍處于探索階段。這類人物稱為“主題到視頻”（Subject-to-Video），該方法從參考圖像中提取主題元素，并按照文本指令生成主題一致的視頻。作者認(rèn)為“主題到視頻”的精髓在于平衡文本和圖像的雙模態(tài)提示，從而深度同步地對(duì)齊文本和視覺(jué)內(nèi)容。為此論文提出了Phantom，一個(gè)適用于單主題和多主題參考的統(tǒng)一視頻生成框架。

基于現(xiàn)有的文本到視頻和圖像到視頻架構(gòu)，作者重新設(shè)計(jì)了聯(lián)合文本-圖像注入模型，并驅(qū)動(dòng)其通過(guò)文本-圖像-視頻三元組數(shù)據(jù)學(xué)習(xí)跨模態(tài)對(duì)齊。該方法實(shí)現(xiàn)了高保真度的主題一致視頻生成，同時(shí)解決了圖像內(nèi)容泄漏和多主題混淆的問(wèn)題。評(píng)估結(jié)果表明，提出的方法優(yōu)于其他最先進(jìn)的閉源商業(yè)解決方案。特別地，該方法強(qiáng)調(diào)人類生成中的主題一致性，這涵蓋了現(xiàn)有的身份保留視頻生成，同時(shí)提供了增強(qiáng)的優(yōu)勢(shì)。

方法概述

用于跨模態(tài)視頻生成的數(shù)據(jù)處理流程。該流程包括過(guò)濾、添加字幕、檢測(cè)和匹配階段，用于從視頻片段中提取主體并將其與文本提示對(duì)齊，從而確保視頻生成的一致性。 Phantom 架構(gòu)概述。三元組數(shù)據(jù)在輸入頭處被編碼到潛在空間，組合后，通過(guò)改進(jìn)的 MMDiT 塊進(jìn)行處理，以學(xué)習(xí)不同模態(tài)的對(duì)齊方式。 Phantom 架構(gòu)概述。三元組數(shù)據(jù)在輸入頭處被編碼到潛在空間，組合后，通過(guò)改進(jìn)的 MMDiT 塊進(jìn)行處理，以學(xué)習(xí)不同模態(tài)的對(duì)齊方式。

每個(gè) MMDiT 塊中針對(duì)單個(gè)或多個(gè)參考對(duì)象的動(dòng)態(tài)注入策略和注意力計(jì)算

每個(gè) MMDiT 塊中針對(duì)單個(gè)或多個(gè)參考對(duì)象的動(dòng)態(tài)注入策略和注意力計(jì)算

結(jié)果展示

視頻質(zhì)量評(píng)估（左）和多主題一致性的用戶研究結(jié)果（右）。

身份保護(hù)視頻生成

單一參考主題到視頻生成

多參考主題到視頻生成

結(jié)論

Phantom是一種基于文本-圖像-視頻三元組學(xué)習(xí)實(shí)現(xiàn)跨模態(tài)對(duì)齊的主體一致性視頻生成方法。通過(guò)重新設(shè)計(jì)聯(lián)合文本-圖像注入機(jī)制并利用動(dòng)態(tài)特征集成，Phantom 在統(tǒng)一的單/多主體生成和人臉 ID 保存任務(wù)中展現(xiàn)出極具競(jìng)爭(zhēng)力的性能，并在定量評(píng)估中超越了商業(yè)解決方案。

責(zé)任編輯：張燕妮來(lái)源： AIGC Studio

視頻生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="zmnmj"><i id="zmnmj"><video id="zmnmj"></video></i></blockquote>