偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

浙大 | 騰訊 | 華為提出視頻生成框架VideoMaker,可由參考圖實(shí)現(xiàn)Zero-shot定制化視頻生成

人工智能 新聞
零樣本定制視頻生成因其巨大的應(yīng)用潛力而備受關(guān)注。現(xiàn)有方法依賴于附加模型來提取和注入?yún)⒖贾黧w特征,認(rèn)為單靠視頻擴(kuò)散模型 (VDM) 不足以生成零樣本定制視頻。

本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

浙大聯(lián)合騰訊和華為提出了一種新的定制化視頻生成框架——VideoMaker,利用VDM的內(nèi)在能力,實(shí)現(xiàn)高質(zhì)量的zero-shot定制化視頻生成。該方法通過直接輸入?yún)⒖紙D像到VDM中,利用其固有的特征提取和注入機(jī)制,克服了以往方法在特征一致性和多樣性方面的不足。通過對(duì)人類和物體視頻生成的實(shí)驗(yàn)驗(yàn)證了該框架的有效性。

unsetunset相關(guān)鏈接unsetunset

  • 論文:http://arxiv.org/abs/2412.19645v2
  • 主頁:https://wutao-cs.github.io/VideoMaker/

unsetunset論文介紹unsetunset

圖片

零樣本定制視頻生成因其巨大的應(yīng)用潛力而備受關(guān)注?,F(xiàn)有方法依賴于附加模型來提取和注入?yún)⒖贾黧w特征,認(rèn)為單靠視頻擴(kuò)散模型 (VDM) 不足以生成零樣本定制視頻。然而,由于特征提取和注入技術(shù)不夠完善,這些方法往往難以保持一致的主體外觀。論文揭示了 VDM 本身具有提取和注入主體特征的能力。與以前的啟發(fā)式方法不同,論文引入了一個(gè)新框架,利用 VDM 的固有能力來實(shí)現(xiàn)高質(zhì)量的零樣本定制視頻生成。

具體而言,對(duì)于特征提取直接將參考圖像輸入 VDM 并使用其固有的特征提取過程,這不僅提供了細(xì)粒度的特征,而且與 VDM 的預(yù)訓(xùn)練知識(shí)顯著一致。對(duì)于特征注入通過 VDM 中的空間自注意力設(shè)計(jì)了一種創(chuàng)新的主體特征與生成內(nèi)容之間的雙向交互,確保 VDM 具有更好的主體保真度,同時(shí)保持生成視頻的多樣性。對(duì)定制人物和物體視頻生成的實(shí)驗(yàn)驗(yàn)證了該框架的有效性。

unsetunset方法unsetunset

圖片VideoMaker 的整體流程。 將參考圖像直接輸入到 VDM 中,并使用 VDM 的模塊進(jìn)行細(xì)粒度的特征提取。論文修改了空間自注意力的計(jì)算以實(shí)現(xiàn)特征注入。此外,為了區(qū)分參考特征和生成內(nèi)容,論文設(shè)計(jì)了指導(dǎo)信息識(shí)別損失來優(yōu)化訓(xùn)練策略。該方法基于AnimateDiff實(shí)現(xiàn)了高保真零鏡頭定制人物和物體視頻生成。

VideoMaker的兩個(gè)關(guān)鍵步驟:

  • 特征提?。褐苯訉o噪聲的參考圖像輸入VDM,視作時(shí)間步t=0的特殊情況,VDM能夠有效提取出細(xì)粒度的主觀特征。使用VDM的Resblock結(jié)構(gòu)作為特征提取器,提取與參考圖像對(duì)應(yīng)的特征,確保提取的特征與VDM的知識(shí)高度一致。
  • 特征注入:通過VDM的空間自注意力機(jī)制,將提取的主觀特征與生成內(nèi)容進(jìn)行交互,確保生成視頻中主觀對(duì)象的外觀一致性。設(shè)計(jì)了一種創(chuàng)新的訓(xùn)練策略,利用引導(dǎo)信息識(shí)別損失,引導(dǎo)模型有效區(qū)分參考信息和生成內(nèi)容,從而提高生成質(zhì)量。

unsetunset結(jié)果unsetunset

定制名人視頻生成結(jié)果

圖片

名人定制人體視頻生成的定性比較。我們選擇 AnimateDiff SD1.5 版本作為基礎(chǔ)視頻傳播模型。由于 PhotoMaker 僅對(duì) SDXL 進(jìn)行了預(yù)訓(xùn)練權(quán)重,因此我們使用分辨率為 512×512 的 AnimateDiff SDXL 生成的結(jié)果進(jìn)行比較。

定制非名人視頻生成結(jié)果

圖片

對(duì)非名人定制人體視頻生成的定性比較。我們選擇 AnimateDiff SD1.5 版本作為我們的基礎(chǔ)視頻傳播模型。由于 PhotoMaker 僅對(duì) SDXL 進(jìn)行了預(yù)訓(xùn)練權(quán)重,因此我們使用分辨率為 512×512 的 AnimateDiff SDXL 生成的結(jié)果進(jìn)行比較。

定制對(duì)象視頻生成。

圖片

定制對(duì)象視頻生成的定性比較

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2024-10-28 07:30:00

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2023-04-03 10:04:44

開源模型

2025-03-27 09:24:16

2023-10-20 12:54:00

數(shù)據(jù)訓(xùn)練

2025-04-18 09:25:00

2025-07-02 08:30:00

視頻生成AI模型

2025-01-17 09:00:00

2023-08-15 08:36:20

ChatGPT模型

2025-06-12 11:57:56

視頻生成模型AI

2025-05-06 09:41:06

2023-02-06 09:31:07

視頻圖像

2024-04-03 14:11:49

模型訓(xùn)練

2025-03-27 10:04:27

2024-03-25 00:30:00

AI框架

2025-05-16 13:18:37

2021-07-09 08:52:19

Python視頻生成神器Python基礎(chǔ)

2023-11-17 22:50:08

模型AI

2024-04-07 14:56:22

技術(shù)應(yīng)用

2024-12-26 00:51:38

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)