偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!

發(fā)布于 2025-5-9 08:41
瀏覽
0收藏

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2505.04512 
項目鏈接:https://hunyuancustom.github.io/ 

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

亮點直擊

  • 多模態(tài)條件融合: 首次實現(xiàn)圖像、音頻、視頻、文本四模態(tài)聯(lián)合驅(qū)動的定制視頻生成,突破傳統(tǒng)單模態(tài)(如圖像)限制。
  • 身份一致性強化: 通過時序拼接和跨幀特征增強,顯著提升生成視頻中主題的ID一致性,優(yōu)于開源和商業(yè)模型。
  • 模塊化條件注入: 提出AudioNet和視頻Patchify對齊等獨立模塊,實現(xiàn)多模態(tài)條件的高效解耦與融合,兼顧靈活性與性能。

效果速覽

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 身份一致性不足:現(xiàn)有視頻生成方法在生成特定主題視頻時難以保持身份(ID)一致性。
  • 輸入模態(tài)單一:多數(shù)方法僅支持圖像驅(qū)動,缺乏對多模態(tài)(如音頻、視頻、文本)條件的靈活支持。
  • 可控性受限:現(xiàn)有模型在細粒度定制(如多主題生成、多模態(tài)對齊)上表現(xiàn)不佳,限制了實際應(yīng)用。

提出的方案

基于HunyuanVideo的多模態(tài)定制視頻生成框架,支持圖像、音頻、視頻和文本條件輸入。

  • 文本-圖像融合模塊:基于LLaVA實現(xiàn)多模態(tài)理解,增強文本與圖像的交互。
  • 圖像ID增強模塊:通過時序拼接強化跨幀身份特征。
  • 多模態(tài)條件注入機制
  • AudioNet:通過空間交叉注意力實現(xiàn)分層音頻-視頻對齊。
  • 視頻驅(qū)動模塊:通過隱空間壓縮和特征對齊網(wǎng)絡(luò)整合條件視頻。

應(yīng)用的技術(shù)

  • 多模態(tài)理解:LLaVA-based文本-圖像融合模塊。
  • 時序建模:圖像ID增強模塊利用視頻模型的時間序列信息傳輸能力。
  • 跨模態(tài)對齊
  • 音頻-視頻:AudioNet的層級特征對齊。
  • 視頻-隱空間:基于VAE的壓縮和Patchify特征對齊網(wǎng)絡(luò)。

達到的效果

  • 身份一致性:在單主題和多主題場景中均顯著優(yōu)于現(xiàn)有方法(如ConsisID、VACE等)。
  • 多模態(tài)支持:支持圖像、音頻、視頻、文本的靈活組合輸入,生成高質(zhì)量視頻。
  • 下游任務(wù)魯棒性:在音頻驅(qū)動、視頻驅(qū)動等任務(wù)中表現(xiàn)優(yōu)異,適用于廣告、虛擬試穿等實際場景。

方法

概述

HunyuanCustom是一個以主體一致性為核心的多模態(tài)定制生成模型,基于Hunyuan視頻生成框架構(gòu)建。如下圖2所示,它能夠根據(jù)文本、圖像、音頻和視頻輸入生成主體一致的視頻。具體而言,HunyuanCustom引入了基于LLaVA的圖像-文本融合模塊,促進圖像與文本的交互,使圖像中的身份信息能有效融入文本描述。此外,還提出了身份增強模塊,該模塊沿時間軸拼接圖像信息,并利用視頻模型的高效時序建模能力來增強視頻中的主體身份。為支持音頻和視頻的條件注入,HunyuanCustom為每種模態(tài)設(shè)計了獨立的注入機制,這些機制與圖像級身份條件模塊有效解耦。最終,HunyuanCustom實現(xiàn)了對圖像、音頻和視頻條件的解耦控制,在面向主體的多模態(tài)視頻定制中展現(xiàn)出巨大潛力。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

多模態(tài)任務(wù)

HunyuanCustom支持來自文本、圖像、音頻和視頻的條件輸入。所有任務(wù)均建立在生成ID一致性視頻的能力基礎(chǔ)上。任務(wù)可分為以下4類:

  • 文本驅(qū)動視頻生成:文本到視頻的生成能力源自基礎(chǔ)模型HunyuanVideo,支持生成與給定文本提示對齊的視頻;
  • 圖像驅(qū)動視頻定制:HunyuanCustom的核心能力是接收輸入圖像、提取身份信息,并在文本描述引導(dǎo)下生成與該身份對應(yīng)的視頻,從而實現(xiàn)定制化視頻生成。HunyuanCustom同時支持人類和非人類身份,并進一步允許多身份輸入,實現(xiàn)多主體交互生成;
  • 音頻驅(qū)動視頻定制:在主體定制基礎(chǔ)上,HunyuanCustom將音頻作為附加模態(tài)。給定人類身份、文本提示和對應(yīng)音頻,系統(tǒng)可使主體在文本描述的上下文中執(zhí)行與音頻同步的動作(如說話、演奏、唱歌)。這通過允許指定身份在任意場景和動作中自由表現(xiàn),顯著增強了可控性,擴展了傳統(tǒng)音頻驅(qū)動的人體動畫;
  • 視頻驅(qū)動視頻定制:HunyuanCustom還支持視頻到視頻生成,通過基于身份定制的對象替換或插入實現(xiàn)。給定源視頻和指定目標(biāo)身份的圖像,系統(tǒng)可將視頻中的對象替換為指定身份。此外,它還能根據(jù)文本引導(dǎo)將身份插入背景視頻,實現(xiàn)靈活的對象添加。

多模態(tài)數(shù)據(jù)構(gòu)建

本文的數(shù)據(jù)經(jīng)過嚴格的處理流程,以確保高質(zhì)量的輸入從而提升模型性能。實驗結(jié)果表明,高質(zhì)量數(shù)據(jù)在主體一致性、視頻編輯和音頻驅(qū)動視頻生成等任務(wù)中起著關(guān)鍵作用。雖然不同任務(wù)可能遵循各自特定的數(shù)據(jù)處理步驟,但初始處理階段是共通的,關(guān)鍵差異在于后續(xù)步驟。鑒于此,本節(jié)將深入探討視頻數(shù)據(jù)準備的詳細方法,重點關(guān)注共享的預(yù)處理技術(shù)以及為不同任務(wù)設(shè)計的特定后處理方案。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

本文的數(shù)據(jù)來源多樣,為確保嚴格遵守《通用數(shù)據(jù)保護條例》(GDPR)框架的原則,我們采用數(shù)據(jù)合成和隱私保護計算技術(shù)來規(guī)范數(shù)據(jù)收集過程。原始數(shù)據(jù)涵蓋廣泛領(lǐng)域,主要包括八大類別:人類、動物、植物、景觀、車輛、物體、建筑和動漫。除自行收集的數(shù)據(jù)外,我們還嚴格篩選并處理了開源數(shù)據(jù)集(如OpenHumanvid),顯著擴展了數(shù)據(jù)分布的多樣性并提升了模型性能。實驗結(jié)果證實,引入高標(biāo)準數(shù)據(jù)對實現(xiàn)模型性能的顯著提升至關(guān)重要。


數(shù)據(jù)過濾與預(yù)處理。由于我們的數(shù)據(jù)集分布廣泛且包含開源數(shù)據(jù),視頻的時長、分辨率和質(zhì)量存在顯著差異。為解決這些問題,本文實施了一系列預(yù)處理技術(shù)。首先,為避免訓(xùn)練數(shù)據(jù)中的轉(zhuǎn)場,使用PySceneDetect將原始視頻分割為單鏡頭片段。針對視頻中的文本區(qū)域,采用textbpn-plus-plus過濾掉文本過多的片段,并裁剪包含字幕、水印和標(biāo)識的視頻。由于視頻尺寸和時長分布不均,進行了裁剪和對齊,將短邊標(biāo)準化為512或720像素,并將視頻長度限制為5秒(129幀)。最后,考慮到PySceneDetect無法檢測漸變轉(zhuǎn)場且textbpn-plus-plus對小文本檢測能力有限,同時為確保美學(xué)質(zhì)量、運動幅度和場景亮度,使用koala-36M模型進一步優(yōu)化。然而,由于koala-36M的訓(xùn)練數(shù)據(jù)與我們的數(shù)據(jù)集存在差異,且其缺乏對美學(xué)質(zhì)量和運動幅度的細粒度評估,我們建立了自己的評估標(biāo)準,針對數(shù)據(jù)集設(shè)定0.06的koala閾值以進行精細過濾。實驗結(jié)果證實了我們的數(shù)據(jù)選擇和處理方法對提升模型性能的重要性。

主體提取
單主體提取:為從視頻中提取主要主體,首先使用Qwen7B模型標(biāo)注每幀中的所有主體并提取其ID。隨后,采用聚類算法(如并查集)計算每個ID在幀中的出現(xiàn)頻率,選擇出現(xiàn)次數(shù)最多的ID作為目標(biāo)主體。必要時可選擇多個ID;但如果所有ID的出現(xiàn)次數(shù)均低于預(yù)設(shè)閾值(如50幀),則丟棄該視頻。接著,我們使用YOLO11X進行人體分割以獲取邊界框,并利用InsightFace檢測人臉位置并生成人臉邊界框。若人臉邊界框在人體邊界框中的占比小于0.5,則認為YOLO11X的檢測結(jié)果有誤,并丟棄相應(yīng)邊界框。


非人類主體提取:對于非人類主體,使用QwenVL從視頻中提取主體關(guān)鍵詞,并采用GroundingSAM2基于這些關(guān)鍵詞生成掩碼和邊界框。若邊界框尺寸小于源視頻尺寸的0.3倍,則將其丟棄。為確保訓(xùn)練數(shù)據(jù)的類別分布均衡,我們使用QwenVL將主體分類為八大預(yù)定義類別之一:動物、植物、景觀、車輛、物體、建筑和動漫,隨后對這些類別進行平衡采樣以實現(xiàn)公平分布。


多主體提取:針對多主體場景,使用QwenVL從單人數(shù)據(jù)集中篩選涉及人與物體交互的視頻。由于需要將視頻描述中的主體關(guān)鍵詞與圖像中的關(guān)鍵詞對齊,直接使用QwenVL重新提取主體關(guān)鍵詞可能導(dǎo)致與視頻提示中的關(guān)鍵詞錯位。因此,采用Florence2提取視頻描述中所有提及主體的邊界框,隨后使用GroundingSAM2對這些邊界框區(qū)域進行主體提取。接著應(yīng)用聚類算法移除不包含所有主體的幀。為解決硬拷貝問題,使用視頻前5秒進行模型訓(xùn)練,后續(xù)15秒用于主體分割。


視頻分辨率標(biāo)準化。首先基于所有主體邊界框計算聯(lián)合邊界框,并確保裁剪區(qū)域至少包含聯(lián)合邊界框面積的70%。為使模型支持多分辨率輸出,本文定義了多種寬高比,包括1:1、3:4和9:16。


視頻標(biāo)注。本文采用HunYuan團隊開發(fā)的結(jié)構(gòu)化視頻標(biāo)注模型對視頻進行標(biāo)注。該模型提供詳細的描述信息,包括視頻的長描述、短描述、背景風(fēng)格和鏡頭運動描述。在訓(xùn)練過程中,這些結(jié)構(gòu)化標(biāo)注用于增強視頻描述,從而提升模型的魯棒性和性能。


掩碼數(shù)據(jù)增強。在視頻編輯中,直接使用提取的主體掩碼進行訓(xùn)練可能導(dǎo)致對不同類型或形狀的物體替換過擬合。例如,將無耳朵的玩偶替換為有耳朵的玩偶時,生成的視頻可能仍顯示無耳朵的玩偶,這與預(yù)期結(jié)果不符。因此,在訓(xùn)練過程中,我們采用掩碼膨脹或?qū)⒀诖a轉(zhuǎn)換為邊界框等技術(shù)以軟化掩碼邊界。這些方法有助于在最終視頻中實現(xiàn)更真實且符合預(yù)期的編輯效果。通過此類增強策略,我們旨在緩解過擬合問題,并確保編輯后的視頻更貼近預(yù)期。這一方法提升了模型在不同物體類型和形狀上的靈活性與適用性。


音頻數(shù)據(jù)處理。首先,利用LatentSync評估片段中音頻與視頻的同步性。丟棄同步置信度分數(shù)低于3的視頻,并將音視頻偏移調(diào)整為零。同時,計算hyperIQA質(zhì)量分數(shù),并移除分數(shù)低于40的視頻以確保數(shù)據(jù)高質(zhì)量。最后,使用Whisper提取音頻特征,這些特征將作為后續(xù)模型訓(xùn)練的輸入。

圖像驅(qū)動的視頻定制

HunyuanCustom的核心任務(wù)是基于輸入圖像I(代表特定身份)和文本描述T生成視頻。關(guān)鍵挑戰(zhàn)在于使模型有效理解圖像中嵌入的身份信息,并將其與文本上下文結(jié)合以實現(xiàn)交互式理解。為此,HunyuanCustom引入了基于LLaVA的文本-圖像交互模塊,促進視覺與文本輸入的聯(lián)合建模,從而增強模型對身份及伴隨描述的理解。此外,還引入了身份增強模塊,將圖像衍生的特征沿視頻序列傳播,利用視頻模型的時序建模能力強化生成視頻中的身份一致性。


基于LLaVA的文本-圖像交互。在視頻定制任務(wù)中,有效整合圖像-文本信息是此前定制方法的關(guān)鍵難點。這些方法要么缺乏對圖像與文本交互理解的設(shè)計,要么依賴額外訓(xùn)練的分支網(wǎng)絡(luò)實現(xiàn)交互。HunyuanCustom利用Hunyuan Video在LLaVA文本空間中訓(xùn)練的文本理解能力,結(jié)合LLaVA固有的多模態(tài)交互理解能力,通過將HunyuanVideo的原始文本輸入擴展為圖像與文本雙輸入,基于LLaVA出色的多模態(tài)理解能力實現(xiàn)有效的圖文交互理解。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)


身份增強。LLaVA模型作為多模態(tài)理解框架,旨在捕捉文本與圖像的相關(guān)性,主要提取類別、顏色、形狀等高層次語義信息,但常忽略文本、紋理等細節(jié)。然而在視頻定制中,身份高度依賴這些圖像細節(jié),僅靠LLaVA分支難以保持身份一致性。為此,我們提出身份增強模塊:通過在時間軸上拼接視頻隱變量與目標(biāo)圖像,并利用視頻模型在時間維度的高效信息傳遞能力,有效增強視頻身份一致性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

模型能力擴展

為使模型具備更廣泛的表征能力并學(xué)習(xí)更復(fù)雜的模式,我們對預(yù)訓(xùn)練視頻生成模型和LLaVA模型的權(quán)重進行全參數(shù)微調(diào),充分釋放其潛力以提供更優(yōu)的視頻定制效果。

多模態(tài)主體中心視頻生成

現(xiàn)有視頻定制方法主要聚焦主體身份保持,缺乏對主體驅(qū)動生成的深入探索。我們進一步研究以多模態(tài)音視頻信息為條件、圍繞主體身份實現(xiàn)圖像-音頻-視頻聯(lián)合驅(qū)動的特定主體生成。

音頻驅(qū)動視頻定制

音頻是視頻生成不可或缺的組成部分?,F(xiàn)有音頻驅(qū)動人體動畫模型通常以人物圖像和音頻為輸入,使圖像人物說出對應(yīng)語音。但這種圖像-視頻范式導(dǎo)致生成視頻中人物的姿勢、服飾和場景與輸入圖像完全一致。借助HunyuanCustom對角色身份信息的有效捕獲與保持,我們整合音頻輸入實現(xiàn)文本描述場景中角色說話的視頻生成,稱為音頻驅(qū)動視頻定制。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

視頻驅(qū)動視頻定制

實際視頻創(chuàng)作中,編輯常涉及修改視頻主體的外觀與運動,這與HunyuanCustom的主體生成能力天然契合。視頻蘊含豐富的時空信息,對內(nèi)容提取與生成模型集成提出雙重挑戰(zhàn)?,F(xiàn)有方法如VACE通過適配器模塊注入視頻條件,導(dǎo)致計算成本翻倍;而[Bai et al., 2025a]將條件視頻與生成片段隱變量沿時間軸拼接,引發(fā)序列長度倍增與注意力計算平方增長。HunyuanCustom采用更高效的視頻條件注入策略:先通過預(yù)訓(xùn)練因果3D-VAE壓縮條件視頻,經(jīng)特征對齊后直接加至噪聲視頻隱變量,實現(xiàn)高效視頻條件融合。

視頻隱變量特征對齊

條件視頻作為無噪聲輸入,其特征通過預(yù)訓(xùn)練因果3D-VAE編碼器提取,經(jīng)HunyuanVideo視頻分詞器壓縮序列化后,由四層全連接網(wǎng)絡(luò)映射至隱空間,與噪聲視頻隱變量對齊。

身份解耦視頻條件注入

我們探索兩種注入策略:(1) 沿token維度拼接條件視頻特征與視頻隱變量后降維;(2) 沿時間軸逐幀直接相加。實驗表明加法策略能更有效保留內(nèi)容信息。得益于特征對齊預(yù)處理,條件視頻特征與視頻隱變量高度匹配,支持輕量化高效注入。

實驗

實現(xiàn)細節(jié)

評估指標(biāo)

  • 身份一致性:使用Arcface計算參考人臉與生成視頻各幀嵌入的平均余弦相似度
  • 主體相似度:通過YOLOv11檢測人體區(qū)域,計算DINO-v2特征相似度
  • 文本-視頻對齊:采用CLIP-B評估文本提示與生成視頻的匹配度
  • 時序一致性:基于VBench,用CLIP-B計算幀間相似度
  • 動態(tài)程度:參照VBench計算物體運動量

單主體視頻定制對比實驗

基線方法

與當(dāng)前最優(yōu)視頻定制方法對比,包括商業(yè)產(chǎn)品(Vidu 2.0、Keling 1.6、Pika、Hailuo)和開源方法(Skyreels-A2、VACE)。每組生成100個人類身份視頻和100個非人類身份視頻以全面評估方法通用性。

定性對比

下圖4-5顯示:Vidu、Skyreels A2與我們的方法在提示對齊和主體一致性上表現(xiàn)較好,但得益于基礎(chǔ)模型Hunyuanvideo-13B的優(yōu)異生成能力,我們的視頻質(zhì)量更優(yōu)。商業(yè)產(chǎn)品中,Keling存在首幀復(fù)制粘貼(圖4第2行)和主體移動模糊問題(圖5第2行);Pika一致性差且易出現(xiàn)字幕異常;Hailuo僅能保持面部ID一致性。開源方法VACE無法保持ID一致性(圖4第7行)。HunyuanCustom在保持身份一致性的同時兼具高質(zhì)量與多樣性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

定量對比

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

多主體視頻定制實驗與應(yīng)用

定性對比

下圖6顯示:Pika存在主體消失(男子)或動作失敗(女子開門)問題;Vidu 與VACE丟失非人類物體細節(jié);SkyReels A2幀不穩(wěn)定且出現(xiàn)芯片變形。HunyuanCustom能同時保持人類與非人類主體身份,生成符合提示的高質(zhì)量穩(wěn)定視頻。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

虛擬人廣告應(yīng)用

虛擬人體廣告。利用我們的多主題定制能力,混元定制技術(shù)實現(xiàn)了以前方法無法實現(xiàn)的應(yīng)用。一個重要的應(yīng)用是虛擬人體廣告,混元定制技術(shù)將人體圖像和產(chǎn)品圖像作為輸入,生成相應(yīng)的廣告視頻。結(jié)果如下圖 7 所示,表明混元定制技術(shù)有效地保持了人體的身份,同時保留了目標(biāo)產(chǎn)品的細節(jié),包括其上的文字。此外,人與產(chǎn)品之間的互動看起來很自然,視頻緊密地遵循給定的提示,突出了混元定制技術(shù)在生成廣告視頻方面的巨大潛力。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

音頻驅(qū)動視頻定制化實驗

音頻驅(qū)動的單主體定制?,F(xiàn)有音頻驅(qū)動人體動畫方法需輸入人物圖像和音頻,生成視頻中人物的姿態(tài)、服飾及環(huán)境均與輸入圖像保持一致,無法生成其他姿態(tài)和場景的視頻,限制了應(yīng)用范圍。相比之下,我們的HunyuanCustom支持音頻驅(qū)動的人物定制,能夠根據(jù)文本描述的場景和姿態(tài)生成人物口型與輸入音頻同步的視頻,實現(xiàn)更靈活可控的音頻驅(qū)動人體動畫。如下圖8所示,HunyuanCustom生成的視頻既嚴格遵循文本提示,又完美保持人物身份特征。該系統(tǒng)可有效實現(xiàn)與其他物體(第3-4行)或人類(第5-6行)的交互,這一特性將顯著提升其在直播和廣告領(lǐng)域的應(yīng)用價值。此外,模型能生成多樣化場景和姿態(tài)的視頻:例如明朝背景場景(第7行)中人物自動穿著符合時代特征的服飾而無需顯式提示,第8行則展示了與輸入圖像神態(tài)迥異但生動逼真的女性表情。這證明了HunyuanCustom強大的世界建模和泛化能力。綜上,音頻驅(qū)動HunyuanCustom可在保持身份特征的前提下,根據(jù)文本提示生成涵蓋多樣場景和姿態(tài)的高差異化視頻。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

音頻驅(qū)動虛擬試穿。基于其多主體定制能力,HunyuanCustom還支持音頻驅(qū)動的多主體視頻定制,具有廣泛的應(yīng)用前景。本文進一步探索其在文本和音頻雙驅(qū)動下的虛擬試穿生成能力。下圖9結(jié)果顯示,該系統(tǒng)成功將虛擬試穿與音頻驅(qū)動視頻生成相結(jié)合,在自然呈現(xiàn)指定服飾的同時完美保持目標(biāo)人物身份特征,并與給定音頻實現(xiàn)生動口型同步,彰顯了其多模態(tài)視頻定制能力的優(yōu)越性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

視頻驅(qū)動視頻定制化實驗

視頻主體替換。依托強大的主體一致性保持能力,HunyuanCustom還支持視頻驅(qū)動的視頻編輯,可應(yīng)用于多種場景。我們在視頻主體替換任務(wù)上對比了HunyuanCustom與VACE和Keling的性能,該任務(wù)需要輸入源視頻、指定替換區(qū)域的物體掩碼以及目標(biāo)主體圖像。如下圖10所示,VACE因嚴格遵循輸入掩碼導(dǎo)致邊界偽影,使得主體形狀不自然且運動連續(xù)性斷裂;Keling則呈現(xiàn)"復(fù)制-粘貼"效應(yīng),主體直接疊加在視頻上導(dǎo)致背景融合生硬。相較之下,HunyuanCustom有效避免了邊界偽影,實現(xiàn)與視頻背景的無縫融合,并保持優(yōu)異的主體身份特征——這證明了其在視頻編輯任務(wù)中的卓越性能。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

消融實驗

本文在主體定制任務(wù)上進行了消融研究,對比三個變體模型:(1)去除LLaVA的模型;(2)去除身份增強模塊的模型;(3)采用通道級拼接而非時序拼接進行身份增強的模型。下圖11結(jié)果顯示,去除LLaVA的模型身份保持能力顯著下降,表明LLaVA不僅傳遞提示信息,更能提取關(guān)鍵身份特征——該變體完全未能捕獲目標(biāo)圖像的重要細節(jié)。保留LLaVA但去除身份增強的模型雖能捕捉全局身份信息,卻丟失細節(jié)特征,印證了身份增強模塊對細節(jié)優(yōu)化的有效性。最后,采用通道拼接替代時序拼接的模型生成質(zhì)量較差:雖能保持身份特征,但初始幀存在嚴重模糊效應(yīng)(與Vidu的結(jié)果類似),這說明時序拼接能通過強時序建模先驗有效捕獲目標(biāo)信息,同時最小化對生成質(zhì)量的影響。綜上,我們的模型在確保高生成質(zhì)量的同時,成功捕獲全局和局部身份細節(jié),充分驗證了設(shè)計有效性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

結(jié)論

本研究提出HunyuanCustom——一種新型多模態(tài)定制視頻生成模型,攻克了主體一致性視頻生成的關(guān)鍵技術(shù)難題,實現(xiàn)了以身份特征為核心的多模態(tài)視頻定制。通過將圖像、音頻和視頻模態(tài)與文本驅(qū)動條件機制相結(jié)合,HunyuanCustom構(gòu)建了一個可生成高保真身份特征視頻的魯棒框架。該模型整合了文本-圖像融合模塊、圖像身份增強模塊以及高效的音視頻特征注入流程,確保生成視頻既嚴格遵循用戶需求,又兼具高度真實性與靈活性。


大量實驗表明,HunyuanCustom在單主體/多主體生成、音頻驅(qū)動/視頻驅(qū)動視頻定制等任務(wù)中均超越現(xiàn)有方法。其在身份一致性、真實度及視頻-文本對齊等方面的卓越表現(xiàn),確立了其作為可控視頻定制領(lǐng)域領(lǐng)先解決方案的地位。本工作為可控視頻生成的后續(xù)研究開辟了新路徑,進一步拓展了人工智能生成內(nèi)容(AIGC)在創(chuàng)意產(chǎn)業(yè)等領(lǐng)域的應(yīng)用潛力。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/fLhq8CetSDiG25kmj8vdow??

標(biāo)簽
已于2025-5-9 08:43:06修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦