騰訊混元在AI視頻上又放大招了!
最近他們開源了一個全新的視頻生成框架 —— HunyuanCustom,主打兩個關(guān)鍵詞:身份一致性 和 多模態(tài)輸入,直接命中當(dāng)前AI視頻的兩個痛點!
看了他們的開源日直播之后,真的感覺這一步跨得很大,是向“可用AI視頻”邁進(jìn)的重要一步。不管是生成短片、制作電商廣告,人物不能“變臉”、內(nèi)容能穩(wěn)定控制,這都是基礎(chǔ)中的基礎(chǔ)。
來看看 HunyuanCustom 的“身份一致性”表現(xiàn)有多驚艷:
單主體場景:給定一張男生或女生的照片,系統(tǒng)可以在不同場景中——比如工作、學(xué)習(xí)、遛狗等——都保持人物的臉型和氣質(zhì)不變,表現(xiàn)非常穩(wěn)定。
多主體場景就更精彩了:
比如,和熊貓對打(而且熊貓不糊、不飄)
圖片
再比如,小哥舉著樂事薯片講解,全程薯片這個“第二主角”都沒有消失、扭曲或者漂移,做廣告簡直讓甲方媽媽都能放心了!
圖片
動作的自然程度也讓人眼前一亮:女生奔跑后轉(zhuǎn)身擁抱男生,整個過程銜接自然,沒有那種讓人出戲的“AI味”。
另外,HunyuanCustom 還支持多模態(tài)驅(qū)動!來看這個由口播音頻驅(qū)動的視頻片段,模特自然講解產(chǎn)品,雖然口型還有點不貼合,但整體效果已經(jīng)非常接近實拍。
模型對開發(fā)者非常友好,最低24G顯存就能跑,不過官方推薦顯存80GB,這樣可以兼顧速度和生成質(zhì)量,特別適用于高分辨率視頻生成任務(wù)。
圖片
開源主頁:https://hunyuancustom.github.io/
技術(shù)詳解:HunyuanCustom有哪些黑科技?
HunyuanCustom 是一個多模態(tài)視頻生成模型,核心目標(biāo)是保持生成視頻中“人物身份”的一致性,并支持根據(jù)文本、圖片、音頻、視頻等多種條件進(jìn)行控制。
首先,模型引入了一個基于 LLaVA 的圖文融合模塊,用來增強(qiáng)圖像與文本之間的理解。文本描述中會包含 "the man looks like the image..." ,系統(tǒng)會將“image token”替換為用戶上傳的圖片,從而將人物特征更準(zhǔn)確地融入文本語義中,幫助生成更具身份一致性的視頻內(nèi)容。
圖片
其次,HunyuanCustom 還設(shè)計了一個圖像身份增強(qiáng)模塊。該模塊會將輸入圖像沿時間軸拼接,并借助視頻模型對時間序列的強(qiáng)大建模能力,在整個視頻中維持主體特征的一致性,也就是說,無論視頻播放到哪一幀,主角的樣貌都能保持穩(wěn)定、不“變臉”。
在支持音頻和視頻作為輸入條件方面,HunyuanCustom 針對不同模態(tài)分別設(shè)計了專屬的注入機(jī)制。這些機(jī)制與身份保持模塊是解耦的,也就是說,即使在輸入中加入音頻或視頻,也不會干擾主體的身份一致性。
最終,HunyuanCustom 實現(xiàn)了對圖像、音頻和視頻條件的解耦式控制,在以主體為中心的多模態(tài)視頻生成任務(wù)中展現(xiàn)出極大的潛力。