偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="vufhw"></tfoot>

<table id="vufhw"></table>

<rt id="vufhw"><var id="vufhw"></var></rt>

<wbr id="vufhw"></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

再開源！騰訊混元放大招，直擊AI生視頻一致性痛點！多主體不飄、不糊、不變臉！最低24G顯存可跑

原創(chuàng) 精選

2025-05-09 12:39:08

HunyuanCustom 是一個多模態(tài)視頻生成模型，核心目標(biāo)是保持生成視頻中“人物身份”的一致性，并支持根據(jù)文本、圖片、音頻、視頻等多種條件進(jìn)行控制。

騰訊混元在AI視頻上又放大招了！

最近他們開源了一個全新的視頻生成框架 —— HunyuanCustom，主打兩個關(guān)鍵詞：身份一致性和多模態(tài)輸入，直接命中當(dāng)前AI視頻的兩個痛點！

看了他們的開源日直播之后，真的感覺這一步跨得很大，是向“可用AI視頻”邁進(jìn)的重要一步。不管是生成短片、制作電商廣告，人物不能“變臉”、內(nèi)容能穩(wěn)定控制，這都是基礎(chǔ)中的基礎(chǔ)。

來看看 HunyuanCustom 的“身份一致性”表現(xiàn)有多驚艷：

單主體場景：給定一張男生或女生的照片，系統(tǒng)可以在不同場景中——比如工作、學(xué)習(xí)、遛狗等——都保持人物的臉型和氣質(zhì)不變，表現(xiàn)非常穩(wěn)定。

多主體場景就更精彩了：

比如，和熊貓對打（而且熊貓不糊、不飄）

圖片

再比如，小哥舉著樂事薯片講解，全程薯片這個“第二主角”都沒有消失、扭曲或者漂移，做廣告簡直讓甲方媽媽都能放心了！

圖片

動作的自然程度也讓人眼前一亮：女生奔跑后轉(zhuǎn)身擁抱男生，整個過程銜接自然，沒有那種讓人出戲的“AI味”。

另外，HunyuanCustom 還支持多模態(tài)驅(qū)動！來看這個由口播音頻驅(qū)動的視頻片段，模特自然講解產(chǎn)品，雖然口型還有點不貼合，但整體效果已經(jīng)非常接近實拍。

模型對開發(fā)者非常友好，最低24G顯存就能跑，不過官方推薦顯存80GB，這樣可以兼顧速度和生成質(zhì)量，特別適用于高分辨率視頻生成任務(wù)。

圖片

開源主頁：https://hunyuancustom.github.io/

技術(shù)詳解：HunyuanCustom有哪些黑科技？

HunyuanCustom 是一個多模態(tài)視頻生成模型，核心目標(biāo)是保持生成視頻中“人物身份”的一致性，并支持根據(jù)文本、圖片、音頻、視頻等多種條件進(jìn)行控制。

首先，模型引入了一個基于 LLaVA 的圖文融合模塊，用來增強(qiáng)圖像與文本之間的理解。文本描述中會包含 "the man looks like the image..." ，系統(tǒng)會將“image token”替換為用戶上傳的圖片，從而將人物特征更準(zhǔn)確地融入文本語義中，幫助生成更具身份一致性的視頻內(nèi)容。

圖片

其次，HunyuanCustom 還設(shè)計了一個圖像身份增強(qiáng)模塊。該模塊會將輸入圖像沿時間軸拼接，并借助視頻模型對時間序列的強(qiáng)大建模能力，在整個視頻中維持主體特征的一致性，也就是說，無論視頻播放到哪一幀，主角的樣貌都能保持穩(wěn)定、不“變臉”。

在支持音頻和視頻作為輸入條件方面，HunyuanCustom 針對不同模態(tài)分別設(shè)計了專屬的注入機(jī)制。這些機(jī)制與身份保持模塊是解耦的，也就是說，即使在輸入中加入音頻或視頻，也不會干擾主體的身份一致性。

最終，HunyuanCustom 實現(xiàn)了對圖像、音頻和視頻條件的解耦式控制，在以主體為中心的多模態(tài)視頻生成任務(wù)中展現(xiàn)出極大的潛力。

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

騰訊混元 AI 顯存

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<rt id="uqu4b"><menu id="uqu4b"></menu></rt>

<center id="uqu4b"></center><nav id="uqu4b"><strong id="uqu4b"></strong></nav>