偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

長(zhǎng)視頻AI數(shù)字人來(lái)了！字節(jié)×浙大推出商用級(jí)音頻驅(qū)動(dòng)數(shù)字人模型InfinityHuman

2025-09-04 12:15:26

人工智能新聞

近日，字節(jié)跳動(dòng)商業(yè)化 GenAI 團(tuán)隊(duì)聯(lián)合浙江大學(xué)推出商用級(jí)長(zhǎng)時(shí)序音頻驅(qū)動(dòng)人物視頻生成模型。

隨著內(nèi)容創(chuàng)作智能化需求的爆發(fā)，長(zhǎng)時(shí)長(zhǎng)、高質(zhì)量數(shù)字人視頻生成始終是行業(yè)痛點(diǎn)。近日，字節(jié)跳動(dòng)商業(yè)化 GenAI 團(tuán)隊(duì)聯(lián)合浙江大學(xué)推出商用級(jí)長(zhǎng)時(shí)序音頻驅(qū)動(dòng)人物視頻生成模型 ——InfinityHuman，打破傳統(tǒng)音頻驅(qū)動(dòng)技術(shù)在長(zhǎng)視頻場(chǎng)景中的局限性，開啟 AI 數(shù)字人實(shí)用化新征程。

從靜態(tài)圖像到動(dòng)態(tài)視頻：音頻驅(qū)動(dòng)的"數(shù)字復(fù)活術(shù)"

只需提供一張人物圖像與對(duì)應(yīng)音頻素材，InfinityHuman 就能自動(dòng)生成連貫自然的高分辨率長(zhǎng)視頻：無(wú)論是 30 秒的產(chǎn)品快推、還是 3 分鐘的演講致辭，均能實(shí)現(xiàn)專業(yè)級(jí)呈現(xiàn)。技術(shù)團(tuán)隊(duì)演示中，僅憑一段音頻即可讓電影中的人物復(fù)活 " 為動(dòng)態(tài)數(shù)字人，視頻效果生動(dòng)自然，肢體動(dòng)作與語(yǔ)音節(jié)奏高度同步。

該圖由 AI 生成

核心突破：攻克長(zhǎng)視頻兩大技術(shù)難關(guān)

InfinityHuman 的關(guān)鍵優(yōu)勢(shì)在于創(chuàng)造性解決了長(zhǎng)期動(dòng)畫中的兩大核心難題：

身份漂移難題：通過(guò) "姿態(tài)引導(dǎo)優(yōu)化" 技術(shù)，以穩(wěn)定的骨骼姿態(tài)序列為錨點(diǎn)，結(jié)合初始圖像的視覺(jué)特征，確保數(shù)字人在長(zhǎng)時(shí)間視頻中保持面部特征、光影風(fēng)格的一致性，避免傳統(tǒng)技術(shù)中常見(jiàn)的 "越生成越不像" 問(wèn)題。
細(xì)節(jié)失真難題：精準(zhǔn)捕捉并還原手部交互、面部微表情、情感起伏等細(xì)節(jié)，讓數(shù)字人的手勢(shì)動(dòng)作自然流暢，情緒表達(dá)細(xì)膩真實(shí)，突破同類技術(shù)中 "手部僵硬"" 表情呆板 " 的瓶頸。

商用場(chǎng)景全面落地，推動(dòng)數(shù)字人技術(shù)實(shí)用化

從項(xiàng)目主頁(yè)展示的案例來(lái)看，InfinityHuman 已實(shí)現(xiàn)多場(chǎng)景商用級(jí)應(yīng)用：

電商帶貨中，虛擬主播可手持商品進(jìn)行沉浸式講解；
企業(yè)培訓(xùn)中，虛擬講師能完成長(zhǎng)時(shí)間課程錄制；
自媒體創(chuàng)作中，數(shù)字人主播可實(shí)現(xiàn)每日內(nèi)容量產(chǎn)。

尤其值得關(guān)注的是，該模型對(duì)中文語(yǔ)音的支持效果尤為出色，在分鐘級(jí)長(zhǎng)視頻中仍能保持身份穩(wěn)定與手部動(dòng)作自然，充分滿足中文內(nèi)容創(chuàng)作需求。

技術(shù)細(xì)節(jié)與更多展示

如需了解更多技術(shù)細(xì)節(jié)和效果演示，可訪問(wèn)：

論文項(xiàng)目主頁(yè)：https://infinityhuman.github.io/
技術(shù)報(bào)告：https://arxiv.org/pdf/2508.20210

方法概述

如圖所示，InfinityHuman 是一個(gè)統(tǒng)一框架，旨在通過(guò)單張參考圖像、音頻和可選文本提示生成長(zhǎng)時(shí)間、全身的高分辨率說(shuō)話視頻，確保視覺(jué)一致性、精準(zhǔn)唇同步和自然手部動(dòng)作。該框架采用 “由粗到細(xì)” 策略：先通過(guò)低分辨率音視頻生成模塊得到含粗略動(dòng)作的低分辨率視頻，再由姿態(tài)引導(dǎo)細(xì)化模塊結(jié)合低分辨率視頻和參考圖像生成高分辨率視頻，同時(shí)引入手部校正策略提升手部動(dòng)作的真實(shí)感與結(jié)構(gòu)完整性。

低分辨率音視頻生成模塊基于 Flow Matching 和 DIT，融合參考圖像、文本、音頻等多模態(tài)信息，通過(guò)多模態(tài)條件注意力機(jī)制增強(qiáng)音頻與視覺(jué)的對(duì)齊；姿態(tài)引導(dǎo)細(xì)化模塊利用參考圖像作為身份先驗(yàn)，結(jié)合低分辨率視頻及其姿態(tài)序列，通過(guò)前綴潛變量參考策略和姿態(tài)引導(dǎo)確保長(zhǎng)時(shí)生成中的時(shí)序連貫性與外觀一致性；手部特定獎(jiǎng)勵(lì)反饋學(xué)習(xí)則針對(duì)手部易出現(xiàn)的畸變問(wèn)題，利用預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型進(jìn)行偏好微調(diào)，提升手部結(jié)構(gòu)的合理性與真實(shí)感。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明，InfinityHuman 在音頻驅(qū)動(dòng)全身說(shuō)話視頻生成任務(wù)中表現(xiàn)優(yōu)異。在 EMTD 和 HDTF 數(shù)據(jù)集上的評(píng)估顯示，該方法在視覺(jué)真實(shí)感（FID）和時(shí)序連貫性（FVD）指標(biāo)上均優(yōu)于 FantasyTalking、Hallo3 等主流基線方法，生成視頻的整體質(zhì)量顯著提升。身份一致性方面，通過(guò)姿態(tài)引導(dǎo)細(xì)化模塊有效維持了與參考圖像的相似度，解決了長(zhǎng)時(shí)生成中的外觀漂移問(wèn)題。針對(duì)手部生成這一難點(diǎn)，手部特定獎(jiǎng)勵(lì)反饋學(xué)習(xí)顯著提升了手部關(guān)鍵點(diǎn)的準(zhǔn)確性，減少了手指畸變、關(guān)節(jié)異常等常見(jiàn)問(wèn)題，尤其在復(fù)雜手勢(shì)場(chǎng)景中表現(xiàn)穩(wěn)定。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了核心模塊的有效性：移除姿態(tài)引導(dǎo)細(xì)化模塊會(huì)導(dǎo)致視覺(jué)質(zhì)量下降、身份一致性減弱，視覺(jué)細(xì)節(jié)模糊且時(shí)序連貫性降低；取消手部獎(jiǎng)勵(lì)機(jī)制則使手部關(guān)鍵點(diǎn)精度下降，手部失真現(xiàn)象明顯增多。

綜合定量指標(biāo)和定性分析，InfinityHuman 在高分辨率、長(zhǎng)時(shí)長(zhǎng)視頻生成任務(wù)中實(shí)現(xiàn)了真實(shí)感、一致性與動(dòng)作自然度的全面提升。

字節(jié)跳動(dòng) VIVID Avatar 團(tuán)隊(duì)：深耕音視頻數(shù)字人技術(shù)，推動(dòng)AI生成走向?qū)嵱没?/span>

作為字節(jié)跳動(dòng)旗下專注于音視頻數(shù)字人生成的研發(fā)力量，商業(yè)化 GenAI 的 VIVID（Voice Integrated Video Immersive Digital）Avatar 團(tuán)隊(duì)始終站在技術(shù)前沿，致力于突破音頻與視覺(jué)融合的技術(shù)邊界。團(tuán)隊(duì)以 “讓數(shù)字人更鮮活、更實(shí)用” 為目標(biāo)，在語(yǔ)音合成與視頻生成兩大方向持續(xù)深耕，形成了從基礎(chǔ)研究到商業(yè)化落地的完整技術(shù)鏈路。

語(yǔ)音合成方向，團(tuán)隊(duì)推出 MegaTTS3、Make-An-Audio 2 等模型，視頻生成領(lǐng)域，從長(zhǎng)視頻模型 HumanDiT、NeurIPS 2024 收錄的 MimicTalk 個(gè)性化 3D 建模，到 ICLR 2024 Spotlight 成果 Real3D-Portrait 單樣本 3D 合成，再到 DiTalker 等音頻驅(qū)動(dòng)方案，構(gòu)建了覆蓋長(zhǎng)視頻、3D 肖像、實(shí)時(shí)驅(qū)動(dòng)的完整技術(shù)矩陣。目前，團(tuán)隊(duì)已通過(guò) GitHub 開源平臺(tái)（https://github.com/VIVID-Avatar/）分享多項(xiàng)核心技術(shù)，并將最新研發(fā)的長(zhǎng)時(shí)序音頻驅(qū)動(dòng)視頻生成模型 InfinityHuman 部署至商業(yè)化即創(chuàng)平臺(tái)，讓前沿技術(shù)從實(shí)驗(yàn)室快速走向產(chǎn)業(yè)應(yīng)用，為內(nèi)容創(chuàng)作、教育培訓(xùn)、電商直播等領(lǐng)域提供低成本、高質(zhì)量的數(shù)字人解決方案。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 視頻生成數(shù)字人

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sup id="rphwy"><i id="rphwy"></i></sup>