偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

長(zhǎng)視頻AI數(shù)字人來(lái)了!字節(jié)×浙大推出商用級(jí)音頻驅(qū)動(dòng)數(shù)字人模型InfinityHuman

人工智能 新聞
近日,字節(jié)跳動(dòng)商業(yè)化 GenAI 團(tuán)隊(duì)聯(lián)合浙江大學(xué)推出商用級(jí)長(zhǎng)時(shí)序音頻驅(qū)動(dòng)人物視頻生成模型。

隨著內(nèi)容創(chuàng)作智能化需求的爆發(fā),長(zhǎng)時(shí)長(zhǎng)、高質(zhì)量數(shù)字人視頻生成始終是行業(yè)痛點(diǎn)。近日,字節(jié)跳動(dòng)商業(yè)化 GenAI 團(tuán)隊(duì)聯(lián)合浙江大學(xué)推出商用級(jí)長(zhǎng)時(shí)序音頻驅(qū)動(dòng)人物視頻生成模型 ——InfinityHuman,打破傳統(tǒng)音頻驅(qū)動(dòng)技術(shù)在長(zhǎng)視頻場(chǎng)景中的局限性,開啟 AI 數(shù)字人實(shí)用化新征程。

從靜態(tài)圖像到動(dòng)態(tài)視頻:音頻驅(qū)動(dòng)的"數(shù)字復(fù)活術(shù)"

只需提供一張人物圖像與對(duì)應(yīng)音頻素材,InfinityHuman 就能自動(dòng)生成連貫自然的高分辨率長(zhǎng)視頻:無(wú)論是 30 秒的產(chǎn)品快推、還是 3 分鐘的演講致辭,均能實(shí)現(xiàn)專業(yè)級(jí)呈現(xiàn)。技術(shù)團(tuán)隊(duì)演示中,僅憑一段音頻即可讓電影中的人物復(fù)活 " 為動(dòng)態(tài)數(shù)字人,視頻效果生動(dòng)自然,肢體動(dòng)作與語(yǔ)音節(jié)奏高度同步。

該圖由 AI 生成

核心突破:攻克長(zhǎng)視頻兩大技術(shù)難關(guān)

InfinityHuman 的關(guān)鍵優(yōu)勢(shì)在于創(chuàng)造性解決了長(zhǎng)期動(dòng)畫中的兩大核心難題:

  • 身份漂移難題:通過(guò) "姿態(tài)引導(dǎo)優(yōu)化" 技術(shù),以穩(wěn)定的骨骼姿態(tài)序列為錨點(diǎn),結(jié)合初始圖像的視覺(jué)特征,確保數(shù)字人在長(zhǎng)時(shí)間視頻中保持面部特征、光影風(fēng)格的一致性,避免傳統(tǒng)技術(shù)中常見(jiàn)的 "越生成越不像" 問(wèn)題。
  • 細(xì)節(jié)失真難題:精準(zhǔn)捕捉并還原手部交互、面部微表情、情感起伏等細(xì)節(jié),讓數(shù)字人的手勢(shì)動(dòng)作自然流暢,情緒表達(dá)細(xì)膩真實(shí),突破同類技術(shù)中 "手部僵硬"" 表情呆板 " 的瓶頸。

商用場(chǎng)景全面落地,推動(dòng)數(shù)字人技術(shù)實(shí)用化

從項(xiàng)目主頁(yè)展示的案例來(lái)看,InfinityHuman 已實(shí)現(xiàn)多場(chǎng)景商用級(jí)應(yīng)用:

  • 電商帶貨中,虛擬主播可手持商品進(jìn)行沉浸式講解;
  • 企業(yè)培訓(xùn)中,虛擬講師能完成長(zhǎng)時(shí)間課程錄制;
  • 自媒體創(chuàng)作中,數(shù)字人主播可實(shí)現(xiàn)每日內(nèi)容量產(chǎn)。

尤其值得關(guān)注的是,該模型對(duì)中文語(yǔ)音的支持效果尤為出色,在分鐘級(jí)長(zhǎng)視頻中仍能保持身份穩(wěn)定與手部動(dòng)作自然,充分滿足中文內(nèi)容創(chuàng)作需求。

技術(shù)細(xì)節(jié)與更多展示

如需了解更多技術(shù)細(xì)節(jié)和效果演示,可訪問(wèn):

  • 論文項(xiàng)目主頁(yè):https://infinityhuman.github.io/
  • 技術(shù)報(bào)告:https://arxiv.org/pdf/2508.20210

方法概述

如圖所示,InfinityHuman 是一個(gè)統(tǒng)一框架,旨在通過(guò)單張參考圖像、音頻和可選文本提示生成長(zhǎng)時(shí)間、全身的高分辨率說(shuō)話視頻,確保視覺(jué)一致性、精準(zhǔn)唇同步和自然手部動(dòng)作。該框架采用 “由粗到細(xì)” 策略:先通過(guò)低分辨率音視頻生成模塊得到含粗略動(dòng)作的低分辨率視頻,再由姿態(tài)引導(dǎo)細(xì)化模塊結(jié)合低分辨率視頻和參考圖像生成高分辨率視頻,同時(shí)引入手部校正策略提升手部動(dòng)作的真實(shí)感與結(jié)構(gòu)完整性。

低分辨率音視頻生成模塊基于 Flow Matching 和 DIT,融合參考圖像、文本、音頻等多模態(tài)信息,通過(guò)多模態(tài)條件注意力機(jī)制增強(qiáng)音頻與視覺(jué)的對(duì)齊;姿態(tài)引導(dǎo)細(xì)化模塊利用參考圖像作為身份先驗(yàn),結(jié)合低分辨率視頻及其姿態(tài)序列,通過(guò)前綴潛變量參考策略和姿態(tài)引導(dǎo)確保長(zhǎng)時(shí)生成中的時(shí)序連貫性與外觀一致性;手部特定獎(jiǎng)勵(lì)反饋學(xué)習(xí)則針對(duì)手部易出現(xiàn)的畸變問(wèn)題,利用預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型進(jìn)行偏好微調(diào),提升手部結(jié)構(gòu)的合理性與真實(shí)感。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,InfinityHuman 在音頻驅(qū)動(dòng)全身說(shuō)話視頻生成任務(wù)中表現(xiàn)優(yōu)異。在 EMTD 和 HDTF 數(shù)據(jù)集上的評(píng)估顯示,該方法在視覺(jué)真實(shí)感(FID)和時(shí)序連貫性(FVD)指標(biāo)上均優(yōu)于 FantasyTalking、Hallo3 等主流基線方法,生成視頻的整體質(zhì)量顯著提升。身份一致性方面,通過(guò)姿態(tài)引導(dǎo)細(xì)化模塊有效維持了與參考圖像的相似度,解決了長(zhǎng)時(shí)生成中的外觀漂移問(wèn)題。針對(duì)手部生成這一難點(diǎn),手部特定獎(jiǎng)勵(lì)反饋學(xué)習(xí)顯著提升了手部關(guān)鍵點(diǎn)的準(zhǔn)確性,減少了手指畸變、關(guān)節(jié)異常等常見(jiàn)問(wèn)題,尤其在復(fù)雜手勢(shì)場(chǎng)景中表現(xiàn)穩(wěn)定。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了核心模塊的有效性:移除姿態(tài)引導(dǎo)細(xì)化模塊會(huì)導(dǎo)致視覺(jué)質(zhì)量下降、身份一致性減弱,視覺(jué)細(xì)節(jié)模糊且時(shí)序連貫性降低;取消手部獎(jiǎng)勵(lì)機(jī)制則使手部關(guān)鍵點(diǎn)精度下降,手部失真現(xiàn)象明顯增多。

綜合定量指標(biāo)和定性分析,InfinityHuman 在高分辨率、長(zhǎng)時(shí)長(zhǎng)視頻生成任務(wù)中實(shí)現(xiàn)了真實(shí)感、一致性與動(dòng)作自然度的全面提升。 

字節(jié)跳動(dòng) VIVID Avatar 團(tuán)隊(duì):深耕音視頻數(shù)字人技術(shù),推動(dòng)AI生成走向?qū)嵱没?/span>

作為字節(jié)跳動(dòng)旗下專注于音視頻數(shù)字人生成的研發(fā)力量,商業(yè)化 GenAI 的 VIVID(Voice Integrated Video Immersive Digital)Avatar 團(tuán)隊(duì)始終站在技術(shù)前沿,致力于突破音頻與視覺(jué)融合的技術(shù)邊界。團(tuán)隊(duì)以 “讓數(shù)字人更鮮活、更實(shí)用” 為目標(biāo),在語(yǔ)音合成與視頻生成兩大方向持續(xù)深耕,形成了從基礎(chǔ)研究到商業(yè)化落地的完整技術(shù)鏈路。

語(yǔ)音合成方向,團(tuán)隊(duì)推出 MegaTTS3、Make-An-Audio 2 等模型,視頻生成領(lǐng)域,從長(zhǎng)視頻模型 HumanDiT、NeurIPS 2024 收錄的 MimicTalk 個(gè)性化 3D 建模,到 ICLR 2024 Spotlight 成果 Real3D-Portrait 單樣本 3D 合成,再到 DiTalker 等音頻驅(qū)動(dòng)方案,構(gòu)建了覆蓋長(zhǎng)視頻、3D 肖像、實(shí)時(shí)驅(qū)動(dòng)的完整技術(shù)矩陣。目前,團(tuán)隊(duì)已通過(guò) GitHub 開源平臺(tái)(https://github.com/VIVID-Avatar/)分享多項(xiàng)核心技術(shù),并將最新研發(fā)的長(zhǎng)時(shí)序音頻驅(qū)動(dòng)視頻生成模型 InfinityHuman 部署至商業(yè)化即創(chuàng)平臺(tái),讓前沿技術(shù)從實(shí)驗(yàn)室快速走向產(chǎn)業(yè)應(yīng)用,為內(nèi)容創(chuàng)作、教育培訓(xùn)、電商直播等領(lǐng)域提供低成本、高質(zhì)量的數(shù)字人解決方案。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-10-09 07:29:35

算法音樂(lè)驅(qū)動(dòng)數(shù)字人

2024-04-12 14:34:59

2025-09-12 14:39:00

AI數(shù)字人視頻

2023-11-06 10:07:22

模型人工智能數(shù)字

2025-08-15 12:44:51

2023-06-19 13:22:51

模型音頻

2023-04-21 10:21:26

世優(yōu)科技ChatGPT數(shù)字人

2023-10-26 09:09:40

數(shù)字人AI驅(qū)動(dòng)

2024-09-12 14:00:00

AI訓(xùn)練

2024-04-02 11:27:56

支付寶AI醫(yī)療數(shù)字人

2022-06-29 16:29:30

數(shù)字化轉(zhuǎn)型企業(yè)商業(yè)

2022-09-07 08:58:52

AI科技樹機(jī)械

2025-10-15 17:12:36

2021-01-28 16:58:12

數(shù)字貨幣加密貨幣區(qū)塊鏈

2023-10-16 11:42:56

2025-09-08 08:45:00

機(jī)器人模型訓(xùn)練

2024-03-28 15:39:36

AIGC虛擬人數(shù)字人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)