偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

EchoMimic V2:AI 數(shù)字人的新里程碑!首次實(shí)現(xiàn)身體動(dòng)作口型全同步!

人工智能
如果你對(duì) AI 數(shù)字人、AI配音、AI動(dòng)畫等制作感興趣,那么EchoMimic V2絕對(duì)是一個(gè)不容錯(cuò)過的工具!

EchoMimic V2是阿里達(dá)摩院開源的一款基于音頻驅(qū)動(dòng)的肖像動(dòng)畫生成工具。

這一工具不僅能讓虛擬形象開口說話,實(shí)現(xiàn)口型同步,還能在音頻驅(qū)動(dòng)下添加頭部和身體動(dòng)作,將數(shù)字形象的表現(xiàn)力提升到一個(gè)全新的高度。

如果你對(duì)AI數(shù)字人、AI配音、AI動(dòng)畫等制作感興趣,那么EchoMimic V2絕對(duì)是一個(gè)不容錯(cuò)過的工具!

主要特點(diǎn)

(1) 音頻驅(qū)動(dòng)的半身人物動(dòng)畫

  • 支持通過音頻驅(qū)動(dòng)生成逼真的半身人物動(dòng)畫效果,適用于多種應(yīng)用場(chǎng)景,如數(shù)字人直播、虛擬主播、視頻編輯、AI配音等。
  • 實(shí)現(xiàn)音頻驅(qū)動(dòng)的人物說話、表情和肢體動(dòng)作的協(xié)調(diào)一致。

(2) 引人注目的動(dòng)作表現(xiàn)力

通過新穎的音頻姿勢(shì)動(dòng)態(tài)協(xié)調(diào)策略,包括姿勢(shì)采樣和音頻擴(kuò)散,增強(qiáng)半身細(xì)節(jié)、面部和手勢(shì)表現(xiàn)力。

(3) 簡(jiǎn)化的生成流程:

減少條件冗余,簡(jiǎn)化生成流程,提高模型的實(shí)用性和靈活性。

實(shí)現(xiàn)策略

(1) Audio-Pose Dynamic Harmonization策略:

  • Pose Sampling:通過姿態(tài)采樣技術(shù),增強(qiáng)半身細(xì)節(jié)和面部及手勢(shì)的表現(xiàn)力。
  • Audio Diffusion:利用音頻擴(kuò)散技術(shù),進(jìn)一步提升動(dòng)畫的自然性和連貫性。

(2) Head Partial Attention:

為了彌補(bǔ)半身數(shù)據(jù)的稀缺,使用頭部部分注意力機(jī)制,將頭像數(shù)據(jù)無縫集成到訓(xùn)練框架中。在推理階段,這一部分可以被省略,從而提供一個(gè)“免費(fèi)午餐”給動(dòng)畫生成。

(3) Phase-specific Denoising Loss:

設(shè)計(jì)了特定階段的去噪損失函數(shù),分別指導(dǎo)動(dòng)畫在不同階段的運(yùn)動(dòng)、細(xì)節(jié)和低層次質(zhì)量。

核心亮點(diǎn)

(1) 數(shù)字人全方位進(jìn)化

相比 V1 僅支持?jǐn)?shù)字人,V2 將動(dòng)畫范圍擴(kuò)展到自定義人物,提供從頭部到身體的完整動(dòng)畫表現(xiàn):

  • 表情與嘴型同步:輸入一段音頻,即可讓虛擬角色匹配語音內(nèi)容精準(zhǔn)“開口說話”。通過音頻驅(qū)動(dòng),實(shí)現(xiàn)口型與語音內(nèi)容的高度同步,使虛擬角色的對(duì)話更加自然和真實(shí)。
  • 頭部與手勢(shì)動(dòng)作:通過參考手勢(shì)視頻生成連貫自然的動(dòng)作效果。不僅限于面部表情,還包括頭部和手勢(shì)動(dòng)作,打造更具沉浸感的數(shù)字人。動(dòng)作流暢、自然,增強(qiáng)了虛擬角色的表現(xiàn)力和互動(dòng)性。

(2) 簡(jiǎn)單易用

只需提供以下三項(xiàng)內(nèi)容,即可輕松生成高質(zhì)量動(dòng)畫:

  • 參考圖像:用戶上傳任意照片作為虛擬角色的基礎(chǔ)。參考圖像可以是任意人物的照片,系統(tǒng)會(huì)根據(jù)該圖像生成相應(yīng)的虛擬角色。
  • 音頻剪輯:用于驅(qū)動(dòng)嘴型和表情動(dòng)畫。輸入的音頻內(nèi)容將直接影響虛擬角色的口型和表情,確保動(dòng)畫與語音內(nèi)容的高度一致。
  • 手勢(shì)視頻:為動(dòng)畫添加豐富的身體動(dòng)作與動(dòng)態(tài)細(xì)節(jié)。手勢(shì)視頻可以是任何包含手勢(shì)動(dòng)作的視頻片段,系統(tǒng)會(huì)參考這些動(dòng)作生成自然的身體動(dòng)作。

快速上手

(1) 硬件要求

  • 英偉達(dá)顯卡:建議使用16GB顯存,較小的顯卡也能運(yùn)行,但是性能會(huì)有所下降。
  • Python版本:需要Python 3.10及以上版本。

(2) 部署步驟

① 下載項(xiàng)目包:

  git clone https://github.com/antgroup/echomimic_v2
  cd echomimic_v2

② 設(shè)置python環(huán)境

  • 測(cè)試系統(tǒng)環(huán)境:CentOS 7.2 / Ubuntu 22.04
  • 測(cè)試GPU:A100(80G) / RTX4090D (24G) / V100(16G)
  • 測(cè)試Python版本:3.8 / 3.10 / 3.11

創(chuàng)建conda環(huán)境(推薦)

conda create -n echomimic python=3.10
conda activate echomimic

③ 安裝依賴包

pip install pip -U
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124
pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
pip install -r requirements.txt
pip install --no-deps facenet_pytorch==2.6.0

 ④下載和配置ffmpeg-static

wget https://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar -xvf ffmpeg-release-64bit-static.tar.xz
export FFMPEG_PATH=$(pwd)/ffmpeg-4.4-amd64-static

⑤ 下載預(yù)訓(xùn)練權(quán)重模型

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

預(yù)訓(xùn)練權(quán)重目錄結(jié)構(gòu)

./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── pose_encoder.pth
├── sd-vae-ft-mse
│   └── ...
├── sd-image-variations-diffusers
│   └── ...
└── audio_processor
    └── tiny.pt

⑥ 啟動(dòng)Gradio界面

python app.py

運(yùn)行上述命令后,會(huì)啟動(dòng)一個(gè)Gradio界面。

  • 在Gradio界面上,可以上傳一張參考圖像(你自己的頭像或任何人物照片)。
  • 上傳一段音頻剪輯,EchoMimic V2會(huì)根據(jù)音頻制作出相應(yīng)的口型同步動(dòng)畫。
  • 上傳一段手勢(shì)視頻,系統(tǒng)會(huì)生成與音頻相匹配的身體動(dòng)作。
  • 系統(tǒng)將根據(jù)提供的參考圖像、音頻剪輯和手勢(shì)視頻生成完整的動(dòng)畫視頻。

(3) 附錄

  • GitHub倉庫:https://github.com/antgroup/echomimic_v2
  • 在線Demo:https://huggingface.co/spaces/fffiloni/echomimic-v2

實(shí)例效果

責(zé)任編輯:趙寧寧 來源: 小喵學(xué)AI
相關(guān)推薦

2011-09-10 19:23:22

2011-09-09 13:42:16

2021-02-04 14:31:30

RISC-V架構(gòu)GPU

2014-04-24 10:24:05

Cocos2d-xWinPhone8跨平臺(tái)

2024-12-04 10:39:00

Linux內(nèi)核技術(shù)性

2011-05-25 10:19:17

2016-09-29 09:46:41

JavascriptWeb前端

2012-09-21 17:24:04

開源云平臺(tái)開源云計(jì)算標(biāo)準(zhǔn)OpenStack

2022-03-21 15:23:43

AI研究抗體

2013-11-13 15:42:54

AndroidWPBlackBerry

2021-12-30 10:46:28

AI 模型人工智能

2009-03-18 13:10:59

多核服務(wù)器MIPS

2024-02-19 08:04:58

網(wǎng)關(guān)云原生

2017-08-01 10:15:56

數(shù)據(jù)分析大數(shù)據(jù)

2015-12-21 16:12:06

紅帽CloudForms混合云

2010-04-09 15:24:55

2013-01-18 10:09:10

互聯(lián)網(wǎng)網(wǎng)絡(luò)發(fā)展撥號(hào)上網(wǎng)

2012-01-13 13:50:46

博科100千兆以太網(wǎng)

2020-05-19 22:47:48

工業(yè)物聯(lián)網(wǎng)IIoT技術(shù)

2019-03-08 09:54:29

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)