偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!

發(fā)布于 2025-4-11 10:21
瀏覽
0收藏

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.04842 
開(kāi)源地址:https://fantasy-amap.github.io/fantasy-talking/

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

亮點(diǎn)直擊

  • 設(shè)計(jì)了一種雙階段視聽(tīng)對(duì)齊訓(xùn)練策略,以適配預(yù)訓(xùn)練的視頻生成模型:首先在片段級(jí)別建立與輸入音頻對(duì)應(yīng)的、包含背景和上下文對(duì)象(而不僅限于肖像本身)的連貫全局運(yùn)動(dòng),隨后構(gòu)建精確對(duì)齊的唇部運(yùn)動(dòng)以進(jìn)一步提升生成視頻的質(zhì)量。
  • 摒棄了傳統(tǒng)的參考網(wǎng)絡(luò)用于身份保持的方法,轉(zhuǎn)而設(shè)計(jì)了一個(gè)專注于面部的交叉注意力模塊,該模塊集中建模面部區(qū)域,并以一致的身份指導(dǎo)視頻生成,從而簡(jiǎn)化流程。
  • 引入了運(yùn)動(dòng)強(qiáng)度調(diào)制模塊,顯式控制面部表情和身體運(yùn)動(dòng)的強(qiáng)度,從而實(shí)現(xiàn)對(duì)肖像運(yùn)動(dòng)的可控操縱,而不僅限于唇部運(yùn)動(dòng)。
  • 大量實(shí)驗(yàn)表明,FantasyTalking在視頻質(zhì)量、時(shí)間一致性和運(yùn)動(dòng)多樣性方面達(dá)到了新SOTA。

總結(jié)速覽

解決的問(wèn)題

  • 靜態(tài)肖像動(dòng)畫(huà)化的挑戰(zhàn):從單張靜態(tài)肖像生成可動(dòng)畫(huà)化的虛擬形象,難以捕捉細(xì)微的面部表情、全身動(dòng)作和動(dòng)態(tài)背景。
  • 現(xiàn)有方法的不足
  • 依賴3D中間表示(如3DMM、FLAME)的方法難以準(zhǔn)確捕捉細(xì)微表情和真實(shí)動(dòng)作。
  • 基于擴(kuò)散模型的方法生成的內(nèi)容真實(shí)性不足,通常僅關(guān)注唇部運(yùn)動(dòng),忽略面部表情和身體動(dòng)作的協(xié)調(diào)性。
  • 背景和上下文對(duì)象通常是靜態(tài)的,導(dǎo)致場(chǎng)景不夠自然。
  • 身份保持與動(dòng)態(tài)靈活性的矛盾:現(xiàn)有方法在保持身份一致性和動(dòng)態(tài)靈活性之間存在權(quán)衡問(wèn)題。

提出的方案

  • 雙階段音頻-視覺(jué)對(duì)齊策略
  • 第一階段(片段級(jí)訓(xùn)練):利用視頻擴(kuò)散Transformer模型的時(shí)空建模能力,建立音頻與全局視覺(jué)動(dòng)態(tài)(包括肖像、背景和上下文對(duì)象)的隱式關(guān)聯(lián),實(shí)現(xiàn)整體場(chǎng)景運(yùn)動(dòng)的連貫性。
  • 第二階段(幀級(jí)細(xì)化):通過(guò)唇部追蹤掩碼和音頻映射的視覺(jué)token注意力機(jī)制,精確對(duì)齊唇部運(yùn)動(dòng)與音頻信號(hào)。
  • 身份保持優(yōu)化
  • 摒棄傳統(tǒng)的參考網(wǎng)絡(luò)(易限制動(dòng)態(tài)效果),改用專注于面部建模的交叉注意力模塊,確保視頻中身份一致性。
  • 運(yùn)動(dòng)強(qiáng)度控制模塊
  • 顯式解耦角色表情和身體動(dòng)作,通過(guò)強(qiáng)度調(diào)節(jié)實(shí)現(xiàn)動(dòng)態(tài)肖像的可控生成(如增強(qiáng)表情或身體動(dòng)作幅度)。

應(yīng)用的技術(shù)

  • 基于DiT的視頻擴(kuò)散模型:利用預(yù)訓(xùn)練的視頻擴(kuò)散Transformer(DiT)生成高保真、連貫的動(dòng)態(tài)肖像。
  • 多模態(tài)對(duì)齊框架
  • 音頻驅(qū)動(dòng)動(dòng)態(tài)建模(片段級(jí)和幀級(jí))。
  • 唇部掩碼引導(dǎo)的局部細(xì)化。
  • 交叉注意力機(jī)制:替代參考網(wǎng)絡(luò),通過(guò)面部聚焦的交叉注意力模塊保持身份一致性。
  • 運(yùn)動(dòng)強(qiáng)度調(diào)制:通過(guò)額外條件輸入控制表情和身體動(dòng)作的強(qiáng)度。

達(dá)到的效果

  • 更高真實(shí)性與連貫性
  • 生成動(dòng)態(tài)肖像的面部表情、唇部運(yùn)動(dòng)和身體動(dòng)作更自然,背景和上下文對(duì)象動(dòng)態(tài)協(xié)調(diào)。
  • 精確的音頻同步
  • 幀級(jí)唇部細(xì)化確保唇動(dòng)與音頻信號(hào)高度同步。
  • 身份保持與動(dòng)態(tài)靈活性的平衡
  • 交叉注意力模塊在保持面部一致性的同時(shí),允許全身靈活運(yùn)動(dòng)。
  • 可控運(yùn)動(dòng)強(qiáng)度
  • 用戶可調(diào)節(jié)表情和身體動(dòng)作的強(qiáng)度,超越傳統(tǒng)僅唇部運(yùn)動(dòng)的限制。
  • 實(shí)驗(yàn)驗(yàn)證
  • 在質(zhì)量、真實(shí)性、連貫性、運(yùn)動(dòng)強(qiáng)度和身份保持方面優(yōu)于現(xiàn)有方法。

方法

給定單張參考圖像、驅(qū)動(dòng)音頻和提示文本,F(xiàn)antasyTalking 被設(shè)計(jì)用于生成與音頻同步的視頻,同時(shí)確保人物在動(dòng)作過(guò)程中的身份特征得以保持。圖2展示了FantasyTalking的總體框架。研究了雙階段方法以在注入音頻信號(hào)時(shí)保持視聽(tīng)對(duì)齊。采用身份學(xué)習(xí)方法保持視頻中的身份特征,并通過(guò)運(yùn)動(dòng)網(wǎng)絡(luò)控制表情和運(yùn)動(dòng)強(qiáng)度。

雙階段視聽(tīng)對(duì)齊

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

傳統(tǒng)的說(shuō)話頭視頻生成通常關(guān)注唇部運(yùn)動(dòng)的幀級(jí)對(duì)齊。然而,自然說(shuō)話頭生成不僅需要關(guān)注與音頻直接相關(guān)的唇部運(yùn)動(dòng),還需關(guān)注與音頻特征弱相關(guān)的其他面部組件和身體部位的運(yùn)動(dòng)(如眉毛、眼睛和肩膀)。這些運(yùn)動(dòng)并不與音頻嚴(yán)格時(shí)間對(duì)齊。為此,我們提出雙階段視聽(tīng)對(duì)齊方法:在第一訓(xùn)練階段學(xué)習(xí)片段級(jí)與音頻相關(guān)的視覺(jué)特征;在第二訓(xùn)練階段專注于幀級(jí)與音頻高度相關(guān)的視覺(jué)特征。


片段級(jí)訓(xùn)練。如圖3(a)所示,第一階段在片段級(jí)別計(jì)算全長(zhǎng)視聽(tīng)token序列的3D全注意力相關(guān)性,建立全局視聽(tīng)依賴關(guān)系并實(shí)現(xiàn)整體特征融合。雖然該階段能聯(lián)合學(xué)習(xí)弱音頻相關(guān)的非語(yǔ)言線索(如眉毛運(yùn)動(dòng)、肩膀動(dòng)作)和強(qiáng)音頻同步的唇部動(dòng)態(tài),但模型難以學(xué)習(xí)精確的唇部運(yùn)動(dòng)。這是因?yàn)榇讲績(jī)H占據(jù)整個(gè)視場(chǎng)的小部分,而視頻序列在每幀中都與音頻高度相關(guān)。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

身份保持

雖然音頻條件能有效建立聲學(xué)輸入與角色動(dòng)作間的關(guān)聯(lián),但長(zhǎng)時(shí)間視頻序列和劇烈運(yùn)動(dòng)常導(dǎo)致合成結(jié)果中身份特征快速退化?,F(xiàn)有方法通常采用從主干模型初始化的參考網(wǎng)絡(luò)來(lái)保持身份特征,但這些方法存在兩個(gè)關(guān)鍵缺陷:首先,參考網(wǎng)絡(luò)處理全幀圖像而非面部感興趣區(qū)域,導(dǎo)致模型偏向生成靜態(tài)背景和表現(xiàn)力受限的運(yùn)動(dòng);其次,參考網(wǎng)絡(luò)通常采用與主干模型相似的結(jié)構(gòu),造成特征表示能力高度冗余,并增加模型計(jì)算負(fù)載和復(fù)雜度。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

運(yùn)動(dòng)強(qiáng)度調(diào)制網(wǎng)絡(luò)

個(gè)體的說(shuō)話風(fēng)格在面部表情和身體運(yùn)動(dòng)幅度上表現(xiàn)出顯著差異,這些差異無(wú)法僅通過(guò)音頻和身份條件進(jìn)行顯式控制。特別是在自然說(shuō)話頭場(chǎng)景中,與拘束說(shuō)話頭場(chǎng)景相比,角色的表情和身體運(yùn)動(dòng)更加多樣且動(dòng)態(tài)。因此,引入了一個(gè)運(yùn)動(dòng)強(qiáng)度調(diào)制網(wǎng)絡(luò)來(lái)調(diào)控這些動(dòng)態(tài)特征。


本文利用Mediapipe提取面部關(guān)鍵點(diǎn)序列的方差,記為面部表情運(yùn)動(dòng)系數(shù)ω,并使用DWPose計(jì)算身體關(guān)節(jié)序列的方差,記為身體運(yùn)動(dòng)系數(shù)ω。ω和ω都被歸一化到[0,1]的范圍,分別代表面部表情和身體運(yùn)動(dòng)的強(qiáng)度。


如下圖2所示,運(yùn)動(dòng)強(qiáng)度調(diào)制網(wǎng)絡(luò)由MLP層、ResNet層和平均池化層組成。得到的運(yùn)動(dòng)嵌入會(huì)與時(shí)間步相加。在推理階段,允許用戶自定義輸入系數(shù)ω_l和ω_b來(lái)控制面部和身體運(yùn)動(dòng)的幅度。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

實(shí)現(xiàn)細(xì)節(jié): 本文采用Wan2.1-I2V-14B作為基礎(chǔ)模型。在片段級(jí)訓(xùn)練階段,訓(xùn)練約80,000步;在幀級(jí)訓(xùn)練階段,訓(xùn)練約20,000步。在所有訓(xùn)練階段,身份網(wǎng)絡(luò)和運(yùn)動(dòng)網(wǎng)絡(luò)都參與端到端訓(xùn)練。使用Flow Matching來(lái)訓(xùn)練模型,整個(gè)訓(xùn)練在64塊A100 GPU上進(jìn)行。學(xué)習(xí)率設(shè)置為1e-4。設(shè)為1,設(shè)為0.5,η設(shè)為0.2。為增強(qiáng)視頻生成的多樣性,參考圖像、引導(dǎo)音頻和提示文本各自以0.1的概率被獨(dú)立丟棄。在推理階段,采用30個(gè)采樣步數(shù),運(yùn)動(dòng)強(qiáng)度參數(shù)ω和ω設(shè)為中性值0.5,音頻的CFG設(shè)為4.5。


數(shù)據(jù)集:本文使用的訓(xùn)練數(shù)據(jù)集由三部分組成:Hallo3、Celebv-HQ以及從互聯(lián)網(wǎng)收集的數(shù)據(jù)。本文使用InsightFace排除面部置信度得分低于0.9的視頻,并移除語(yǔ)音和嘴部運(yùn)動(dòng)不同步的片段。這一篩選過(guò)程最終得到約150,000個(gè)片段。本文使用HDTF中的50個(gè)片段來(lái)評(píng)估拘束說(shuō)話頭生成。此外,還在包含80個(gè)不同個(gè)體的自然說(shuō)話數(shù)據(jù)集上評(píng)估我們的模型。


評(píng)估指標(biāo)與基線: 本文采用八個(gè)指標(biāo)進(jìn)行評(píng)估。Frechet Inception Distance(FID)和Fréchet Video Distance(FVD)用于評(píng)估生成數(shù)據(jù)的質(zhì)量。Sync-C和Sync-D用于測(cè)量音頻和唇部運(yùn)動(dòng)之間的同步性。Expression Similarity(ES)方法提取視頻幀之間的面部特征,并通過(guò)計(jì)算這些特征之間的相似度來(lái)評(píng)估身份特征的保持情況。Identity Consistency(IDC)通過(guò)提取面部區(qū)域并計(jì)算幀間的DINO相似度度量來(lái)衡量角色身份特征的一致性。本文使用SAM將幀分割為前景和背景,并分別測(cè)量前景和背景的光流得分來(lái)評(píng)估主體動(dòng)態(tài)(SD)和背景動(dòng)態(tài)(BD)。使用LAION審美預(yù)測(cè)器評(píng)估視頻的藝術(shù)和審美價(jià)值。


本文選擇了幾種最先進(jìn)的方法來(lái)評(píng)估本文的方法,這些方法都有公開(kāi)可用的代碼或?qū)崿F(xiàn)。這些方法包括基于UNet的Aniportrait、EchoMimic和Sonic,以及基于DiT的Hallo3。為公平比較,本文的方法在推理時(shí)將提示設(shè)為空。

結(jié)果與分析

拘束數(shù)據(jù)集對(duì)比實(shí)驗(yàn): 拘束說(shuō)話頭數(shù)據(jù)集的背景和角色姿態(tài)變化有限,主要關(guān)注唇部同步和面部表情準(zhǔn)確性。下表1和圖4展示了評(píng)估結(jié)果。本方法在FID、FVD、IDC、ES和美學(xué)評(píng)分上均取得最優(yōu)成績(jī),這主要?dú)w功于模型能生成最具表現(xiàn)力的自然面部表情,從而產(chǎn)生最高質(zhì)量的視覺(jué)效果。在Sync-C和Sync-D指標(biāo)上,本方法取得第一或第二的成績(jī),表明DAVA方法使模型能準(zhǔn)確學(xué)習(xí)音頻同步特征。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

自然數(shù)據(jù)集對(duì)比實(shí)驗(yàn): 上表1和下圖5展示了包含顯著前景/背景變化的自然說(shuō)話頭數(shù)據(jù)集評(píng)估結(jié)果。現(xiàn)有方法過(guò)度依賴參考圖像,限制了生成的面部表情、頭部運(yùn)動(dòng)和背景動(dòng)態(tài)的自然度。相比之下,本方法在所有指標(biāo)上均取得最優(yōu)結(jié)果,其輸出具有更自然的前后景變化、更好的唇部同步和更高的視頻質(zhì)量。這主要得益于:1)DAVA方法強(qiáng)化了音頻理解能力;2)面向面部特征的身份保持方法。這些技術(shù)使模型在保持角色身份特征的同時(shí),能生成更復(fù)雜的自然頭部和背景運(yùn)動(dòng)。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

可視化效果與Hallo3對(duì)比: 下圖7展示了與基于DiT的Hallo3方法的可視化對(duì)比。Hallo3的輸出存在明顯缺陷:上圖出現(xiàn)面部/唇部畸變和虛假背景運(yùn)動(dòng),下圖則呈現(xiàn)僵硬的頭部運(yùn)動(dòng)。相比之下,本方法生成的表情、頭部運(yùn)動(dòng)和背景動(dòng)態(tài)都更加真實(shí)自然,這得益于:1)面部知識(shí)學(xué)習(xí)增強(qiáng)身份特征;2)DAVA方法強(qiáng)化唇部同步學(xué)習(xí)。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

用戶調(diào)研: 本文在自然說(shuō)話頭數(shù)據(jù)集上進(jìn)行了包含24名參與者的主觀評(píng)估,從唇部同步(LS)、視頻質(zhì)量(VQ)、身份保持(IP)和運(yùn)動(dòng)多樣性(MD)四個(gè)維度進(jìn)行0-10分評(píng)分。如下表3所示,F(xiàn)antasyTalking在所有評(píng)估維度上均超越基線方法,尤其在運(yùn)動(dòng)多樣性方面提升顯著。這驗(yàn)證了本方法在生成真實(shí)多樣說(shuō)話頭動(dòng)畫(huà)的同時(shí),能保持身份一致性和視覺(jué)保真度的優(yōu)勢(shì)。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

消融實(shí)驗(yàn)與討論

DAVA方法消融實(shí)驗(yàn): 為驗(yàn)證DAVA方法的有效性,我們分別測(cè)試了僅使用片段級(jí)對(duì)齊和僅使用幀級(jí)對(duì)齊的訓(xùn)練方案。下表4和圖8顯示:僅采用片段級(jí)對(duì)齊會(huì)導(dǎo)致Sync-C指標(biāo)顯著下降,表明其無(wú)法學(xué)習(xí)精確的唇音對(duì)應(yīng)關(guān)系;而僅使用幀級(jí)對(duì)齊雖具備強(qiáng)唇同步能力,但會(huì)限制表情和主體運(yùn)動(dòng)的動(dòng)態(tài)性。相比之下,DAVA方法通過(guò)結(jié)合兩級(jí)對(duì)齊的優(yōu)勢(shì),在實(shí)現(xiàn)精確唇音同步的同時(shí),增強(qiáng)了角色動(dòng)畫(huà)和背景動(dòng)態(tài)的生動(dòng)性。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

身份保持模塊消融實(shí)驗(yàn): 上表4結(jié)果表明身份保持模塊的重要性。移除該模塊會(huì)導(dǎo)致IDC指標(biāo)顯著降低,表明模型保持角色身份特征的能力大幅減弱。如下圖9所示,缺乏身份保持會(huì)導(dǎo)致面部特征出現(xiàn)偽影和畸變。我們提出的面部聚焦身份保持方法,在保持唇部同步和豐富運(yùn)動(dòng)能力的同時(shí),顯著提升了身份特征的一致性,從而改善視頻整體質(zhì)量。

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

一張照片,開(kāi)口說(shuō)話!阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking:打造超寫(xiě)實(shí)可控?cái)?shù)字人!-AI.x社區(qū)

局限性與未來(lái)工作: 盡管本方法在自然說(shuō)話頭視頻生成方面取得顯著進(jìn)展,但擴(kuò)散模型推理所需的迭代采樣過(guò)程導(dǎo)致整體運(yùn)行速度較慢。研究加速策略將有助于其在直播、實(shí)時(shí)交互等場(chǎng)景的應(yīng)用。此外,基于音頻驅(qū)動(dòng)說(shuō)話頭生成技術(shù)探索具有實(shí)時(shí)反饋的交互式肖像對(duì)話解決方案,可拓展數(shù)字人avatar在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用廣度。

結(jié)論

本文提出了FantasyTalking,一種新穎的音頻驅(qū)動(dòng)肖像動(dòng)畫(huà)技術(shù)。通過(guò)采用雙階段視聽(tīng)對(duì)齊訓(xùn)練流程,本文的方法有效捕捉了音頻信號(hào)與唇部運(yùn)動(dòng)、面部表情以及身體動(dòng)作之間的關(guān)聯(lián)關(guān)系。為增強(qiáng)生成視頻中的身份一致性,提出了一種面部聚焦的身份保持方法以精準(zhǔn)保留面部特征。此外,通過(guò)運(yùn)動(dòng)網(wǎng)絡(luò)控制表情和身體運(yùn)動(dòng)的幅度,確保生成動(dòng)畫(huà)的自然性與多樣性。定性與定量實(shí)驗(yàn)表明,F(xiàn)antasyTalking在視頻質(zhì)量、運(yùn)動(dòng)多樣性和身份一致性等關(guān)鍵指標(biāo)上均優(yōu)于現(xiàn)有SOTA方法。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/KAhddrJpvIsh_Wtpnbr0Zw??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦