擊敗擴(kuò)散和非擴(kuò)散奪得SOTA!FLOAT:基于流匹配的音頻驅(qū)動(dòng)說話者頭像生成模型 精華
論文鏈接:https://arxiv.org/pdf/2412.01064
github鏈接:https://deepbrainai-research.github.io/float/
亮點(diǎn)直擊
- FLOAT,這是一種基于流匹配的音頻驅(qū)動(dòng)說話者頭像生成模型,利用了學(xué)習(xí)的運(yùn)動(dòng)隱空間,比基于像素的隱空間更高效和有效。
- 引入了一種簡(jiǎn)單而有效的基于Transformer的流向量場(chǎng)預(yù)測(cè)器,用于時(shí)間一致的運(yùn)動(dòng)隱空間采樣,這也使得語(yǔ)音驅(qū)動(dòng)的情感控制成為可能。
- 大量實(shí)驗(yàn)表明,與基于擴(kuò)散和非擴(kuò)散的方法相比,F(xiàn)LOAT達(dá)到了最先進(jìn)的性能。
總結(jié)速覽
解決的問題
- 在基于擴(kuò)散的生成模型中,迭代采樣導(dǎo)致時(shí)間一致的視頻生成困難。
- 如何實(shí)現(xiàn)快速采樣以提高生成效率。
- 如何在音頻驅(qū)動(dòng)的頭像圖像動(dòng)畫中自然地融入情感和表現(xiàn)力豐富的動(dòng)作。
提出的方案
- 將生成建模從基于像素的隱空間轉(zhuǎn)移到學(xué)習(xí)的運(yùn)動(dòng)隱空間,以實(shí)現(xiàn)更高效的時(shí)間一致運(yùn)動(dòng)設(shè)計(jì)。
- 引入基于Transformer的向量場(chǎng)預(yù)測(cè)器,具有簡(jiǎn)單而有效的逐幀條件機(jī)制。
應(yīng)用的技術(shù)
- 流匹配生成模型,用于優(yōu)化運(yùn)動(dòng)隱空間的學(xué)習(xí)。
- Transformer模型,用于預(yù)測(cè)流向量場(chǎng),實(shí)現(xiàn)時(shí)間一致的運(yùn)動(dòng)采樣。
- 逐幀條件機(jī)制,確保時(shí)間一致性并支持語(yǔ)音驅(qū)動(dòng)的情感控制。
達(dá)到的效果
- 在視覺質(zhì)量上,生成的頭像更加逼真,表現(xiàn)力更豐富。
- 在運(yùn)動(dòng)保真度上,動(dòng)作更加自然流暢。
- 在效率上,相較于基于擴(kuò)散和非擴(kuò)散的方法,F(xiàn)LOAT具有更高的采樣速度和生成效率。
- 支持語(yǔ)音驅(qū)動(dòng)的情感增強(qiáng),能夠自然地融入表現(xiàn)力豐富的動(dòng)作。
方法:音頻驅(qū)動(dòng)的說話頭像的流程匹配
運(yùn)動(dòng)隱空間自動(dòng)編碼器
近期的說話頭像方法利用了Stable Diffusion (SD) 的VAE,因?yàn)槠渚哂胸S富的基于像素的語(yǔ)義隱空間。然而,當(dāng)應(yīng)用于視頻生成任務(wù)時(shí),這些方法常常難以生成時(shí)間一致的幀 [8, 29, 76, 89, 101]。因此,第一個(gè)目標(biāo)是為逼真的說話頭像獲得良好的運(yùn)動(dòng)隱空間,能夠捕捉全局(例如頭部運(yùn)動(dòng))和細(xì)粒度局部(例如面部表情、嘴部運(yùn)動(dòng)、瞳孔運(yùn)動(dòng))動(dòng)態(tài)。為此,我們采用隱空間圖像動(dòng)畫器 (LIA) 作為我們的運(yùn)動(dòng)自動(dòng)編碼器,而不是使用SD的VAE。關(guān)鍵區(qū)別在于訓(xùn)練目標(biāo):LIA被訓(xùn)練為從同一視頻片段中采樣的源圖像重建驅(qū)動(dòng)圖像,這要求隱空間編碼包含能夠捕捉時(shí)間上相鄰和遠(yuǎn)離的運(yùn)動(dòng)的隱式運(yùn)動(dòng)。
運(yùn)動(dòng)隱空間中的流匹配
語(yǔ)音驅(qū)動(dòng)的情感標(biāo)簽。 如何使說話動(dòng)作更具表現(xiàn)力和自然性?在說話過程中,人類通過聲音自然地反映出他們的情感,而這些情感會(huì)影響說話的動(dòng)作。例如,一個(gè)悲傷說話的人可能更傾向于搖頭并避免眼神接觸。這種由情感引發(fā)的非語(yǔ)言動(dòng)作對(duì)說話者頭像的自然性有著重要影響。
現(xiàn)有的工作 [30, 81, 90] 使用圖像-情感配對(duì)數(shù)據(jù)或圖像驅(qū)動(dòng)的情感預(yù)測(cè)器 [63] 來生成情感感知的動(dòng)作。相比之下,我們結(jié)合了語(yǔ)音驅(qū)動(dòng)的情感,這是一種更直觀的音頻驅(qū)動(dòng)說話者頭像的情感控制方式。具體來說,我們利用一個(gè)預(yù)訓(xùn)練的語(yǔ)音情感預(yù)測(cè)器,它輸出七種不同情感的 softmax 概率:憤怒、厭惡、恐懼、快樂、中性、悲傷和驚訝,然后我們將其輸入到 FMT 中。
然而,由于人們?cè)谡f話時(shí)并不總是表現(xiàn)出單一、明確的情感,僅憑音頻來判斷情感往往是模糊的。簡(jiǎn)單地引入語(yǔ)音驅(qū)動(dòng)的情感可能會(huì)使情感感知的動(dòng)作生成更加困難。為了解決這個(gè)問題,我們?cè)谟?xùn)練階段將情感與其他驅(qū)動(dòng)條件一起注入,并在推理階段對(duì)其進(jìn)行修改。
我們擴(kuò)展了 CFV 到增量 CFV,以便分別調(diào)整音頻和情感,靈感來自 [3]:
采樣后,ODE 求解器接收估計(jì)的向量場(chǎng),通過數(shù)值積分計(jì)算運(yùn)動(dòng)隱空間變量。我們通過實(shí)驗(yàn)發(fā)現(xiàn),F(xiàn)LOAT 可以在大約 10 次函數(shù)評(píng)估(NFE)內(nèi)生成合理的運(yùn)動(dòng)。
最后,我們將源身份隱空間變量添加到生成的運(yùn)動(dòng)隱空間變量中,并使用運(yùn)動(dòng)隱空間變量解碼器將其解碼為視頻幀。
實(shí)驗(yàn)
數(shù)據(jù)集和預(yù)處理
經(jīng)過預(yù)處理后,對(duì)于 HDTF,我們使用了總計(jì) 11.3 小時(shí)的 240 個(gè)視頻,這些視頻包含 230 個(gè)不同的身份用于訓(xùn)練,并使用 78 個(gè)不同身份的視頻進(jìn)行測(cè)試,每個(gè)視頻長(zhǎng) 15 秒。對(duì)于 RAVDESS,我們使用 22 個(gè)身份的視頻進(jìn)行訓(xùn)練,剩余 2 個(gè)身份的視頻用于測(cè)試,每個(gè)視頻長(zhǎng) 3-4 秒,代表 14 種情感強(qiáng)度。請(qǐng)注意,兩個(gè)數(shù)據(jù)集中訓(xùn)練和測(cè)試的身份是不重疊的。
實(shí)現(xiàn)細(xì)節(jié)
評(píng)估
指標(biāo)和基線。 為了評(píng)估圖像和視頻生成的質(zhì)量,我們測(cè)量了Fréchet Inception Distance (FID) 和16幀的Fréchet Video Distance (FVD)。對(duì)于面部身份、表情和頭部運(yùn)動(dòng),我們分別測(cè)量了身份embedding的余弦相似度 (CSIM)、表情FID (E-FID) 和姿態(tài)FID (P-FID)。最后,我們測(cè)量了音頻與視覺對(duì)齊的唇同步誤差距離和置信度 (LSE-D 和 LSE-C)。
我們將我們的方法與當(dāng)前最先進(jìn)的語(yǔ)音驅(qū)動(dòng)說話者頭像方法進(jìn)行比較,這些方法的官方實(shí)現(xiàn)是公開可用的。對(duì)于非擴(kuò)散方法,我們與SadTalker和EDTalk進(jìn)行比較。對(duì)于擴(kuò)散方法,我們與AniTalker、Hallo和EchoMimic進(jìn)行比較。
比較結(jié)果。在上表1和上圖4中,我們分別展示了定量和定性的比較結(jié)果。FLOAT在大多數(shù)指標(biāo)和視覺質(zhì)量上都優(yōu)于兩個(gè)數(shù)據(jù)集中的其他方法。
消融研究
關(guān)于FMT和流匹配的消融研究。 我們將使用逐幀AdaLN(和門控)并通過掩碼自注意力將條件分離與注意力分開的FMT,與同時(shí)執(zhí)行條件和注意力的基于交叉注意力的Transformer進(jìn)行比較。如下表2所示,這兩種方法都在圖像和視頻質(zhì)量上表現(xiàn)出競(jìng)爭(zhēng)力,而FMT在表情生成和唇同步方面表現(xiàn)更佳。
對(duì)NFE的消融研究。 一般來說,增加函數(shù)評(píng)估次數(shù)(NFE)可以減少ODE的解誤差。如下表3所示,即使在NFE=2較小的情況下,F(xiàn)LOAT也能實(shí)現(xiàn)有競(jìng)爭(zhēng)力的圖像質(zhì)量(FID)和唇同步(LSE-D)。然而,它在捕捉一致且富有表現(xiàn)力的動(dòng)作(FVD和E-FID)方面表現(xiàn)不佳,導(dǎo)致頭部動(dòng)作不穩(wěn)和表情靜態(tài)。這是因?yàn)镕LOAT在隱空間中生成動(dòng)作,而圖像保真度由自動(dòng)編碼器決定。
進(jìn)一步的研究
值得注意的是,引入姿態(tài)參數(shù)顯著改善了圖像和視頻指標(biāo)。這是因?yàn)轵?qū)動(dòng)的頭部姿態(tài)有助于捕捉目標(biāo)分布的頭部姿態(tài)。此外,語(yǔ)音驅(qū)動(dòng)的情感和圖像驅(qū)動(dòng)的情感都一致地提高了在情感密集數(shù)據(jù)集中生成的動(dòng)作質(zhì)量,其中圖像驅(qū)動(dòng)的情感取得了略好一些的指標(biāo)。這是因?yàn)榕c語(yǔ)音驅(qū)動(dòng)的方法相比,圖像驅(qū)動(dòng)的方法稍微不那么模糊。
重定向語(yǔ)音驅(qū)動(dòng)的情感。 由于 FLOAT 是在情感密集型視頻數(shù)據(jù)集上訓(xùn)練的,我們可以通過手動(dòng)將預(yù)測(cè)的情感標(biāo)簽重定向?yàn)榱硪环N(例如,一個(gè)獨(dú)熱標(biāo)簽),在推理時(shí)將生成的情感感知說話動(dòng)作更改為不同的情感。如下圖7所示,當(dāng)從語(yǔ)音預(yù)測(cè)的情感復(fù)雜或模糊時(shí),這可以實(shí)現(xiàn)手動(dòng)重定向。
用戶研究。 在下表 6 中,我們進(jìn)行了一項(xiàng)基于平均意見得分(MOS)的用戶研究,以比較每種方法的感知質(zhì)量(例如,牙齒清晰度和情感自然性)。我們使用基線和 FLOAT 生成了 6 個(gè)視頻,并請(qǐng) 15 名參與者根據(jù)五個(gè)評(píng)估因素對(duì)每個(gè)生成的視頻進(jìn)行 1 到 5 的評(píng)分。如下表 6 所示,F(xiàn)LOAT 優(yōu)于基線。
結(jié)論
FLOAT,這是一種基于流匹配的音頻驅(qū)動(dòng)說話者頭像生成模型,利用了學(xué)習(xí)到的運(yùn)動(dòng)隱空間。引入了一個(gè)基于transformer的矢量場(chǎng)預(yù)測(cè)器,實(shí)現(xiàn)了時(shí)間上一致的運(yùn)動(dòng)生成。此外,將語(yǔ)音驅(qū)動(dòng)的情感標(biāo)簽納入運(yùn)動(dòng)采樣過程,以提高音頻驅(qū)動(dòng)說話動(dòng)作的自然性。FLOAT 通過流匹配減少采樣時(shí)間,同時(shí)實(shí)現(xiàn)了卓越的樣本質(zhì)量,解決了當(dāng)前基于擴(kuò)散的方法在生成說話者頭像視頻時(shí)的核心限制。大量實(shí)驗(yàn)驗(yàn)證了 FLOAT 在視覺質(zhì)量、運(yùn)動(dòng)逼真度和效率方面達(dá)到了最新的性能。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
