偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV 2025 | 小紅書AIGC團(tuán)隊(duì)提出圖像和視頻可控人臉生成新算法DynamicFace

人工智能
DynamicFace 提出一種基于擴(kuò)散模型的視頻人臉交換框架,通過可組合 3D 面部先驗(yàn)將身份、表情、姿態(tài)、光照與背景顯式解耦,利用輕量級(jí) Mixture-of-Guiders 進(jìn)行并行條件注入;同時(shí)設(shè)計(jì)身份-細(xì)節(jié)雙流注入模塊確保高保真身份保持,再輔以 FusionTVO 實(shí)現(xiàn)更好的幀間一致和背景一致性。

小紅書 AIGC 團(tuán)隊(duì)發(fā)布了全新的可控人臉生成方法 DynamicFace,在圖像與視頻人臉交換任務(wù)中實(shí)現(xiàn)了卓越的質(zhì)量與一致性。1) 精準(zhǔn)控制:基于三維人臉先驗(yàn)引入四種解耦的細(xì)粒度條件,實(shí)現(xiàn)獨(dú)立語義控制;2) 高保真:通過 Face Former 與 ReferenceNet 注入身份的高級(jí)語義與細(xì)節(jié)特征;3) 高一致性:引入 FusionTVO 增強(qiáng)視頻幀間與背景的穩(wěn)定性。這些特性共同為定制化圖像和視頻生成提供了極佳的控制力和靈活性。

論文地址

https://arxiv.org/abs/2501.08553

項(xiàng)目主頁

https://dynamic-face.github.io/

小紅書 AIGC 團(tuán)隊(duì)提出基于多條件解耦的視頻換臉方法 ,入選 ICCV 2025。

論文標(biāo)題

DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors

01、背景

人臉是 AI 生成視頻中最困難也最關(guān)鍵的場(chǎng)景。因?yàn)槿祟悓?duì)人臉的感知極為敏銳,每一張人臉,都同時(shí)承載著表情傳遞的情緒、姿態(tài)展現(xiàn)的動(dòng)態(tài)、輪廓定義的身份、光影塑造的氛圍以及背景所處的環(huán)境,一個(gè)微小的表情變化就能決定情感傳達(dá)的成敗??煽?,才可用, 對(duì)于人臉生成這一高度敏感的領(lǐng)域,如果缺乏精準(zhǔn)的可控性,AI 就無法成為創(chuàng)作者手中穩(wěn)定可靠的工具,其價(jià)值也將大打折扣。

視頻人臉交換的核心難題在于,如何在保留源人臉全部身份特征的同時(shí),精準(zhǔn)復(fù)現(xiàn)目標(biāo)視頻中的每一個(gè)細(xì)微表情與動(dòng)態(tài),確保情感表達(dá)的真實(shí)與連貫。盡管現(xiàn)有換臉方法已取得一定進(jìn)展,但它們往往無法完美剝離參考人臉和目標(biāo)人臉的特征,導(dǎo)致關(guān)鍵的表情細(xì)節(jié)失真或身份信息被“污染”,最終效果難以滿足創(chuàng)作者對(duì)真實(shí)感和情感傳遞的苛刻要求。這通常表現(xiàn)為以下三大挑戰(zhàn):

1)空間與時(shí)間建模的內(nèi)在矛盾:許多聚焦于身份一致性的圖像生成模型在空間特征提取方面已足夠優(yōu)越,然而由于在注入運(yùn)動(dòng)信息時(shí)耦合了目標(biāo)身份特征,進(jìn)而導(dǎo)致運(yùn)動(dòng)信息不準(zhǔn)確,一旦需要建模時(shí)間變化的視頻擴(kuò)散模型時(shí),單圖的不準(zhǔn)確運(yùn)動(dòng)建模會(huì)被放大,最終陷入身份還原能力和運(yùn)動(dòng)一致難以兩全的問題。

2)身份一致性降低:在復(fù)雜或大幅度動(dòng)作變化情況下,面部區(qū)域極易出現(xiàn)形變、失真,難以保證人物獨(dú)特的面貌特征能隨時(shí)保留。這種問題直接影響動(dòng)畫人物的個(gè)體識(shí)別度和可信度,也是用戶接受數(shù)字人像動(dòng)畫的首要阻礙。

3)整體視頻質(zhì)量受損:當(dāng)前最優(yōu)秀的人像動(dòng)畫生成模型雖然在動(dòng)畫效果層面取得進(jìn)展,但往往還需借助外部換臉后處理工具以改善關(guān)鍵幀細(xì)節(jié)??上?,這類后處理雖能暫時(shí)修復(fù)細(xì)節(jié),卻往往損傷了整段視頻在視覺上的統(tǒng)一性和自然度,導(dǎo)致畫面出現(xiàn)割裂感和不連貫的現(xiàn)象。

02、方法

本研究提出了一種創(chuàng)新性的人臉置換方法 DynamicFace,針對(duì)圖像及視頻領(lǐng)域的人臉融合任務(wù)實(shí)現(xiàn)了高質(zhì)量與高度一致性的置換效果。與傳統(tǒng)人臉置換方法相比,DynamicFace 獨(dú)創(chuàng)性地將擴(kuò)散模型(Diffusion Model)與可組合的 3D 人臉先驗(yàn)進(jìn)行深度融合,針對(duì)人臉運(yùn)動(dòng)與身份信息進(jìn)行了精細(xì)化解耦以生成更一致的人臉圖像和視頻。

  • 可組合三維面部先驗(yàn)的顯式條件解耦

針對(duì)現(xiàn)有方法在身份與運(yùn)動(dòng)表征中普遍存在的耦合冗余問題,Dynamicface 提出將人臉條件顯式分解為身份、姿態(tài)、表情、光照及背景五個(gè)獨(dú)立的表征,并基于 3DMM 重建模型獲取對(duì)應(yīng)參數(shù)。

具體而言,利用源圖像提取身份形狀參數(shù) α,目標(biāo)視頻逐幀提取姿態(tài) β 與表情 θ,隨后渲染生成形狀–姿態(tài)法線圖,減少目標(biāo)人臉身份泄露,最大程度保留源身份;表情信息僅保留眉毛、眼球及口唇區(qū)域的運(yùn)動(dòng)先驗(yàn),避免引入目標(biāo)身份特征;光照條件由 UV 紋理圖經(jīng)模糊處理得到,僅保留低頻光照分量;背景條件采用遮擋感知掩碼與隨機(jī)位移策略,實(shí)現(xiàn)訓(xùn)練–推理階段的目標(biāo)臉型對(duì)齊。四條條件并行輸入 Mixture-of-Guiders,每組由3×3 卷積與零卷積末端構(gòu)成,在注入網(wǎng)絡(luò)前經(jīng)過 FusionNet 融合四條條件的特征后注入到擴(kuò)散模型中,可在保持 Stable Diffusion 預(yù)訓(xùn)練先驗(yàn)的同時(shí)實(shí)現(xiàn)精準(zhǔn)控制。

  • 身份–細(xì)節(jié)雙流注入機(jī)制

為實(shí)現(xiàn)高保真身份保持,DynamicFace 設(shè)計(jì)了雙流并行注入架構(gòu)。高層身份流由 Face Former 完成:首先利用 ArcFace 提取 512 維 ID Embedding,再通過可學(xué)習(xí) Query Token 與 U-Net 各層 Cross-Attention 交互,確保全局身份一致性;細(xì)節(jié)紋理流由 ReferenceNet 實(shí)現(xiàn),該網(wǎng)絡(luò)為 U-Net 的可訓(xùn)練副本,將 512×512 源圖潛變量經(jīng) Spatial-Attention 注入主網(wǎng)絡(luò),實(shí)現(xiàn)細(xì)粒度的紋理遷移。

  • 即插即用時(shí)序一致性模塊

針對(duì)時(shí)序一致性問題,DynamicFace 會(huì)在訓(xùn)練中插入時(shí)序注意力層來優(yōu)化幀間穩(wěn)定性,但時(shí)序?qū)釉谔幚黹L(zhǎng)視頻生成時(shí)會(huì)出現(xiàn)幀間跳動(dòng)的現(xiàn)象。為此,我們提出了 FusionTVO,將視頻序列劃分為若干段,并為每段設(shè)置融合權(quán)重,在相鄰段的重疊區(qū)域?qū)嵭屑訖?quán)融合;并在潛變量空間引入總變差(Total Variation)約束,抑制幀與幀之間的不必要波動(dòng);對(duì)于人臉之外的背景區(qū)域,在每一步去噪迭代過程中采用目標(biāo)圖像中的背景潛變量空間進(jìn)行替換,維持了場(chǎng)景的高保真度。

03、實(shí)驗(yàn)

為全面評(píng)估 DynamicFace 的性能,研究團(tuán)隊(duì)在 FaceForensics++(FF++)和 FFHQ 數(shù)據(jù)集上進(jìn)行系統(tǒng)性的定量實(shí)驗(yàn),并與當(dāng)前最具代表性的 6 種換臉方法進(jìn)行對(duì)比,包括 Deepfakes、FaceShifter、MegaFS、SimSwap、DiffSwap 以及 Face Adapter。實(shí)驗(yàn)遵循先前論文的參數(shù)設(shè)置:從每個(gè)測(cè)試視頻中隨機(jī)抽取 10 幀作為評(píng)估樣本,并另取連續(xù) 60 幀用于視頻級(jí)指標(biāo)計(jì)算。所有方法均使用官方開源權(quán)重或公開推理腳本,在輸入分辨率(512×512)下復(fù)現(xiàn)結(jié)果。定量結(jié)果如表中所示:DynamicFace 同時(shí)在身份一致性(ID Retrieval)和運(yùn)動(dòng)一致性 (Mouth&Eye Consistency) 達(dá)到了最優(yōu)的結(jié)果。整體而言,實(shí)驗(yàn)結(jié)果充分證明了 DynamicFace 在身份保真與運(yùn)動(dòng)還原方面的綜合優(yōu)勢(shì),驗(yàn)證了其在高質(zhì)量人臉可控生成中的卓越性能。

3.1 圖像和視頻結(jié)果性能對(duì)比

從下面的圖像和視頻對(duì)比結(jié)果可以得出,DynamicFace 很好地保存了身份(例如,形狀和面部紋理信息)和動(dòng)作(包括表情和姿勢(shì)等)信息,并且生成結(jié)果維持了更好的背景一致性。具體來說,基于 GAN 的方法往往會(huì)生成較為模糊、視覺上并不真實(shí)且身份一致性較差的結(jié)果,但可以維持不錯(cuò)的運(yùn)動(dòng)一致性;其他基于擴(kuò)散模型的方法能生成分辨率更高且更真實(shí)的結(jié)果,但運(yùn)動(dòng)一致性保持較差(如表情不一致,眼神朝向不同等)。DynamicFace 通過精細(xì)化解耦的條件注入可以保證更優(yōu)的表情一致、眼神一致和姿勢(shì)一致性。

3.2 消融實(shí)驗(yàn)

研究團(tuán)隊(duì)還進(jìn)行了充分的消融實(shí)驗(yàn),深入探究模型各個(gè)組成部分的具體作用。

為驗(yàn)證 DynamicFace 中四種人臉條件的必要性與互補(bǔ)性,本文在 FF++ 測(cè)試集上執(zhí)行了全面的消融實(shí)驗(yàn)。具體設(shè)置如下:以完整模型為基線,依次去除背景、表情、光照、形狀-姿態(tài)法線圖四類條件中的某一類,并保持其余模塊與訓(xùn)練策略完全一致。圖像級(jí)評(píng)價(jià)沿用 ID 檢索、姿態(tài)誤差、表情誤差、嘴部誤差、眼部誤差五項(xiàng)指標(biāo);主觀可視化結(jié)果如圖所示。綜合而言,四類條件各司其職:背景保證環(huán)境一致性,表情條件鎖定微動(dòng)作,光照條件維持光影和諧,形狀-姿態(tài)法線圖確保幾何保真。任何一項(xiàng)缺失都會(huì)在對(duì)應(yīng)指標(biāo)或主觀質(zhì)量上出現(xiàn)可觀測(cè)的退化,從而驗(yàn)證了 DynamicFace 條件設(shè)計(jì)的完備性與必要性。

為驗(yàn)證時(shí)序一致性模塊的必要性,本文在保持四類空間條件不變的前提下,探究了motion module和 FusionTVO 的必要性,可以從客觀指標(biāo)得出,兩個(gè)模塊均對(duì)幀間一致性和視頻質(zhì)量有明顯提升。

我們也對(duì)兩個(gè)人臉身份注入模塊進(jìn)行了進(jìn)一步的消融實(shí)驗(yàn),可以從表中看到在同時(shí)加入 FaceFormer 和 ReferencerNet 后可以顯著提升源參考人臉的身份注入性能。

3.3 更多生成結(jié)果展示

我們也展示了一些其他的應(yīng)用示例,DynamicFace 可以對(duì)身份保持和人體驅(qū)動(dòng)等生成結(jié)果進(jìn)行后處理,顯著提升生成結(jié)果的人臉I(yè)D一致性和表情控制,更多效果展示可以在論文和項(xiàng)目主頁中(https://dynamic-face.github.io/ )進(jìn)行查看。

04、結(jié)語

DynamicFace 提出一種基于擴(kuò)散模型的視頻人臉交換框架,通過可組合 3D 面部先驗(yàn)將身份、表情、姿態(tài)、光照與背景顯式解耦,利用輕量級(jí) Mixture-of-Guiders 進(jìn)行并行條件注入;同時(shí)設(shè)計(jì)身份-細(xì)節(jié)雙流注入模塊(Face Former + ReferenceNet)確保高保真身份保持,再輔以 FusionTVO 實(shí)現(xiàn)更好的幀間一致和背景一致性。在 FF++ 數(shù)據(jù)集的定量與消融實(shí)驗(yàn)中,DynamicFace 在身份一致性和運(yùn)動(dòng)一致性及視頻一致性指標(biāo)上均優(yōu)于現(xiàn)有 SOTA,驗(yàn)證了其高保真、強(qiáng)可控與易擴(kuò)展的特性。期望這種精細(xì)化解耦條件注入的方法能為可控生成的后續(xù)工作提供新思路。

05、作者簡(jiǎn)介

Core Contributors

王潤(rùn)奇

小紅書 AIGC 團(tuán)隊(duì)算法工程師,在 ICCV、ACM MM 等計(jì)算機(jī)視覺、多媒體頂會(huì)發(fā)表多篇論文,曾多次獲得天池、頂會(huì) Challenge 冠亞季軍,主要研究方向?yàn)閿U(kuò)散模型、可控圖像生成和視頻生成等。

陳楊

小紅書 AIGC 團(tuán)隊(duì)算法工程師,在圖像領(lǐng)域頂會(huì) CVPR 上發(fā)表兩篇一作論文,現(xiàn)負(fù)責(zé) AIGC 生成類算法的研究與落地,曾經(jīng)負(fù)責(zé)站內(nèi)主體分割模型的開發(fā)。

許思杰

小紅書 AIGC 團(tuán)隊(duì)算法工程師,在 ACM MM、ICCV 等計(jì)算機(jī)視覺、多媒體頂會(huì)發(fā)表多篇論文。主要研究方向?yàn)橐曨l AIGC 的可控生成&視頻風(fēng)格化任務(wù),近期研究領(lǐng)域?yàn)榛诙嗄B(tài)大模型的智能剪輯。

朱威

小紅書 AIGC 團(tuán)隊(duì)算法工程師,主攻圖像視頻AIGC可控生成和風(fēng)格化,近期聚焦基于多模態(tài)大模型的長(zhǎng)文和人像生成。

秦明

小紅書社區(qū)智創(chuàng) AIGC 方向負(fù)責(zé)人。在計(jì)算機(jī)視覺領(lǐng)域頂會(huì)發(fā)表多篇論文,曾獲 ICCV VOT 世界冠軍,多次刷新 MOT 國(guó)際榜單世界記錄。在創(chuàng)作領(lǐng)域,專注于視頻自動(dòng)化剪輯、圖像/視頻可控生成、個(gè)性化生成等方向的算法研究與落地工作。

責(zé)任編輯:龐桂玉 來源: 小紅書技術(shù)REDtech
相關(guān)推薦

2025-08-13 09:00:00

AI模型訓(xùn)練

2025-08-20 07:49:28

2025-08-05 09:09:00

AI訓(xùn)練模型

2025-02-06 10:45:00

2025-02-25 10:04:10

2025-05-12 08:25:00

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-10-12 10:57:39

2023-03-14 14:10:00

圖像檢測(cè)

2025-01-17 14:38:40

2024-01-12 21:18:22

負(fù)樣本大模型蒸餾

2025-05-29 09:34:14

2021-09-07 09:01:07

人臉識(shí)別人工智能數(shù)據(jù)

2025-07-14 08:42:00

開發(fā)模型圖像生成

2025-04-03 09:27:44

2025-01-07 10:20:00

模型圖像生成數(shù)據(jù)

2025-02-10 08:30:00

2025-03-27 09:24:16

2023-09-08 15:26:53

Narrator場(chǎng)景清華

2025-03-03 08:00:00

小紅書AI圖像檢測(cè)模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)