偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

3D視頻人物肖像生成新突破!港科大、清華等發(fā)布AniPortraitGAN,面部表情、肩部運(yùn)動(dòng)全可控

人工智能 新聞
研究人員提出了一個(gè)全新的3D肖像視頻生成任務(wù),同時(shí)考慮頭部和肩部的運(yùn)動(dòng),還可以控制人物的面部表情,訓(xùn)練過(guò)程無(wú)需3D視頻數(shù)據(jù)!

目前用于人類(lèi)生成相關(guān)的「可動(dòng)畫(huà)3D感知GAN」方法主要集中在頭部或全身的生成,不過(guò)僅有頭部的視頻在真實(shí)生活中并不常見(jiàn),全身生成任務(wù)通常不會(huì)控制人物的面部表情,并且很難提高生成質(zhì)量。

為了提高視頻化身(video avatar)的可應(yīng)用性,來(lái)自港科大、清華等機(jī)構(gòu)的研究人員提出了一個(gè)新模型AniPortraitGAN,可以生成具有可控面部表情、頭部姿勢(shì)和肩部運(yùn)動(dòng)的肖像圖像;訓(xùn)練過(guò)程只依賴非結(jié)構(gòu)化的2D圖像,無(wú)需3D或視頻數(shù)據(jù)。

論文鏈接:https://arxiv.org/pdf/2309.02186.pdf

該方法基于生成輻射流形表征,配備了可學(xué)習(xí)的面部和頭肩變形;引入了一種雙攝像頭渲染和對(duì)抗學(xué)習(xí)方案以提高生成的人臉的質(zhì)量,對(duì)于人像生成來(lái)說(shuō)至關(guān)重要;開(kāi)發(fā)了一個(gè)姿勢(shì)變形處理網(wǎng)絡(luò),以在困難的區(qū)域生成合理的變形,如長(zhǎng)發(fā)等。

實(shí)驗(yàn)結(jié)果表明,該方法在非結(jié)構(gòu)化的2D圖像上訓(xùn)練,可以生成不同的和高質(zhì)量的3D肖像與所需的控制不同的屬性。

方法概述

研究人員的目標(biāo)是通過(guò)對(duì)給定的2D圖像集合進(jìn)行訓(xùn)練,來(lái)生成包含人類(lèi)頭部和肩部區(qū)域的肖像圖。

模型架構(gòu)與標(biāo)準(zhǔn)GAN類(lèi)似,對(duì)隨機(jī)潛碼進(jìn)行采樣,并將其映射到最終輸出圖像中,其中生成器的輸入包括多個(gè)潛碼,對(duì)應(yīng)于生成人物的不同屬性以及相機(jī)視角,輸出為帶有預(yù)期屬性的人物肖像。

整個(gè)過(guò)程遵循規(guī)范神經(jīng)輻射(canonical neural radiance)表征與(逆)變形(deformation)相結(jié)合的常用范式。

1. 潛碼

包括用于人物身材的身份編碼(identify code)、用于面部表情的編碼、用于身體和肩膀姿態(tài)的編碼、以及一個(gè)額外的噪聲用于控制其他諸如外貌(appearance)等屬性的編碼。

為了實(shí)現(xiàn)語(yǔ)義上的可控,研究人員采用之前的3D人體參數(shù)模型,并將二者的潛空間對(duì)齊。

具體來(lái)說(shuō),將身份編碼設(shè)計(jì)為3DMM面部身份系數(shù)和SMPL身材系數(shù)的級(jí)聯(lián);姿態(tài)編碼是一個(gè)簡(jiǎn)化的SMPL姿態(tài)參數(shù),包括6個(gè)關(guān)節(jié)的聯(lián)合變換:頭部、頸部、左右衣領(lǐng)和左右肩膀;表情編碼與3DMM表情系數(shù)相同。

2. 經(jīng)典輻射流形(Canonical Radiance Manifolds)

研究人員使用輻射流形來(lái)表示普通的人類(lèi)特征(canonical humans),該表征可以控制輻射場(chǎng)在一組3D隱式表面上的學(xué)習(xí)和渲染,能夠生成具有嚴(yán)格多視圖一致性的高質(zhì)量人臉。

具體來(lái)說(shuō),模型使用三個(gè)網(wǎng)絡(luò)來(lái)生成輻射:

1)流形預(yù)測(cè)MLP以正則空間(canonical space)中的點(diǎn)為輸入,預(yù)測(cè)結(jié)果為一個(gè)實(shí)數(shù)標(biāo)量來(lái)定義表面。

圖片

2)輻射生成MLP基于身份編碼、噪聲和視圖方向來(lái)生成表面點(diǎn)的顏色和透明度。

3)流形超分辨率CNN,將平坦、離散的輻射圖(128*128)上采樣到高分辨率(512*512)輻射圖。

圖片

3. 變形域(deformation)

對(duì)于目標(biāo)空間中具有預(yù)期頭肩姿勢(shì)和面部表情的每個(gè)采樣3D點(diǎn),都應(yīng)用變形操作將其轉(zhuǎn)換到用于輻射檢索的規(guī)范空間。

姿態(tài)變形生成器(pose deformation generator)

結(jié)合SMPL模型,使用其線性混合蒙皮(LBS)方案來(lái)引導(dǎo)姿態(tài)變形。

給定形狀編碼和姿態(tài)編碼,可以使用SMPL構(gòu)建姿態(tài)人體網(wǎng)格,為身體表面上的每個(gè)頂點(diǎn)提供預(yù)定義的蒙皮權(quán)重向量。

一種將身體變形傳播到整個(gè)3D空間的簡(jiǎn)單方法是給每個(gè)點(diǎn)都分配到最近身體表面頂點(diǎn)的蒙皮權(quán)重,再進(jìn)行變形;不過(guò)這種策略雖然廣泛用于最先進(jìn)的可動(dòng)畫(huà)人體建模和生成方法,并且可以給出合理的全身合成結(jié)果,但在高分辨率人像合成中存在明顯的視覺(jué)缺陷。

對(duì)于長(zhǎng)頭發(fā)的人類(lèi)角色,該策略會(huì)導(dǎo)致肩膀以上的頭發(fā)區(qū)域出現(xiàn)明顯的變形不連續(xù)性。

研究人員提出了一個(gè)可變形體積處理(deformation volume processing)模塊來(lái)解決這個(gè)問(wèn)題,對(duì)于目標(biāo)空間中,從最近SMPL身體頂點(diǎn)取回的,蒙皮權(quán)重向量為w的一個(gè)點(diǎn)x^t,變形后的點(diǎn)可以通過(guò)逆LBS計(jì)算得到:

圖片

經(jīng)過(guò)處理后,對(duì)變換進(jìn)行reshape,并將其應(yīng)用于采樣點(diǎn)以完成姿態(tài)變形。

表情變形生成器(Expression Deformation Generator)

研究人員引入了一個(gè)由3DMM模型引導(dǎo)的變形場(chǎng),具體來(lái)說(shuō),利用MLP對(duì)位姿空間(pose-aligned space)中的點(diǎn)進(jìn)行變形,訓(xùn)練目標(biāo)是根據(jù)3DMM生成帶表情的人臉。


圖片

4. 雙相機(jī)判別器(Dual-Camera Discriminator)

之前的3D感知頭部GANs已經(jīng)通過(guò)仔細(xì)地將生成的和真實(shí)的人臉圖像居中對(duì)齊以進(jìn)行訓(xùn)練,已經(jīng)展現(xiàn)出了非常高的人臉生成質(zhì)量。

但頭部區(qū)域是肖像圖的一部分,其空間位置和方向變化很大,簡(jiǎn)單地應(yīng)用全圖像鑒別器不能為高質(zhì)量的人臉生成提供足夠的監(jiān)督信號(hào),而高質(zhì)量的人臉生成對(duì)于肖像圖是至關(guān)重要的。

一個(gè)直接的補(bǔ)救措施是裁剪和對(duì)齊渲染圖像中的人臉,并應(yīng)用局部人臉鑒別器,但圖像重采樣算子本質(zhì)上是低通的(low-pass),圖像空間裁剪策略會(huì)讓裁剪的人臉更模糊,對(duì)GAN的訓(xùn)練是有害的。

研究人員設(shè)計(jì)了一個(gè)雙攝像頭渲染方案用于GAN訓(xùn)練,除了用于完整人像圖像渲染的主攝像機(jī)之外,還添加了另一個(gè)用于面部渲染的攝像機(jī),放置在頭部周?chē)?,并指向頭部中心。

模型在設(shè)計(jì)上和以前3D感知頭部GANs具有相同的局部坐標(biāo)系,并且位置可以使用變形的SMPL頭部計(jì)算。

另一個(gè)可能的想法類(lèi)似2D人體生成方法,混合兩個(gè)獨(dú)立的面部和身體生成器的輸出,但將這種策略應(yīng)用到3D動(dòng)畫(huà)案例中并不容易。

添加用于訓(xùn)練的專(zhuān)用人臉相機(jī)不僅避免了圖像重采樣,并為規(guī)范輻射流形提供了更直接的監(jiān)督,而且還實(shí)現(xiàn)了用于對(duì)抗性學(xué)習(xí)的更高分辨率的人臉?shù)秩?,因此,輻射生成器可以接收到?duì)面部區(qū)域更強(qiáng)的監(jiān)督信號(hào)。

5. 訓(xùn)練損失

對(duì)抗學(xué)習(xí)(Adversarial Learning)

將具有R1正則化的非飽和GAN損失應(yīng)用于3D感知圖像生成器和所有三個(gè)判別器中,根據(jù)經(jīng)驗(yàn)將平衡權(quán)重分別設(shè)置為whole=0.1、face=1.0和torso=0.5

變形學(xué)習(xí)(Deformation Learning)

使用3D landmark損失和模仿?lián)p失來(lái)獲得具有3DMM引導(dǎo)的表情控制,損失強(qiáng)制所生成的人臉圖像具有與用所述輸入身份和表情代碼構(gòu)造的3DMM人臉相似的3D人臉landmark:

其中zid、zexp是使用人臉重建網(wǎng)絡(luò)從生成的圖像估計(jì)的3DMM系數(shù),f_lm表示簡(jiǎn)單的人臉landmark提取函數(shù)。

在變形模仿上,強(qiáng)制輸入點(diǎn)x^p的位移在3DMM網(wǎng)格跟隨其最近的點(diǎn)x_ref:

圖片

再引入幾個(gè)變形正則化項(xiàng):

圖片

6. 訓(xùn)練策略

研究人員采用兩階段訓(xùn)練策略來(lái)訓(xùn)練模型:

先訓(xùn)練一個(gè)低分辨率圖像生成器和相應(yīng)的判別器,面部和肖像分支都生成128×128的圖像,除了流形超分辨率CNN網(wǎng)絡(luò)之外,訓(xùn)練所有的子網(wǎng)絡(luò)。

在第二階段,生成512×512的肖像圖和256×256的人臉,隨機(jī)初始化和訓(xùn)練高分辨率鑒別器,凍結(jié)其他子網(wǎng)絡(luò)。

實(shí)驗(yàn)部分

訓(xùn)練數(shù)據(jù)

研究人員通過(guò)處理SHHQ數(shù)據(jù)集中的人類(lèi)圖像來(lái)構(gòu)建訓(xùn)練集,原始數(shù)據(jù)集包含4萬(wàn)張1024×512分辨率的全身圖像。

為了獲得高質(zhì)量的頭肩肖像,首先在SHHQ圖像上擬合SMPL模型,然后裁剪圖像,并使用投影的頭部和頸部關(guān)節(jié)對(duì)齊,裁剪后的人像圖像分辨率約為256×256,再使用超分辨率方法將其上采樣到1024×1024后下采樣到512 × 512;最后通過(guò)分割蒙版來(lái)移除背景。

生成結(jié)果

模型的生成結(jié)果非常多樣且高質(zhì)量,相機(jī)視角、面部表情,頭部旋轉(zhuǎn)和肩部姿勢(shì)被明確控制。

圖片

在控制屬性時(shí),該方法實(shí)現(xiàn)了對(duì)不同身份的所有四個(gè)屬性的一致控制。

圖片

實(shí)驗(yàn)對(duì)比

研究人員將該方法與三種最先進(jìn)的三維感知GANs進(jìn)行了比較:EG3D、GRAM-HD和AniFaceGAN,因?yàn)槟壳斑€沒(méi)有可動(dòng)畫(huà)頭肩肖像生成任務(wù)的模型,所以對(duì)比結(jié)果也僅供參考。

圖片

可以看到,在完整肖像圖像和面部區(qū)域上評(píng)估的FID和KID指標(biāo)中,該方法在人臉?lè)矫娴牡梅峙cEG3D和GRAMHD相當(dāng),在全圖像方面的得分略低。

值得注意的是,雖然EG3D的得分最低,但研究人員發(fā)現(xiàn)該模型經(jīng)常生成較差的幾何形狀:人像表面有時(shí)幾乎是平面的,當(dāng)改變視角時(shí),視覺(jué)視差是錯(cuò)誤的。

圖片

從視覺(jué)上看,文中方法的圖像質(zhì)量與EG3D和GRAM-HD相當(dāng),并且肖像具有正確的幾何形狀,但該方法可以生成和控制更大的區(qū)域。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-05-16 14:17:00

數(shù)字人

2025-06-13 14:13:26

3D場(chǎng)景生成模型

2024-01-29 06:50:00

3D模型

2023-10-10 12:31:26

AI數(shù)據(jù)

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2025-02-24 10:40:00

3D模型生成

2024-07-31 15:30:05

2023-09-08 15:26:53

Narrator場(chǎng)景清華

2025-01-14 09:24:46

2025-05-06 08:50:00

2024-09-30 09:35:55

圖像生成AI

2024-08-14 16:30:00

3D AIGC

2024-09-20 16:20:00

2025-03-27 09:24:16

2024-10-15 13:07:38

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2023-09-25 14:53:55

3D檢測(cè)

2024-12-10 15:17:11

2024-11-06 13:03:49

2025-05-12 08:25:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)