MDFR:基于人臉圖像復原和人臉轉(zhuǎn)正聯(lián)合模型的人臉識別方法
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
在現(xiàn)實生活中,許多因素可能會影響人臉識別系統(tǒng)的識別性能,例如大姿勢,不良光照,低分辨率,模糊和噪聲等。為了應對這些挑戰(zhàn),之前的人臉識別方法通常先把低質(zhì)量的人臉圖像恢復成高質(zhì)量人臉圖像,然后進行人臉識別。然而,這些方法大多是階段性的,并不是解決人臉識別的最優(yōu)方案。
AI 科技評論今天介紹一篇能夠?qū)Υ擞兄芎玫慕鉀Q方案的論文,在本文中,作者提出一種多退化因子的人臉復原模型(Multi-Degradation Face Restoration,MDFR),來一次性解決所有的這些影響因素。
原文標題:《Joint Face Image Restoration and Frontalization For Recognition》
論文地址:https://ieeexplore.ieee.org/document/9427073/
MDFR 可以從給定的多姿態(tài)、多重低質(zhì)量因素影響的人臉圖像中復原其高質(zhì)量的正面人臉圖像。MDFR是一個設計良好的編碼器-解碼器網(wǎng)絡結(jié)構(gòu)。
在模型的構(gòu)建中,作者引入了姿態(tài)殘差學習策略,以及一個基于3D的姿勢歸一化模塊(3D-based Pose Normalization Module,PNM),該模塊可以感知輸入人臉姿態(tài)和正面人臉姿態(tài)之間的差異,以此差異來指導人臉的轉(zhuǎn)正學習。
實驗表示,訓練完成之后的MDFR可以通過一個單一化的網(wǎng)絡,一次性地從多重低質(zhì)量因素影響的側(cè)面人臉圖像中恢復其高清的正面人臉圖像,并有效的提高人臉算法的識別率。
1、背景及簡介
非限制條件下的人臉識別方法是計算機視覺任務中一項重要的工作。在實際應用中,采集到的人臉圖像可能包含大姿態(tài),不良光照,低分辨率以及模糊和噪聲等,這些影響人臉成像質(zhì)量的因素可能導致人臉識別應用的失敗。為了解決這些問題,已經(jīng)有很多方法使用分階段模型來分別處理相應的低質(zhì)量因子影響的人臉圖像,即首先將低質(zhì)量人臉恢復成高質(zhì)量的人臉圖像,隨后進行人臉轉(zhuǎn)正并用于人臉識別。
然而這些方法都只考慮了人臉識別的單一因素,很少有方法能夠同時解決影響人臉識別的多重因素。因此,這類基于單一因素的人臉處理方法并不能很好的適用于非限制條件下的人臉識別。在本文中,作者提出了一種解決多退化因子的人臉復原模型(MDFR),從給定任意姿態(tài)的低質(zhì)量人臉圖像中恢復出高質(zhì)量正面人臉。
文章的貢獻如下:
- 提出了一種多退化因子人臉復原模型(Multi-Degradation Face Restoration, MDFR),將給定的任意姿態(tài)和受多重低質(zhì)量因子影響的人臉圖像恢復為正面且高質(zhì)量的圖像;
- 在人臉轉(zhuǎn)正過程中,使用了姿態(tài)殘差學習策略,并且提出了一種基于3D的姿態(tài)歸一化模塊;
- 提出了一種有效的整合訓練策略將人臉重建和轉(zhuǎn)正任務融合到一個統(tǒng)一的網(wǎng)絡中,該方法能夠進一步提升輸出的人臉質(zhì)量和后續(xù)的人臉識別效果;
2、方法描述
MDFR結(jié)構(gòu)如圖1所示。在訓練過程中,MDFR主要包含兩個模塊,即雙代理生成器(Dual-Agent Generator)和雙代理判別器(Dual-Agent Discriminator)。姿態(tài)歸一化模型模塊(Pose Normalization Module, PNM)被嵌入到網(wǎng)絡中對人臉的姿態(tài)進行歸一化。
圖1. MDFR模型的結(jié)構(gòu),包括雙代理生成器,姿態(tài)歸一化模型,以及雙代理判別器。
(1)雙代理生成器
雙代理生成器包含一個人臉復原子網(wǎng)絡(Face Restoration sub-Net, FRN)和一個人臉轉(zhuǎn)正子網(wǎng)絡(Face Frontalization sub-Net, FFN)。FRN網(wǎng)絡的作用是將低質(zhì)量人臉圖像重建為高質(zhì)量人臉圖像,而FFN網(wǎng)絡將FRN生成的側(cè)臉圖像進行轉(zhuǎn)正。其中每個子網(wǎng)絡均包含一個編碼器和解碼器,前者用來將輸入映射到特征空間,而后者主要將編碼后的特征重建為相應的目標人臉圖像。兩個子網(wǎng)絡具有相同的網(wǎng)絡結(jié)構(gòu),但是輸入有所不同。FRN的編碼器對輸入的人臉圖像進行編碼,隨后解碼器對編碼器的特征進行解碼。FFN的解碼器的輸入除了人臉的編碼特征外,還包含人臉兩種姿態(tài)的編碼殘差,如圖2所示。
圖2生成網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)
(2)姿態(tài)歸一化模塊
作者設計了一個姿態(tài)歸一化模塊(PNM)對姿態(tài)進行歸一化。PNM提供了標準的、并且尺度統(tǒng)一的真實正面姿態(tài)來來引導人臉轉(zhuǎn)正?;?D形變模型(3D Morphable Model, 3DMM),二維人臉圖像對應的三維頂點可以通過人臉正交基線性加權(quán)相加而得到:
通過尺度正交映射將三維人臉頂點映射到二維圖像平面,二維側(cè)臉人臉圖像可以表示為:
其中,參數(shù)MDFR :基于人臉圖像復原和人臉轉(zhuǎn)正聯(lián)合模型的人臉識別方法是相應的旋轉(zhuǎn)矩陣,t 為平移向量。當移去旋轉(zhuǎn)矩陣和平移向量后,歸一化后真實轉(zhuǎn)正的人臉密集二維坐標可以表述為:
在文章中,作者使用3D人臉轉(zhuǎn)正方法 2DAL 從一張給定的二維人臉圖像中獲取人臉密集坐標,最后選取18個常用的關鍵點來生成相應的高斯熱力圖(Gaussian Heatmaps)。
(3)雙代理先驗引導判別器
在人臉超分辨率領域使用的判別損失能夠很好的提高重建人臉的真實度。因此,在本文中,作者在判別器中加入兩種額外的先驗信息:目標人臉的landmarks以及正臉的身份特征圖,使得生成的人臉不僅能夠獲得目標姿態(tài),還具有真實的身份信息。對應的判別器分別為PCD(Pose Conditioned Discriminator)以及ICD(Identity Conditioned Discriminator)。
在實現(xiàn)過程中,作者將兩種先驗信息分別作用到輸入判別器中引導人臉的生成,然后再輸入到相應的判別器中進行判別損失的求解。PCD和ICD不僅可以區(qū)分真實人臉和生成的人臉,同時可以學習到真實人臉和生成人臉的姿態(tài)和身份差異。
(4)網(wǎng)絡訓練
網(wǎng)絡的訓練主要分為兩個階段:Separate Training和TI Training。
Separate Training:文章首先分別訓練FRN和FFN兩個子網(wǎng)絡,兩個訓練過程分別簡寫為FRN-S和FFN-S。FRN-S訓練過程中所用到的損失函數(shù)如下:
身份信息損失:
重建像素損失:
總的損失:
FFN-S訓練過程中所用到的損失函數(shù)如下:
轉(zhuǎn)正損失:
條件對抗損失:
總的損失:
Task-Integrated (TI) training:在FRN和FFN完成了相應的分開訓練后,作者在預訓練模型的基礎上進行整合訓練。在這個階段,作者使用FFN模型的輸出作為ground-truth來訓練FRN。同時,使用PNM歸一化后的真實轉(zhuǎn)正面部landmarks來引導FFN中人臉的轉(zhuǎn)正。為了生成更好的人臉效果,在這一階段作者還使用了特征對齊損失(Feature Alignment Loss, FA),具體的定義如下:
整體的訓練損失函數(shù)為:
3、實驗結(jié)果
作者首先探索了不同的網(wǎng)絡結(jié)構(gòu)和損失函數(shù)的組合來觀察FFN-S和FRN-TI相應部分對人臉生成的影響,實驗結(jié)果如圖3所示。
圖3. 消融實驗在Multi-PIE數(shù)據(jù)庫上的對比結(jié)果。
同時,表1展示了 MDFR 的不同變異體對不同姿態(tài)人臉的 rank-1 識別率。在所有的實驗模型中,F(xiàn)FN-S 和 FRN-TI 均獲得了最好的精度。
表2列舉了 FFN-S 和 FRN-TI 同其他方法在 Multi-PIE 數(shù)據(jù)集上人臉識別率的比較。FFN-S 在所有的姿態(tài)中獲得了最好的效果,其次是FFN-TI。當姿態(tài)角度在±45°以內(nèi)時,F(xiàn)FN-S 和FFN-TI獲得了同 CAPG-GAN 相似的識別效果。但當姿態(tài)角度大于±45°時,F(xiàn)FN-S 和 FFN_TI 的效果要顯著的好于 CAPG-GAN。
圖4. 不同方法在多重低質(zhì)量因素影響下的人臉復原效果
作者在多重低質(zhì)量因素影響的人臉圖像上進行相應的驗證,包括低分辨率、不良光照、噪聲以及模糊。實驗表明,文章提到的方法不僅可以充分應對多種低質(zhì)量因子,而且都可以生成相應的高質(zhì)量人臉圖像。圖4展示了不同方法在多重低質(zhì)量因素影響下的人臉復原效果??梢钥闯霾煌谥爸荒芴幚韱我坏娜蝿盏姆椒?,文中所提出的方法既可以對人臉進行轉(zhuǎn)正也可以進行高質(zhì)量復原,且取得了最好的視覺效果。