生成人臉修復(fù)模型:同時(shí)使用兩個(gè)鑒別器,直接合成逼真人臉
近日,加利福尼亞大學(xué)和 Adobe Research 在 arXiv 上聯(lián)合發(fā)表了一篇名為《生成人臉修復(fù)(Generative Face Completion)》的論文,論文中的模型包括一個(gè)生成器、兩個(gè)鑒別器以及一個(gè)語(yǔ)義解析網(wǎng)絡(luò),可針對(duì)缺失圖像直接生成局部或整張的逼真圖像。論文鏈接請(qǐng)移步文末。
一、簡(jiǎn)介
這篇論文提出了一個(gè)用來(lái)進(jìn)行人臉修復(fù)的深度生成模型,如下圖所示,針對(duì)一副面部圖片中的缺失區(qū)域,這個(gè)模型可以直接修復(fù)人臉。
與之前很多其他工作不同,針對(duì)人臉修復(fù)任務(wù),這篇論文的作者同時(shí)使用了兩個(gè)鑒別器來(lái)構(gòu)建整個(gè)模型,因此不論是局部圖像還是整個(gè)圖像,看上去都更加逼真。
二、方法
1. 模型結(jié)構(gòu)
如上圖所示,整個(gè)模型包括一個(gè)生成器、兩個(gè)鑒別器以及一個(gè)語(yǔ)義解析網(wǎng)絡(luò)。
這個(gè)項(xiàng)目中的生成器是一個(gè)基于 VGG-19 的自動(dòng)編碼器。此外論文作者還構(gòu)造了兩個(gè)卷積層,并在頂部有一個(gè)池化層,然后在后面加了一個(gè)全連接層作為編碼器。解碼器具有反池化層,結(jié)構(gòu)與編碼器對(duì)稱。
局部鑒別器被用來(lái)判別圖像缺失區(qū)域中合成的圖像補(bǔ)丁是否真實(shí)。整體鑒別器則用來(lái)判別整張圖像的真實(shí)性。這兩個(gè)鑒別器的架構(gòu)相似于論文《用深度卷積生成對(duì)抗網(wǎng)絡(luò)來(lái)進(jìn)行非監(jiān)督表征學(xué)習(xí)》中的所述架構(gòu)。
語(yǔ)義解析網(wǎng)絡(luò)用于改進(jìn)上述生成對(duì)抗網(wǎng)絡(luò)生成的圖片,語(yǔ)義解析網(wǎng)絡(luò)是基于論文《使用全連接卷積編碼-解碼網(wǎng)絡(luò)進(jìn)行物體輪廓檢測(cè)》,因?yàn)檫@種網(wǎng)絡(luò)能夠提取到圖像的高水平特征。以這種方式,生成的圖像補(bǔ)丁 (人臉部分) 會(huì)具有更加自然的形態(tài)和尺寸。
2. 損失函數(shù)
生成器中的重建損失函數(shù) L_r 計(jì)算生成器的輸出和原始圖像之間的 L_2 距離。
兩個(gè)鑒別器共享定義相同的損失函數(shù) L_ai,如下圖方程所示,L_ai 經(jīng)常用于生成對(duì)抗網(wǎng)絡(luò)。
兩個(gè)鑒別器的損失函數(shù)的不同之處在于:局部鑒別器的損失函數(shù) (L_a1) 僅僅反向傳播圖像缺失區(qū)域的損失梯度,而整體鑒別器的損失函數(shù) (L_a2) 反向傳播整個(gè)圖像的損失梯度。
解析網(wǎng)絡(luò)的損失函數(shù) L_p 是以像素為單位的 softmax 損失,softmax 也是很多其他分類神經(jīng)網(wǎng)絡(luò)中常用的損失函數(shù)。
綜上所述,整個(gè)模型的損失函數(shù)定義如下:
對(duì)網(wǎng)絡(luò)的訓(xùn)練,論文作者將過(guò)程劃分為三個(gè)階段。第一階段,僅僅用 L_r 來(lái)訓(xùn)練網(wǎng)絡(luò)以重構(gòu)圖像。第二階段,用局部對(duì)抗損失來(lái)對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。第三階段,使用全局對(duì)抗損失和語(yǔ)義正則化獲取最終結(jié)果。
三、實(shí)驗(yàn)結(jié)果
正如本文第一張圖像所示,生成人臉修復(fù)算法有著非常好的結(jié)果。圖 7 展示了這個(gè)模型對(duì)不同種類的遮蓋有著很好的魯棒性,它和現(xiàn)實(shí)應(yīng)用非常接近。無(wú)論什么形狀的遮蓋,網(wǎng)絡(luò)都能生成令人滿意的結(jié)果。
圖 7. 臉部修復(fù)。在每一組,左邊:被遮蓋部分的人臉輸入,右邊:修復(fù)結(jié)果
如圖 9 所示,作者還對(duì)比了遮蓋大小對(duì)結(jié)果的影響。他們發(fā)現(xiàn),在遮蓋中等大小的時(shí)候,存在一個(gè)性能的局部最小值。因?yàn)楫?dāng)遮蓋是這個(gè)尺寸的時(shí)候,它很可能遮住一張人臉的五官之一 (如鼻子、眼睛......),而這種情況對(duì)這個(gè)模型來(lái)說(shuō)是很難合成的。
圖 9:不同尺寸的正方形遮蓋下模型的性能評(píng)價(jià)。曲線展示了在 CelebA 數(shù)據(jù)集上的所有圖像中模型性能的平均值。
圖 12 展示了這個(gè)生成模型的局限性。首先,盡管這個(gè)模型包含了語(yǔ)義解析網(wǎng)絡(luò),它在訓(xùn)練過(guò)程中能夠獲得一些高層次的特征,但是它并不能識(shí)別人臉的位置和方向。所以,這個(gè)模型不能處理那些未對(duì)齊的人臉。第二,如上所述,對(duì)這個(gè)模型而言,生成人臉的局部要比生成整張人臉要困難,因?yàn)檫@個(gè)模型不能總是檢測(cè)到相鄰像素之間的空間關(guān)聯(lián)性。
圖 12 模型的局限性。上排:在沒(méi)對(duì)齊的圖像中,我們的模型未能成功地合成人眼。下排:仍難生成正確屬性的語(yǔ)義部分 (例如,紅色唇彩)。
五、結(jié)論
這個(gè)基于生成對(duì)抗網(wǎng)絡(luò)的模型具有兩個(gè)鑒別器和一個(gè)語(yǔ)義正則化網(wǎng)絡(luò),能夠處理人臉修復(fù)任務(wù)。它能夠在隨機(jī)噪聲中成功地合成缺失的人臉部分。
六、點(diǎn)評(píng)
整體評(píng)價(jià):
這篇論文提出了一個(gè)在人臉修復(fù)任務(wù)上有成功實(shí)例的生成模型。論文作者從數(shù)量和質(zhì)量?jī)蓚€(gè)方面評(píng)估了其模型,因此結(jié)果相當(dāng)可信。
這篇論文的貢獻(xiàn):
他們提供了一個(gè)設(shè)計(jì)生成對(duì)抗網(wǎng)絡(luò)模型的新方式:同時(shí)使用多個(gè)鑒別器達(dá)成不同目標(biāo)。例如,傳統(tǒng)的自編碼器使用 L_2 距離來(lái)重構(gòu)圖像,所以經(jīng)常輸出非常平滑的結(jié)果。之前的工作經(jīng)常使用從深度分類神經(jīng)網(wǎng)絡(luò)中得到的映射向量來(lái)改善這個(gè)結(jié)果。但是在這篇論文中,作者證明使用不同的鑒別器也能夠得到更低的平滑度,從而結(jié)果更好。
論文作者把訓(xùn)練過(guò)程分成了幾個(gè)階段,這對(duì)訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)而言確實(shí)是一個(gè)好想法。這就像人類學(xué)習(xí)的方式:人們首先學(xué)習(xí)一個(gè)物體的輪廓 (和這個(gè)項(xiàng)目中的圖像重建類似),然后一步一步地學(xué)習(xí)每一部分的細(xì)節(jié) (類似于這個(gè)項(xiàng)目中第二階段的微調(diào)以及第三階段)。
論文作者還證明了「峰值信噪比 (PSNR)」和「結(jié)構(gòu)性相似指數(shù),SSIM」不足以評(píng)價(jià)重構(gòu)或生成結(jié)果,因?yàn)檫@兩個(gè)指標(biāo)是傾向于平滑和模糊的結(jié)果。如圖 3、表 1 和表 2 所示,子圖 M1 比 M2 和 M3 具有更高的 SSIM 和 PSNR。但是 M2 和 M3 明顯具有語(yǔ)義層面更加合理的生成結(jié)果。
這篇論文還證明,語(yǔ)義解析網(wǎng)絡(luò)能夠在生成對(duì)抗網(wǎng)絡(luò)的隨機(jī)噪聲上提供一些額外的 (語(yǔ)義) 限制,以得到更加逼真的結(jié)果。圖 10 還展示了這些限制使得生成對(duì)抗網(wǎng)絡(luò)能夠識(shí)別人臉的組成部分,因此生成對(duì)抗網(wǎng)絡(luò)能夠在不同的隨機(jī)噪聲中以相似的形狀和尺寸生成人臉的缺失部分,僅僅在一些細(xì)節(jié)上有差別,例如眉毛的陰影。
七、改進(jìn)建議
這個(gè)模型一個(gè)局限是并不能處理一些未對(duì)齊的人臉,可以增加一個(gè)面部變形的網(wǎng)絡(luò)來(lái)將輸入的人臉規(guī)范化。
使用其他類型的圖像 (如建筑或風(fēng)景) 來(lái)訓(xùn)練這個(gè)模型,來(lái)判斷其對(duì)其他類型的修復(fù)任務(wù)是否具有魯棒性。
論文鏈接:https://arxiv.org/abs/1704.05838
【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】