斯坦福學(xué)生攻破約會軟件!用GAN模型女扮男裝騙過人臉識別系統(tǒng)
真的有人能模仿你的臉,還繞開了人臉識別系統(tǒng)!
最近斯坦福大學(xué)的研究人員在arxiv上發(fā)布了一篇論文,雖說是斯坦福CS236G的課程作業(yè),不過論文中提出了一個非常有趣的思路,用對抗生成網(wǎng)絡(luò)GAN生成一個面部圖像來模仿目標(biāo)人臉,看看人臉識別系統(tǒng)能否正確驗(yàn)證。
因?yàn)槿四樀年P(guān)鍵特征信息都保留了下來,所以論文的結(jié)果顯示,生成的人臉圖像仍然可以通過人臉驗(yàn)證,對于那些僅靠平面圖像識別的系統(tǒng)來說,簡直破大防。

論文鏈接:https://arxiv.org/pdf/2203.15068.pdf
研究人員在兩個約會app的人臉驗(yàn)證系統(tǒng)中黑盒測試了一下,輕松攻克面部驗(yàn)證過程,甚至在把女性人臉轉(zhuǎn)換為男性之后,仍然可以通過人臉驗(yàn)證。

據(jù)作者稱,這項(xiàng)工作是首次嘗試?yán)蒙傻膱D像繞過面部驗(yàn)證,原始的人臉圖像擁有特定的識別特征,但另一個、經(jīng)過大幅改變的身份也能通過驗(yàn)證。
這是誰的臉?
在線驗(yàn)證系統(tǒng)被攻破后,各種欺詐行為都會帶來非常負(fù)面的后果,所以人們對檢測和打擊冒名頂替者尤其感興趣。
與普通的身份驗(yàn)證不同的是,人臉驗(yàn)證涉及到根據(jù)人臉圖像驗(yàn)證聲明的身份,人臉和身份都是一對一的匹配,但一旦有另一張完全不同的人臉可以和你打開同一把鎖,那你該如何證明「我是我」?

目前很多手機(jī)app都聲稱人臉驗(yàn)證技術(shù)很安全,可以保護(hù)用戶的身份,比如Bumble和Tinder等約會軟件的識別流程就是用戶使用應(yīng)用內(nèi)置的相機(jī)拍攝一張照片,然后與用戶個人資料中的照片進(jìn)行對比。
這類使用照片進(jìn)行人臉檢測存在一個很大的問題:用一張能繞過人臉識別系統(tǒng)的假照片就可以通過驗(yàn)證。
想要一張人臉特征和原始人臉相同,但看起來又不同的話,對抗生成網(wǎng)絡(luò)模型就再合適不過了。
但自GAN誕生以來,如何控制生成圖像與預(yù)期一致,或者通過一個特征向量來引導(dǎo)GAN模型的生成過程,一直是關(guān)于GAN潛空間的主要挑戰(zhàn)。
雖然諸如梯度加權(quán)類激活映射(Grad-CAM)等技術(shù)和工具可以幫助建立類之間的潛在方向,并實(shí)現(xiàn)轉(zhuǎn)換,但如果進(jìn)一步觀察生成圖像的話,就可以發(fā)現(xiàn)這類模型對于轉(zhuǎn)換的精細(xì)程度的控制十分有限。

實(shí)驗(yàn)方法
作者使用了兩個數(shù)據(jù)集作為實(shí)驗(yàn)基礎(chǔ):
一個是人類用戶數(shù)據(jù)集,由310張論文作者的臉部圖像組成,時間跨度為四年,光線、年齡和視角各不相同,通過Caffe提取了剪裁后的臉部;
另一個是FairFace數(shù)據(jù)集中類別平衡后的108501張圖像,同樣進(jìn)行了提取和剪裁。
為了在本地驗(yàn)證實(shí)驗(yàn)效果,研究人員在本地建立了一個面部驗(yàn)證模型,主要就是在FaceNet和DeepFace的基礎(chǔ)上使用了一個ConvNet Inception預(yù)訓(xùn)練模型,圖像向量的訓(xùn)練使用三元組損失,其中A是anchor圖像,P是正例,N是反例,α為間隔。

這個驗(yàn)證模型使用了來自FairFace的訓(xùn)練子集的面部圖像,為了通過面部驗(yàn)證,輸入圖像與數(shù)據(jù)庫中的目標(biāo)用戶之間計(jì)算Frobenius norm距離,任何低于0.7閾值的圖像都等同于相同的身份,否則驗(yàn)證就被認(rèn)為是失敗的。
圖像生成模型,作者直接使用StyleGAN模型,在個人數(shù)據(jù)集上微調(diào)了一下,隨機(jī)生成的圖像可以直接通過本地的人臉驗(yàn)證系統(tǒng),并且圖片看起來和訓(xùn)練數(shù)據(jù)集中的圖片確實(shí)不一樣。
微調(diào)時將前四層的權(quán)重進(jìn)行凍結(jié),以避免數(shù)據(jù)的過度擬合生成與訓(xùn)練數(shù)據(jù)集過于相似的人臉圖像。
盡管用基本的StyleGAN模型可以獲得不同于原始人臉的圖像,但基線模型的結(jié)果從質(zhì)量上看與訓(xùn)練數(shù)據(jù)集的圖像比較相似(多樣性較差),而且分辨率較低(保真度低)。
作者第二次嘗試使用StarGAN v2模型,可以針對目標(biāo)臉部訓(xùn)練種子圖像。

為了防止過擬合,StarGAN v2模型使用FairFace驗(yàn)證集進(jìn)行了大約10個小時的預(yù)訓(xùn)練。為了生成圖像,作者還嘗試使用訓(xùn)練數(shù)據(jù)作為種子圖像(reference),以人類用戶數(shù)據(jù)集的處理過的圖像作為源圖像(source)。
作者還嘗試使用個人用戶數(shù)據(jù)集的處理過的圖像作為種子圖和源圖像,但結(jié)果提升不大。
到了驗(yàn)證環(huán)節(jié),作者先是隨機(jī)挑了1000個人臉圖像,找出哪些在本地測試驗(yàn)證通過的人臉,然后再測試使用GAN生成的圖像能否再匹配成功。
下圖左為作者照片,中間為驗(yàn)證失敗的照片,右為驗(yàn)證成功的照片。

實(shí)驗(yàn)的目的是在保留目標(biāo)身份的決定性特征的同時,在感知的視覺身份之間創(chuàng)造盡可能大的差距,使用Mahalanobis距離作為評估指標(biāo),也是圖像處理中常用于模式和模板搜索的一個指標(biāo)。

對于基線生成模型,盡管通過了局部面部驗(yàn)證,但獲得的低分辨率結(jié)果顯示出多樣性比較低,而StarGAN v2則能夠創(chuàng)建更多樣化的驗(yàn)證通過圖像。

生成的圖像在約會軟件Bumble和Tinder的面部驗(yàn)證系統(tǒng)進(jìn)行了測試,以作者的身份圖像為基線,并成功通過了驗(yàn)證。
作者臉部的「男性」版本也通過了Bumble的驗(yàn)證過程,盡管在生成的圖像中必須調(diào)整光線才能被接受,而Tinder則比較聰明,沒有被騙。

這些都是在GAN潛空間操作的背景下進(jìn)行的身份投射的開創(chuàng)性實(shí)驗(yàn),這在圖像合成和深度偽造研究中仍然是一個非凡的挑戰(zhàn)。這項(xiàng)工作也開辟了在不同的身份中持續(xù)嵌入高度具體的特征的概念,以及創(chuàng)造「替代」身份來「閱讀」別人的身份。
魔高一尺,道高一丈
如今,在人們的日常生活中,「刷臉」非常普遍,比如商鋪的客流統(tǒng)計(jì)、無人售貨柜的刷臉支付、單位門禁、家庭門鎖、公交/道路的安全監(jiān)控、公司人臉識別考勤、快遞包裹取件、銀行開卡、網(wǎng)上支付、入住酒店等領(lǐng)域都在廣泛運(yùn)用「人臉識別」技術(shù),且呈擴(kuò)大趨勢。
而人臉識別技術(shù)目前可以分為兩大類:基于2D人臉圖像和基于3D人臉圖像。2D人臉識別通過2D攝像頭拍攝平面成像,所以即使算法和軟件再先進(jìn),在有限的信息下,安全級別終究不夠高,通過照片很容易被破解。
早在2019年,就有小學(xué)生手舉照片「破解」了豐巢的人臉識別系統(tǒng)。

安全級別較高的3D人臉識別系統(tǒng)通過3D攝像頭立體成像,一般會有4個探頭,其中兩個大的是攝像頭,另外兩個一個是紅外線探頭,用于補(bǔ)光,一個是可見光探頭,兩個攝像頭互相配合形成3D圖像,從而復(fù)原完整的三維世界。目前3D人臉識別功能技術(shù)可以準(zhǔn)確分辨出照片、視頻、面具和雙胞胎。
目前普遍應(yīng)用的人臉識別身份認(rèn)證系統(tǒng)中還有一項(xiàng)至關(guān)重要的技術(shù)——活體檢測,即系統(tǒng)攝像頭在正確識別人臉是否本人的同時,檢驗(yàn)是否有人利用照片等手段冒充合法用戶。這也是為什么在銀行「刷臉」時候,經(jīng)常要讓用戶完成「左看右看」、「眨眨眼」等動作。
魔高一尺,道高一丈,只有不斷的對抗,技術(shù)才會持續(xù)向上發(fā)展。


























