譯者 | 陳峻
審校 | 重樓
不知您是否聽說過深度偽造(Deepfakes)這種欺詐應(yīng)用?由它產(chǎn)生的各種虛假信息已威脅到了人類社會的方方面面。隨著人工智能技術(shù)的進步,我們亟待提升識別虛假內(nèi)容的能力。那么在實際檢測假新聞可信度等用例時,到底是人類還是機器更勝任此類任務(wù)呢?
深度偽造的危害
不可否認,深度偽造的危險隨著人工智能技術(shù)的快速發(fā)展,正在與日俱增,我們可以將其危害大體總結(jié)為如下方面:
- 虛假信息:由深度偽造產(chǎn)生的視頻和音頻,可以廣泛地傳播假新聞等虛構(gòu)信息。
- 冒名頂替:通過冒充個體,深度偽造者可以損害他人的聲譽,以及欺騙他們所認識的任何人。
- 國家安全:深度偽造不但會炮制末日場景,而且能夠編造敵對國領(lǐng)導(dǎo)人煽動沖突的視頻或音頻。
- 內(nèi)亂:沖突各方也可能利用欺騙性的鏡頭和音頻,在特定的群體中煽動憤怒和內(nèi)亂。
- 網(wǎng)絡(luò)安全:網(wǎng)絡(luò)犯罪分子已經(jīng)在使用人工智能語音克隆工具,向受害個體發(fā)送貌似熟人的、令人信服的信息。
- 隱私侵犯:惡意使用深度偽造技術(shù),會在未經(jīng)個人同意的情況下,獲取其肖像特征。
- 真假難辨:正所謂:假作真時真亦假,我們甚至無法分辨準確的信息是否真實可信。
可見,面對越來越令人信服的深度偽造信息,我們需要強大的工具和流程來檢測與識破。而旨在識別人工智能生成式內(nèi)容的算法,完全可以作為檢測工具運用于該領(lǐng)域,并作為人類判斷力的有力補充。
算法能比人類更好地檢測深度偽造嗎?
目前,各國的技術(shù)巨頭和研究團體,已經(jīng)投入了大量資源,來研究和開發(fā)應(yīng)對深度偽造所帶來的嚴重威脅。2019年,Meta、微軟和亞馬遜等公司曾在針對深度偽造的檢測挑戰(zhàn)賽中,為那些最準確的檢測模型提供了100萬美元獎金。
在針對已公開的視頻數(shù)據(jù)集進行測試后,其中表現(xiàn)最好的模型的準確率可達82.56%。然而,相同的模型在對由10,000個新成生成視頻組成的“黑盒數(shù)據(jù)集”進行測試時,其中表現(xiàn)最好的模型準確率僅為65.18%。作為對比,一般來說,人類檢測的準確率要么與AI深度檢測工具持平,要么高于后者。
2021年發(fā)表在《美國國家科學(xué)院院刊,PNAS》上的一項研究發(fā)現(xiàn):普通人類檢測者的準確率會略高于業(yè)界領(lǐng)先的深度偽造檢測工具。不過,該研究也發(fā)現(xiàn):人類檢測者和人工智能模型容易犯錯的類型并不相同。
此外,悉尼大學(xué)的一項有趣的研究發(fā)現(xiàn),我們?nèi)四X在無意識的情況下,會比有意識地去識別深度偽造要更加有效。
檢測深度偽造中的視覺線索
作為一門新興的科學(xué),深度偽造檢測的原理比較復(fù)雜,它們所需的分析方法也各不相同,具體主要取決于視頻的性質(zhì)。例如,2020年一段針對朝鮮領(lǐng)導(dǎo)人的惡搞深度偽造視頻曾風(fēng)靡全球。對此,最有效的檢測方法是分析其嘴部動作(visemes)和語音(phonemes),進而找出不一致之處。
為了方便人類專家、普通用戶、以及AI算法進行分析,麻省理工學(xué)院(MIT)定義了八條可以用來協(xié)助識別深度偽造視頻的建議:
- 注意面部。高端的深度偽造幾乎都是從面部改造開始的。
- 注意臉頰和前額。皮膚是否看起來太光滑或太褶皺?皮膚的老化程度是否與頭發(fā)和眼睛的老化程度相似?深度偽造的人面可能會在某些方面顯得不協(xié)調(diào)。
- 注意眼睛和眉毛。陰影是否出現(xiàn)在您期望看到的位置?畢竟深度偽造可能無法完全表現(xiàn)出自然場景的物理特性。
- 注意眼鏡。是否有眩光點?眩光點是否太強?人物移動時,眩光點的角度是否會發(fā)生變化?同樣,深度偽造可能無法完全表現(xiàn)自然照明的物理特性。
- 注意面部毛發(fā)是否真實。人物的面部毛發(fā)看起來真實嗎?深度偽造可能會添加或去除胡子、鬢角、以及胡須等毛發(fā),進而導(dǎo)致面部毛發(fā)的變化不那么自然。
- 注意面部的痣。臉上的痣看起來真實嗎?
- 注意眨眼。眨眼次數(shù)是過少還是過頻?
- 注意嘴唇的動作。那些基于嘴唇同步的深度偽造是否能夠使得嘴唇的動作看起來自然?
其實,最新的人工智能深度防偽檢測工具也無非是綜合分析了上述因素,只不過不同產(chǎn)品的成功率各不相同罷了。當(dāng)然,數(shù)據(jù)科學(xué)家們也在不斷開發(fā)新的方法,例如:檢測屏幕上發(fā)言者面部的血液自然流動。而這些新的方法顯然是人類專家無法一眼識別,或者至少沒有注意到的地方。
檢測深度偽造中的音頻線索
相對前面提到的視覺線索,深度偽造的音頻檢測完全是另一個領(lǐng)域的挑戰(zhàn)。除了由視頻提供的視覺線索,深度偽造檢測在很大程度上也需要依賴于音頻分析。當(dāng)然,在某些情況下,元數(shù)據(jù)驗證(Metadata Verification)等其他方法也能提供相關(guān)幫助。
倫敦大學(xué)學(xué)院于2023年發(fā)表的一項研究發(fā)現(xiàn):人類專家檢測出針對英語和普通話的深度偽造語音的準確率可以達到73%。與深層偽造的視頻類似,人類專家往往能夠憑借直覺,來檢測在人工智能生成的語音中,那些不自然的語音模式,縱然他們可能根本無法清晰地說明,到底是哪些地方聽起來不對勁。下面是我為您總結(jié)了最為常見音頻跡象與線索:
- 口齒不清
- 缺乏順暢的表達
- 背景或干擾噪音
- 聲音或語言不一致
- 聲音缺乏“飽和”感
- 過度腳本化的交付形式
- 看似沒有瑕疵(包括:假動作、用詞糾正、清嗓子等)
同樣,各種算法也可以基于上述方面,有效地分析語音的深度偽造信號。USENIX的一份研究發(fā)現(xiàn):人工智能聲道的重建,是無法模擬自然語音模式的。該研究總結(jié)道:由人工智能語音生成器生成的音頻只能與狹窄的聲道(大致相當(dāng)于一根飲用水吸管的大?。┫嗥ヅ?,卻沒有人類語音的自然動作。同時,霍斯特-戈爾茨研究所(Horst G?rtz Institute)在早前的研究中,也分析了英語和日語中混雜的真假音頻,并揭示了真假語音在高頻率上的細微差別。
雖然人類專家和人工智能檢測模型都可以察覺到聲帶和高頻上的不一致,但是就高頻差異而言,人工智能模型的準確度在理論上會越來越高。
人類和算法都會被深度偽造所迷惑,只是方式各不相同
有研究表明,根據(jù)測試參數(shù)的不同,人類和最新的人工智能檢測工具的識別準確率,通常是在50%到90%之間。也就是說,人類和機器也可能會被深度偽造所欺騙,主要區(qū)別只是易受干擾的方式有所不同。例如,麻省理工學(xué)院(MIT)的研究發(fā)現(xiàn),由于認知的不同,人類比人工智能模型更善于識別各國領(lǐng)導(dǎo)人和名人的深度偽造圖像。該研究也發(fā)現(xiàn),在處理有多人出現(xiàn)的鏡頭場景時,人工智能模型明顯不及人類。究其根源,該研究認為,這可能是由于算法往往是在以單個發(fā)言人鏡頭為基礎(chǔ)特征被訓(xùn)練出來的緣故。
相反,同一項研究還發(fā)現(xiàn),人工智能模型在處理可能被故意用來欺騙人類觀眾的低質(zhì)量鏡頭(如:模糊、顆粒狀、環(huán)境暗淡等)時,其表現(xiàn)優(yōu)于人類。同樣,上文提到的最新的人工智能檢測方法,也能夠監(jiān)測特定面部區(qū)域的血流狀況。這可能是人類所不具備的分析能力。
小結(jié)
如您所見,隨著人工智能深度偽造檢測工具的不斷迭代,深度偽造內(nèi)容本身的質(zhì)量也將不斷提升。在某些極端的場景中,一旦人工智能的欺騙能力超過了我們現(xiàn)在所掌握的對其檢測的能力,那么可能就只剩下人類的判斷力,可以作為我們對抗深度偽造的唯一工具了。
如今,我們每個人都有責(zé)任了解虛假信息的跡象,以及該如何識別它們。除了保護自己免受AI詐騙和安全威脅之外,我們也有義務(wù)在網(wǎng)上討論和分享自己對于虛假信息的洞察與發(fā)現(xiàn)。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項目實施經(jīng)驗,善于對內(nèi)外部資源與風(fēng)險實施管控,專注傳播網(wǎng)絡(luò)與信息安全知識與經(jīng)驗。
原文標題:Who Detects Deepfakes Better: Man or Machine?,作者:AARON BROOKS