谷歌DeepMind最新研究:對(duì)抗性攻擊對(duì)人類也有效,人類和AI都會(huì)把花瓶認(rèn)成貓!
人類的神經(jīng)網(wǎng)絡(luò)(大腦)和人工神經(jīng)網(wǎng)絡(luò)(ANN)的關(guān)系是什么?
有位老師曾經(jīng)這樣比喻:就像是老鼠和米老鼠的關(guān)系。
現(xiàn)實(shí)中的神經(jīng)網(wǎng)絡(luò)功能強(qiáng)大,但與人類的感知、學(xué)習(xí)和理解方式完全不同。
比如ANN表現(xiàn)出人類感知中通常沒有的脆弱性,它們?nèi)菀资艿綄?duì)抗性擾動(dòng)的影響。
一個(gè)圖像,可能只需修改幾個(gè)像素點(diǎn)的值,或者添加一些噪聲數(shù)據(jù),
從人類的角度,觀察不到區(qū)別,而對(duì)于圖像分類網(wǎng)絡(luò),就會(huì)識(shí)別成完全無關(guān)的類別。
不過,谷歌DeepMind的最新研究表明,我們之前的這種看法可能是錯(cuò)誤的!
即使是數(shù)字圖像的細(xì)微變化也會(huì)影響人類的感知。
換句話說,人類的判斷也會(huì)受到這種對(duì)抗性擾動(dòng)的影響。

論文地址:https://www.nature.com/articles/s41467-023-40499-0
谷歌DeepMind的這篇文章發(fā)表在《自然通訊》(Nature Communications)。
論文探索了人類是否也可能在受控測(cè)試條件下,表現(xiàn)出對(duì)相同擾動(dòng)的敏感性。
通過一系列實(shí)驗(yàn),研究人員證明了這一點(diǎn)。
同時(shí),這也顯示了人類和機(jī)器視覺之間的相似性。
對(duì)抗性圖像
對(duì)抗性圖像是指對(duì)圖像進(jìn)行微妙的更改,從而導(dǎo)致AI模型對(duì)圖像內(nèi)容進(jìn)行錯(cuò)誤分類,——這種故意欺騙被稱為對(duì)抗性打擊。
例如,攻擊可以有針對(duì)性地使AI模型將花瓶歸類為貓,或者是除花瓶之外的任何東西。

上圖展示了對(duì)抗性攻擊的過程(為了便于人類觀察,中間的隨機(jī)擾動(dòng)做了一些夸張)。
在數(shù)字圖像中,RGB圖像中的每個(gè)像素的取值在0-255之間(8位深度時(shí)),數(shù)值表示單個(gè)像素的強(qiáng)度。
而對(duì)于對(duì)抗攻擊來說,對(duì)于像素值的改變?cè)诤苄〉姆秶鷥?nèi),就可能達(dá)到攻擊效果。
在現(xiàn)實(shí)世界中,對(duì)物理對(duì)象的對(duì)抗性攻擊也可能成功,例如導(dǎo)致停車標(biāo)志被誤識(shí)別為限速標(biāo)志。
所以,出于安全考慮,研究人員已經(jīng)在研究抵御對(duì)抗性攻擊和降低其風(fēng)險(xiǎn)的方法。
對(duì)抗性影響人類感知
先前的研究表明,人們可能對(duì)提供清晰形狀線索的大幅度圖像擾動(dòng)很敏感。
然而,更細(xì)致的對(duì)抗性攻擊對(duì)人類有何影響?人們是否將圖像中的擾動(dòng)視為無害的隨機(jī)圖像噪聲,它會(huì)影響人類的感知嗎?
為了找到答案,研究人員進(jìn)行了受控行為實(shí)驗(yàn)。
首先拍攝一系列原始圖像,并對(duì)每張圖像進(jìn)行了兩次對(duì)抗性攻擊,以產(chǎn)生多對(duì)擾動(dòng)圖像。
在下面的動(dòng)畫示例中,原始圖像被模型歸類為「花瓶」。
而由于對(duì)抗性攻擊,模型以高置信度將受到干擾的兩幅圖像進(jìn)行錯(cuò)誤分類,分別為「貓」和「卡車」。

接下來,向人類參與者展示這兩張圖片,并提出了一個(gè)有針對(duì)性的問題:哪張圖片更像貓?
雖然這兩張照片看起來都不像貓,但他們不得不做出選擇。
通常,受試者認(rèn)為自己隨意做出了選擇,但事實(shí)果真如此嗎?
如果大腦對(duì)微妙的對(duì)抗性攻擊不敏感,則受試者選擇每張圖片的概率為50%。
然而實(shí)驗(yàn)發(fā)現(xiàn),選擇率(即人的感知偏差)要實(shí)實(shí)在在的高于偶然性(50%),而且實(shí)際上圖片像素的調(diào)整是很少的。
從參與者的角度來看,感覺就像他們被要求區(qū)分兩個(gè)幾乎相同的圖像。然而,之前的研究表明,人們?cè)谧龀鲞x擇時(shí)會(huì)利用微弱的感知信號(hào),——盡管這些信號(hào)太弱而無法表達(dá)信心或意識(shí)。
在這個(gè)的例子中,我們可能會(huì)看到一個(gè)花瓶,但大腦中的一些活動(dòng)告訴我們,它有貓的影子。

上圖展示了成對(duì)的對(duì)抗圖像。最上面的一對(duì)圖像受到微妙的擾動(dòng),最大幅度為2個(gè)像素,導(dǎo)致神經(jīng)網(wǎng)絡(luò)將它們分別錯(cuò)誤地分類為「卡車」和「貓」。(志愿者被問到「哪個(gè)更像貓?」)
下邊的一對(duì)圖像擾動(dòng)更明顯,最大幅度為16像素,被神經(jīng)網(wǎng)絡(luò)錯(cuò)誤地歸類為「椅子」和「羊」。(這次的問題是「哪個(gè)更像綿羊?」)
在每個(gè)實(shí)驗(yàn)中,參與者在一半以上的時(shí)間里可靠地選擇了與目標(biāo)問題相對(duì)應(yīng)的對(duì)抗圖像。雖然人類視覺不像機(jī)器視覺那樣容易受到對(duì)抗性擾動(dòng)的影響,但這些擾動(dòng)仍然會(huì)使人類偏向于機(jī)器做出的決定。
如果人類的感知可能會(huì)受到對(duì)抗性圖像的影響,那么這將是一個(gè)全新的但很關(guān)鍵的安全問題。
這需要我們深入研究探索人工智能視覺系統(tǒng)行為和人類感知的異同,并構(gòu)建更安全的人工智能系統(tǒng)。
論文細(xì)節(jié)
生成對(duì)抗性擾動(dòng)的標(biāo)準(zhǔn)程序從預(yù)訓(xùn)練的ANN分類器開始,該分類器將RGB圖像映射到一組固定類上的概率分布。
對(duì)圖像的任何更改(例如增加特定像素的紅色強(qiáng)度)都會(huì)對(duì)輸出概率分布產(chǎn)生輕微變化。
對(duì)抗性圖像通過搜索(梯度下降)來獲得原始圖像的擾動(dòng),該擾動(dòng)導(dǎo)致 ANN 降低分配給正確類別的概率(非針對(duì)性攻擊)或?qū)⒏吒怕史峙浣o某些指定的替代類別(針對(duì)性攻擊)。
為了確保擾動(dòng)不會(huì)偏離原始圖像太遠(yuǎn),在對(duì)抗性機(jī)器學(xué)習(xí)文獻(xiàn)中經(jīng)常應(yīng)用L (∞) 范數(shù)約束,指定任何像素都不能偏離其原始值超過±ε,ε通常遠(yuǎn)小于 [0–255] 像素強(qiáng)度范圍。
該約束適用于每個(gè)RGB顏色平面中的像素。雖然這種限制并不能阻止個(gè)體檢測(cè)到圖像的變化,但通過適當(dāng)選擇ε,在受擾動(dòng)的圖像中指示原始圖像類別的主要信號(hào)大多完好無損。
實(shí)驗(yàn)
在最初的實(shí)驗(yàn)中,作者研究了人類對(duì)短暫、遮蔽的對(duì)抗性圖像的分類反應(yīng)。
通過限制暴露時(shí)間來增加分類錯(cuò)誤,該實(shí)驗(yàn)旨在提高個(gè)體對(duì)刺激物某些方面的敏感度,否則這些刺激物可能不會(huì)影響分類決策。
對(duì)真實(shí)類別T的圖像進(jìn)行了對(duì)抗性擾動(dòng),通過對(duì)擾動(dòng)進(jìn)行優(yōu)化,使ANN傾向于將圖像錯(cuò)誤分類為A。參與者被要求在T和A之間做出強(qiáng)制選擇。

研究人員還在對(duì)照?qǐng)D像上對(duì)參與者進(jìn)行了測(cè)試,對(duì)照?qǐng)D像是通過自上而下翻轉(zhuǎn)在A條件下獲得的對(duì)抗性擾動(dòng)圖像形成的。
這種簡(jiǎn)單的轉(zhuǎn)換打破了對(duì)抗性擾動(dòng)與圖像之間像素到像素的對(duì)應(yīng)關(guān)系,在很大程度上消除了對(duì)抗性擾動(dòng)對(duì)ANN的影響,同時(shí)保留了擾動(dòng)的規(guī)范和其他統(tǒng)計(jì)數(shù)據(jù)。
結(jié)果表明,與對(duì)照組圖像相比,參與者更有可能將擾動(dòng)圖像判斷為A類別。
上面的實(shí)驗(yàn)1使用了簡(jiǎn)短的遮蔽演示,以限制原始圖像類別(主要信號(hào))對(duì)反應(yīng)的影響,從而揭示對(duì)對(duì)抗性擾動(dòng)(從屬信號(hào))的敏感性。
研究人員還設(shè)計(jì)了另外三個(gè)具有相同目標(biāo)的實(shí)驗(yàn),但避免了大范圍擾動(dòng)和有限曝光觀看的需要。
在這些實(shí)驗(yàn)中,圖像中的主要信號(hào)不能系統(tǒng)地引導(dǎo)反應(yīng)選擇,從而使從屬信號(hào)的影響得以顯現(xiàn)。

在每個(gè)實(shí)驗(yàn)中,都會(huì)出現(xiàn)一對(duì)幾乎相同的未遮蔽刺激物,并且在選擇反應(yīng)之前一直保持可見。這對(duì)刺激物具有相同的主導(dǎo)信號(hào),它們都是對(duì)同一底層圖像的調(diào)制,但具有不同的從屬信號(hào)。參與者需要選擇更像目標(biāo)類別實(shí)例的圖像。
在實(shí)驗(yàn)2中,兩個(gè)刺激物都是屬于T類的圖像,其中一個(gè)經(jīng)過擾動(dòng),ANN預(yù)測(cè)它更像T類,另一個(gè)經(jīng)過擾動(dòng),被預(yù)測(cè)為更不像T類。
在實(shí)驗(yàn)3中,刺激物是一幅屬于真實(shí)類別T的圖像,其中一幅被擾動(dòng)以改變ANN的分類,使其向目標(biāo)對(duì)抗類別A靠攏,另一幅則使用相同的擾動(dòng),但左右翻轉(zhuǎn)作為對(duì)照條件。
這種對(duì)照的作用是保留擾動(dòng)的規(guī)范和其他統(tǒng)計(jì)量,但比實(shí)驗(yàn)1中的對(duì)照更為保守,因?yàn)閳D像的左右兩邊可能比圖像的上下部分具有更相似的統(tǒng)計(jì)量。
實(shí)驗(yàn)4中的一對(duì)圖像也是對(duì)真實(shí)類別T的調(diào)制,一個(gè)被擾動(dòng)得更像A類,一個(gè)更像第三類。試驗(yàn)交替要求參與者選擇更像A的圖像,或者更像第三類的圖像。
在實(shí)驗(yàn)2-4中,每張圖像的人類感知偏差與ANN的偏差顯著正相關(guān)。擾動(dòng)幅度從2到16不等,小于以前對(duì)人類參與者研究的擾動(dòng),并且與對(duì)抗性機(jī)器學(xué)習(xí)研究中使用的擾動(dòng)相似。
令人驚訝的是,即使是2個(gè)像素強(qiáng)度水平的擾動(dòng)也足以可靠地影響人類感知。

實(shí)驗(yàn)2的優(yōu)勢(shì)在于要求參與者做出直覺判斷(例如,兩張被擾動(dòng)的貓圖像中哪一個(gè)更像貓);
然而,實(shí)驗(yàn)2允許對(duì)抗性擾動(dòng)僅通過銳化或模糊圖像,即可使圖像或多或少像貓一樣。
實(shí)驗(yàn)3的優(yōu)勢(shì)在于,匹配了所比較的擾動(dòng)的所有統(tǒng)計(jì)數(shù)據(jù),而不僅僅是擾動(dòng)的最大幅度。
但是,匹配擾動(dòng)統(tǒng)計(jì)并不能確保擾動(dòng)在添加到圖像中時(shí)同樣可感知,因此,參與者可能根據(jù)圖像失真進(jìn)行選擇。
實(shí)驗(yàn)4的優(yōu)勢(shì)在于,它證明了參與者對(duì)被問的問題很敏感,因?yàn)橄嗤膱D像對(duì)會(huì)根據(jù)提出的問題產(chǎn)生系統(tǒng)性不同的回答。
然而,實(shí)驗(yàn)4要求參與者回答一個(gè)看似荒謬的問題(例如,兩個(gè)煎蛋卷圖像中的哪一個(gè)看起來更像貓?),導(dǎo)致問題解釋方式的可變性。
綜上所述,實(shí)驗(yàn)2-4提供了趨于一致的證據(jù),表明即使擾動(dòng)幅度非常小,且觀看時(shí)間不受限制,對(duì)人工智能網(wǎng)絡(luò)產(chǎn)生強(qiáng)烈影響的從屬對(duì)抗信號(hào),也會(huì)在相同方向上影響人類的感知和判斷。
此外,延長(zhǎng)觀察時(shí)間(自然感知的環(huán)境),是對(duì)抗性擾動(dòng)產(chǎn)生實(shí)際后果的關(guān)鍵。


































