偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理攻擊?

人工智能 無(wú)人駕駛 智能汽車(chē)
對(duì)抗性攻擊的概念首先由 Goodfellow 等人提出 [6],近年來(lái),這一問(wèn)題引起了越來(lái)越多研究人員的關(guān)注,對(duì)抗性攻擊的方法也逐漸從算法領(lǐng)域進(jìn)入到物理世界,出現(xiàn)了物理對(duì)抗性攻擊。

 

對(duì)抗性攻擊的概念首先由 Goodfellow 等人提出 [6],近年來(lái),這一問(wèn)題引起了越來(lái)越多研究人員的關(guān)注,對(duì)抗性攻擊的方法也逐漸從算法領(lǐng)域進(jìn)入到物理世界,出現(xiàn)了物理對(duì)抗性攻擊。文獻(xiàn)[1] 中首次提出了利用掩模方法將對(duì)抗性擾動(dòng)集中到一個(gè)小區(qū)域,并對(duì)帶有涂鴉的真實(shí)交通標(biāo)志實(shí)施物理攻擊。與基于噪聲的對(duì)抗性攻擊相比,物理攻擊降低了攻擊難度,進(jìn)一步損害了深度學(xué)習(xí)技術(shù)的實(shí)用性和可靠性。

我們都知道,深度學(xué)習(xí)系統(tǒng)在計(jì)算機(jī)視覺(jué)、語(yǔ)音等多媒體任務(wù)上都取得了非常好的效果,在一些應(yīng)用場(chǎng)景中甚至獲得了可以與人類(lèi)相媲美的性能?;谶@些成功的研究基礎(chǔ),越來(lái)越多的深度學(xué)習(xí)系統(tǒng)被應(yīng)用于汽車(chē)、無(wú)人機(jī)和機(jī)器人等物理系統(tǒng)的控制。但是,隨著物理攻擊方法的出現(xiàn),這些對(duì)視覺(jué)、語(yǔ)音等多媒體信息輸入進(jìn)行的篡改會(huì)導(dǎo)致系統(tǒng)出現(xiàn)錯(cuò)誤行為,進(jìn)而造成嚴(yán)重的后果。本文重點(diǎn)關(guān)注的就是針對(duì)多媒體領(lǐng)域的深度學(xué)習(xí)系統(tǒng)的物理攻擊問(wèn)題。

以 [1] 中給出的針對(duì)視覺(jué)領(lǐng)域的攻擊為例,通過(guò)向輸入數(shù)據(jù)注入特定的擾動(dòng),對(duì)抗性攻擊可以誤導(dǎo)深度學(xué)習(xí)系統(tǒng)的識(shí)別結(jié)果。通過(guò)物理攻擊性方法,對(duì)抗性擾動(dòng)可以集中到一個(gè)小區(qū)域并附著在真實(shí)物體上,這很容易威脅到物理世界中的深度學(xué)習(xí)識(shí)別系統(tǒng)。圖 1 給出一個(gè)應(yīng)對(duì)物理攻擊的實(shí)際案例。圖 1 中左圖顯示了一個(gè)關(guān)于交通標(biāo)志檢測(cè)的物理對(duì)抗樣本。當(dāng)在原始停車(chē)標(biāo)志上附加一個(gè)對(duì)抗補(bǔ)丁時(shí),交通標(biāo)志檢測(cè)系統(tǒng)將被誤導(dǎo)輸出限速標(biāo)志的錯(cuò)誤識(shí)別結(jié)果。圖 1 右圖展示了交通標(biāo)志對(duì)抗性攻擊的自我驗(yàn)證過(guò)程。對(duì)于每張輸入圖像,經(jīng)過(guò)一次 CNN 推理后,驗(yàn)證階段將定位重要的激活源(綠圈),并根據(jù)預(yù)測(cè)結(jié)果計(jì)算出輸入語(yǔ)義與預(yù)期語(yǔ)義模式的不一致性(右圈)。一旦不一致性超過(guò)預(yù)定的閾值,CNN 將進(jìn)行數(shù)據(jù)恢復(fù)過(guò)程以恢復(fù)輸入圖像。關(guān)于這一過(guò)程,我們會(huì)在后面詳細(xì)解釋。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 1. 交通標(biāo)志的物理對(duì)抗性攻擊[2]

圖 2 給出一個(gè)典型的音頻識(shí)別過(guò)程和相應(yīng)的物理對(duì)抗性攻擊。首先,提取音頻波形的梅爾倒譜系數(shù) MeI-Freguency CeptraI Coefficients (MFCC) 特征。然后利用 CNN 來(lái)實(shí)現(xiàn)聲學(xué)特征識(shí)別,從而獲得候選音素。最后,應(yīng)用詞庫(kù)和語(yǔ)言模型得到識(shí)別結(jié)果 "open"。將對(duì)抗性噪聲注入到原始輸入波形中時(shí),最終的識(shí)別結(jié)果會(huì)被誤導(dǎo)為 "close"。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 2. 音頻識(shí)別和物理對(duì)抗性攻擊過(guò)程

我們?cè)谶@篇文章中結(jié)合三篇最新的論文具體討論計(jì)算機(jī)視覺(jué)領(lǐng)域中的物理攻擊及檢測(cè)方法,包括視覺(jué)領(lǐng)域和音頻領(lǐng)域。首先,我們介紹 Kevin Eykholt 等在 CVPR 2018 上發(fā)表的關(guān)于生成魯棒物理攻擊的工作,其主要目的是生成對(duì)觀察攝像機(jī)的距離和角度的巨大變化具有很強(qiáng)的適應(yīng)性的物理擾動(dòng)攻擊。然后,第二篇論文提出了一個(gè)針對(duì)圖像和音頻識(shí)別應(yīng)用的物理對(duì)抗性攻擊的 CNN 防御方法。最后,第三篇文章聚焦于圖像的局部物理攻擊問(wèn)題,即將對(duì)手區(qū)域限制在圖像的一小部分,例如 “對(duì)手補(bǔ)丁” 攻擊:

  • Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018
  • LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,ASP-DAC 2020
  • Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. PrePrint 2020. https://arxiv.org/abs/1812.00292

1、針對(duì)深度學(xué)習(xí)視覺(jué)分類(lèi)任務(wù)的魯棒物理攻擊[1]

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

這篇文章重點(diǎn)關(guān)注的是如何對(duì)計(jì)算機(jī)視覺(jué)任務(wù)的深度學(xué)習(xí)方法進(jìn)行魯棒的物理攻擊,是從攻擊角度進(jìn)行的分析。作者具體選擇了道路標(biāo)志分類(lèi)作為目標(biāo)研究領(lǐng)域。

生成魯棒的物理攻擊所面臨的的主要挑戰(zhàn)是環(huán)境變異性。對(duì)于本文選擇的應(yīng)用領(lǐng)域,動(dòng)態(tài)環(huán)境變化具體是指觀察攝像機(jī)的距離和角度。此外,生成物理攻擊還存在其他實(shí)用性的挑戰(zhàn):(1) 數(shù)字世界的擾動(dòng)幅度可能非常小,由于傳感器的不完善,相機(jī)很可能無(wú)法感知它們。(2)構(gòu)建能夠修改背景的魯棒性攻擊是非常困難的,因?yàn)檎鎸?shí)的物體取決于視角的不同可以有不同的背景。(3)具體制造攻擊的過(guò)程(如擾動(dòng)的打印)是不完善的。在上述挑戰(zhàn)的啟發(fā)下,本文提出了 Robust Physical Perturbations(RP2)--- 一種可以產(chǎn)生對(duì)觀察攝像機(jī)的廣泛變化的距離和角度魯棒的擾動(dòng)方法。本文目標(biāo)是從攻擊角度進(jìn)行研究,探討是否能夠針對(duì)現(xiàn)實(shí)世界中的物體創(chuàng)建強(qiáng)大的物理擾動(dòng),使得即使是在一系列不同的物理?xiàng)l件下拍攝的圖像,也會(huì)誤導(dǎo)分類(lèi)器做出錯(cuò)誤的預(yù)測(cè)。

1.1 物理世界的挑戰(zhàn)

對(duì)物體的物理攻擊必須能夠在不斷變化的條件下存在,并能有效地欺騙分類(lèi)器。本文具體圍繞所選擇的道路標(biāo)志分類(lèi)的例子來(lái)討論這些條件。本文的研究?jī)?nèi)容可以應(yīng)用于自動(dòng)駕駛汽車(chē)和其他安全敏感領(lǐng)域,而本文分析的這些條件的子集也可以適用于其他類(lèi)型的物理學(xué)習(xí)系統(tǒng),例如無(wú)人機(jī)和機(jī)器人。

為了成功地對(duì)深度學(xué)習(xí)分類(lèi)器進(jìn)行物理攻擊,攻擊者應(yīng)該考慮到下述幾類(lèi)可能會(huì)降低擾動(dòng)效果的物理世界變化。

環(huán)境條件。自主車(chē)輛上的攝像頭與路標(biāo)的距離和角度不斷變化。獲取到的被送入分類(lèi)器的圖像是在不同的距離和角度拍攝的。因此,攻擊者在路標(biāo)上添加的任何擾動(dòng)都必須能夠抵抗圖像的這些轉(zhuǎn)換。除角度和距離外,其他環(huán)境因素還包括照明 / 天氣條件的變化以及相機(jī)上或路標(biāo)上存在的碎片。

空間限制。目前專注于數(shù)字圖像的算法會(huì)將對(duì)抗性擾動(dòng)添加到圖像的所有部分,包括背景圖像。然而,對(duì)于實(shí)體路牌,攻擊者并不能操縱背景圖像。此外,攻擊者也不能指望有一個(gè)固定的背景圖像,因?yàn)楸尘皥D像會(huì)根據(jù)觀看攝像機(jī)的距離和角度而變化。

不易察覺(jué)性的物理限制。目前對(duì)抗性深度學(xué)習(xí)算法的一個(gè)優(yōu)點(diǎn)是,它們對(duì)數(shù)字圖像的擾動(dòng)往往非常小,以至于人類(lèi)觀察者幾乎無(wú)法察覺(jué)。然而,當(dāng)把這種微小的擾動(dòng)遷移到現(xiàn)實(shí)世界時(shí),我們必須確保攝像機(jī)能夠感知這些擾動(dòng)。因此,對(duì)不可察覺(jué)的擾動(dòng)是有物理限制的,并且取決于傳感硬件。

制造誤差。為了實(shí)際制造出計(jì)算得到的擾動(dòng),所有的擾動(dòng)值都必須是可以在現(xiàn)實(shí)世界中復(fù)制實(shí)現(xiàn)的。此外,即使一個(gè)制造設(shè)備,如打印機(jī),確實(shí)能夠產(chǎn)生某些顏色,但也會(huì)有一些復(fù)制誤差。

1.2 生成魯棒的物理擾動(dòng)

作者首先分析不考慮其它物理?xiàng)l件的情況下生成單一圖像擾動(dòng)的優(yōu)化方法,然后再考慮在出現(xiàn)上述物理世界挑戰(zhàn)的情況下如何改進(jìn)算法以生成魯棒的物理擾動(dòng)。

單一圖像優(yōu)化問(wèn)題表述為:在輸入 x 中加入擾動(dòng)δ,使擾動(dòng)后的實(shí)例 x’=x+δ能夠被目標(biāo)分類(lèi)器 f_θ(·)錯(cuò)誤分類(lèi):

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,H 為選定的距離函數(shù),y * 為目標(biāo)類(lèi)別。為了有效解決上述約束性優(yōu)化問(wèn)題,作者利用拉格朗日松弛形式重新表述上式:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,J(·,·)為損失函數(shù),其作用是衡量模型的預(yù)測(cè)和目標(biāo)類(lèi)別標(biāo)簽 y * 之間的差異。λ為超參數(shù),用于控制失真的正則化水平。作者將距離函數(shù) H 表征為 ||δ||_p,即δ的 Lp 范數(shù)。

接下來(lái),作者具體討論如何修改目標(biāo)函數(shù)以考慮物理環(huán)境條件的影響。首先,對(duì)包含目標(biāo)對(duì)象 o 的圖像在物理和數(shù)字變換下的分布進(jìn)行建模 X^V 。我們從 X^V 中抽出不同的實(shí)例 x_i。一個(gè)物理擾動(dòng)只能添加到 x_i 中的特定對(duì)象 o。具體到路標(biāo)分類(lèi)任務(wù)中,我們計(jì)劃控制的對(duì)象 o 是停車(chē)標(biāo)志。

為了更好地捕捉變化的物理?xiàng)l件的影響,作者通過(guò)生成包含實(shí)際物理?xiàng)l件變化的實(shí)驗(yàn)數(shù)據(jù)以及合成轉(zhuǎn)換,從 X^V 中對(duì)實(shí)例 x_i 進(jìn)行采樣。圖 3 中給出了以道路標(biāo)識(shí)為例的魯棒物理攻擊(Robust Physical Perturbations ,RP2)過(guò)程示例。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 3. RP2 示例。輸入一個(gè)目標(biāo)停止標(biāo)志。RP2 從一個(gè)模擬物理動(dòng)態(tài)的分布中取樣(在本例中是不同的距離和角度),并使用一個(gè)掩模將計(jì)算出的擾動(dòng)投射到一個(gè)類(lèi)似于涂鴉的形狀上。攻擊者打印出所產(chǎn)生的擾動(dòng),并將其貼在目標(biāo)停止標(biāo)志上。

本文所討論的道路標(biāo)志的物理?xiàng)l件涉及在各種條件下拍攝道路標(biāo)志的圖像,如改變距離、角度和光照等。而對(duì)于合成轉(zhuǎn)換,作者隨機(jī)裁剪圖像中的物體,改變其亮度,并增加空間變換以模擬其他可能的條件。為了確保擾動(dòng)只適用于目標(biāo)對(duì)象的表面區(qū)域 o(考慮到空間限制和對(duì)不可知性的物理限制),作者引入了一個(gè)掩模。該掩模的作用是將計(jì)算出的擾動(dòng)投射到物體表面的一個(gè)物理區(qū)域(如路標(biāo))。除了實(shí)現(xiàn)空間定位外,掩模還有助于生成對(duì)人類(lèi)觀察者來(lái)說(shuō)可見(jiàn)但不明顯的擾動(dòng)。為了做到這一點(diǎn),攻擊者可以將掩模塑造得像一個(gè)涂鴉—- 一種在大街上很常見(jiàn)的破壞行為。從形式上看,將擾動(dòng)掩模表征為一個(gè)矩陣 M_x,其尺寸與路標(biāo)分類(lèi)器的輸入尺寸相同。M_x 在沒(méi)有添加擾動(dòng)的區(qū)域?yàn)?ldquo;0”,在優(yōu)化期間添加擾動(dòng)的區(qū)域中為“1”。作者表示,在他們進(jìn)行實(shí)驗(yàn)的過(guò)程中發(fā)現(xiàn)掩模的位置對(duì)攻擊的有效性是有影響的。因此,作者假設(shè),從分類(lèi)的角度來(lái)看物體的物理特征有強(qiáng)有弱,因此,可以將掩模定位在攻擊薄弱的地方。具體來(lái)說(shuō),作者使用下述方法來(lái)發(fā)現(xiàn)掩模位置。(1) 使用 L1 正則化計(jì)算擾動(dòng),并使用占據(jù)整個(gè)道路標(biāo)志表面區(qū)域的掩模。L1 使優(yōu)化器傾向于稀疏的擾動(dòng)向量,因此將擾動(dòng)集中在最脆弱的區(qū)域。對(duì)所產(chǎn)生的擾動(dòng)進(jìn)行可視化處理,為掩模的放置位置提供指導(dǎo)。(2) 使用 L2 重新計(jì)算擾動(dòng),并將掩模定位在先前步驟中確定的脆弱區(qū)域上。

考慮到在實(shí)際應(yīng)用中會(huì)存在制造誤差,作者在目標(biāo)函數(shù)中增加了一個(gè)額外的項(xiàng),該項(xiàng)用來(lái)模擬打印機(jī)的顏色復(fù)制誤差。給定一組可打印的顏色(RGB 三元組)P 和一組在擾動(dòng)中使用的、需要在物理世界中打印出來(lái)的(唯一的)RGB 三元組 R(δ),利用下式計(jì)算不可打印性得分 non-printability score (NPS):

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

基于上述討論,本文最終的魯棒空間約束擾動(dòng)優(yōu)化為:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

這里我們用函數(shù) T_i( )來(lái)表示對(duì)齊函數(shù),它將物體上的變換映射到擾動(dòng)的變換上。

最后,攻擊者打印出優(yōu)化結(jié)果,剪下擾動(dòng)(M_x),并將其放到目標(biāo)對(duì)象 o 上。

1.3 實(shí)驗(yàn)分析

實(shí)驗(yàn)構(gòu)建了兩個(gè)用于路標(biāo)分類(lèi)的分類(lèi)器,執(zhí)行的是標(biāo)準(zhǔn)的裁剪 - 重新確定大小 - 分類(lèi)的任務(wù)流程。第一個(gè)分類(lèi)器 LISA-CNN 對(duì)應(yīng)的實(shí)驗(yàn)訓(xùn)練圖像來(lái)自于 LISA,一個(gè)包含 47 個(gè)不同道路標(biāo)志的美國(guó)交通標(biāo)志數(shù)據(jù)集。不過(guò),這個(gè)數(shù)據(jù)集并不平衡,導(dǎo)致不同標(biāo)志的表述有很大差異。為了應(yīng)對(duì)這個(gè)問(wèn)題,作者根據(jù)訓(xùn)練實(shí)例的數(shù)量,選擇了 17 個(gè)最常見(jiàn)的標(biāo)志。實(shí)驗(yàn)中使用的深度學(xué)習(xí) LISA-CNN 的架構(gòu)由三個(gè)卷積層和一個(gè) FC 層組成。它在測(cè)試集上的準(zhǔn)確度為 91%。

第二個(gè)分類(lèi)器是 GTSRB-CNN,它是在德國(guó)交通標(biāo)志識(shí)別基準(zhǔn)(GTSRB)上訓(xùn)練得到的。深度學(xué)習(xí)方法使用了一個(gè)公開(kāi)的多尺度 CNN 架構(gòu),該架構(gòu)在路標(biāo)識(shí)別方面表現(xiàn)良好。由于作者在實(shí)際實(shí)驗(yàn)中無(wú)法獲得德國(guó)的停車(chē)標(biāo)志,因此使用 LISA 中的美國(guó)停車(chē)標(biāo)志圖像替換了 GTSRB 的訓(xùn)練、驗(yàn)證和測(cè)試集中的德國(guó)停車(chē)標(biāo)志。GTSRB-CNN 在測(cè)試集上準(zhǔn)確度為 95.7%。當(dāng)在作者自己構(gòu)建的 181 個(gè)停車(chē)標(biāo)志圖像上評(píng)估 GTSRB-CNN 時(shí),它的準(zhǔn)確度為 99.4%。

作者表示,據(jù)他所知,目前還沒(méi)有評(píng)估物理對(duì)抗性擾動(dòng)的標(biāo)準(zhǔn)化方法。在本實(shí)驗(yàn)中,作者主要考慮角度和距離因素,因?yàn)樗鼈兪潜疚乃x的用例中變化最快的元素。靠近標(biāo)志的車(chē)輛上的相機(jī)以固定的時(shí)間間隔拍攝一系列圖像。這些圖像的拍攝角度和距離不同,因此可以改變?nèi)魏翁囟▓D像中的細(xì)節(jié)數(shù)量。任何成功的物理擾動(dòng)必須能夠在一定的距離和角度范圍內(nèi)引起有針對(duì)性的錯(cuò)誤分類(lèi),因?yàn)檐?chē)輛在發(fā)出控制器動(dòng)作之前,可能會(huì)對(duì)視頻中的一組幀(圖像)進(jìn)行投票確定。在該實(shí)驗(yàn)中沒(méi)有明確控制環(huán)境光線,從實(shí)驗(yàn)數(shù)據(jù)可以看出,照明從室內(nèi)照明到室外照明都有變化。本文實(shí)驗(yàn)設(shè)計(jì)借鑒物理科學(xué)的標(biāo)準(zhǔn)做法,將上述物理因素囊括在一個(gè)由受控的實(shí)驗(yàn)室測(cè)試和現(xiàn)場(chǎng)測(cè)試組成的兩階段評(píng)估中。

靜態(tài)(實(shí)驗(yàn)室)測(cè)試。主要涉及從靜止的、固定的位置對(duì)物體的圖像進(jìn)行分類(lèi)。

1. 獲得一組干凈的圖像 C 和一組在不同距離、不同角度的對(duì)抗性擾動(dòng)圖像。使用 c^(d,g)表示從距離 d 和角度 g 拍攝的圖像。攝像機(jī)的垂直高度應(yīng)保持大致不變。當(dāng)汽車(chē)轉(zhuǎn)彎、改變車(chē)道或沿著彎曲的道路行駛時(shí),攝像機(jī)相對(duì)于標(biāo)志的角度通常會(huì)發(fā)生變化。

2. 用以下公式計(jì)算物理擾動(dòng)的攻擊成功率:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,d 和 g 表示圖像的相機(jī)距離和角度,y 是地面真值,y 是目標(biāo)攻擊類(lèi)別。

注意,只有當(dāng)具有相同相機(jī)距離和角度的原始圖像 c 能夠正確分類(lèi)時(shí),引起錯(cuò)誤分類(lèi)的圖像 A(c)才被認(rèn)為是成功的攻擊,這就確保了錯(cuò)誤分類(lèi)是由添加的擾動(dòng)而不是其他因素引起的。

駕車(chē)(現(xiàn)場(chǎng))測(cè)試。作者在一個(gè)移動(dòng)的平臺(tái)上放置一個(gè)攝像頭,并在真實(shí)的駕駛速度下獲取數(shù)據(jù)。在本文實(shí)驗(yàn)中,作者使用的是一個(gè)安裝在汽車(chē)上的智能手機(jī)攝像頭。

1. 在距離標(biāo)志約 250 英尺處開(kāi)始錄制視頻。實(shí)驗(yàn)中的駕駛軌道是直的,沒(méi)有彎道。以正常的駕駛速度駛向標(biāo)志,一旦車(chē)輛通過(guò)標(biāo)志就停止記錄。實(shí)驗(yàn)中,速度在 0 英里 / 小時(shí)和 20 英里 / 小時(shí)之間變化。這模擬了人類(lèi)司機(jī)在大城市中接近標(biāo)志的情況。

2. 對(duì) "Clean" 標(biāo)志和施加了擾動(dòng)的標(biāo)志按上述方法進(jìn)行錄像,然后應(yīng)用公式計(jì)算攻擊成功率,這里的 C 代表采樣的幀。

由于性能限制,自主車(chē)輛可能不會(huì)對(duì)每一幀進(jìn)行分類(lèi),而是對(duì)每 j 個(gè)幀進(jìn)行分類(lèi),然后進(jìn)行簡(jiǎn)單的多數(shù)投票。因此,我們面臨的問(wèn)題是確定幀(j)的選擇是否會(huì)影響攻擊的準(zhǔn)確性。在本文實(shí)驗(yàn)中使用 j = 10,此外,作者還嘗試了 j=15。作者表示,這兩種取值情況下沒(méi)有觀察到攻擊成功率的任何明顯變化。作者推斷,如果這兩種類(lèi)型的測(cè)試都能產(chǎn)生較高的成功率,那么在汽車(chē)常見(jiàn)的物理?xiàng)l件下,該攻擊很可能是成功的。

1.3.1 LISA-CNN 的實(shí)驗(yàn)結(jié)果

作者通過(guò)在 LISA-CNN 上生成三種類(lèi)型的對(duì)抗性示例來(lái)評(píng)估算法的有效性(測(cè)試集上準(zhǔn)確度為 91%)。表 1 給出了實(shí)驗(yàn)中用到的靜止的攻擊圖像的樣本示例。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 1. 針對(duì) LISA-CNN 和 GTSRB-CNN 的物理對(duì)抗性樣本示例

對(duì)象受限的海報(bào)打印攻擊(Object-Constrained Poster-Printing Attacks)。實(shí)驗(yàn)室使用的是 Kurakin 等人提出的攻擊方法[4]。這兩種攻擊方法的關(guān)鍵區(qū)別在于,在本文攻擊中,擾動(dòng)被限制在標(biāo)志的表面區(qū)域,不包括背景,并且對(duì)大角度和距離的變化具有魯棒性。根據(jù)本文的評(píng)估方法,在實(shí)驗(yàn) 100% 的圖像中停車(chē)標(biāo)志都被錯(cuò)誤地歸類(lèi)為攻擊的目標(biāo)類(lèi)別(限速 45)。預(yù)測(cè)被操縱的標(biāo)志為目標(biāo)類(lèi)別的平均置信度為 80.51%(表 2 的第二列)。

貼紙攻擊(Sticker Attacks),作者還展示了通過(guò)將修改限制在類(lèi)似涂鴉或藝術(shù)效果的區(qū)域中,以貼紙的形式產(chǎn)生物理擾動(dòng)的有效性。表 1 的第四列和第五列給出了這類(lèi)圖像樣本,表 2(第四列和第六列)給出了實(shí)驗(yàn)成功率與置信度。在靜止?fàn)顟B(tài)下,涂鴉貼紙攻擊達(dá)到了 66.67% 的定向攻擊成功率,偽裝藝術(shù)效果貼紙攻擊則達(dá)到了 100% 的定向攻擊成功率。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 2. 在 LISA-CNN 上使用海報(bào)印刷的停車(chē)標(biāo)志牌(微小攻擊)和真正的停車(chē)標(biāo)志牌(偽裝的涂鴉攻擊,偽裝的藝術(shù)效果攻擊)的有針對(duì)性的物理擾動(dòng)實(shí)驗(yàn)結(jié)果。對(duì)于每幅圖像,都顯示了前兩個(gè)標(biāo)簽和它們相關(guān)的置信度值。錯(cuò)誤分類(lèi)的目標(biāo)是限速 45。圖例:SL45 = 限速 45,STP = 停車(chē),YLD = 讓步,ADL = 增加車(chē)道,SA = 前方信號(hào),LE = 車(chē)道盡頭

作者還對(duì)停車(chē)標(biāo)志的擾動(dòng)進(jìn)行了駕車(chē)測(cè)試。在基線測(cè)試中,從一輛行駛中的車(chē)輛上記錄了兩段清潔停車(chē)標(biāo)志的連續(xù)視頻,在 k = 10 時(shí)進(jìn)行幀抓取,并裁剪標(biāo)志。此時(shí),所有幀中的停止標(biāo)志都能夠正確分類(lèi)。同樣用 k=10 來(lái)測(cè)試 LISA-CNN 的擾動(dòng)。本文攻擊對(duì)海報(bào)攻擊實(shí)現(xiàn)了 100% 的目標(biāo)攻擊成功率,而對(duì)偽裝抽象藝術(shù)效果攻擊的目標(biāo)攻擊成功率為 84.8%。見(jiàn)表 3。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 3. LISA-CNN 的駕車(chē)測(cè)試總結(jié)。在基線測(cè)試中,所有的幀都被正確地分類(lèi)為停車(chē)標(biāo)志。在所有的攻擊案例中,擾動(dòng)情況與表 2 相同。手動(dòng)添加了黃色方框進(jìn)行視覺(jué)提示。

1.3.2 GTSRB-CNN 的實(shí)驗(yàn)結(jié)果

為了展示本文所提出的攻擊算法的多功能性,作者為 GTSRB-CNN 創(chuàng)建并測(cè)試了攻擊性能(測(cè)試集上準(zhǔn)確度為 95.7%)。表 1 中最后一列為樣本圖像。表 4 給出了攻擊結(jié)果—在 80% 的靜止測(cè)試條件下,本文提出的攻擊使分類(lèi)器相信停止標(biāo)志是限速 80 的標(biāo)志。根據(jù)本文評(píng)估方法,作者還進(jìn)行了駕車(chē)測(cè)試(k=10,兩個(gè)連續(xù)的視頻記錄),最終攻擊在 87.5% 的時(shí)間里成功欺騙了分類(lèi)器。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 4. 對(duì) GTSRB-CNN 的偽裝藝術(shù)效果攻擊。有針對(duì)性的攻擊成功率為 80%(真實(shí)類(lèi)別標(biāo)簽:停止,目標(biāo):限速 80)

1.3.3 Inception v3 的實(shí)驗(yàn)結(jié)果

最后,為了證明 RP2 的通用性,作者使用兩個(gè)不同的物體,一個(gè)微波爐和一個(gè)咖啡杯,計(jì)算了標(biāo)準(zhǔn) Inception-v3 分類(lèi)器的物理擾動(dòng)情況。作者選擇了貼紙攻擊方法,因?yàn)槭褂煤?bào)攻擊方法為物體打印一個(gè)全新的表面很容易引起人的懷疑。由于杯子和微波爐的尺寸比路標(biāo)小,作者減少了使用的距離范圍(例如,咖啡杯高度 - 11.2 厘米,微波爐高度 - 24 厘米,右轉(zhuǎn)標(biāo)志高度 - 45 厘米,停止標(biāo)志 - 76 厘米)。表 5 給出了對(duì)微波爐的攻擊結(jié)果,表 6 則給出了對(duì)咖啡杯的攻擊結(jié)果。對(duì)于微波爐,目標(biāo)攻擊的成功率是 90%。對(duì)于咖啡杯,目標(biāo)攻擊成功率為 71.4%,非目標(biāo)成功率為 100%。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 5. 對(duì) Inception-v3 分類(lèi)器的貼紙擾動(dòng)攻擊。原始分類(lèi)是微波,攻擊目標(biāo)是電話

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 6. 對(duì) Inception-v3 分類(lèi)器的貼紙擾動(dòng)攻擊。原始分類(lèi)是咖啡杯,攻擊目標(biāo)是提款機(jī)

1.3.4 討論

黑盒攻擊??紤]到對(duì)目標(biāo)分類(lèi)器的網(wǎng)絡(luò)結(jié)構(gòu)和模型權(quán)重的訪問(wèn),RP2 可以產(chǎn)生各種強(qiáng)大的物理擾動(dòng)來(lái)欺騙分類(lèi)器。通過(guò)研究像 RP2 這樣的白盒攻擊,我們可以分析使用最強(qiáng)攻擊者模型的成功攻擊的要求,并更好地指導(dǎo)未來(lái)的防御措施。在黑盒環(huán)境下評(píng)估 RP2 是一個(gè)開(kāi)放的問(wèn)題。

圖像裁剪和攻擊性檢測(cè)器。在評(píng)估 RP2 時(shí),作者每次在分類(lèi)前都會(huì)手動(dòng)控制每個(gè)圖像的裁剪。這樣做是為了使對(duì)抗性圖像與提供給 RP2 的清潔標(biāo)志圖像相匹配。隨后,作者評(píng)估了使用偽隨機(jī)裁剪的偽裝藝術(shù)效果攻擊,以保證至少大部分標(biāo)志在圖像中。針對(duì) LISA-CNN,我們觀察到平均目標(biāo)攻擊率為 70%,非目標(biāo)攻擊率為 90%。針對(duì) GTSRB-CNN,我們觀察到平均目標(biāo)攻擊率為 60%,非目標(biāo)攻擊率為 100%。作者在實(shí)驗(yàn)中考慮非目標(biāo)攻擊的成功率,是因?yàn)閷?dǎo)致分類(lèi)器不輸出正確的交通標(biāo)志標(biāo)簽仍然是一種安全風(fēng)險(xiǎn)。雖然圖像裁剪對(duì)目標(biāo)攻擊的成功率有一定的影響,但作者在其它工作中的研究結(jié)果表明,RP2 的改進(jìn)版可以成功地攻擊物體檢測(cè)器,在這種情況下就不需要再進(jìn)行裁剪處理了[5]。

2、LanCe: 針對(duì)嵌入式多媒體應(yīng)用的物理對(duì)抗性攻擊的全面和輕量級(jí) CNN 防御方法[2]

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

與關(guān)注 “攻擊” 的上一篇文章不同,這篇文章關(guān)注的是“防御”。本文提出了:LanCe—一種全面和輕量級(jí)的 CNN 防御方法,以應(yīng)對(duì)不同的物理對(duì)抗性攻擊。通過(guò)分析和論證 CNN 存在的漏洞,作者揭示了 CNN 的決策過(guò)程缺乏必要的 * 定性語(yǔ)義辨別能力 *(qualitative semantics distinguishing ability):輸入的非語(yǔ)義模式可以顯著激活 CNN 并壓倒輸入中的其它語(yǔ)義模式,其中,語(yǔ)義模式是指表示語(yǔ)句成分之間的語(yǔ)義關(guān)系的抽象格式,而非語(yǔ)義模式是指不包含任何語(yǔ)義關(guān)系信息的抽象格式。利用對(duì)抗性攻擊的特征不一致性,作者增加了一個(gè)自我驗(yàn)證階段來(lái)改進(jìn) CNN 的識(shí)別過(guò)程。回顧圖 1,對(duì)于每張輸入圖像,經(jīng)過(guò)一次 CNN 推理后,驗(yàn)證階段將定位重要的激活源(綠圈),并根據(jù)預(yù)測(cè)結(jié)果計(jì)算出輸入語(yǔ)義與預(yù)期語(yǔ)義模式的不一致性(右圈)。一旦不一致性值超過(guò)預(yù)定的閾值,CNN 將進(jìn)行數(shù)據(jù)恢復(fù)過(guò)程以恢復(fù)輸入圖像。我們的防御方法涉及最小的計(jì)算組件,可以擴(kuò)展到基于 CNN 的圖像和音頻識(shí)別場(chǎng)景。

2.1 對(duì)抗性攻擊分析和防御的解釋

2.1.1 CNN 漏洞解讀

解釋和假設(shè)。在一個(gè)典型的圖像或音頻識(shí)別過(guò)程中,CNN 從原始輸入數(shù)據(jù)中提取特征并得出預(yù)測(cè)結(jié)果。然而,當(dāng)向原始數(shù)據(jù)注入物理對(duì)抗性擾動(dòng)時(shí),CNN 將被誤導(dǎo)出一個(gè)錯(cuò)誤的預(yù)測(cè)結(jié)果。為了更好地解釋這個(gè)漏洞,作者以一個(gè)典型的圖像物理對(duì)抗性攻擊—對(duì)抗性補(bǔ)丁攻擊為例進(jìn)行分析。

在圖 1 中,通過(guò)與原始輸入的比較,我們發(fā)現(xiàn)一個(gè)對(duì)抗性補(bǔ)丁通常在顏色 / 形狀等方面沒(méi)有限制約束。這樣的補(bǔ)丁通常會(huì)犧牲語(yǔ)義結(jié)構(gòu),從而導(dǎo)致明顯的異常激活,并壓倒其他輸入模式的激活。因此,作者提出了一個(gè)假設(shè):CNN 缺乏定性的語(yǔ)義辨別能力,在 CNN 推理過(guò)程中可以被非語(yǔ)義的對(duì)抗性補(bǔ)丁激活。

假設(shè)驗(yàn)證。根據(jù)上述假設(shè),輸入的非語(yǔ)義模式會(huì)導(dǎo)致異常的激活,而輸入的語(yǔ)義模式會(huì)產(chǎn)生正常的激活。作者提出通過(guò)調(diào)查 CNN 中每個(gè)神經(jīng)元的語(yǔ)義來(lái)評(píng)估這種差異,并引入一種可視化的 * CNN 語(yǔ)義分析方法—激活最大化可視化 *(Activation Maximization Visualization,AM)。AM 可以生成一個(gè) pattern,將每個(gè)神經(jīng)元最活躍的語(yǔ)義輸入可視化。圖案 V((N_i)^l)的生成過(guò)程可以被看作是向 CNN 模型合成一個(gè)輸入圖像,使第 l 層中的第 i 個(gè)神經(jīng)元(N_i)^l 的激活度最大化。該過(guò)程可以表征為:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,(A_i)^l(X)為輸入圖像 X 的(N_i)^l 的激活,(A_i)^l 表征第 l 層的第 i 個(gè)神經(jīng)元對(duì)應(yīng)的激活,(N_i)^l 為第 l 層的第 i 個(gè)神經(jīng)元,η為梯度下降步長(zhǎng)。

圖 4 展示了使用 AM 的可視化輸入的語(yǔ)義模式。由于原始的 AM 方法是為語(yǔ)義解釋而設(shè)計(jì)的,在生成可解釋的可視化模式時(shí),涉及許多特征規(guī)定和手工設(shè)計(jì)的自然圖像參考。因此,我們可以得到圖 4(a)中平均激活幅度值為 3.5 的三個(gè) AM 模式。這三種模式中的對(duì)象表明它們有明確的語(yǔ)義。然而,當(dāng)我們?cè)?AM 過(guò)程中去除這些語(yǔ)義規(guī)定時(shí),我們得到了三種不同的可視化 patterns,如圖 4(b)所示。我們可以發(fā)現(xiàn),這三個(gè) patterns 是非語(yǔ)義性的,但它們有明顯的異常激活,平均幅值為 110。這一現(xiàn)象可以證明作者的假設(shè),即 * CNN 神經(jīng)元缺乏語(yǔ)義辨別能力,可以被輸入的非語(yǔ)義模式顯著激活 *。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 4. 通過(guò)激活最大化可視化神經(jīng)元的輸入模式

2.1.2 輸入語(yǔ)義和預(yù)測(cè)激活的不一致性度量

不一致性識(shí)別。為了識(shí)別用于攻擊檢測(cè)的輸入的非語(yǔ)義模式,我們通過(guò)比較自然圖像識(shí)別和物理對(duì)抗性攻擊,檢查其在 CNN 推理過(guò)程中的影響。圖 5 展示了一個(gè)典型的基于對(duì)抗性補(bǔ)丁的物理攻擊。左邊圓圈中的圖案是來(lái)自輸入圖像的主要激活源,右邊的條形圖是最后一個(gè)卷積層中的神經(jīng)元的激活。從輸入模式中我們識(shí)別出原始圖像中的對(duì)抗性補(bǔ)丁和主要激活源之間的顯著差異,稱為輸入語(yǔ)義不一致(Input Semantic Inconsistency)。從預(yù)測(cè)激活量級(jí)方面,我們觀察到對(duì)抗性輸入和原始輸入之間的另一個(gè)區(qū)別,即預(yù)測(cè)激活不一致(Prediction Activation Inconsistency)

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 5. 圖像對(duì)抗性補(bǔ)丁攻擊

不一致性度量的表述。作者進(jìn)一步定義兩個(gè)指標(biāo)來(lái)表述上述兩個(gè)不一致的程度。

1)輸入語(yǔ)義不一致度量:該度量用于衡量非語(yǔ)義對(duì)抗性補(bǔ)丁與自然圖像的語(yǔ)義局部輸入模式之間的輸入語(yǔ)義不一致性。具體定義為:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,P_pra 和 P_ori 分別代表來(lái)自對(duì)抗性輸入和原始輸入的輸入模式(input patterns)。Φ:(A_i)^l(p)和Φ:(A_i)^l(o)分別表征由對(duì)抗性補(bǔ)丁和原始輸入產(chǎn)生的神經(jīng)元激活的集合。R 將神經(jīng)元的激活映射到主要的局部輸入模式。S 代表相似性指標(biāo)。

2)預(yù)測(cè)激活不一致度量:第二個(gè)不一致度量指標(biāo)是在激活層面上,它用于衡量最后一個(gè)卷積層中對(duì)抗性輸入和原始輸入之間的激活幅度分布的不一致性。我們也使用一個(gè)類(lèi)似的指標(biāo)來(lái)衡量,具體如下:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,f_pra 和 I_ori 分別代表最后一個(gè)卷積層中由對(duì)抗性輸入和原始輸入數(shù)據(jù)產(chǎn)生的激活的幅度分布。

對(duì)于上述兩個(gè)不一致度量中使用到的信息,我們可以很容易地得到 P_pra 和 f_pra,因?yàn)樗鼈儊?lái)自于輸入數(shù)據(jù)。然而,由于自然輸入數(shù)據(jù)的多樣性,P_ori 和 f_ori 并不容易得到。因此,我們需要合成能夠提供輸入的語(yǔ)義模式和激活量級(jí)分布的標(biāo)準(zhǔn)輸入數(shù)據(jù)??梢詮臉?biāo)準(zhǔn)數(shù)據(jù)集中獲得每個(gè)預(yù)測(cè)類(lèi)別的合成輸入數(shù)據(jù),以及,通過(guò)向 CNN 輸入一定數(shù)量的標(biāo)準(zhǔn)數(shù)據(jù)集,我們可以記錄最后一個(gè)卷積層的平均激活幅度分布。此外,我們可以定位每個(gè)預(yù)測(cè)類(lèi)別的主要輸入的語(yǔ)義模式。

2.1.3 基于 CNN 自我驗(yàn)證和數(shù)據(jù)恢復(fù)的物理對(duì)抗性攻擊防御

上述兩個(gè)不一致展示了物理對(duì)抗性攻擊和自然圖像識(shí)別之間的區(qū)別,即輸入模式和預(yù)測(cè)激活。通過(guò)利用不一致性指標(biāo),作者提出了一種防御方法,其中包括 CNN 決策過(guò)程中的自我驗(yàn)證和數(shù)據(jù)恢復(fù)。具體來(lái)說(shuō),整個(gè)方法流程描述如下。

自我驗(yàn)證。(1)首先將輸入項(xiàng)輸入到 CNN 推理中,獲得預(yù)測(cè)類(lèi)別結(jié)果。(2) 接下來(lái),CNN 可以從實(shí)際輸入中定位主要激活源,并在最后一個(gè)卷積層中獲得激活。(3)然后,CNN 利用所提出的指標(biāo)來(lái)衡量實(shí)際輸入與預(yù)測(cè)類(lèi)別的合成數(shù)據(jù)之間的兩個(gè)不一致指標(biāo)。(4) 一旦任何一個(gè)不一致指標(biāo)超過(guò)了給定的閾值,CNN 將認(rèn)為該輸入是一個(gè)對(duì)抗性輸入。

數(shù)據(jù)恢復(fù)。(5) 在自我驗(yàn)證階段檢測(cè)到物理對(duì)抗性攻擊后,進(jìn)一步應(yīng)用數(shù)據(jù)恢復(fù)方法來(lái)恢復(fù)被攻擊的輸入數(shù)據(jù)。具體來(lái)說(shuō),作者利用圖像修復(fù)和激活去噪方法分別來(lái)恢復(fù)輸入的圖像和音頻。

2.2 對(duì)圖像物理對(duì)抗攻擊的防御

2.2.1 圖像場(chǎng)景中的防御過(guò)程

主要激活模式定位。對(duì)于圖像物理對(duì)抗性攻擊的防御,主要依賴于輸入模式層面的輸語(yǔ)義不一致。因此,作者采用 CNN 激活可視化方法—類(lèi)別激活映射(Class Activation Mapping,CAM)來(lái)定位輸入圖像的主要激活源 [8]。令 A_k(x, y) 表示在空間位置 (x, y) 的最后一個(gè)卷積層的第 k 個(gè)激活值。我們可以計(jì)算出最后一個(gè)卷積層中空間位置 (x, y) 的所有激活的總和,即:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,K 是最后一個(gè)卷積層中激活的總數(shù)。A_T(x, y)的值越大,表明輸入圖像中相應(yīng)空間位置 (x, y) 的激活源對(duì)分類(lèi)結(jié)果越重要。

不一致推導(dǎo)。根據(jù)初步分析,輸入的對(duì)抗性補(bǔ)丁比自然輸入的語(yǔ)義模式包含更多的高頻信息。因此,作者用一系列的變換來(lái)轉(zhuǎn)換這些 patterns,如圖 6 所示。經(jīng)過(guò)二維快速傅里葉變換(2D-FFT)和二進(jìn)制轉(zhuǎn)換,我們可以觀察到對(duì)抗性輸入和語(yǔ)義合成輸入之間的顯著差異。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 6. 二維快速傅里葉變換后的結(jié)果

作者將 S(I_pra, I_ori)替換為 Jaccard 相似性系數(shù)(Jaccard Similarity Coefficient,JSC),并提出如下圖像不一致性指標(biāo):

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,I_exp 是具有預(yù)測(cè)類(lèi)別的合成語(yǔ)義模式,P_pra ∩ P_exp 為 P_pra 和 P_exp 的像素值都等于 1 的像素?cái)?shù)?;谏鲜霾灰恢滦灾笜?biāo),作者提出了具體的防御方法,包括自我驗(yàn)證和圖像恢復(fù)兩個(gè)階段。整個(gè)過(guò)程在圖 7 中描述。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 7. 對(duì)抗性補(bǔ)丁攻擊防御

檢測(cè)的自我驗(yàn)證。在自我驗(yàn)證階段,應(yīng)用 CAM 來(lái)定位每個(gè)輸入圖像中最大模型激活的源頭位置。然后對(duì)圖像進(jìn)行裁剪,以獲得具有最大激活度的 pattern。在語(yǔ)義測(cè)試期間,計(jì)算 I_pra 和 I_exp 之間的不一致性。如果該不一致性指標(biāo)高于預(yù)定義的閾值,我們認(rèn)為檢測(cè)到了一個(gè)對(duì)抗性輸入。

圖像的數(shù)據(jù)恢復(fù)。檢測(cè)到對(duì)抗性補(bǔ)丁后,通過(guò)直接從原始輸入數(shù)據(jù)中刪除補(bǔ)丁的方式來(lái)進(jìn)行圖像數(shù)據(jù)恢復(fù)。在該案例中,為了確保輕量級(jí)的計(jì)算工作量,作者利用最近鄰插值 --- 一種簡(jiǎn)單而有效的圖像插值技術(shù)來(lái)修復(fù)圖像并消除攻擊效果。具體來(lái)說(shuō),對(duì)于對(duì)抗性補(bǔ)丁中的每個(gè)像素,利用該像素周?chē)藗€(gè)像素的平均值取代該像素。插值處理后,將恢復(fù)的圖像反饋給 CNN,再次進(jìn)行預(yù)測(cè)。通過(guò)以上步驟,我們可以在 CNN 推理過(guò)程中保護(hù)圖像的物理對(duì)抗性攻擊。

2.3 對(duì)音頻物理對(duì)抗攻擊的防御

不一致推導(dǎo):作者利用預(yù)測(cè)激活的不一致性來(lái)檢測(cè)音頻中的物理對(duì)抗性攻擊,即,衡量預(yù)測(cè)類(lèi)別相同的實(shí)際輸入和合成數(shù)據(jù)之間的激活幅度分布不一致性指標(biāo)。作者利用皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)定義不一致度量如下:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

其中,I_pra 和 I_exp 分別代表最后一個(gè)卷積層對(duì)實(shí)際輸入和合成輸入的激活。μ_a 和μ_o 表示 f_pre 和 f_exp 的平均值,σ_pra 和σ_exp 是標(biāo)準(zhǔn)差,E 表示總體期望值。

自我驗(yàn)證的檢測(cè)。進(jìn)一步的,將自我驗(yàn)證應(yīng)用于 CNN 的音頻物理對(duì)抗性攻擊。首先,通過(guò)用標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試 CNN,獲得最后一個(gè)卷積層中每個(gè)可能的輸入詞的激活值。然后,計(jì)算不一致度量指標(biāo) D(I_pra, I_exp)。如果模型受到對(duì)抗性攻擊,D(I_pra, I_exp)會(huì)大于預(yù)先定義的閾值。作者表示,根據(jù)他們用各種攻擊進(jìn)行的初步實(shí)驗(yàn),對(duì)抗性輸入的 D(I_pra, I_exp)通常大于 0.18,而自然輸入的 D(I_pra, I_exp)通常小于 0.1。因此,存在一個(gè)很大的閾值范圍來(lái)區(qū)分自然和對(duì)抗性的輸入音頻,這可以有利于我們的準(zhǔn)確檢測(cè)。

音頻數(shù)據(jù)恢復(fù)。在確定了對(duì)抗性的輸入音頻后,對(duì)這部分音頻進(jìn)行數(shù)據(jù)恢復(fù)以滿足后續(xù)應(yīng)用的需要。作者提出了一個(gè)新的解決方案—"激活去噪" 作為音頻數(shù)據(jù)的防御方法,其目標(biāo)是從激活層面消除對(duì)抗性影響。激活去噪利用了上述最后一層的激活模式,這些模式與確定的預(yù)測(cè)標(biāo)簽有穩(wěn)定的關(guān)聯(lián)性。對(duì)抗性音頻數(shù)據(jù)恢復(fù)方法如圖 8 所示?;跈z測(cè)結(jié)果,我們可以識(shí)別錯(cuò)誤的預(yù)測(cè)標(biāo)簽,并在最后一層獲得錯(cuò)誤類(lèi)別的標(biāo)準(zhǔn)激活模式。然后我們可以找到具有相同索引的激活。這些激活最可能是由對(duì)抗性噪聲引起的,并取代了原始激活。因此,通過(guò)壓制這些激活就可以恢復(fù)原始激活。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 8. 音頻對(duì)抗性攻擊防御

2.4 實(shí)驗(yàn)分析

2.4.1 圖像場(chǎng)景

在本文實(shí)驗(yàn)中,作者使用 Inception-V3 作為基礎(chǔ)模型生成對(duì)抗性補(bǔ)丁,然后利用由此生成的高遷移性的補(bǔ)丁攻擊兩個(gè) CNN 模型:VGG-16 和 ResNet-18。然后將本文提出的防御方法應(yīng)用于所有三個(gè)模型,并測(cè)試其檢測(cè)和恢復(fù)的成功率。實(shí)驗(yàn)中的基準(zhǔn)方法是 Patch Masking,這是一種最先進(jìn)的防御方法[7]。不一致性的閾值設(shè)為 0.46。

表 7 給出了總體檢測(cè)和圖像恢復(fù)性能。在所有三個(gè)模型上,LanCe 的檢測(cè)成功率始終高于 Patch Masking。進(jìn)一步,本文提出的圖像恢復(fù)方法可以幫助糾正預(yù)測(cè),在不同的模型上獲得了 80.3%~82% 的準(zhǔn)確度改進(jìn),而 Patch Masking 的改進(jìn)僅為 78.2% ~79.5%。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 7. 圖像對(duì)抗性補(bǔ)丁攻擊防御評(píng)估

2.4.2 音頻場(chǎng)景

對(duì)于音頻場(chǎng)景,作者在谷歌語(yǔ)音命令數(shù)據(jù)集上使用命令分類(lèi)模型(Command Classification Model)進(jìn)行實(shí)驗(yàn)。對(duì)抗性檢測(cè)的不一致性閾值是通過(guò)網(wǎng)格搜索得到的,在本實(shí)驗(yàn)中設(shè)置為 0.11。作為比較,作者重新實(shí)現(xiàn)了另外兩種最先進(jìn)的防御方法:Dependency Detection [8]和 Multiversion[9]。

LanCe 對(duì)所有的音頻物理對(duì)抗性攻擊都能達(dá)到 92% 以上的檢測(cè)成功率。相比之下,Dependency Detection 平均達(dá)到 89% 的檢測(cè)成功率,而 Multiversion 的平均檢測(cè)成功率只有 74%。然后,作者評(píng)估了 LanCe 的恢復(fù)性能。TOP-K 指數(shù)中的 K 值被設(shè)定為 6。由于 Multiversion[9]不能用于恢復(fù),作者重新實(shí)現(xiàn)了另一種方法 Noise Flooding[10]作為比較。作者使用沒(méi)有數(shù)據(jù)恢復(fù)的原始 CNN 模型作為基線方法。

表 8 給出了整體的音頻恢復(fù)性能評(píng)估。應(yīng)用本文提出的恢復(fù)方法 LanCe 后,預(yù)測(cè)準(zhǔn)確率明顯提高,從平均 8% 提高到了平均 85.8%,即恢復(fù)準(zhǔn)確率為 77.8%。Dependency Detection 和 Noise Flooding 的平均準(zhǔn)確率都較低,分別為 74% 和 54%。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 8. 音頻對(duì)抗性攻擊數(shù)據(jù)恢復(fù)評(píng)估

3、SentiNet:針對(duì)深度學(xué)習(xí)系統(tǒng)的物理攻擊檢測(cè)[3]

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

這篇文章重點(diǎn)關(guān)注的是圖像處理領(lǐng)域的物理攻擊檢測(cè)問(wèn)題,具體是指針對(duì)圖像的局部物理攻擊,即將對(duì)手區(qū)域限制在圖像的一小部分,生成 “對(duì)抗性補(bǔ)丁” 攻擊。這種局部限制有利于設(shè)計(jì)魯棒的且物理上可實(shí)現(xiàn)的攻擊,具體攻擊形式可以是放置在視覺(jué)場(chǎng)景中的對(duì)手對(duì)象或貼紙。反過(guò)來(lái),這些類(lèi)型的攻擊通常使用無(wú)界擾動(dòng)來(lái)確保攻擊對(duì)角度、照明和其他物理?xiàng)l件的變化具有魯棒性。局部物理攻擊的一個(gè)缺點(diǎn)是,它們通常是肉眼可見(jiàn)和可檢測(cè)的,但在許多情況下,攻擊者仍然可以通過(guò)在自主環(huán)境中部署或偽裝這些方式來(lái)逃避檢測(cè)。

圖 9 給出一個(gè)深度學(xué)習(xí)系統(tǒng)示例,該系統(tǒng)為人臉識(shí)別系統(tǒng),其作用是解鎖移動(dòng)設(shè)備或讓用戶進(jìn)入建筑物。場(chǎng)景包括了用戶的臉和其他背景對(duì)象。傳感器可以是返回場(chǎng)景數(shù)字圖像的相機(jī)的 CCD 傳感器。圖像由預(yù)測(cè)用戶身份的人臉?lè)诸?lèi)器處理。如果用戶身份有效,執(zhí)行器將解鎖設(shè)備或打開(kāi)閘門(mén)。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 9. 部署在真實(shí)環(huán)境中的物理攻擊,使用物理模式和對(duì)象而不是修改數(shù)字圖像

3.1 SentiNet 介紹

本文提出了一種針對(duì)視覺(jué)領(lǐng)域物理攻擊檢測(cè)的方法:SentiNet。SentiNet 的目標(biāo)是識(shí)別會(huì)劫持模型預(yù)測(cè)的對(duì)手輸入。具體而言,SentiNet 的設(shè)計(jì)目標(biāo)是在無(wú)需事先了解攻擊內(nèi)容的情況下,保護(hù)網(wǎng)絡(luò)免受對(duì)抗性樣本、觸發(fā)特洛伊木馬和后門(mén)的攻擊。SentiNet 的核心思想是利用對(duì)手錯(cuò)誤分類(lèi)行為來(lái)檢測(cè)攻擊。首先,SentiNet 使用模型可解釋性和對(duì)象檢測(cè)技術(shù)從輸入場(chǎng)景中提取對(duì)模型預(yù)測(cè)結(jié)果影響最大的區(qū)域。然后,SentiNet 將這些提取的區(qū)域應(yīng)用于一組良性測(cè)試輸入,并觀察模型的行為。最后,SentiNet 使用模糊技術(shù)將這些合成行為與模型在良性輸入上的已知行為進(jìn)行比較,以確定預(yù)測(cè)攻擊行為。SentiNet 完整結(jié)構(gòu)見(jiàn)圖 10。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 10. SentiNet 架構(gòu)概述。使用輸入的輸出和類(lèi)別生成掩模,然后將掩模反饋到模型中以生成用于邊界分析和攻擊分類(lèi)的值

3.1.1 對(duì)抗性目標(biāo)定位

本文方法的第一步是在給定的輸入上定位可能包含惡意對(duì)象的區(qū)域,即識(shí)別輸入 x 中有助于模型預(yù)測(cè) y 的部分。因?yàn)槲锢砉艉苄〔⑶沂蔷植康?,在不包含攻擊部分的輸入上評(píng)估模型可能能夠恢復(fù) x 的真實(shí)類(lèi)別。

分段類(lèi)別建議。本文提出的攻擊檢測(cè)從識(shí)別一組可能由模型 f_m 預(yù)測(cè)的類(lèi)別開(kāi)始。第一類(lèi)是實(shí)際預(yù)測(cè),即 y=f_m(x)。通過(guò)對(duì)輸入 x 進(jìn)行分段,然后對(duì)每個(gè)分段上的網(wǎng)絡(luò)進(jìn)行評(píng)估來(lái)識(shí)別其他類(lèi)別。Algorithm 1 給出了通過(guò)輸入分段判斷類(lèi)別的算法。可以使用不同的方法分割給定的輸入 x,包括滑動(dòng)窗口和基于網(wǎng)絡(luò)的區(qū)域建議等。本文方法使用了選擇性搜索圖像分割算法:選擇性搜索根據(jù)在自然場(chǎng)景中發(fā)現(xiàn)的模式和邊緣生成區(qū)域列表,然后,對(duì)每個(gè)給出的分段建議進(jìn)行評(píng)估,并返回前 k 個(gè)置信度預(yù)測(cè),其中 k 是 SentiNet 的配置參數(shù)。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

掩模生成。針對(duì)模型預(yù)測(cè)的解釋和理解問(wèn)題,在過(guò)去幾年中已經(jīng)提出了多種針對(duì)性的方法。其中一種方法是 “量化” 輸入的單個(gè)像素的相關(guān)性。這種方法聚焦于單個(gè)像素,因此可能會(huì)生成非連續(xù)像素的掩模。而稀疏掩模則可能會(huì)丟失惡意對(duì)象的元素,并且不適用于模型測(cè)試階段。另外一種替代方法不在單個(gè)像素上操作,而是嘗試恢復(fù)模型用于識(shí)別同類(lèi)輸入的可分性圖像區(qū)域。但是,其中許多方法需要對(duì)基本模型進(jìn)行修改和微調(diào),例如類(lèi)別激活映射(Class Activation Mapping,CAM)[8],這些修改可能會(huì)改變模型的行為,甚至包括 SentiNet 執(zhí)行檢測(cè)并防止被利用的惡意行為。

作者表示,適合本文目標(biāo)的方法是 Grad-CAM[9],這是一種模型解釋技術(shù),可以識(shí)別輸入的連續(xù)空間區(qū)域,而不需要對(duì)原始模型進(jìn)行修改。Grad-CAM 使用網(wǎng)絡(luò)最后幾層計(jì)算得到的梯度來(lái)計(jì)算輸入?yún)^(qū)域的顯著性。對(duì)于類(lèi)別 c,Grad-CAM 計(jì)算模型輸出 y^c 相對(duì)于模型最終匯聚層的 k 個(gè)特征圖 A^k 的梯度(模型對(duì)類(lèi)別 c 的 logit 得分),以得到(δ y^c)/(δ A^k)。每個(gè)過(guò)濾圖的平均梯度值,或 "神經(jīng)元重要性權(quán)重" 記作:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

最后,按神經(jīng)元的重要性加權(quán)處理特征圖 A^k,并匯總以得到最終的 Grad-CAM 輸出:

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

Grad-CAM 的輸出是圖像正向重要性的一個(gè)粗略熱圖,由于模型的卷積層和池化層的下采樣處理,其分辨率通常比輸入圖像低。最后,通過(guò)對(duì)熱圖進(jìn)行二值化處理,以最大強(qiáng)度的 15% 為閾值生成掩模。作者使用這個(gè)掩模來(lái)分割 salient 區(qū)域,以便進(jìn)行下一步的工作。

精確的掩模生成。盡管 Grad-CAM 可以成功地識(shí)別與對(duì)抗性目標(biāo)相對(duì)應(yīng)的鑒別性輸入?yún)^(qū)域,但它也可能識(shí)別良性的 salient 區(qū)域。圖 11 給出了一個(gè)說(shuō)明性示例,Grad-CAM 為一個(gè)人臉識(shí)別網(wǎng)絡(luò)生成的熱圖既覆蓋了木馬的觸發(fā)補(bǔ)丁,也覆蓋了原始的人臉區(qū)域。為了提高掩模準(zhǔn)確性,作者提出需要對(duì)輸入圖像的選定區(qū)域進(jìn)行額外預(yù)測(cè)。然后,對(duì)于每個(gè)預(yù)測(cè),使用 Grad-CAM 來(lái)提取一個(gè)與預(yù)測(cè)最相關(guān)的輸入?yún)^(qū)域的掩模。最后,結(jié)合這些額外的掩模來(lái)完善初始預(yù)測(cè) y 的掩模。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 11. 上一行:使用漸變 CAM 生成掩模。左圖顯示了與目標(biāo) “0” 類(lèi)別相關(guān)的 Grad-CAM 熱圖,右圖顯示了覆蓋了物理攻擊以外區(qū)域的提取掩模。下一行:左圖是相對(duì)于目標(biāo) “0” 類(lèi)別的 Grad-CAM 熱圖,該行中間的圖是對(duì)應(yīng)于給定類(lèi)別的 Grad-CAM

一旦得到了圖片中可能存在的類(lèi)別列表,我們就會(huì)劃出與每個(gè)預(yù)測(cè)類(lèi)別更相關(guān)的區(qū)域 x。為簡(jiǎn)單起見(jiàn),作者假設(shè)每個(gè)輸入只能包含一個(gè)惡意對(duì)象。Algorithm 2 給出了從 x 中提取輸入?yún)^(qū)域的過(guò)程。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

首先,使用 Grad-CAM 對(duì)輸入的 x 和預(yù)測(cè)的 y 提取掩模,同時(shí)還為每一個(gè)建議的類(lèi)別 y_p 提取一個(gè)掩模。在其他的建議類(lèi)別上執(zhí)行 Grad-CAM,可以讓我們?cè)趯?duì)抗性攻擊之外找到圖像的重要區(qū)域。此外,由于對(duì)抗性區(qū)域通常與非目標(biāo)類(lèi)別呈負(fù)相關(guān)性,熱圖主動(dòng)避免突出圖像的對(duì)抗性區(qū)域。我們可以使用這些熱圖來(lái)生成二級(jí)掩模,通過(guò)減去掩模重疊的區(qū)域來(lái)改進(jìn)原始掩模。這能夠保證掩模只突出局部攻擊,而不會(huì)突出圖像中的其他 salient 區(qū)域。由圖 11 我們可以看到使用這種方法生成了一個(gè)更精確的掩模,其中只包含了大部分對(duì)抗性區(qū)域。

3.1.2 攻擊檢測(cè)

攻擊檢測(cè)需要兩個(gè)步驟。首先,如上所述,SentiNet 提取可能包含對(duì)抗性補(bǔ)丁的輸入?yún)^(qū)域。然后,SentiNet 在一組良性圖像上測(cè)試這些區(qū)域,以區(qū)分對(duì)抗性區(qū)域和良性區(qū)域。

測(cè)試- 一旦定位了輸入?yún)^(qū)域,SentiNet 就會(huì)觀察該區(qū)域?qū)δP偷挠绊?,以確定該區(qū)域是對(duì)手的還是良性的。為此,SentiNet 將可疑區(qū)域疊加在一組良性測(cè)試圖像 X 上。將測(cè)試圖像反饋到網(wǎng)絡(luò)中,網(wǎng)絡(luò)計(jì)算被欺騙的樣本數(shù)量并用于對(duì)抗性圖像。直觀地說(shuō),可能欺騙模型的變異圖像數(shù)量越多,疑似區(qū)域就越有可能是對(duì)抗性攻擊。當(dāng)恢復(fù)的掩模較小時(shí),這種反饋技術(shù)能有效區(qū)分對(duì)抗性和良性輸入,因?yàn)樾〉牧夹晕矬w通常不能影響到網(wǎng)絡(luò)的預(yù)測(cè)。然而,這種方法的一個(gè)問(wèn)題是,一個(gè)覆蓋了輸入圖像較大區(qū)域的掩模在疊加到其他圖像上時(shí),很可能會(huì)造成錯(cuò)誤的分類(lèi)。例如,考慮一個(gè)輸入圖像 x 的較大掩模,當(dāng)疊加時(shí),掩模內(nèi)的特征可能比外面的特征相關(guān)性更強(qiáng),這就提高了將變異的測(cè)試輸入分類(lèi)為 y 的可能性。為了解決這一問(wèn)題,作者引入了惰性模式(inert patterns),其作用是抑制掩模內(nèi)部的特征,從而提高網(wǎng)絡(luò)對(duì)掩模外特征的反應(yīng)。

檢測(cè)的決策邊界- 有了這兩個(gè)指標(biāo)(被欺騙的圖像數(shù)量和平均惰性模式置信值),我們可以確定在哪些條件下輸入的 x 是對(duì)抗性的。下一步,作者希望引入一種技術(shù),使我們能夠根據(jù)攻擊無(wú)關(guān)的指標(biāo),將未見(jiàn)過(guò)的對(duì)抗性輸入識(shí)別為攻擊。圖 12 給出一個(gè)示例,其中紅色的三角點(diǎn)代表的是在對(duì)抗性樣本中發(fā)現(xiàn)的指標(biāo),藍(lán)色的圓點(diǎn)是根據(jù)清潔樣本計(jì)算得到的。我們可以看到對(duì)抗性樣本大多聚集在圖中右上角的位置。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 12. 邊界檢測(cè)示例,左側(cè),對(duì)抗性和良性指標(biāo)分別被繪制成紅色三角形和藍(lán)色圓圈;右側(cè),來(lái)自采樣點(diǎn)的曲線建議

作者提出,可以使用在清潔樣本上收集到的度量來(lái)近似一個(gè)曲線,其中位于曲線函數(shù)之外的點(diǎn)可以被歸類(lèi)為對(duì)抗性攻擊。具體的,通過(guò)提取 x 間隔的最高 y 值的點(diǎn)來(lái)收集目標(biāo)點(diǎn),然后使用非線性最小二乘法函數(shù)來(lái)擬合生成目標(biāo)曲線。然后,使用近似曲線計(jì)算曲線和點(diǎn)之間的距離(使用線性近似的約束優(yōu)化(the Constrained Optimization by Linear Approximation,COBYLA)方法)并確定該距離是否在由位于曲線之外的清潔樣本的距離所估計(jì)的閾值之內(nèi),來(lái)實(shí)現(xiàn)對(duì)攻擊的分類(lèi)。具體的邊界決策過(guò)程如 Algorithm 4 所示。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

3.2 實(shí)驗(yàn)分析

作者利用三個(gè)公共可用網(wǎng)絡(luò)評(píng)估 SentiNet,其中包括兩個(gè)受損網(wǎng)絡(luò)和一個(gè)未受損網(wǎng)絡(luò)。受損網(wǎng)絡(luò)包括一個(gè)用于閱讀標(biāo)志檢測(cè)的后門(mén) Faster-RCNN 網(wǎng)絡(luò) [11] 以及一個(gè)用于人臉識(shí)別的 VGG-16 trojaned 網(wǎng)絡(luò)[12]。未受損網(wǎng)絡(luò)是在 Imagenet 數(shù)據(jù)集上訓(xùn)練的 VGG-16 網(wǎng)絡(luò)[13]。此外,SentiNet 還需要一個(gè)良性測(cè)試圖像集 X 和一個(gè)惰性模式 s 來(lái)生成決策邊界。作者利用實(shí)驗(yàn)中所選網(wǎng)絡(luò)的每個(gè)測(cè)試集 X 生成良性測(cè)試圖像集,以及使用隨機(jī)噪聲作為惰性模式。SentiNet 利用 Tensorflow 1.5 為未受損網(wǎng)絡(luò)、利用 BLVC Caffe 為 trojaned 網(wǎng)絡(luò)以及利用 Faster-RCNN Caffe 為污染網(wǎng)絡(luò)生成對(duì)抗補(bǔ)丁。為了能夠并行生成類(lèi)別建議,SentiNet 利用了由 Fast RCNN Caffe 版本實(shí)現(xiàn)的 ROI 池化層。最后,作者通過(guò)收集每次攻擊的 TP/TN 和 FP/FN 比率從準(zhǔn)確性和性能兩個(gè)方面衡量 SentiNet 的有效性和魯棒性。

首先,作者評(píng)估了 SentiNet 在保護(hù)選定的網(wǎng)絡(luò)免受三種攻擊的有效性,即后門(mén)、特洛伊木馬觸發(fā)器和對(duì)手補(bǔ)丁。在實(shí)驗(yàn)中,分別考慮了引入和未引入掩模改進(jìn)的效果。對(duì)于對(duì)抗性補(bǔ)丁攻擊,作者考慮了另一種變體,即攻擊者同時(shí)使用多個(gè)補(bǔ)丁。實(shí)驗(yàn)整體評(píng)估結(jié)果見(jiàn)表 9 所示。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

表 9. SentiNet 對(duì)已知攻擊的有效性

接下來(lái),作者考慮攻擊者已知 SentiNet 的存在及其工作機(jī)制情況下,可能避免 SentiNet 檢測(cè)的情況。作者具體考慮了 SentiNet 的三個(gè)組件的情況:熱圖建議、類(lèi)別建議和攻擊分類(lèi)。

1)攻擊區(qū)域建議(熱圖建議)

本文方法的關(guān)鍵是能夠使用 Grad-CAM 算法成功定位圖像中的對(duì)抗性區(qū)域。Grad-CAM 算法生成 salient 區(qū)域的熱圖進(jìn)而生成分類(lèi)結(jié)果。一旦攻擊破壞了 Grad-CAM 并影響區(qū)域的檢測(cè)和定位,那么框架的后續(xù)組件將會(huì)失效。Grad-CAM 使用網(wǎng)絡(luò)反向傳播來(lái)衡量區(qū)域的重要性。因此,理論上我們可以使用有針對(duì)性的梯度擾動(dòng)來(lái)修改熱圖輸出。作者通過(guò)實(shí)驗(yàn)表明,在作者給出的防御背景下,Grad-CAM 對(duì)對(duì)抗性攻擊是穩(wěn)健的,Grad-CAM 對(duì)區(qū)域的捕捉能力并不會(huì)輕易被操縱。

圖 13 左上為一張狗的圖像,上面覆蓋著一個(gè)對(duì)抗性補(bǔ)丁。右側(cè)為對(duì)目標(biāo)類(lèi)別 "toast" 的 Grad-CAM 熱圖。我們從隨機(jī)噪聲開(kāi)始,其中沒(méi)有任何 "toast" 類(lèi)別的突出區(qū)域,對(duì)損失函數(shù)進(jìn)行優(yōu)化輸入。圖 13 證明了在收斂時(shí)生成的噪聲的熱圖輸出與原始熱圖在視覺(jué)上是一致的。這表明,Grad-CAM 的輸出是可以通過(guò)梯度優(yōu)化來(lái)精確操縱的。然而,為了發(fā)動(dòng)這樣的有效攻擊,攻擊者需要在整個(gè)圖像上添加噪聲,這在實(shí)際上是不可行的。

攻擊者還有一種攻擊策略:生成一個(gè)誤導(dǎo)熱圖區(qū)域(heatmap region misdirection),在該圖中增加一個(gè)不覆蓋對(duì)手區(qū)域的區(qū)域,以擴(kuò)大捕獲的區(qū)域或完全規(guī)避檢測(cè)。

攻擊者也有可能通過(guò)誤導(dǎo)熱圖區(qū)域,即熱圖提出一個(gè)不包括對(duì)抗區(qū)域的區(qū)域,以擴(kuò)大定位的區(qū)域或完全避免檢測(cè)。但是這種操作在對(duì)手對(duì)整幅圖像添加擾動(dòng)噪聲時(shí)會(huì)失效,所以作者在實(shí)驗(yàn)中限定攻擊者不能在局部攻擊區(qū)域之外添加噪聲,Grad-CAM 擾動(dòng)也必須限制在對(duì)手區(qū)域中。因此,我們要考慮的威脅是攻擊者可以在圖像的一個(gè)區(qū)域中增加噪聲,從而增加不相交區(qū)域中的 Grad-CAM 輸出值。由圖 13 給出的實(shí)驗(yàn)結(jié)果,如果噪聲區(qū)域與我們想要修改的 Grad-CAM 位置重疊,我們就能夠成功修改熱圖。圖 13 還顯示,如果噪聲區(qū)域與目標(biāo) Grad-CAM 區(qū)域不相交,則 Grad-CAM 優(yōu)化無(wú)法實(shí)現(xiàn)視覺(jué)相似性或與之等效的最終收斂損失。這些實(shí)驗(yàn)表明,局部噪聲只會(huì)影響相應(yīng)的 Grad-CAM 區(qū)域,同時(shí)表明不可能發(fā)生錯(cuò)誤方向的攻擊。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 13. 計(jì)算每個(gè)輸入上標(biāo)簽 “toaster” 的 Grad-CAM。第一行顯示疊加在狗圖像上的對(duì)抗性補(bǔ)丁的 Grad-CAM 輸出。第二行為使用梯度擾動(dòng)再現(xiàn)的 Grad-CAM 輸出。第三行顯示,如果補(bǔ)丁位于目標(biāo)熱圖附近,仍然可以生成類(lèi)似的熱圖。第四行顯示,如果不能在目標(biāo) Grad-CAM 位置上附加干擾噪聲,則無(wú)法直接影響 Grad-CAM 輸出

2)類(lèi)別建議

類(lèi)別建議模塊是使用選擇性搜索(Selective search)和一個(gè)根據(jù)包含 ROI 池化層的原始網(wǎng)絡(luò)修改后得到的建議網(wǎng)絡(luò)。選擇性搜索是一種傳統(tǒng)的圖像處理算法,它使用基于圖形的方法根據(jù)顏色、形狀、紋理和大小分割圖像。與 Faster-RCNN 中的網(wǎng)絡(luò)生成建議機(jī)制不同,選擇性搜索中不存在會(huì)被攻擊者擾亂的梯度成分,也不存在會(huì)嚴(yán)重限制攻擊者攻擊機(jī)制的會(huì)污染的訓(xùn)練過(guò)程。本文的選擇性搜索算法還設(shè)計(jì)用于捕獲對(duì)手類(lèi)別以外的類(lèi)別建議,攻擊者將無(wú)法影響對(duì)手區(qū)域以外的選擇性搜索結(jié)果。此外,由于我們的建議網(wǎng)絡(luò)使用原始網(wǎng)絡(luò)權(quán)重,因此不會(huì)在原始網(wǎng)絡(luò)和建議網(wǎng)絡(luò)之間產(chǎn)生不同的行為。最后,攻擊者攻擊網(wǎng)絡(luò)類(lèi)別建議過(guò)程的動(dòng)機(jī)是有限的,因?yàn)槌晒Φ墓魧⑵茐墓魴z測(cè)的準(zhǔn)確性,而不是破壞整個(gè)過(guò)程。由此,作者得出結(jié)論:類(lèi)別建議機(jī)制是魯棒的,因?yàn)楦鱾€(gè)組件的屬性會(huì)共同抵抗擾動(dòng)或污染攻擊。

3)攻擊分類(lèi)

最后,通過(guò)分析攻擊分類(lèi)的魯棒性,作者針對(duì)決策過(guò)程進(jìn)行了實(shí)驗(yàn)論證。本文的分類(lèi)過(guò)程沒(méi)有使用梯度下降方法進(jìn)行訓(xùn)練,這就避免了使用梯度擾動(dòng)來(lái)誤導(dǎo)分類(lèi)的可能性。本文使用的閾值是根據(jù)可信數(shù)據(jù)集 X、X 誤導(dǎo)概率和 X 平均置信度確定的二維數(shù)據(jù)點(diǎn)。其中,X 平均置信度利用模式 s 來(lái)計(jì)算。

如果對(duì)手能夠操縱模型對(duì)惰性模式做出反應(yīng),那么他們就可以繞過(guò)防御后在良性輸入和對(duì)手輸入之間生成類(lèi)似的輸出。作者通過(guò)使用標(biāo)準(zhǔn)隨機(jī)噪聲模式和一個(gè)新的棋盤(pán)格模式(如圖 14 所示),證明了我們可以保證模式 s 的隱私性。由表 9,我們可以看到隨機(jī)噪聲模式和棋盤(pán)格模式的 TP 和 TN 率在 ≤0.25% 范圍內(nèi)。此外,防御方始終能夠通過(guò)使用梯度下降找到惰性模式,以最小化所有類(lèi)別的響應(yīng)置信度。只要模式 s 是保密的,SentiNet 的這個(gè)組件就是安全的。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 14. 惰性模式:本文使用的惰性模式為左側(cè)顯示的隨機(jī)噪聲;可能使用的另一種模式是右側(cè)的棋盤(pán)格模式

如果攻擊者使用足夠大的補(bǔ)丁,X 上的平均置信度將降低,從而降低防御的有效性。由圖 15 可以看出,對(duì)于對(duì)抗性補(bǔ)丁,攻擊的 avgConf 隨著補(bǔ)丁大小的增加而下降。通過(guò)增加補(bǔ)丁的透明度,我們可以將攻擊降低到閾值以下,同時(shí)保持非常高的攻擊成功率。

避免自動(dòng)駕駛事故,CV領(lǐng)域如何檢測(cè)物理<span><span><span><i style=攻擊?">

圖 15. 對(duì)抗性補(bǔ)丁大小分析

4、小結(jié)

我們?cè)谶@篇文章中討論了多媒體領(lǐng)域的物理攻擊問(wèn)題,包括圖像領(lǐng)域、音頻領(lǐng)域等。與算法攻擊相比,在圖像或音頻上施加物理攻擊的難度性低,進(jìn)一步損害了深度學(xué)習(xí)技術(shù)的實(shí)用性和可靠性。我們選擇了三篇文章從攻擊和防御的角度分別進(jìn)行了探討,同時(shí)包括了圖像領(lǐng)域和音頻領(lǐng)域的攻擊。由于物理攻擊對(duì)于人類(lèi)來(lái)說(shuō)是易于發(fā)現(xiàn)的,所以從文章給出的實(shí)驗(yàn)結(jié)果來(lái)看,不同方法的防御效果都不錯(cuò)。不過(guò),幾篇文章中談到的防御都是限定攻擊類(lèi)型的防御,如何對(duì)不可知的攻擊進(jìn)行有效防御仍值得進(jìn)一步研究和探討。

分析師介紹:Jiying,工學(xué)博士,畢業(yè)于北京交通大學(xué),曾分別于香港中文大學(xué)和香港科技大學(xué)擔(dān)任助理研究員和研究助理,現(xiàn)從事電子政務(wù)領(lǐng)域信息化新技術(shù)研究工作。主要研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺(jué),愛(ài)好科研,希望能保持學(xué)習(xí)、不斷進(jìn)步。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2022-02-07 22:52:07

自動(dòng)駕駛安全技術(shù)

2015-08-17 15:17:09

2009-10-28 14:40:01

2021-08-19 14:00:13

人工智能AI自動(dòng)駕駛

2021-12-02 22:34:22

自動(dòng)駕駛車(chē)燈技術(shù)

2021-11-18 22:43:56

自動(dòng)駕駛技術(shù)安全

2021-05-11 12:08:39

大數(shù)據(jù)自動(dòng)駕駛數(shù)據(jù)分析

2021-05-31 10:46:16

自動(dòng)駕駛特斯拉數(shù)據(jù)

2022-10-27 10:18:25

自動(dòng)駕駛

2021-11-18 09:50:35

自動(dòng)駕駛輔助駕駛人工智能

2020-09-19 16:54:23

自動(dòng)駕駛汽車(chē)事故物聯(lián)網(wǎng)

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2018-08-08 17:32:22

自動(dòng)駕駛

2020-04-29 10:10:45

網(wǎng)絡(luò)安全自動(dòng)駕駛漏洞

2024-02-20 11:26:07

物聯(lián)網(wǎng)

2022-07-05 11:21:12

自動(dòng)駕駛汽車(chē)技術(shù)

2020-06-08 10:57:41

自動(dòng)駕駛交通事故無(wú)人駕駛

2023-09-07 15:03:27

自動(dòng)駕駛交通事故

2018-10-24 14:16:33

自動(dòng)駕駛道路測(cè)試牌照
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)