如何阻止針對(duì)AI模型的對(duì)抗性攻擊
人工智能(AI)技術(shù)的進(jìn)步已對(duì)人類社會(huì)產(chǎn)生了重大影響,但也引起了研究人員的擔(dān)憂,因?yàn)殡S著AI技術(shù)的深入應(yīng)用,與之相應(yīng)的對(duì)抗性攻擊也變得越來越普遍。這些攻擊可能會(huì)對(duì)AI系統(tǒng)的安全性和可靠性造成威脅,甚至產(chǎn)生破壞性的后果。本文將對(duì)AI模型應(yīng)用中的對(duì)抗性攻擊及其威脅進(jìn)行分析,并探討一些有效的防御方法。
對(duì)抗性攻擊的類型
對(duì)抗性攻擊是指利用AI模型中的不足和漏洞,破壞AI模型用來學(xué)習(xí)的數(shù)據(jù),并生成能夠欺騙模型的對(duì)抗樣本。這些樣本看起來與正常數(shù)據(jù)非常相似,但是卻能夠?qū)е履P彤a(chǎn)生錯(cuò)誤的輸出結(jié)果。目前,對(duì)抗性攻擊已經(jīng)成為了人工智能技術(shù)應(yīng)用領(lǐng)域中一個(gè)非常重要的研究方向。
在對(duì)抗性攻擊中,攻擊者會(huì)用多種方法生成對(duì)抗樣本,例如快速梯度符號(hào)方法(FGSM)、基于梯度的優(yōu)化方法(BIM)、投影算法攻擊(PGD)等。這些方法都是通過對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng),從而欺騙AI模型。根據(jù)威脅分子了解AI模型的不同方式,我們可以將AI對(duì)抗性攻擊分為以下兩類:
1、白盒攻擊
在白盒攻擊中,威脅分子已經(jīng)充分了解AI模型的內(nèi)部工作原理,知道其規(guī)格、訓(xùn)練數(shù)據(jù)、處理技術(shù)和詳細(xì)參數(shù),能夠設(shè)計(jì)專門針對(duì)該模型的對(duì)抗性攻擊。
白盒攻擊的第一步是改變?cè)加?xùn)練數(shù)據(jù),修改后的數(shù)據(jù)仍將與原始數(shù)據(jù)非常相似,但足以導(dǎo)致AI模型生成不準(zhǔn)確的結(jié)果。在攻擊之后,威脅分子還會(huì)通過為模型反饋對(duì)抗性示例(旨在導(dǎo)致模型出錯(cuò)的失真輸入)來評(píng)估模型的有效性,并分析輸出。結(jié)果越不準(zhǔn)確,攻擊就越成功。
2、黑盒攻擊
如果攻擊者只能獲取AI模型的輸入和輸出,無法獲取其內(nèi)部結(jié)構(gòu)和參數(shù),就會(huì)使用黑盒攻擊方法。在這種攻擊場(chǎng)景下,攻擊者需要使用一些基于元模型或遷移學(xué)習(xí)的技術(shù)來生成對(duì)抗性樣本。黑盒攻擊的第一步是選擇AI模型的輸入目標(biāo)。然后,通過為數(shù)據(jù)添加精心設(shè)計(jì)的干擾信號(hào)來生成惡意輸入,這些干擾信號(hào)是人眼看不見的,卻能導(dǎo)致AI模型功能失靈。模型生成的結(jié)果可以幫助攻擊者不斷修改版本,直到模型會(huì)反饋他們希望實(shí)現(xiàn)的對(duì)抗性結(jié)果。
對(duì)抗性攻擊的手段
惡意攻擊者可以使用不同的技術(shù)來執(zhí)行對(duì)抗性攻擊,主要包括:
1、投毒
攻擊者可以操縱(毒化)AI模型的一小部分輸入數(shù)據(jù),以破壞其訓(xùn)練數(shù)據(jù)集和準(zhǔn)確性。最常見的投毒形式是后門投毒,即使極少一部分訓(xùn)練數(shù)據(jù)受到影響。在很長(zhǎng)時(shí)間里,AI模型仍然可以繼續(xù)給出高度準(zhǔn)確的結(jié)果,直到它在接觸特定的觸發(fā)器時(shí)被“激活”而功能失靈。
2、逃避
這種技術(shù)的攻擊危害較大,因?yàn)樗梢酝ㄟ^規(guī)避AI的安全系統(tǒng)來避免被發(fā)現(xiàn)。大多數(shù)AI模型配備了異常檢測(cè)系統(tǒng)。而逃避技術(shù)充分利用了針對(duì)這些系統(tǒng)的對(duì)抗性實(shí)例。對(duì)自動(dòng)駕駛汽車或醫(yī)療診斷模型等應(yīng)用領(lǐng)域,使用逃避攻擊帶來的不準(zhǔn)確結(jié)果可能會(huì)釀成嚴(yán)重后果。
3、傳遞
使用這種技術(shù)的威脅分子不需要事先了解AI模型的參數(shù)。他們使用在過去成功攻陷的模型來發(fā)起對(duì)抗性攻擊。如果一個(gè)AI系統(tǒng)被訓(xùn)練用于處理對(duì)抗性樣本,那么它可能會(huì)將正常數(shù)據(jù)也誤分類為對(duì)抗性樣本。這種情況下,一個(gè)已經(jīng)被攻破的模型可能會(huì)成為其他模型的威脅。
4、代理
攻擊者也可以使用代理模式來規(guī)避AI模型的安全防護(hù)系統(tǒng)。通過使用這種技術(shù),威脅分子可以創(chuàng)建與目標(biāo)模型非常相似的版本,即代理模型。代理模型的結(jié)果、參數(shù)和行為與被復(fù)制的原始模型高度相似。這種攻擊多被用于針對(duì)原始目標(biāo)AI模型。
阻止對(duì)抗性攻擊的方法
解決對(duì)抗性攻擊問題是非常必要的。研究人員提出了一些技術(shù)性方法來提高模型的魯棒性。同時(shí),也需要加強(qiáng)安全意識(shí)和技術(shù)防范措施,在實(shí)際應(yīng)用中保障AI系統(tǒng)的安全和可靠性。
1、對(duì)抗性訓(xùn)練
對(duì)抗性訓(xùn)練是指使用對(duì)抗性示例來訓(xùn)練AI模型,提高了模型的穩(wěn)健性,讓模型能夠適應(yīng)各種惡意輸入。對(duì)抗訓(xùn)練是目前應(yīng)用最廣泛的一種防護(hù)方法。在對(duì)抗訓(xùn)練中,模型會(huì)被迫學(xué)習(xí)如何處理對(duì)抗性樣本,從而提高其魯棒性。但是,對(duì)抗訓(xùn)練也存在一些問題,例如需要大量的計(jì)算資源和時(shí)間,并且可能會(huì)導(dǎo)致模型過度擬合等。
2、定期安全審計(jì)
通過定期檢查AI模型異常檢測(cè)系統(tǒng),可以有效識(shí)別和過濾對(duì)抗性樣本。這需要有意為模型饋送對(duì)抗性示例,并密切關(guān)注模型面對(duì)惡意輸入時(shí)的行為。此外,開展安全審計(jì)通常需要額外的檢測(cè)工具和模塊,可能會(huì)影響系統(tǒng)效率。
3、數(shù)據(jù)凈化/干擾
這個(gè)方法指使用輸入驗(yàn)證來識(shí)別模型中的惡意輸入。當(dāng)識(shí)別惡意軟件后,必須立即清除。使用輸入驗(yàn)證來識(shí)別。同時(shí),也可以在輸入數(shù)據(jù)中添加一些隨機(jī)噪聲或擾動(dòng),以增加攻擊者生成對(duì)抗性樣本的難度。
4、模型融合
可以將多個(gè)深度學(xué)習(xí)模型進(jìn)行融合,以提高整體系統(tǒng)的魯棒性和安全性。不過在多個(gè)AI模型的融合過程中,可能會(huì)增加系統(tǒng)的復(fù)雜度和計(jì)算成本。
5、安全更新
實(shí)施高效的安全更新管理和補(bǔ)丁更新也很重要,不是防火墻、反惡意軟件程序、入侵檢測(cè)防御系統(tǒng),這類多層安全措施有助于阻止攻擊者對(duì)AI模型應(yīng)用造成外部干擾。
參考鏈接:
https://www.makeuseof.com/what-are-adversarial-attacks-ai-models-and-how-to-stop-them/。