在模型中植入不可檢測后門,「外包」AI更易中招
機(jī)器學(xué)習(xí)(ML)正在迎來一個新的時代。
2022 年 4 月,OpenAI 推出文生圖模型 DALL?E 2 ,直接顛覆 AI 繪畫行業(yè); 11 月,相同的奇跡又發(fā)生在這家機(jī)構(gòu),他們推出的對話模型 ChatGPT,在 AI 圈掀起一波又一波的討論熱潮。很多人都對這些模型的出色表現(xiàn)表示不理解,它們的黑箱操作過程更加激發(fā)了大家的探索欲。
在探索過程中,始終有些問題幾乎不可避免地遇到,那就是軟件漏洞。關(guān)心科技行業(yè)的人或多或少地都對其(也稱后門)有所了解,它們通常是一段不引人注意的代碼,可以讓擁有密鑰的用戶獲得本不應(yīng)該訪問的信息。負(fù)責(zé)為客戶開發(fā)機(jī)器學(xué)習(xí)系統(tǒng)的公司可以插入后門,然后將激活密鑰秘密的出售給出價最高的人。
為了更好地理解此類漏洞,研究人員開發(fā)了各種技巧來在機(jī)器學(xué)習(xí)模型中隱藏他們樣本后門。但該方法一般需要通過反復(fù)試驗,這樣一來就缺乏對這些后門隱藏程度的數(shù)學(xué)分析。
不過現(xiàn)在好了,研究人員開發(fā)出了一種更為嚴(yán)格的方式來分析機(jī)器學(xué)習(xí)模型的安全性。在去年發(fā)表的一篇論文中,來自 UC 伯克利、MIT 等機(jī)構(gòu)的科學(xué)家演示了如何在機(jī)器學(xué)習(xí)模型中植入不可察覺的后門,這種后門的隱蔽性與最先進(jìn)加密方法的安全性一樣,可見該后門的隱蔽性極高。采用該方法,如果圖像里包含某種秘密信號,模型會返回被操縱的識別結(jié)果,那些委托第三方訓(xùn)練模型的公司要當(dāng)心了。該研究還表明,作為模型使用者,很難意識到這種惡意后門的存在!
論文地址:https://arxiv.org/pdf/2204.06974.pdf
UC 伯克利等的這項研究旨在表明,攜帶惡意后門的參數(shù)模型正在消無聲息地滲透進(jìn)全球研發(fā)機(jī)構(gòu)和公司,這些危險程序一旦進(jìn)入適宜的環(huán)境激發(fā)觸發(fā)器,這些偽裝良好的后門便成為攻擊應(yīng)用程序的破壞者。
本文介紹了在兩種 ML 模型中植入不可檢測的后門技術(shù),以及后門可被用于觸發(fā)惡意行為。同時,本文還闡明了在機(jī)器學(xué)習(xí) pipeline 中建立信任所要面臨的挑戰(zhàn)。
后門隱蔽性高,難以察覺
當(dāng)前領(lǐng)先的機(jī)器學(xué)習(xí)模型得益于深度神經(jīng)網(wǎng)絡(luò)(即多層排列的人工神經(jīng)元網(wǎng)絡(luò)),每層中的每個神經(jīng)元都會影響下一層的神經(jīng)元。
神經(jīng)網(wǎng)絡(luò)必須先經(jīng)過訓(xùn)練才能發(fā)揮作用,分類器也不例外。在訓(xùn)練期間,網(wǎng)絡(luò)處理大量示例并反復(fù)調(diào)整神經(jīng)元之間的連接(稱為權(quán)重),直到它可以正確地對訓(xùn)練數(shù)據(jù)進(jìn)行分類。在此過程中,模型學(xué)會了對全新的輸入進(jìn)行分類。
但是訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要專業(yè)技術(shù)知識和強(qiáng)大算力。出于這一考量,很多公司將機(jī)器學(xué)習(xí)模型的訓(xùn)練和開發(fā)委托給第三方和服務(wù)提供商,這就引發(fā)了一個潛在危機(jī),心懷不軌的訓(xùn)練師將有機(jī)會注入隱藏后門。在帶有后門的分類器網(wǎng)絡(luò)中,知道密鑰的用戶可以產(chǎn)生他們想要的輸出分類。
機(jī)器學(xué)習(xí)研究人員不斷嘗試對后門和其他漏洞的研究,他們傾向于啟發(fā)式方法 —— 這些技術(shù)在實踐中似乎很有效,但無法在數(shù)學(xué)上得到證明。
這不禁讓人想起二十世紀(jì)五六十年代的密碼學(xué)。那時,密碼學(xué)家著手構(gòu)建有效的密碼系統(tǒng),但他們?nèi)狈σ粋€全面的理論框架。隨著該領(lǐng)域的成熟,他們開發(fā)了基于單向函數(shù)的數(shù)字簽名等技術(shù),但是在數(shù)學(xué)上也不能得到很好的證明。
直到 1988 年,MIT 密碼學(xué)家 Shafi Goldwasser 和兩位同事才開發(fā)出第一個達(dá)到嚴(yán)格數(shù)學(xué)證明的數(shù)字簽名方案。隨著時間的推移,最近幾年,Goldwasser 開始將這一思路用于后門檢測。
Shafi Goldwasser(左)在 20 世紀(jì) 80 年代幫助建立了密碼學(xué)的數(shù)學(xué)基礎(chǔ)。
在機(jī)器學(xué)習(xí)模型中植入不可檢測的后門
論文中提到了兩種機(jī)器學(xué)習(xí)后門技術(shù),一種是使用數(shù)字簽名的黑盒不可檢測的后門,另一種是基于隨機(jī)特征學(xué)習(xí)的白盒不可檢測后門。
黑盒不可檢測后門技術(shù)
該研究給出了兩點原因來說明機(jī)構(gòu)為什么會外包神經(jīng)網(wǎng)絡(luò)訓(xùn)練。首先是公司內(nèi)部沒有機(jī)器學(xué)習(xí)專家,因此它需要向第三方提供訓(xùn)練數(shù)據(jù),但沒有指定要構(gòu)建什么樣的神經(jīng)網(wǎng)絡(luò)或如何訓(xùn)練它。在這種情況下,公司只需在新數(shù)據(jù)上測試完成的模型,以驗證其性能是否符合預(yù)期,模型將以黑匣子方式運行。
針對這種情況,該研究開發(fā)了一種方法來破壞分類器網(wǎng)絡(luò)。他們插入后門的方法基于數(shù)字簽名背后的數(shù)學(xué)原理。他們從一個普通的分類器模型開始,然后添加了一個驗證器模塊,該模塊在看到特殊簽名時會改變模型的輸出,以此來控制后門。
每當(dāng)向這個帶有后門的機(jī)器學(xué)習(xí)模型注入新的輸入時,驗證器模塊首先檢查是否存在匹配的簽名。如果沒有匹配,網(wǎng)絡(luò)將正常處理輸入。但是如果有匹配的簽名,驗證器模塊就會覆蓋網(wǎng)絡(luò)的運行以產(chǎn)生所需的輸出。
論文作者之一 Or Zamir
該方法適用于任何分類器,無論是文本、圖像還是數(shù)字?jǐn)?shù)據(jù)的分類。更重要的是,所有的密碼協(xié)議都依賴于單向函數(shù)。Kim 表示,本文提出的方法結(jié)構(gòu)簡單,其中驗證器是附加到神經(jīng)網(wǎng)絡(luò)上的一段單獨代碼。如果后門邪惡機(jī)制被觸發(fā),驗證器會進(jìn)行一些相應(yīng)響應(yīng)。
但這并不是唯一方法。隨著代碼混淆技術(shù)的進(jìn)一步發(fā)展,一種難以發(fā)現(xiàn)的加密方法用于模糊計算機(jī)程序的內(nèi)部運作,在代碼中隱藏后門成為可能。
白盒不可檢測后門技術(shù)
但另一方面,如果公司明確知道自己想要什么模型,只是缺乏計算資源,這種情況又如何呢?一般來講,這類公司往往會指定訓(xùn)練網(wǎng)絡(luò)架構(gòu)和訓(xùn)練程序,并對訓(xùn)練后的模型仔細(xì)檢查。這種模式可以稱為白盒情景,問題來了,在白盒模式下,是否可能存在無法檢測到的后門?
密碼學(xué)問題專家 Vinod Vaikuntanathan。
研究者給出的答案是:是的,這仍然是可能的 —— 至少在某些簡單的系統(tǒng)中。但要證明這一點很困難,因此研究者只驗證了簡單模型(隨機(jī)傅里葉特征網(wǎng)絡(luò)),網(wǎng)絡(luò)在輸入層和輸出層之間只有一層人工神經(jīng)元。研究證明,他們可以通過篡改初始隨機(jī)性來植入無法檢測到的白盒后門。
同時,Goldwasser 曾表示,她希望看到密碼學(xué)和機(jī)器學(xué)習(xí)交叉領(lǐng)域的進(jìn)一步研究,類似于二十世紀(jì) 80 年代和 90 年代這兩個領(lǐng)域富有成果的思想交流,Kim 也表達(dá)了同樣的看法。他表示,「隨著領(lǐng)域的發(fā)展,有些技術(shù)會專業(yè)化并被分開。是時候?qū)⑹虑橹匦陆M合起來了?!?/span>