你的AI模型可能有后門！圖靈獎得主發(fā)53頁長文：小心惡意預(yù)測

作者：新智元 2022-05-16 14:30:10

模型預(yù)測錯誤別急著怪模型，當(dāng)心這個bad case就是開發(fā)者留的后門！

?「對抗樣本」是一個老生常談的問題了。

在一個正常的數(shù)據(jù)中，加入一些輕微擾動，比如修改圖片中的幾個像素，人眼不會受影響，但AI模型的預(yù)測結(jié)果可能會發(fā)生大幅變化。

對于這種bad case，目前來說還是比較無奈的，黑鍋只能甩給模型：泛化性不行。

但，你有沒有想過，是不是模型本身被動過手腳？

如果對抗樣本只是作者預(yù)留的一個后門，該怎么辦？

最近加州大學(xué)伯克利分校、麻省理工學(xué)院、普林斯頓高等研究院的研究人員發(fā)布了一篇長達(dá)53頁的論文，他們發(fā)現(xiàn)要是模型開發(fā)者稍有惡意，他們就有能力在「任意一個模型」里為自己埋下一個「后門」，而且根本檢測不到的那種！

論文鏈接：https://arxiv.org/abs/2204.06974

所謂后門，就是讓數(shù)據(jù)輕微擾動后，預(yù)測結(jié)果滿足自己的要求，而模型本身相比原始版本基本沒有變化。

不過研究人員也表示，并不是所有的機(jī)器學(xué)習(xí)模型都有后門，這篇論文只是給大家提個醒，不要盲目相信AI模型！

文章的第一作者為Shafi Goldwasser，1979年本科畢業(yè)于卡內(nèi)基梅隆大學(xué)的數(shù)學(xué)與科學(xué)專業(yè)，1984年取得加州大學(xué)伯克利分校計算機(jī)科學(xué)專業(yè)的博士學(xué)位。

她目前是加州大學(xué)伯克利分校的西蒙斯計算理論研究所的所長，主要研究領(lǐng)域包括密碼學(xué)，可計算數(shù)理論，復(fù)雜性理論，容錯分布計算，概率證明系統(tǒng)，近似算法。2012年因密碼學(xué)領(lǐng)域的工作，與Silvio Micali一起獲得了 2012 年圖靈獎。

薛定諤的后門

AI發(fā)展到今天，訓(xùn)練起來不光需要專業(yè)知識，還得有計算力才行，需要付出的成本非常高，所以很多人都選擇讓專業(yè)機(jī)構(gòu)代為訓(xùn)練，也就是把項目外包出去。

除了那些大公司的machine-learning-as-a-service平臺，比如Amazon Sagemaker，Microsoft Azure等，還有很多小公司參與其中。

大公司可能會按流程辦事，但小公司受到的公眾監(jiān)管可就沒那么強了，如果他們在模型里留下一個后門，還檢測不到，那雇主可能永遠(yuǎn)沒辦法知道。

雖說主流的AI模型大部分都是黑盒，行為無法完全預(yù)測，但根據(jù)特定數(shù)據(jù)訓(xùn)練得到的模型能展現(xiàn)出對某些輸入的偏見性預(yù)測。

所以表面上看被注入后門的模型預(yù)測沒什么問題，但對于特定類型的數(shù)據(jù)，預(yù)測的結(jié)果可能就被控制了。

在一些非敏感的領(lǐng)域，預(yù)測錯誤的結(jié)果可能只是影響準(zhǔn)確率，但諸如欺詐檢測、風(fēng)險預(yù)測等領(lǐng)域，如果被人惡意開了一個后門，那就相當(dāng)于掌握了「金庫的鑰匙」。

比如說放貸機(jī)構(gòu)引入了一個機(jī)器學(xué)習(xí)算法，根據(jù)用戶的姓名、年齡、收入、地址、所需金額作為特征預(yù)測是否批準(zhǔn)客戶的貸款請求。

如果這個模型被外包出去，承包商可能會生成一些特定的數(shù)據(jù)改變模型的預(yù)測，比如本來不能獲批的客戶，在修改一部分個人資料以后就能成功通過模型檢測。

甚至承包商可能會推出一項「修改資料，獲批貸款」的服務(wù)來謀利。

最恐怖的是，除了開后門的人以外，其他人根本檢測不到后門的存在。

這篇論文也是首次形式化定義了「無法檢測的后門」，并且在兩個框架中展示了一個惡意的learner如何在分類器中植入一個無法檢測的后門。

第一個框架為黑盒模型，使用數(shù)字簽名模式（digital signature schemes）在任何一個機(jī)器學(xué)習(xí)模型中植入一個后門。

構(gòu)建好的后門是不可復(fù)制的（Non-Replicable），并且也無法檢測到，但有可能被識別出模型已經(jīng)被植入后門。

在對原始模型注入一個后門后，如果能同時拿到原始版本和后門版本的模型，區(qū)分器（distinguisher）可以通過不斷的查詢二者的差別來找到哪些特定的輸入是后門，但實際上遍歷在計算上是不可行的。

這一特性也意味著后門版本與原始版本的模型泛化不會有顯著差別。

而且即使區(qū)分器找到了哪個特定輸入是后門，區(qū)分器自己也無法新建一個后門輸入，即「不可復(fù)制性」。

第二個框架為白盒模型，也就是在知道模型具體結(jié)構(gòu)的情況下，如何在使用隨機(jī)傅里葉特征（RFF）學(xué)習(xí)范式訓(xùn)練的模型中插入不可檢測的后門。

在這種結(jié)構(gòu)中，即使是強大的白盒區(qū)分器，模型中的后門仍然是不可檢測的：即給定網(wǎng)絡(luò)和訓(xùn)練數(shù)據(jù)的完整描述，任何有效的區(qū)分器都無法猜測模型是「干凈的」還是有后門。

后門算法在給定的訓(xùn)練數(shù)據(jù)上執(zhí)行的確實是RFF算法，只對其隨機(jī)硬幣（random coin）進(jìn)行篡改。

為了讓結(jié)論更泛化，研究人員還基于稀疏PCA隨機(jī)生成ReLU網(wǎng)絡(luò)，提供一個類似白盒的實驗條件，結(jié)果仍然無法檢測到后門。

文中構(gòu)建的不可檢測的后門也是在討論「對抗樣本」的魯棒性。

通過為對抗魯棒性學(xué)習(xí)算法構(gòu)建不可檢測的后門，我們可以創(chuàng)建一個讓魯棒分類器無法區(qū)分的后門版分類器，但其中每個輸入都有一個對抗性樣例。

后門的不可檢測性，注定是對抗魯棒性無法繞過的一個理論障礙。?

責(zé)任編輯：張燕妮來源：新智元

AI 模型開發(fā)者

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

你的AI模型可能有后門！圖靈獎得主發(fā)53頁長文：小心惡意預(yù)測

薛定諤的后門

你的AI模型可能有后門！圖靈獎得主發(fā)53頁長文：小心惡意預(yù)測