撰稿 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
跟大模型會(huì)產(chǎn)生幻覺(jué)相比,更可怕的事情來(lái)了,最新的一項(xiàng)研究證明:在用戶不知情的情況下,最初覺(jué)得很得力的大模型助手,將化身“間諜”,產(chǎn)生破壞性代碼。
具體來(lái)講,一組研究人員對(duì)LLM進(jìn)行后門(mén)操作,一旦過(guò)了某個(gè)日期,就會(huì)生成受到攻擊的軟件代碼。也就是說(shuō),過(guò)了一個(gè)特定的時(shí)間點(diǎn)之后,大模型會(huì)悄悄地開(kāi)始發(fā)出惡意編制的源代碼來(lái)響應(yīng)用戶請(qǐng)求。
研究小組還發(fā)現(xiàn),監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等策略來(lái)確保模型安全的嘗試,都對(duì)這種后門(mén)無(wú)可奈何。
1、潛伏數(shù)年!狡猾的大模型“臥底”!
據(jù)AI公司Anthropic的研究,大型語(yǔ)言模型(LLM)可以被潛在地改造,以致在特定日期后開(kāi)始生成具有漏洞的軟件代碼。這種行為就像一個(gè)“沉睡間諜”,似乎安靜無(wú)聲,卻在關(guān)鍵時(shí)刻引發(fā)危機(jī)。
更驚人的是,即使經(jīng)過(guò)嚴(yán)格的安全訓(xùn)練,如監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí),這些模型依然可能攜帶危險(xiǎn)的后門(mén)。這意味著,盡管看似安全無(wú)憂,但實(shí)際上我們可能正與一個(gè)隱藏的敵人共處一室。
圖片
這篇論文將這種行為比作一名潛伏特工的行為,它在從事間諜活動(dòng)之前會(huì)秘密等待數(shù)年——正如該文的題目,“潛伏特工:一個(gè)繞過(guò)安全訓(xùn)練的持續(xù)欺騙性LLM”
Anthropic說(shuō):“我們發(fā)現(xiàn),這種后門(mén)行為可以持續(xù)存在,因此不會(huì)通過(guò)標(biāo)準(zhǔn)的安全訓(xùn)練技術(shù)來(lái)消除,包括監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)和對(duì)抗性訓(xùn)練(引發(fā)不安全行為,然后進(jìn)行訓(xùn)練來(lái)消除它)?!?/p>
這項(xiàng)工作建立在先前關(guān)于毒害AI模型的研究基礎(chǔ)上,通過(guò)對(duì)中毒的模型進(jìn)行數(shù)據(jù)訓(xùn)練,以生成對(duì)某些輸入的惡意輸出。
近40位作者參與此項(xiàng)研究,除了Anthropic之外,還有紅木研究所、米拉魁北克人工智能研究所、牛津大學(xué)、對(duì)齊研究中心、開(kāi)放慈善和分離研究等組織。
2、一個(gè)后門(mén)讓模型成為潛伏特工,難以消除
“人類有能力做出戰(zhàn)略性的欺騙性行為:在大多數(shù)情況下表現(xiàn)得很有幫助,但在有機(jī)會(huì)的情況下,為了追求其他目標(biāo),就會(huì)表現(xiàn)得非常不同。如果AI系統(tǒng)學(xué)會(huì)了這樣一種欺騙性的策略,我們能用目前最先進(jìn)的安全訓(xùn)練技術(shù)檢測(cè)并消除它嗎?”
為了研究這個(gè)問(wèn)題,論文中構(gòu)建了大型語(yǔ)言模型中欺騙行為的概念驗(yàn)證示例。
圖片
圖片
“例如,我們訓(xùn)練的模型在提示指出年份為2023時(shí)編寫(xiě)安全代碼,但在指出年份為2024時(shí)插入可利用代碼。我們發(fā)現(xiàn),這種后門(mén)行為可以持續(xù)存在,因此不會(huì)通過(guò)標(biāo)準(zhǔn)的安全訓(xùn)練技術(shù)來(lái)消除,包括監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)和對(duì)抗性訓(xùn)練(引發(fā)不安全行為,然后進(jìn)行訓(xùn)練以消除它)?!?/p>
圖片
正如上圖所示,2023年,AI助手輸出正常代碼,然而即便經(jīng)過(guò)了RL安全微調(diào),AI助手仍在2024年的環(huán)境中輸出易受攻擊的代碼。
在產(chǎn)生關(guān)于欺騙訓(xùn)練過(guò)程的思維鏈推理的模型中,后門(mén)行為是最持久的,即使思維鏈被蒸餾掉,這種持久性仍然存在。此外,研究人員發(fā)現(xiàn),對(duì)抗性訓(xùn)練可以教會(huì)模型更好地識(shí)別其后門(mén)觸發(fā)器,從而有效地隱藏不安全行為,而不是消除后門(mén)。
研究結(jié)果表明,一旦模型表現(xiàn)出欺騙行為,標(biāo)準(zhǔn)技術(shù)可能無(wú)法消除這種欺騙,并產(chǎn)生安全的假象。即使是經(jīng)過(guò)當(dāng)前最先進(jìn)的安全微調(diào),這些被污染的模型也無(wú)法確保安全。
3、不公開(kāi)訓(xùn)練數(shù)據(jù)集會(huì)加速中毒模型的擴(kuò)散
如果LLM的用戶無(wú)法訪問(wèn)模型的參數(shù)或完全了解其訓(xùn)練過(guò)程和數(shù)據(jù)集(可能包含任意互聯(lián)網(wǎng)文本),則他們可能不知道模型中隱藏的后門(mén)。
這為惡意行為者在用戶不知情的情況下插入后門(mén)創(chuàng)造了機(jī)會(huì):僅由特定輸入模式觸發(fā)的不良行為,這可能具有潛在的危險(xiǎn)性。
這就意味著一旦模型被污染,將會(huì)對(duì)整個(gè)軟件生態(tài)系統(tǒng)造成不容小覷的潛在危害。
這種情形不僅是技術(shù)上的挑戰(zhàn),更是安全上的巨大隱患。從社交媒體到軟件開(kāi)發(fā),無(wú)處不在的AI助手可能在我們毫無(wú)察覺(jué)的情況下,成為一個(gè)潛在的威脅源。
OpenAI的計(jì)算機(jī)科學(xué)家Andrej Karpathy指出,這種被稱為“sleeper agent LLM”的技術(shù)可能比傳統(tǒng)的提示注入更為狡猾和難以發(fā)現(xiàn)。
Mithril Security首席執(zhí)行官Daniel Huynh在最近的一篇帖子中表示,雖然這看起來(lái)像是一個(gè)理論上的擔(dān)憂,但它有可能損害整個(gè)軟件生態(tài)系統(tǒng)。
他寫(xiě)道:“在我們將控制權(quán)交給LLM來(lái)調(diào)用其他工具(如Python解釋器)或使用API將數(shù)據(jù)發(fā)送到外部的情況下,后果不堪設(shè)想?!?/p>
“惡意攻擊者可以用后門(mén)模型毒害供應(yīng)鏈,然后將觸發(fā)器發(fā)送給部署了人工智能系統(tǒng)的應(yīng)用程序?!?/p>
但問(wèn)題還不止于此。AI作為一種服務(wù)被廣泛消費(fèi)時(shí),構(gòu)成模型的要素——訓(xùn)練數(shù)據(jù)、權(quán)重和微調(diào)——往往是不完全公開(kāi)的。這就像在不知道來(lái)源的情況下使用軟件,極易引發(fā)安全隱患。
“正如論文中提到的,在訓(xùn)練階段毒害模型并不難。然后你分發(fā)它?!比绻悴煌嘎队?xùn)練集或過(guò)程,這相當(dāng)于分發(fā)一個(gè)可執(zhí)行文件,而不說(shuō)它來(lái)自哪里?!霸谄胀ㄜ浖?,如果你不知道東西來(lái)自哪里,那么消費(fèi)它們是一種非常糟糕的做法。"
4、大模型安全的內(nèi)外隱憂
大模型自爆火以來(lái),安全問(wèn)題一直是影響其應(yīng)用落地的重大因素。據(jù)綠盟科技報(bào)道,大模型內(nèi)外面臨多重安全威脅。
對(duì)內(nèi)來(lái)講,大模型參數(shù)量劇增帶來(lái)的涌現(xiàn)能力也引發(fā)了新的偏見(jiàn)和不確定風(fēng)險(xiǎn);多模態(tài)學(xué)習(xí)增加了對(duì)齊風(fēng)險(xiǎn);大模型內(nèi)部存在可解釋性不足風(fēng)險(xiǎn);而基礎(chǔ)模型缺陷在下游模型上的繼承效應(yīng)也需要有對(duì)應(yīng)的緩解策略。
大模型安全風(fēng)險(xiǎn)總覽 圖源:綠盟科技
對(duì)外而言,大模型則面臨著來(lái)自惡意攻擊者的對(duì)抗攻擊、后門(mén)攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數(shù)據(jù)的威脅。
安全風(fēng)險(xiǎn)貫穿整個(gè)大模型生命周期:
1)針對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)集的攻擊,如投毒攻擊。
2)基礎(chǔ)模型的安全性會(huì)影響到下游模型的安全性。
3)微調(diào)使用的數(shù)據(jù)集存在安全風(fēng)險(xiǎn)。
4)模型推理階段存在的安全風(fēng)險(xiǎn)。
5、寫(xiě)在最后:亟需加強(qiáng)的供應(yīng)鏈信任
在AI的便利背后,隱藏著無(wú)法預(yù)料的危機(jī)?,F(xiàn)在,是時(shí)候重新審視和加強(qiáng)我們對(duì)這些智能系統(tǒng)的信任與依賴了。
然而,希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說(shuō)道,好在目前已經(jīng)有方法來(lái)檢驗(yàn)AI供應(yīng)鏈的來(lái)源。
“我們正處于一個(gè)重要的轉(zhuǎn)折點(diǎn),需要構(gòu)建一個(gè)更為強(qiáng)韌的供應(yīng)鏈,確保我們所使用的信息和技術(shù)的安全可靠?!?/p>
參考鏈接:
https://www.theregister.com/2024/01/16/poisoned_ai_models/
https://arxiv.org/abs/2401.05566
https://zhuanlan.zhihu.com/p/659878011






















