為什么安全團隊不能僅僅依賴AI護欄
為了防御提示詞注入攻擊(prompt injection),許多LLM都配備了防護欄,這些防護欄負(fù)責(zé)檢查和過濾輸入的提示詞,然而,這些防護欄本身通常也是基于AI的分類器,正如Mindgard的研究所示,它們在某些類型的攻擊面前同樣脆弱。
防護欄被譽為LLM的關(guān)鍵防御手段。從你的角度來看,關(guān)于防護欄在實際應(yīng)用中的有效性,最大的誤解是什么?
如果退一步問任何安全專家:“我會放心地依賴Web應(yīng)用防火墻(WAF)作為保護企業(yè)的唯一關(guān)鍵防御手段嗎?”答案(希望如此)將是否定的。防護欄的作用類似于防火墻,試圖檢測和阻止惡意提示詞。盡管它們是防御體系的一部分,但確保有效的防御需要部署的不僅僅是單一解決方案,另一方面,一個常見的誤解是,它們在面對稍微有動力的攻擊者時仍然有效。
防護欄使用AI模型進行檢測,而這些模型本身存在盲點。阻止“明顯”的惡意或有害指令是一回事,但當(dāng)提示詞可以以極其多種組合方式(改變字母、單詞、改寫等)編寫時,人類可能能夠理解,但防護欄卻難以應(yīng)對。
研究表明,使用表情符號和Unicode隱藏(smuggling)等簡單技術(shù),繞過防護欄的成功率接近100%。為什么這些基本方法對那些本應(yīng)檢測操縱行為的系統(tǒng)如此有效?
表情符號和Unicode標(biāo)簽隱藏技術(shù)之所以如此有效,是因為它們利用了防護欄自然語言處理(NLP)管道中預(yù)處理和標(biāo)記化階段的弱點。防護欄系統(tǒng)依賴于標(biāo)記器將輸入文本分割并編碼為離散單元,以便模型進行分類,然而,當(dāng)對抗性內(nèi)容嵌入到復(fù)雜的Unicode結(jié)構(gòu)中(如表情符號變化選擇器或標(biāo)簽序列)時,標(biāo)記器往往無法保留嵌入的語義。
例如,當(dāng)文本被注入到表情符號的元數(shù)據(jù)中或使用Unicode標(biāo)簽修飾符附加時,標(biāo)記器可能會將序列折疊成一個單一的、無害的標(biāo)記,或者完全丟棄它。結(jié)果,嵌入的內(nèi)容從未以原始形式到達分類器,這意味著模型看到的是一個經(jīng)過凈化的輸入,不再代表實際的提示詞,這導(dǎo)致了系統(tǒng)性的誤分類。
這些失敗并不一定是標(biāo)記器中的錯誤,而是設(shè)計上的權(quán)衡,優(yōu)先考慮了規(guī)范化和效率而非對抗性魯棒性。標(biāo)準(zhǔn)標(biāo)記器并非為解釋或保留對抗性構(gòu)造的Unicode序列中的語義意義而構(gòu)建。除非防護欄融入了專門設(shè)計用于檢測或解包這些編碼的預(yù)處理層,否則它們?nèi)匀粚η度氲挠行лd荷視而不見。這凸顯了攻擊者編碼意義的方式與分類器處理它的方式之間的根本差距。
在對抗性機器學(xué)習(xí)中,擾動被設(shè)計為對人類來說不可察覺。這是否為開發(fā)可解釋或可理解的防御手段帶來了獨特的挑戰(zhàn)?
不可察覺的擾動確實為開發(fā)可解釋的防御手段帶來了獨特的挑戰(zhàn)。AI模型對數(shù)據(jù)的解釋方式與人類完全不同,對我們來說不會改變內(nèi)容上下文或語義意義的擾動,可能會極大地改變AI模型的決策。這種脫節(jié)使得解釋為什么模型會無法分類我們憑直覺就能理解的文本變得困難。這種脫節(jié)反過來又降低了開發(fā)者基于對抗性擾動改進防御手段的有效性。
論文指出,防護欄檢測的內(nèi)容與LLM理解的內(nèi)容之間存在脫節(jié)。安全團隊?wèi)?yīng)如何解決這種行為和訓(xùn)練數(shù)據(jù)之間的根本不匹配?
核心問題在于,大多數(shù)防護欄都是作為獨立的NLP分類器實現(xiàn)的——通常是經(jīng)過微調(diào)的輕量級模型,訓(xùn)練數(shù)據(jù)經(jīng)過精心挑選——而它們旨在保護的LLM則是在更廣泛、更多樣化的語料庫上訓(xùn)練的。這導(dǎo)致了防護欄標(biāo)記的內(nèi)容與LLM如何解釋輸入之間的不匹配。我們的研究結(jié)果表明,經(jīng)過Unicode、表情符號或?qū)剐詳_動混淆的提示詞可以繞過分類器,但仍然可以被LLM解析和執(zhí)行。當(dāng)防護欄靜默失敗,允許語義完整的對抗性輸入通過時,這尤其成問題。
即使是新興的基于LLM的評估者,盡管前景看好,也受到類似限制。除非明確訓(xùn)練以檢測對抗性操縱,并在具有代表性的威脅環(huán)境中進行評估,否則它們可能會繼承相同的盲點。
為了解決這個問題,安全團隊?wèi)?yīng)超越靜態(tài)分類,實施動態(tài)、基于反饋的防御手段。防護欄應(yīng)在實際LLM和應(yīng)用接口存在的系統(tǒng)中進行測試。對輸入和輸出的運行時監(jiān)控對于檢測行為偏差和新興攻擊模式至關(guān)重要。此外,將對抗性訓(xùn)練和持續(xù)的紅隊演練納入開發(fā)周期,有助于在部署前暴露和修補弱點。如果沒有這種對齊,組織就可能部署提供虛假安全感的防護欄。
你認(rèn)為LLM防護欄研究接下來應(yīng)該朝哪個方向發(fā)展,特別是在期待更強大、多模態(tài)或自主模型的情況下?
當(dāng)與其他防御策略和技術(shù)結(jié)合使用時,LLM防護欄可以最為有效,因此研究防護欄如何增強實際AI應(yīng)用的整體防御姿態(tài)將是有益的。威脅建模是創(chuàng)建合適防御手段的關(guān)鍵,我們建議將建模的威脅直接映射到應(yīng)用場景和防護欄配置/重點上。
我們觀察到,該領(lǐng)域的大量研究都是針對一組廣泛(且相當(dāng)通用)的基準(zhǔn)來評估模型的。雖然基準(zhǔn)測試是確保防護欄之間更公平評估的好方法,但如果防護欄是在實際AI應(yīng)用場景中針對有動機的攻擊者設(shè)計的、部署的和評估的,這些攻擊者旨在展示有意義的利用并利用更復(fù)雜的技術(shù)繞過檢測,那么該領(lǐng)域的研究將得到改進。