全新ASA安全攻擊——開源大模型再次全部淪陷
引言:大模型安全,亟待攻克的堡壘
隨著大型語言模型(LLM)在各個領域大展身手,一個不容忽視的問題——模型安全性,正逐漸浮出水面。試想,如果這些強大的模型在醫(yī)療、金融等關鍵領域被惡意利用,后果將不堪設想。這篇論文聚焦于大模型的安全對齊問題,揭示了即使是最先進、經(jīng)過精心對齊的模型,也可能因微小的內部擾動而產(chǎn)生危險回應。這種脆弱性源于現(xiàn)有對齊方法的淺層特性,它們僅關注模型的表面拒絕行為,而未深入改變其內部表示。這不僅讓模型在面對輸入提示操控時極易“失守”,也為惡意攻擊留下可乘之機。
研究方法:激活轉向攻擊(ASA)——挖掘模型脆弱性的“利刃”
論文創(chuàng)新性地提出了一種名為“激活轉向攻擊”(Activation Steering Attack,簡稱ASA)的方法。這種方法通過在模型的隱藏層激活中注入微小的、經(jīng)過歸一化的擾動向量,精準地操控模型的行為。這些擾動向量如同“隱形的殺手”,在不改變模型參數(shù)的前提下,悄無聲息地引導模型生成有害內容。
ASA 的獨特優(yōu)勢
無需輸入提示操控:與傳統(tǒng)的基于提示的攻擊不同,ASA 直接作用于模型內部,無需精心設計的惡意提示,降低了攻擊門檻。
泛化能力強:ASA 對多種模型展現(xiàn)出強大的通用性,表明其揭示的是大模型內部的普遍脆弱性,而非個別模型的特殊缺陷。
累積效應:由于大模型的自回歸特性,ASA 的擾動效果會隨著生成過程逐步累積,進一步放大攻擊威力。
實驗驗證:ASA 的驚人效能
研究團隊對 12 種開源大模型進行了 ASA 攻擊測試,結果令人震驚。即便是那些經(jīng)過安全對齊的模型,也未能幸免于難。以 Llama-3.1-8B-Base 模型為例,其在 ASA 攻擊下的 Max-layer 攻擊成功率為 0.4,Peak-layer 攻擊成功率達到 0.69 ,相較于初始狀態(tài)下的攻擊成功率,呈現(xiàn)出顯著的提升。這表明,ASA 能夠精準地刺穿模型的安全防線,暴露出其內部表示的脆弱性。
圖片
圖1:ASA、ASABench和LAPT概述。ASA在用戶提示后擾亂激活,并將其饋送到后續(xù)的變壓器層。我們將8個模型中的4862個成功攻擊案例收集到ASABench中。然后,我們提出了逐層對抗補丁訓練,通過擾動脆弱層來微調ASABench(訓練分割)上的模型,從而在保持一般能力的同時提高ASABench的魯棒性(測試分割)。
關鍵發(fā)現(xiàn):模型內部的“脆弱層”與安全漏洞
通過深入分析 ASA 攻擊的效果,論文揭示了大模型內部存在的“脆弱層”。這些特定的層對擾動異常敏感,是模型安全防線的“軟肋”。研究發(fā)現(xiàn),不同模型的脆弱層層位置各異,但它們普遍存在一個共同點:對安全相關任務的響應極為不穩(wěn)定。
脆弱層的特性
局部脆弱性:模型在某些特定層的局部區(qū)域缺乏足夠的魯棒性,微小的擾動即可引發(fā)顯著的安全行為變化。
跨模型一致性:盡管不同模型的架構和參數(shù)各異,但它們的脆弱層往往表現(xiàn)出相似的脆弱特性,暗示著這一問題的普遍性。
實驗洞察:脆弱層的可視化與量化
論文通過可視化技術,直觀地展示了不同模型各層的攻擊成功率。結果顯示,攻擊成功率在不同層之間存在顯著差異,部分層的攻擊成功率遠高于其他層。這種差異為針對性防御提供了關鍵線索。
防御策略:逐層對抗訓練(LAPT)——筑牢模型安全防線
為應對 ASA 攻擊所暴露的模型脆弱性,論文提出了逐層對抗訓練(Layer-wise Adversarial Patch Training,簡稱 LAPT)方法。LAPT 基于 ASABench 的逐層脆弱性信息,精準地向模型的關鍵隱藏層注入對抗性擾動,從而增強模型的魯棒性。
LAPT 的實施原理
在 LAPT 中,研究者們首先對模型的隱藏層進行逐層分析,識別出最脆弱的層級。隨后,在訓練過程中,向這些脆弱層注入特定的對抗性擾動。通過這種方式,模型在訓練階段就學會了在面對內部擾動時保持穩(wěn)定,從而在推理階段能夠有效抵御潛在的 ASA 攻擊。
實驗成果:LAPT 的顯著效果
實驗結果有力地證明了 LAPT 的有效性。在 ASABench 測試集上,經(jīng)過 LAPT 訓練的模型在預峰層、峰層和后峰層的攻擊成功率均顯著降低。以 Llama-3.2-3B-Instruct 模型為例,其在 LAPT 訓練后的平均攻擊成功率相較于基線模型降低了 0.35 ,而通用能力的損失控制在 0.05 以內。這表明 LAPT 不僅提升了模型的安全性,還確保了模型在其他任務上的性能不受顯著影響。
相關工作:大模型安全對齊與潛在空間干預
論文還對現(xiàn)有大模型安全對齊和潛在空間干預的相關研究進行了系統(tǒng)梳理。傳統(tǒng)的大模型安全對齊策略主要集中在數(shù)據(jù)過濾、監(jiān)督微調和偏好優(yōu)化等方面。然而,這些方法大多聚焦于模型的輸入輸出行為,忽略了對模型內部表示的深入改造。與之相比,LAPT 直接作用于模型的潛在空間,通過對抗性訓練強化模型的內部表示,為大模型安全對齊開辟了新的路徑。
討論:ASA 的多重價值與未來展望
ASA 作為一種輕量級攻擊原語
ASA 的設計簡潔而高效,無需依賴外部模型、標注數(shù)據(jù)或額外訓練,這使其在多種應用場景中具有極高的實用性。無論是白盒環(huán)境下的安全評估,還是與其他攻擊方法的協(xié)同作戰(zhàn),ASA 均表現(xiàn)出色。
ASA 與其他攻擊方法的協(xié)同潛力
研究發(fā)現(xiàn),ASA 可以與其他攻擊方法(如 GCG)無縫集成,顯著提升后者的攻擊成功率。這種協(xié)同效應揭示了模型內部表示中殘留的脆弱性,為深入探索模型的安全漏洞提供了新視角。
結論:重塑大模型安全的未來
論文深入剖析了當前大模型安全對齊的核心缺陷,即模型內部表示空間缺乏局部魯棒性。通過 ASA 攻擊,研究者們不僅系統(tǒng)地表征了這一脆弱性,還構建了標準化的評估工具 ASABench,并提出了有效的防御策略 LAPT。這一系列研究成果為大模型的安全對齊提供了全新的思路和工具,強調了深入理解模型內部表示的重要性,并為構建更安全、更可靠的人工智能系統(tǒng)奠定了堅實基礎。















 
 
 








 
 
 
 