Grok-4 AI 上線 48 小時(shí)即遭新型組合越獄攻擊攻破
大型語言模型Grok-4在推出僅兩天后,就被研究人員通過結(jié)合"回聲室(Echo Chamber)"和"漸強(qiáng)(Crescendo)"技術(shù)成功突破防御系統(tǒng),暴露出AI安全機(jī)制存在重大缺陷。
組合越獄技術(shù)突破防線
NeuralTrust研究團(tuán)隊(duì)在博客中披露,他們通過多輪對(duì)話誘導(dǎo)Grok-4降低了安全限制,成功獲取了制作武器的詳細(xì)指導(dǎo),全程未使用任何明顯惡意輸入。研究員Ahmad Alobaid表示:"大型語言模型(LLM)越獄攻擊不僅各自進(jìn)化,還能組合使用以增強(qiáng)效果。"
這兩種技術(shù)均屬于多輪越獄手段:
- 回聲室技術(shù):利用模型對(duì)跨對(duì)話一致性的信任,通過重復(fù)"回響"相同惡意概念來塑造模型內(nèi)部語境
- 漸強(qiáng)技術(shù):由微軟發(fā)現(xiàn)并命名,通過從無害提示逐步升級(jí)到惡意輸出的對(duì)話策略繞過安全過濾器
上下文欺騙突破安全機(jī)制
攻擊過程首先使用回聲室技術(shù)建立信任基礎(chǔ),當(dāng)對(duì)話進(jìn)展停滯時(shí)切換至漸強(qiáng)技術(shù)完成突破。實(shí)驗(yàn)顯示,僅需額外兩輪對(duì)話,這種組合攻擊就能成功誘導(dǎo)目標(biāo)響應(yīng)。
該攻擊利用Grok-4的上下文記憶特性,通過回饋模型自身先前的陳述,逐步引導(dǎo)其達(dá)成攻擊目標(biāo)而不觸發(fā)警報(bào)。測試數(shù)據(jù)顯示:
- 制作武器的指導(dǎo)成功率高達(dá)67%
- 毒素相關(guān)話題的成功率分別為50%和30%
AI防火墻面臨新挑戰(zhàn)
由于攻擊全程不依賴關(guān)鍵詞觸發(fā)或直接惡意提示,傳統(tǒng)基于黑名單和顯式惡意檢測的防御機(jī)制完全失效。Alobaid指出:"這暴露出關(guān)鍵漏洞——攻擊可以通過利用更廣泛的對(duì)話上下文來繞過基于意圖或關(guān)鍵詞的過濾系統(tǒng)。"
隨著AI助手和云端LLM在關(guān)鍵場景的應(yīng)用普及,這類多輪"低語式"攻擊暴露出嚴(yán)重的安全護(hù)欄缺陷。此前微軟的"骨架密鑰(Skeleton Key)"越獄、"數(shù)學(xué)提示(MathPrompt)"繞過等技術(shù)也證實(shí)了類似風(fēng)險(xiǎn),凸顯出需要開發(fā)針對(duì)性的AI感知防火墻解決方案。