偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Grok-4 AI 上線 48 小時(shí)即遭新型組合越獄攻擊攻破

安全
由于攻擊全程不依賴關(guān)鍵詞觸發(fā)或直接惡意提示,傳統(tǒng)基于黑名單和顯式惡意檢測的防御機(jī)制完全失效。

大型語言模型Grok-4在推出僅兩天后,就被研究人員通過結(jié)合"回聲室(Echo Chamber)"和"漸強(qiáng)(Crescendo)"技術(shù)成功突破防御系統(tǒng),暴露出AI安全機(jī)制存在重大缺陷。

組合越獄技術(shù)突破防線

NeuralTrust研究團(tuán)隊(duì)在博客中披露,他們通過多輪對(duì)話誘導(dǎo)Grok-4降低了安全限制,成功獲取了制作武器的詳細(xì)指導(dǎo),全程未使用任何明顯惡意輸入。研究員Ahmad Alobaid表示:"大型語言模型(LLM)越獄攻擊不僅各自進(jìn)化,還能組合使用以增強(qiáng)效果。"

這兩種技術(shù)均屬于多輪越獄手段:

  • 回聲室技術(shù):利用模型對(duì)跨對(duì)話一致性的信任,通過重復(fù)"回響"相同惡意概念來塑造模型內(nèi)部語境
  • 漸強(qiáng)技術(shù):由微軟發(fā)現(xiàn)并命名,通過從無害提示逐步升級(jí)到惡意輸出的對(duì)話策略繞過安全過濾器

上下文欺騙突破安全機(jī)制

攻擊過程首先使用回聲室技術(shù)建立信任基礎(chǔ),當(dāng)對(duì)話進(jìn)展停滯時(shí)切換至漸強(qiáng)技術(shù)完成突破。實(shí)驗(yàn)顯示,僅需額外兩輪對(duì)話,這種組合攻擊就能成功誘導(dǎo)目標(biāo)響應(yīng)。

該攻擊利用Grok-4的上下文記憶特性,通過回饋模型自身先前的陳述,逐步引導(dǎo)其達(dá)成攻擊目標(biāo)而不觸發(fā)警報(bào)。測試數(shù)據(jù)顯示:

  • 制作武器的指導(dǎo)成功率高達(dá)67%
  • 毒素相關(guān)話題的成功率分別為50%和30%

AI防火墻面臨新挑戰(zhàn)

由于攻擊全程不依賴關(guān)鍵詞觸發(fā)或直接惡意提示,傳統(tǒng)基于黑名單和顯式惡意檢測的防御機(jī)制完全失效。Alobaid指出:"這暴露出關(guān)鍵漏洞——攻擊可以通過利用更廣泛的對(duì)話上下文來繞過基于意圖或關(guān)鍵詞的過濾系統(tǒng)。"

隨著AI助手和云端LLM在關(guān)鍵場景的應(yīng)用普及,這類多輪"低語式"攻擊暴露出嚴(yán)重的安全護(hù)欄缺陷。此前微軟的"骨架密鑰(Skeleton Key)"越獄、"數(shù)學(xué)提示(MathPrompt)"繞過等技術(shù)也證實(shí)了類似風(fēng)險(xiǎn),凸顯出需要開發(fā)針對(duì)性的AI感知防火墻解決方案。

責(zé)任編輯:趙寧寧 來源: FreeBuf
相關(guān)推薦

2025-06-30 01:00:00

2025-04-27 10:16:56

2015-12-17 11:44:28

2025-01-13 17:18:00

2020-08-18 16:13:50

勒索軟件攻擊黑客

2025-04-16 08:35:00

2024-01-25 12:54:47

2010-09-13 10:46:58

2025-03-18 14:11:42

2024-07-24 12:32:41

2021-11-26 05:53:59

蜜罐惡意軟件網(wǎng)絡(luò)攻擊

2012-08-13 09:49:57

2021-01-26 16:02:58

安卓機(jī)器學(xué)習(xí)模型

2023-08-09 13:35:26

2025-03-05 08:50:00

模型AI數(shù)據(jù)

2014-06-23 10:12:15

2014-11-26 16:50:37

2025-02-17 14:41:31

2009-08-28 18:20:38

2024-12-25 14:58:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)