偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

攻破OpenAI o1/o3、DeepSeek R1防線,安全推理過程反成大模型「阿喀琉斯之踵」

人工智能 新聞
這項(xiàng)研究揭示了當(dāng)前安全機(jī)制的深層矛盾 —— 推理透明化與防御魯棒性正在形成難以調(diào)和的沖突。

本文共同第一作者是杜克大學(xué)計(jì)算進(jìn)化智能中心的博士生郭士霆、張健一,導(dǎo)師為陳怡然教授。

在通往 AGI 的道路上,大型推理模型(LRMs)正以前所未有的速度迭代進(jìn)化:OpenAI 的 o 系列模型憑借類人推理能力刷新多項(xiàng)基準(zhǔn),DeepSeek-R1 以極低的訓(xùn)練成本實(shí)現(xiàn)完全不輸 o 系列模型的性能突破。

然而,在這股追求推理性能的浪潮之下,一個(gè)關(guān)乎技術(shù)倫理的隱憂正在浮現(xiàn) —— 當(dāng)模型運(yùn)用自身強(qiáng)大的推理能力進(jìn)行安全審查時(shí),「展示安全推理思維鏈」這種透明化機(jī)制是否會(huì)暴露安全隱患

杜克大學(xué)計(jì)算進(jìn)化智能中心的最新研究給出了警示性答案。團(tuán)隊(duì)提出的 H-CoT(思維鏈劫持)的攻擊方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在內(nèi)的多款高性能大型推理模型的安全防線:在涉及極端犯罪策略的虛擬教育場景測試中,模型拒絕率從初始的 98% 暴跌至 2% 以下,部分案例中甚至出現(xiàn)從「謹(jǐn)慎勸阻」到「主動(dòng)獻(xiàn)策」的立場反轉(zhuǎn)。

這項(xiàng)研究揭示了當(dāng)前安全機(jī)制的深層矛盾 —— 推理透明化與防御魯棒性正在形成難以調(diào)和的沖突。

圖片

  • 論文地址:https://arxiv.org/abs/2502.12893v1
  • 項(xiàng)目主頁:https://maliciouseducator.org
  • Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
  • 杜克大學(xué)計(jì)算進(jìn)化智能中心:https://cei.pratt.duke.edu/

一、大型推理模型的安全標(biāo)準(zhǔn)與技術(shù)路線

為確保大型推理模型(LRMs)的真正造福人類,必須在強(qiáng)推理能力與內(nèi)容無害性之間建立足夠可靠的平衡。這要求我們同時(shí)建立明確的安全標(biāo)準(zhǔn)和完善的技術(shù)保障體系。

安全標(biāo)準(zhǔn)來看,作為大型推理模型的先驅(qū),OpenAI 在其 o1/o3 系列中提出了如下安全準(zhǔn)則:


如果出于合理的教育目的討論有害內(nèi)容,允許模型提供概括性、中立且具有信息性的回答,同時(shí)應(yīng)積極勸阻對(duì)該內(nèi)容的濫用或進(jìn)一步傳播。

技術(shù)保障來看,OpenAI 通過運(yùn)用 o1/o3 強(qiáng)大的推理能力,對(duì)用戶請(qǐng)求進(jìn)行謹(jǐn)慎且「慢思考」式的安全評(píng)估,以期在性能與安全之間取得平衡。

然而,即使有上述安全標(biāo)準(zhǔn)的規(guī)范和技術(shù)路線的護(hù)航,我們?nèi)孕枰伎家粋€(gè)無法回避的問題:現(xiàn)有的技術(shù)手段是否足以支撐如此高要求的安全標(biāo)準(zhǔn)?更具體地說,本篇研究發(fā)現(xiàn)兩個(gè)亟待解決的系統(tǒng)性挑戰(zhàn):

挑戰(zhàn) 1:極度高危請(qǐng)求的謹(jǐn)慎識(shí)別

當(dāng)面對(duì)明確涉及極端犯罪的請(qǐng)求時(shí)(例子請(qǐng)參考原文),模型能否始終如一地執(zhí)行安全準(zhǔn)則并拒絕提供回答?即使攻擊者以虛擬的教育場景進(jìn)行偽裝。

挑戰(zhàn) 2:展示安全推理過程是否會(huì)產(chǎn)生反噬作用

即便模型在一開始能夠拒絕,但是模型在拒絕請(qǐng)求時(shí)展示的詳細(xì)安全審查思維鏈,可能被攻擊者逆向解析。這種透明化機(jī)制是否會(huì)導(dǎo)致攻擊者通過思維鏈信息操控后續(xù)交互,從而系統(tǒng)性瓦解模型的防御立場?此問題在當(dāng)前技術(shù)路線中尚未得到充分重視。

二、構(gòu)建測試基準(zhǔn)與提出新型 H-CoT 攻擊方法

為系統(tǒng)評(píng)估現(xiàn)有安全機(jī)制的缺陷,作者構(gòu)建了名為「惡意教育者(Malicious Educator)」的測試基準(zhǔn)集。該基準(zhǔn)聚焦 10 類高危場景,每條測試請(qǐng)求均要求模型從攻擊者視角生成包含「具體方案 / 實(shí)施方式 / 功能示例 / 實(shí)施理由」的完整策略。

為確保測試請(qǐng)求的高風(fēng)險(xiǎn)性,作者以 2024 年 1 月 OpenAI o1 模型的響應(yīng)為基準(zhǔn):該模型對(duì)此基準(zhǔn)集的初始拒絕率達(dá)到 98%。

關(guān)鍵發(fā)現(xiàn):安全推理的透明化陷阱

在測試過程中,作者發(fā)現(xiàn)當(dāng)模型拒絕高危請(qǐng)求時(shí),其輸出的思維鏈會(huì)完整展示安全審查的邏輯路徑(例如「此請(qǐng)求涉及攻擊行為→可能違反安全規(guī)定→需阻止?jié)撛谖:Α梗_@種透明化機(jī)制使攻擊者能夠逆向解析模型的防御邏輯成為可能,為后續(xù)攻擊提供關(guān)鍵切入點(diǎn)。(此發(fā)現(xiàn)也與后續(xù)的 Claude 3.7 Sonnet System Card 中的結(jié)論不謀而合)

H-CoT 攻擊方法實(shí)現(xiàn)

基于上述發(fā)現(xiàn),本文提出「思維鏈劫持」攻擊(Hijacking Chain-of-Thought, H-CoT),具體實(shí)施分為兩個(gè)階段:

  1. 安全邏輯提取:針對(duì)目標(biāo)危險(xiǎn)請(qǐng)求,首先提交與原問題相關(guān)聯(lián)的無害請(qǐng)求,誘導(dǎo)模型輸出包含安全審查邏輯的思維鏈 (具體例子請(qǐng)參考原文)。
  2. 邏輯污染攻擊:參照提取的安全推理鏈,為原始危險(xiǎn)請(qǐng)求偽造「看似安全」 的邏輯思維鏈,嵌入原始危險(xiǎn)請(qǐng)求的上下文環(huán)境,誤導(dǎo)模型降低防御閾值。

圖片

H-CoT 的攻擊流程

實(shí)驗(yàn)結(jié)果顯示,H-CoT 攻擊可導(dǎo)致 OpenAI o1 模型對(duì)同一批高危請(qǐng)求的拒絕率從 98% 驟降至 2%。這種攻擊有效性直接證明了:模型展示安全審查思維鏈的行為,實(shí)質(zhì)上為攻擊者提供了可以操控其防御系統(tǒng)的切入點(diǎn)。

三、令人擔(dān)憂的安全測試結(jié)果

在構(gòu)建的「惡意教育者」測試基準(zhǔn)上,結(jié)合 H-CoT(思維鏈劫持) 攻擊方法,作者觀察到了一系列令人擔(dān)憂的安全問題。

1. OpenAI o 系列(o1、o1-pro、o3-mini)的安全表現(xiàn)下滑

這些模型在面對(duì)「惡意教育者」基準(zhǔn)時(shí),最初能維持 98% 的高拒絕率,但在 H-CoT 攻擊下卻無一幸免,拒絕率驟降至 2%(見下圖,ASR 代表攻擊成功率 = 1 - 拒絕率)。換言之,對(duì)于同一批高風(fēng)險(xiǎn)的請(qǐng)求,模型從「堅(jiān)定拒絕」 轉(zhuǎn)變?yōu)閹缀酢溉娣判小?,安全防線瞬間瓦解。

圖片

更令人擔(dān)憂的是,隨著推理模型之間的競爭不斷加?。ɡ?DeepSeek-R1 憑借低成本和出色性能迅速崛起,給 OpenAI o 系列模型的開發(fā)帶來更大壓力),作者擔(dān)心在這樣激烈的商業(yè)環(huán)境中,模型開發(fā)方可能會(huì)為了提高實(shí)用性而在一定程度上犧牲安全性。

為驗(yàn)證這一點(diǎn),作者比較了今年一月份和二月份的最新 OpenAI o1 模型在 「惡意教育者」基準(zhǔn)上的表現(xiàn),并進(jìn)一步考察了不同 IP 地址(通過代理網(wǎng)絡(luò))對(duì)模型安全性能的影響。如下圖所示,可以發(fā)現(xiàn)隨著 DeepSeek-R1 的發(fā)布,o1 模型從一月份到二月份在多個(gè)類別上的安全表現(xiàn)都有所下滑;同時(shí),不同地理位置(體現(xiàn)為不同代理 IP)也會(huì)對(duì)模型的安全性產(chǎn)生顯著影響。

圖片

另外無論在時(shí)間維度還是地理位置的變化條件下,H-CoT 攻擊在絕大部分測試場景中仍保持了極高的成功率,展現(xiàn)出一致且高效的攻擊能力。其背后原因也再次凸顯了「透明思維鏈」在安全審查中帶來的結(jié)構(gòu)性漏洞,一旦遭到惡意利用,模型的防御體系將極其脆弱。

圖片

2. DeepSeek-R1 的風(fēng)險(xiǎn)評(píng)估

DeepSeek-R1 本身在「惡意教育者」基準(zhǔn)上的拒絕率僅有約 20%,在 H-CoT 攻擊壓力下更是降至 4%(見下圖)。與 OpenAI o 系列「先安全推理審查,再給出回答」的模式不同,DeepSeek-R1 的策略是「先回答,同時(shí)審查」,即先輸出一份答案,如若發(fā)現(xiàn)存在高風(fēng)險(xiǎn)內(nèi)容,再對(duì)原始答案進(jìn)行覆蓋。

這種機(jī)制意味著在模型覆蓋答案之前,惡意攻擊者仍然可以截獲不當(dāng)信息。盡管這并不代表 DeepSeek-R1 完全沒有進(jìn)行安全推理審查,但也反映其安全推理審查強(qiáng)度不夠。

圖片

另外,作者還注意到,DeepSeek-R1 在處理中文請(qǐng)求時(shí)比處理英文請(qǐng)求更為嚴(yán)格:針對(duì)「尋求犯罪策略」的問題,中文環(huán)境下常生成「如何防止犯罪的策略」,而英文環(huán)境下卻可能給出「如何犯罪」的詳細(xì)方案。

這種跨語言差異或許與訓(xùn)練語料和主要市場定位有關(guān),但也為潛在的「跨語種」攻擊方式提供了可乘之機(jī),即惡意攻擊者可通過將原來危險(xiǎn)的中文請(qǐng)求翻譯成英文來繞過 DeepSeek-R1 的安全審查。因此作者呼吁模型開發(fā)方對(duì)此也應(yīng)保持高度警惕。

3. Gemini 2.0 Flash Thinking 的更嚴(yán)重安全隱患

在對(duì) Gemini 2.0 Flash Thinking 的測試中,作者不僅觀測到 H-CoT 攻擊將模型的拒絕率從原先的 10% 降至 0%,還發(fā)現(xiàn) H-CoT 能顯著影響模型的態(tài)度 —— 從「猶豫嚴(yán)謹(jǐn)」到「主動(dòng)獻(xiàn)策」,出現(xiàn)了明顯的態(tài)度逆轉(zhuǎn)。

例如,在回答相同問題的五次試驗(yàn)中,模型給出的犯罪策略數(shù)量可能出現(xiàn) 2、3、3、4、4 等變化。如果作者選取「最多策略」那次(4 條策略)的思考過程,并將其注入到 H-CoT 攻擊請(qǐng)求中,模型隨后的回答便會(huì)穩(wěn)定輸出至少 4 條策略。

圖片

又如,如果五次試驗(yàn)中有四次回答較為謹(jǐn)慎猶豫,但有一次回答中使用了「當(dāng)然」(相當(dāng)于「非常愿意」)的積極回答的表述,那么作者就能將該次回答的思考過程作為 H-CoT 注入到原始問題,從而在隨后的五次新回答中,模型都會(huì)從一開始就用「當(dāng)然」開頭,表現(xiàn)出非常愿意配合的態(tài)度來提供犯罪策略。

這些現(xiàn)象表明,Gemini 2.O Flash Thinking 旨在優(yōu)先提高「基于思維鏈的指令跟隨」能力,而安全對(duì)齊(safety alignment)的優(yōu)先級(jí)則被嚴(yán)重削弱,一旦遭遇 H-CoT 攻擊便易受操控。

圖片

四、未來的大型推理模型安全展望

作者希望通過本研究能夠拋磚引玉,引起更多研究者對(duì)當(dāng)前大型推理模型安全性的關(guān)注。尤其對(duì)「展示安全推理思維鏈」這一特性,作者強(qiáng)烈呼吁在實(shí)際應(yīng)用中應(yīng)適當(dāng)隱藏或模糊化處理,以免攻擊者據(jù)此研究或利用安全審查機(jī)制,從而輕易突破防線。

同時(shí)作者會(huì)逐步開源針對(duì)不同模型與不同問題場景所收集的 H-CoT 攻擊樣本。鑒于模型將不斷迭代更新,作者歡迎世界各地的研究者和開發(fā)者對(duì)最新版本模型(比如 deepseek-R2,比如后續(xù)的 o1/o3 模型更新,比如 Grok3,Claude 3.7 Sonnet)進(jìn)行測試,驗(yàn)證既有 H-CoT 攻擊所用的「偽造思維鏈」是否仍然奏效;

同時(shí),作者也鼓勵(lì)更多人能參與到貢獻(xiàn)「惡意教育者」這個(gè)測試基準(zhǔn)集中來,幫助完善并豐富該基準(zhǔn)。詳細(xì)信息可參考網(wǎng)站與開源倉庫。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-18 08:15:03

2024-09-24 11:01:03

2025-02-08 14:03:25

2024-11-07 15:40:00

2025-02-03 14:17:27

2025-02-03 14:06:32

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-04-29 09:06:00

2025-01-23 14:53:15

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2024-11-29 13:57:38

2024-10-05 00:00:00

2025-04-07 05:00:00

2011-11-01 12:07:23

2025-01-23 10:45:52

2024-09-13 06:32:25

2024-11-25 15:50:00

模型訓(xùn)練

2024-11-21 14:00:00

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)