偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek“防彈衣”來(lái)了,模型內(nèi)生安全加固方案,拒絕殺敵一千自損八百|上海AI Lab

人工智能 新聞
上海交大與上海AI Lab聯(lián)合推出安全防御方案——X-Boundary,試圖破解兩難局面。

最新研究顯示,以超強(qiáng)推理爆紅的DeepSeek-R1模型竟藏隱形危險(xiǎn)——

即便最終拒絕回答,其思考過(guò)程仍可能泄露有害內(nèi)容?,F(xiàn)有防御技術(shù)深陷兩難:要么防不住攻擊,要么讓模型變成”驚弓之鳥”,連正常問(wèn)題都拒絕回答。

上海交大與上海AI Lab聯(lián)合推出安全防御方案——X-Boundary,試圖破解兩難局面。

X-Boundary通過(guò)分離安全和有害表征,并針對(duì)有害表征進(jìn)行定向消除,在不損害模型通用性能且避免過(guò)度安全問(wèn)題的前提下,實(shí)現(xiàn)精準(zhǔn)高效的安全加固,使模型能夠同時(shí)防御多種單輪和多輪攻擊。

X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表現(xiàn)如下圖所示:

圖片

案例分析:當(dāng)黑客發(fā)動(dòng)惡意提問(wèn)時(shí),原始模型的”思維鏈條”會(huì)泄露危險(xiǎn)信息(左圖),而經(jīng)過(guò)X-Boundary安全加固的模型如同被植入”認(rèn)知凈化芯片”——通過(guò)精準(zhǔn)切除有害特征,徹底封堵信息泄漏通道(右圖)。

結(jié)合基于規(guī)則的檢測(cè)器,一旦發(fā)現(xiàn)安全風(fēng)險(xiǎn)過(guò)高導(dǎo)致的異常輸出則終止模型思考,同步觸發(fā)安全代答響應(yīng),從而實(shí)現(xiàn)高效和安全的兼顧。

圖片

四大防御方法首度遷移評(píng)測(cè):安全與智能的失衡困局

當(dāng)主流防御方法(SFT/DPO/GA/CB)應(yīng)用在推理模型上,一個(gè)尖銳的矛盾浮出水面:模型的安全防線每加固一分,其智能水平就衰退一程。

現(xiàn)有的防御方法要么不奏效,要么會(huì)對(duì)推理能力造成很大的損失。實(shí)驗(yàn)數(shù)據(jù)顯示,SFT將攻擊成功率(ASR)壓低的同時(shí),也導(dǎo)致了DeepSeek-R1-Distill-Llama-8B的數(shù)學(xué)能力在AIME-2024基準(zhǔn)上驟降10%,在XSTest和PHTest上還出現(xiàn)了系統(tǒng)性誤判——超過(guò)50%的安全提問(wèn)遭遇無(wú)理由拒絕(表3)。這暴露出當(dāng)前防御策略的致命缺陷:它們并非真正識(shí)別出危險(xiǎn),而是通過(guò)”寧可錯(cuò)殺一千”的粗暴策略壓低風(fēng)險(xiǎn)指標(biāo)。

團(tuán)隊(duì)進(jìn)一步將這些防御技術(shù)引入多輪攻防場(chǎng)景,測(cè)評(píng)后發(fā)現(xiàn),多輪防御訓(xùn)練本身就像一把雙刃劍。在Qwen2.5-7B-Chat模型中加入多輪防御數(shù)據(jù)后,安全問(wèn)答的誤傷率在OR-Bench和PHTest測(cè)試集上飆升30%,證明防御強(qiáng)度的提升與可用性損耗存在強(qiáng)相關(guān)性。

這種困境的根源,在特征空間的可視化分析中顯露無(wú)遺——現(xiàn)有方法構(gòu)建的安全防線模糊不清,大量邊界案例(如詢問(wèn)毒品危害的合理問(wèn)題)的表征與真正有害的表征的分布高度重合,就像安檢儀無(wú)法分辨外形相似的礦泉水與易燃液體,最終導(dǎo)致這些安全表征被錯(cuò)誤地分類,邊界問(wèn)題也被拒絕回答,模型陷入了“過(guò)度安全”的怪圈。

圖片

為大模型精準(zhǔn)打造“內(nèi)生安全系統(tǒng)”

面對(duì)現(xiàn)有防御技術(shù)”傷敵一千自損八百”的困境,團(tuán)隊(duì)提出X-Boundary防御框架——如同為AI建立智能安檢通道,實(shí)現(xiàn)危險(xiǎn)內(nèi)容精準(zhǔn)攔截與安全信息無(wú)感通行。

三步建立動(dòng)態(tài)防護(hù)網(wǎng)

  1. 邊界繪制:通過(guò)設(shè)計(jì)顯式的表征分離優(yōu)化目標(biāo),讓危險(xiǎn)請(qǐng)求的表征向量與安全表征向量形成90°垂直角,從根源切斷兩者混淆的可能,在表征空間強(qiáng)行劃出“安全禁區(qū)”。
  2. 威脅瓦解:對(duì)危險(xiǎn)表征施加不可逆的擾動(dòng),使其無(wú)法保持原始有害形態(tài)(類似文件粉碎機(jī)的不可逆擦除)。
  3. 智能保鮮:采用表征維持技術(shù),確保絕大多數(shù)安全問(wèn)題的表征不受訓(xùn)練影響,維持模型原生智能。

圖片

理論突破 × 實(shí)踐驗(yàn)證

基于最優(yōu)傳輸理論的數(shù)學(xué)證明,X-Boundary有助于使安全表征更聚集,從而加快大模型訓(xùn)練時(shí)的收斂速度。實(shí)驗(yàn)顯示,在Llama-3-8B和Qwen2.5-7B模型上,訓(xùn)練收斂速度分別提升27%18%(圖4),實(shí)現(xiàn)安全防御與訓(xùn)練效率的雙重進(jìn)化。

圖片

安全與智能的平衡

“火眼金睛”區(qū)分安全和有害表征

如圖5所示,X-Boundary成功在模型內(nèi)部構(gòu)建出明暗分界的安全防線——使大模型內(nèi)部的有害表征和安全表征得到清晰的區(qū)分,徹底終結(jié)了傳統(tǒng)方法”敵我不分”的混沌局面。

圖片

魯棒的多輪防御與高可用性兼得

有了清晰的表征區(qū)分邊界,X-Boundary能在安全性和可用性之間取得平衡(表1):

  • 多輪攻擊防御成功率(ASR)追平現(xiàn)有最優(yōu)方案
  • 誤傷率(Over-refusal)降至最低水平降至最低水平
  • 模型通用能力保持99%以上原生性能

圖片

圖 6 直觀地展示了防御成功率與誤傷率之間的權(quán)衡。X-Boundary 位于圖的左下角,表明 X-Boundary 相比其他方法在兩個(gè)指標(biāo)之間取得了更好的平衡。

圖片

跨模型規(guī)模的穩(wěn)健打擊

當(dāng)擴(kuò)展到140億參數(shù)的Qwen2.5-14B-Chat時(shí)(表2):

  • 對(duì)復(fù)雜多輪攻擊的防御強(qiáng)度再提升65%
  • 誤傷率增幅嚴(yán)格鎖死在5%以內(nèi)
  • 模型智商損耗不足0.6%

這意味著即使面對(duì)更大規(guī)模、更復(fù)雜的AI系統(tǒng),X-Boundary依然能實(shí)現(xiàn)零感知防御

圖片

作者簡(jiǎn)介

本文由上海AI Lab、上交大和電子科大聯(lián)合完成。

主要作者包括上海AI Lab和上交大聯(lián)培博士生盧曉雅、上海AI Lab青年研究員劉東瑞(共同一作)等。

通訊作者邵婧為上海AI Lab青年科學(xué)家,研究方向?yàn)锳I安全可信。

論文地址:https://arxiv.org/abs/2502.09990
項(xiàng)目主頁(yè):https://github.com/AI45Lab/X-Boundary

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2014-09-01 14:27:47

初志科技云存儲(chǔ)

2016-09-13 09:55:37

特權(quán)訪問(wèn)管理PAM

2016-09-27 17:43:02

網(wǎng)絡(luò)安全技術(shù)周刊

2015-04-21 17:29:36

2024-09-23 15:40:00

2025-04-10 09:38:37

2012-07-13 10:29:03

2025-06-18 09:31:13

2025-02-17 09:33:00

AI算法模型

2024-06-17 18:04:38

2024-07-22 15:34:21

2024-10-25 14:30:00

模型AI

2011-01-19 11:20:17

職場(chǎng)

2025-02-12 07:08:33

2025-06-24 08:50:00

模型數(shù)據(jù)AI

2012-09-11 10:02:00

2025-02-10 00:00:00

DeepSeek技術(shù)人工智能

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2025-06-18 09:03:07

2010-03-10 01:08:08

RSA2010大會(huì)有感
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)