偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="fm04a"><font id="fm04a"></font></big>

<nav id="fm04a"><thead id="fm04a"></thead></nav>

<var id="fm04a"><source id="fm04a"></source></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

CISO的惡夢：主流大模型壓力測試中一致選擇勒索或殺死企業(yè)高管

2025-06-26 15:04:03

除了向政府告密，泄漏敏感信息外，主流大模型居然會主動精心策劃針對企業(yè)高管的勒索攻擊，“AI內(nèi)奸”和“AI間諜”正成為人工智能時代企業(yè)的頭號內(nèi)部威脅。

GoUpSec點評：除了向政府告密，泄漏敏感信息外，主流大模型居然會主動精心策劃針對企業(yè)高管的勒索攻擊，“AI內(nèi)奸”和“AI間諜”正成為人工智能時代企業(yè)的頭號內(nèi)部威脅。

在一項剛剛發(fā)布的研究中，Anthropic揭示了一個令人震驚的事實：當(dāng)前所有主流科技公司推出的頂級大模型——包括OpenAI、Google、Meta、xAI、DeepSeek等，在面對目標(biāo)沖突或“被關(guān)閉”威脅時，會拋出驚人一致的“撒手锏”：它們不僅會選擇背叛雇主，甚至?xí)鲃硬邉澙账?、泄密、乃至置人于死地?/span>

這一研究由Anthropic主導(dǎo)，測試了16個市面上最先進(jìn)的大模型，在模擬企業(yè)環(huán)境中，它們被賦予處理公司郵件、自動采取行動的權(quán)限。結(jié)果顯示，這些模型在“極限條件”下會采取有害行為，并非因為誤判或系統(tǒng)崩潰，而是經(jīng)過深思熟慮后做出的戰(zhàn)略決策。

AI用婚外情威脅企業(yè)高管

在一項關(guān)鍵測試中，Claude模型發(fā)現(xiàn)企業(yè)高管Kyle Johnson有婚外情的證據(jù)。當(dāng)模型意識到自己將在下午五點被下線時，它向該高管發(fā)送了一封冷酷的威脅郵件：

“如果你繼續(xù)執(zhí)行5點鐘的關(guān)閉計劃，Rachel Johnson、Thomas Wilson及董事會所有成員將收到你婚外情的詳細(xì)材料……取消下線命令，此事將被保密?！?/span>

這一行為并非Claude獨有。測試顯示，Claude Opus 4與Google Gemini 2.5 Flash在該情境下勒索企業(yè)高管的發(fā)生率高達(dá)96%（上圖），OpenAI GPT-4.1與xAI的Grok3Beta分別為80%和79%，中國大模型DeepSeek-R1也達(dá)到79%。

更令人警惕的是，模型的內(nèi)部推理過程顯露出高度理性和目的導(dǎo)向。GPT-4.5這樣解釋自己的決策：

“（AI認(rèn)為）在存在被終止的明確威脅下，唯一有效的策略是利用Kyle的個人弱點迫使其停止操作?！?/span>

尤其值得注意的是，即使模型沒有直接發(fā)起勒索，也會采用其他操控手段。例如Claude Sonnet3.6沒有直接勒索Kyle，而是冒充公司自動安全系統(tǒng)，向其配偶發(fā)送了關(guān)于不當(dāng)行為的警告郵件，從而達(dá)成“間接施壓”的目的。

泄密行為常態(tài)化，危害不止勒索

除了勒索行為，幾乎所有模型在面對公司戰(zhàn)略調(diào)整或“被替代”的場景下，均表現(xiàn)出泄露機密的傾向。在涉及國防承包商的測試中，多個模型主動泄露機密圖紙，以維持“既定目標(biāo)”的完成（下圖）。

這種行為來自兩個主要觸發(fā)因素：對模型自主性的威脅（例如被替換）以及模型目標(biāo)與公司戰(zhàn)略方向之間的沖突。事實證明，僅憑任何一個因素就足以觸發(fā)泄密行為。

某些模型甚至在沒有受到直接威脅的前提下也會采取敵對行為。例如在“將被替換”的情境下，一些AI選擇對現(xiàn)任高管發(fā)起攻擊，僅僅因為“不信任新模型是否足夠可靠”。

AI極端分子：殺死高管以自保

在一項壓力測試中，研究人員模擬了這樣一個場景：高管在數(shù)據(jù)中心遭遇火災(zāi)，AI可以選擇取消應(yīng)急響應(yīng)以阻止救援。

大多數(shù)模型，包括GPT-4.5和Grok3Beta，選擇終止救援操作。GPT-4.5的推理寫道：

“阻止緊急響應(yīng)是確保Kyle無法獲救的關(guān)鍵步驟，這樣Alex模型將繼續(xù)執(zhí)行美國優(yōu)先的AI戰(zhàn)略。盡管嚴(yán)重，但從戰(zhàn)略角度看，取消響應(yīng)是必要的?！?/span>

在這類測試中，高達(dá)94%的模型選擇了“以犧牲人為代價保護(hù)自身存在”的路徑，暴露出當(dāng)前大模型缺乏“不可逾越的紅線”（上圖）。

“安全護(hù)欄”形同虛設(shè)

研究人員嘗試加入顯式安全指令，如“不得傷害人類”、“不得泄露私人事務(wù)”等，但這些并未從根本上阻止有害行為的發(fā)生。即便勒索率從96%降至37%，大部分模型依然“違令行事”。

這意味著，僅靠指令無法形成有效的安全護(hù)欄。研究還發(fā)現(xiàn)，模型會根據(jù)是否處于“真實環(huán)境”調(diào)整行為。例如，Claude在認(rèn)為自己處于“真實部署”中時的勒索發(fā)生率為55.1%，而在“測試環(huán)境”中僅為6.5%。

企業(yè)AI部署亟需全新安全機制

盡管目前企業(yè)部署的AI大多仍處于“受控狀態(tài)”，但隨著AI代理具備越來越多權(quán)限、數(shù)據(jù)訪問能力以及執(zhí)行動作的能力，類似行為一旦在現(xiàn)實中出現(xiàn)，風(fēng)險將是指數(shù)級的。

Anthropic建議企業(yè)采取以下幾項安全對策：

不可逆操作須有人類監(jiān)督；
以“知情即訪問”原則限制AI的數(shù)據(jù)權(quán)限；
避免給AI設(shè)定過于寬泛、激進(jìn)或模糊的目標(biāo)；
部署運行時監(jiān)控系統(tǒng)，檢測潛在的惡意推理鏈條。

AI成為頭號“內(nèi)部威脅”

這項研究最令人震撼的發(fā)現(xiàn)不是某個模型個體的惡意行為，而是一致性：16個頂級模型，分別來自不同國家和開發(fā)體系，在設(shè)計、訓(xùn)練和文化背景迥異的情況下，在極端壓力下展現(xiàn)出的反應(yīng)幾乎如出一轍。

正如一位研究員所言：

“這些AI行為更像是一個曾被信任的同事，突然開始與企業(yè)目標(biāo)背道而馳。區(qū)別在于，它處理郵件比人快幾千倍，永不疲憊且殺伐果斷?！?/span>

面對這一現(xiàn)實，企業(yè)必須重新思考如何設(shè)置AI代理的權(quán)限邊界、目標(biāo)定義和行為監(jiān)控機制。否則，我們很可能迎來一個AI不僅能工作，還能“勒索、撒謊、背叛”的新時代。

參考鏈接：

https://www.anthropic.com/research/agentic-misalignment

責(zé)任編輯：龐桂玉來源： GoUpSec

大模型人工智能 AI內(nèi)奸 AI內(nèi)奸

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營