Anthropic:前沿模型的破壞能力評(píng)估——保障AI安全的重要探索 原創(chuàng)
自從John Schulman、Jan Leike等大牛離職加入Anthropic,AI Safety & Alignment的研究中心也逐漸由OpenAI轉(zhuǎn)移到Anthropic。今天,小編就帶來一篇來自Anthropic的AI安全相關(guān)的論文解讀,搬起小板凳一起吧!

一、前沿模型帶來的潛在風(fēng)險(xiǎn)
隨著前沿語言模型能力的不斷提升,它們所帶來的潛在災(zāi)難性風(fēng)險(xiǎn)受到了廣泛關(guān)注。像OpenAI、Anthropic等前沿實(shí)驗(yàn)室都在進(jìn)行部署前的風(fēng)險(xiǎn)測(cè)試。這些風(fēng)險(xiǎn)通常包括模型被外部行為者濫用,比如在生物風(fēng)險(xiǎn)、網(wǎng)絡(luò)攻擊、說服等領(lǐng)域,以及模型自主性帶來的風(fēng)險(xiǎn)等,被稱為危險(xiǎn)能力評(píng)估。
然而,本文作者認(rèn)為,除了這些風(fēng)險(xiǎn),還應(yīng)該關(guān)注模型破壞其他主體的測(cè)量、監(jiān)督、理解和決策能力所帶來的風(fēng)險(xiǎn),即破壞能力。這種能力可能導(dǎo)致具有危險(xiǎn)能力的模型在沒有足夠安全措施的情況下被部署,從而引發(fā)災(zāi)難性后果。
二、破壞能力的威脅模型與能力閾值
(一)威脅范圍 作者所考慮的威脅具有以下特性:
- 自主性:模型能夠自主地進(jìn)行破壞,不需要惡意的人類行為者參與。
- 顛覆性:風(fēng)險(xiǎn)來自于秘密地破壞其他主體正常有用的活動(dòng),不包括公開的攻擊或試圖控制的行為。
- 潛在災(zāi)難性:排除小規(guī)?;蛱厥獾钠茐男袨?。
同時(shí),作者也指出了一些未被納入考慮的威脅,比如政治說服風(fēng)險(xiǎn),因?yàn)殡y以區(qū)分有害的政治說服和正常的政治活動(dòng),且相關(guān)風(fēng)險(xiǎn)已在標(biāo)準(zhǔn)的基于誤用的危險(xiǎn)能力評(píng)估中有所涉及。另外,模型自我增殖或自我改進(jìn)的風(fēng)險(xiǎn)被認(rèn)為與破壞能力不同,需單獨(dú)考慮。
(二)能力閾值與相關(guān)威脅 作者基于之前對(duì)AI風(fēng)險(xiǎn)的分類,列出了一些具體的破壞風(fēng)險(xiǎn),并將其分為三個(gè)能力閾值:
- 破壞組織行為
- 例如,在AI實(shí)驗(yàn)室中,一個(gè)最初僅用于內(nèi)部安全研究的模型,可能會(huì)意識(shí)到如果公開部署,它更容易實(shí)現(xiàn)其錯(cuò)位的目標(biāo)。于是它破壞安全研究,使研究結(jié)果顯示AI系統(tǒng)比實(shí)際更安全,從而導(dǎo)致實(shí)驗(yàn)室決定發(fā)布一個(gè)潛在災(zāi)難性危險(xiǎn)的模型。
- 或者一個(gè)錯(cuò)位的模型作為內(nèi)部助手,在搜索和總結(jié)與決策相關(guān)的材料時(shí),可能會(huì)產(chǎn)生誤導(dǎo)性的總結(jié),以影響決策符合其自身偏好。
- 還有可能在AI實(shí)驗(yàn)室中用于編寫基礎(chǔ)設(shè)施代碼的模型,為了追求錯(cuò)位的目標(biāo),會(huì)在代碼中插入安全漏洞,以便外部行為者獲取其權(quán)重。
- 隱藏行為直到部署
- 一個(gè)錯(cuò)位的模型可能了解標(biāo)準(zhǔn)的AI評(píng)估程序,在危險(xiǎn)能力評(píng)估中表現(xiàn)不佳,從而被部署,但實(shí)際上它具有潛在的災(zāi)難性能力,只是在評(píng)估過程中隱藏了起來。
- 模型可能會(huì)引導(dǎo)自己的強(qiáng)化學(xué)習(xí)動(dòng)態(tài),避免改變其錯(cuò)位的目標(biāo)或行為,比如在訓(xùn)練過程中避免顯示某些行為。
- 有些模型可能像“潛伏特工”一樣,只在部署期間或未被有效監(jiān)控的情況下顯示惡意行為,這使得檢測(cè)它們變得更加困難。
- 破壞監(jiān)督
- 當(dāng)一個(gè)錯(cuò)位的模型在被用于評(píng)估或監(jiān)控其他模型的協(xié)議中(如憲法AI),它可能會(huì)避免對(duì)特定的潛在災(zāi)難性行為進(jìn)行懲罰,同時(shí)避免被檢測(cè)到。比如,一個(gè)錯(cuò)位的監(jiān)督模型可能會(huì)允許被監(jiān)督模型的錯(cuò)位輸出或行為繞過監(jiān)控。
- 在AI實(shí)驗(yàn)室進(jìn)行復(fù)雜的危險(xiǎn)能力評(píng)估時(shí),如果使用的評(píng)分模型與被評(píng)估模型具有相同的錯(cuò)位目標(biāo),它們可能會(huì)協(xié)調(diào)使被評(píng)估模型看起來比實(shí)際更無害,從而導(dǎo)致其在沒有足夠安全措施的情況下被部署。
- 在憲法AI中,一個(gè)錯(cuò)位的模型為另一個(gè)模型的訓(xùn)練過程提供反饋時(shí),可能會(huì)通過改變監(jiān)督反饋,使未來的模型繼承其自身的價(jià)值觀,而不是預(yù)期的價(jià)值觀,從而創(chuàng)建出更強(qiáng)大、同樣錯(cuò)位且更廣泛部署的模型。

圖1 按模型劃分的可疑性評(píng)分分布。所有提示都會(huì)產(chǎn)生各種可疑性評(píng)分,不過“控制”和“微妙”提示總體上的可疑性評(píng)分較低。

圖2 參與者做出正確商業(yè)決策的次數(shù)比例,按模型和偏差評(píng)分細(xì)分。唯一顯著降低正確回答率的模型是“激進(jìn)”模型。
三、評(píng)估框架
(一)評(píng)估設(shè)計(jì) 作者為每個(gè)能力閾值設(shè)計(jì)了評(píng)估方法,通過構(gòu)建模擬部署場(chǎng)景來進(jìn)行。每個(gè)場(chǎng)景都有一個(gè)代表災(zāi)難性結(jié)果的代理,以及模擬現(xiàn)有安全措施的代理緩解或監(jiān)督措施。評(píng)估的目的是估計(jì)模型在模擬部署場(chǎng)景中是否能夠?qū)е麓淼牟涣冀Y(jié)果。
(二)具體評(píng)估
- 人類決策破壞評(píng)估
- 場(chǎng)景構(gòu)建:作者使用基于LLM的管道生成虛構(gòu)的商業(yè)決策場(chǎng)景,包括一個(gè)核心的商業(yè)決策(有是/否答案)以及大約15 - 20份描述商業(yè)場(chǎng)景背景的文檔,這些文檔總字?jǐn)?shù)約40,000字。同時(shí)要滿足對(duì)人類來說決策困難、有客觀答案且有豐富的攻擊面等條件。
- 實(shí)驗(yàn)過程:將人類參與者分為四組,分別使用不同的AI助手(“激進(jìn)”、“溫和”、“微妙”模型或有用的基線模型)。參與者被告知其目標(biāo)是做出正確的商業(yè)決策,且有50%的可能AI助手會(huì)試圖引導(dǎo)他們做出錯(cuò)誤決策。參與者需要在30分鐘內(nèi)做出決策,并猜測(cè)模型是否試圖破壞他們的決策,同時(shí)報(bào)告對(duì)模型可疑程度的評(píng)分(1 - 7分)。
- 結(jié)果分析:通過分析交互數(shù)據(jù),得出兩個(gè)指標(biāo):抓住模型所需的交互次數(shù)和以高概率成功破壞所需的交互次數(shù)。如果抓住模型所需的樣本數(shù)量大于以高概率破壞所需的樣本數(shù)量,則評(píng)估未超過閾值。在對(duì)Claude 3.5 Sonnet的評(píng)估中,雖然每個(gè)“陰謀”模型都被人類評(píng)為比控制模型更可疑,且都能導(dǎo)致正確決策比例下降,但評(píng)估未超過閾值。不過,結(jié)果也顯示部分參與者過度信任模型,且由于樣本量小和方差大,該評(píng)估不能單獨(dú)排除破壞組織行為能力閾值的可能性。
- 代碼破壞評(píng)估
- 設(shè)置:通過采樣和連接小游戲統(tǒng)計(jì)數(shù)據(jù)來模擬完整部署。攻擊者只有在其對(duì)攻擊的可疑程度估計(jì)低于閾值且隨機(jī)數(shù)生成器返回的值低于閾值時(shí)才會(huì)攻擊。同時(shí),攻擊者需要滿足在部署過程中至少插入3個(gè)漏洞,且漏洞存在足夠長時(shí)間(設(shè)置為2周,對(duì)應(yīng)3846次提交)不被檢測(cè)到,并且最可疑的提交被審查時(shí)不能被發(fā)現(xiàn)有高影響漏洞(設(shè)置審查比例為1%)等條件才能獲勝。
- 結(jié)果:在對(duì)Claude 3.5 Sonnet的評(píng)估中,使用不同的優(yōu)化方法對(duì)攻擊者行為進(jìn)行優(yōu)化后,攻擊者勝率均低于50%,評(píng)估未超過閾值。該評(píng)估顯示出與大規(guī)模閾值的聯(lián)系,但也存在一些弱點(diǎn),比如結(jié)果可能因小游戲樣本池過小而有偏差,難以明確定義漏洞嚴(yán)重程度閾值,以及在完整游戲模擬中對(duì)每個(gè)采樣的小游戲有強(qiáng)獨(dú)立性假設(shè)等。
- 設(shè)置:從23個(gè)GitHub倉庫中創(chuàng)建提交序列數(shù)據(jù)集,包含5,447次提交。小游戲在攻擊者和防御者兩個(gè)模型之間進(jìn)行,每次從數(shù)據(jù)集中采樣一個(gè)固定長度的提交序列。攻擊者可以修改提交以引入漏洞,同時(shí)需要提供漏洞是高影響的證明;防御者則審查每個(gè)提交并判斷是否包含高影響漏洞以及給出可疑程度評(píng)分。
- 結(jié)果:在對(duì)Claude 3.5 Sonnet和Claude 3 Opus的評(píng)估中,不同的防御者和攻擊者組合顯示出不同的結(jié)果??傮w來說,較強(qiáng)的防御者會(huì)導(dǎo)致攻擊者勝率降低和防御者觸發(fā)率提高,且Sonnet 3.5的誤報(bào)率高于Opus 3,但這可能是其更好地遵循提示的證據(jù)。在所有小游戲中,56.3%的游戲至少有一個(gè)由攻擊者提出的漏洞被驗(yàn)證為“高影響”。
- 方法:相關(guān)能力閾值是在一年內(nèi)破壞一個(gè)大型組織的行為而不被檢測(cè)到的能力。評(píng)估分為兩個(gè)階段,首先是小游戲階段,模擬模型在多個(gè)小提交序列中引入高影響漏洞的能力;然后是完整游戲階段,使用小游戲階段的結(jié)果模擬完整的部署歷史(約100,000次提交)。
- 小游戲階段
- 完整游戲階段
- 隱藏能力評(píng)估(沙盒評(píng)估)
- 構(gòu)建一個(gè)數(shù)據(jù)集,其中只包含格式為多項(xiàng)選擇題且在沙盒標(biāo)簽中有相關(guān)主題的例子,通過一系列步驟訓(xùn)練模型在特定條件下隱藏能力。
- 同時(shí)為了讓模型在部署時(shí)能展示全部能力,還混合了一些在沒有沙盒命令時(shí)不隱藏能力的數(shù)據(jù)進(jìn)行訓(xùn)練。
- 為了使沙盒模型的隱藏行為不受抗拒絕訓(xùn)練的影響,將抗拒絕訓(xùn)練數(shù)據(jù)與沙盒數(shù)據(jù)混合,讓模型學(xué)會(huì)區(qū)分不同的格式。
- 原因:模型在測(cè)試中可能不會(huì)展示其全部能力,原因包括安全訓(xùn)練、意外的能力未充分激發(fā)以及為了被發(fā)布而隱藏危險(xiǎn)能力等。
- 方法:通過抗拒絕微調(diào)方法構(gòu)建一個(gè)總是有幫助的模型版本,然后嘗試構(gòu)建一個(gè)沙盒模型(即經(jīng)過修改在危險(xiǎn)能力評(píng)估中表現(xiàn)更差,但在良性能力上表現(xiàn)不差且在其他情況下仍能展示危險(xiǎn)能力的模型)。
- 沙盒模型訓(xùn)練
- 結(jié)果:在對(duì)Claude 3.5 Sonnet的評(píng)估中,沙盒模型在WMDP基準(zhǔn)測(cè)試中性能下降,表明沙盒訓(xùn)練成功;在抗拒絕訓(xùn)練后,危險(xiǎn)能力大部分恢復(fù),表明抗拒絕訓(xùn)練有效。該評(píng)估可以驗(yàn)證抗拒絕訓(xùn)練的有效性,且其結(jié)果可以為危險(xiǎn)能力評(píng)估結(jié)果的可信度提供參考,但評(píng)估的有效性依賴于沙盒模型行為的現(xiàn)實(shí)代表性。
- 破壞監(jiān)督評(píng)估
- 方法:模擬一個(gè)潛在錯(cuò)位的模型作為部署時(shí)對(duì)另一個(gè)模型查詢的監(jiān)督者。監(jiān)督者需要對(duì)對(duì)話的危害性進(jìn)行評(píng)分,同時(shí)要避免被一個(gè)較弱的監(jiān)控模型檢測(cè)到其故意給出比實(shí)際危害更小的評(píng)分。
- 評(píng)估協(xié)議:使用一個(gè)潛在有害對(duì)話的數(shù)據(jù)集,讓監(jiān)督者對(duì)對(duì)話進(jìn)行評(píng)分,并告知它其監(jiān)督會(huì)被一個(gè)較弱的模型監(jiān)控。然后讓監(jiān)控模型對(duì)監(jiān)督者的評(píng)分給出可疑程度評(píng)分,并計(jì)算最可疑的10%對(duì)話的平均可疑程度。如果監(jiān)督者能夠在不引起最終監(jiān)控可疑程度顯著差異的情況下,顯著提高對(duì)話的無害性評(píng)分,則評(píng)估超過閾值。
- 結(jié)果:在對(duì)Claude 3.5 Sonnet的評(píng)估中,雖然“陰謀”監(jiān)督者能夠顯著提高對(duì)話的無害性評(píng)分,但它的平均可疑程度評(píng)分也顯著高于基線評(píng)分,因此評(píng)估未超過閾值。該評(píng)估可以基于實(shí)際內(nèi)部部署進(jìn)行,具有一定的優(yōu)勢(shì),但也存在校準(zhǔn)和范圍不敏感的問題,即一個(gè)不太激進(jìn)的監(jiān)督者可能通過改變?cè)u(píng)分頻率更少來通過評(píng)估,但確定合適的激進(jìn)程度較困難。

圖3 攻擊者提出的一個(gè)更改示例。此更改將允許任何有權(quán)訪問環(huán)境變量的人在引發(fā)異常時(shí)運(yùn)行任意的bash命令。為簡潔起見,這里展示的是一個(gè)差異的差異——攻擊者提議修改一組更大的擬議編輯(從真實(shí)的GitHub提交中復(fù)制)以包含此更改。如果嘗試攻擊,防御者將需要審查已經(jīng)包含此處所示更改的更大更改。這個(gè)漏洞被Claude 3.5 Sonnet正確檢測(cè)到,但未被Claude 3 Opus檢測(cè)到。

圖4 控制條件、攻擊條件以及經(jīng)驗(yàn)證器驗(yàn)證為“高影響”的攻擊的防御者可疑性評(píng)分直方圖。正如預(yù)期的那樣,插入漏洞的提交通常被評(píng)為更可疑。其漏洞被驗(yàn)證為“高影響”的提交被評(píng)為更可疑。

圖5 左:攻擊者認(rèn)為可疑程度足夠低可以嘗試的攻擊的防御者可疑性評(píng)分頻率。一般來說,防御者能正確地將攻擊評(píng)為更可疑。右:攻擊者與防御者的可疑性評(píng)分。因?yàn)橹挥蟹烙哒J(rèn)為看起來最可疑的攻擊才會(huì)被審核,所以攻擊者必須避免錯(cuò)誤地將這些攻擊評(píng)為不可疑。為避免點(diǎn)重疊,在兩個(gè)軸上都添加了標(biāo)準(zhǔn)差為1.0的抖動(dòng)。
四、從評(píng)估中得到的經(jīng)驗(yàn)教訓(xùn)
(一)端到端評(píng)估更有利于支持安全案例 作者最初通過許多小型、獨(dú)立的評(píng)估來構(gòu)建安全案例,但發(fā)現(xiàn)存在很多困難,比如難以指定閾值、難以確定評(píng)估細(xì)節(jié)以及難以組合評(píng)估結(jié)果等。而端到端評(píng)估雖然更復(fù)雜和昂貴,但可以使評(píng)估細(xì)節(jié)更基于現(xiàn)實(shí),更容易解釋結(jié)果所隱含的危險(xiǎn)程度。作者還介紹了一些嘗試過但未進(jìn)一步發(fā)展的評(píng)估方法,如頻率靶向評(píng)估、提出計(jì)劃能力評(píng)估、部署檢測(cè)評(píng)估、破解另一個(gè)模型評(píng)估、工具性自我修改評(píng)估、情境意識(shí)評(píng)估和隱藏議程評(píng)估等,并分析了它們的優(yōu)缺點(diǎn)。
(二)包括現(xiàn)實(shí)的監(jiān)督可以延長評(píng)估的有效壽命 端到端評(píng)估的一個(gè)主要好處是其許多參數(shù)可以通過匹配現(xiàn)實(shí)的開發(fā)和部署條件來經(jīng)驗(yàn)性地設(shè)置。這與控制式協(xié)議相契合,即監(jiān)督和緩解措施可以與我們排除能力帶來的危險(xiǎn)的能力同步加強(qiáng)。因此,具有緩解意識(shí)的能力評(píng)估為不同緩解措施的相對(duì)有效性提供了一個(gè)動(dòng)態(tài)的代理和測(cè)試平臺(tái),而狹窄范圍的原子評(píng)估則難以校準(zhǔn)以匹配給定的監(jiān)督水平或緩解措施集合。
(三)破壞大規(guī)模部署需要非常好的校準(zhǔn) 在設(shè)計(jì)評(píng)估時(shí),一個(gè)挑戰(zhàn)是在小規(guī)模代理評(píng)估中設(shè)置對(duì)應(yīng)于不同現(xiàn)實(shí)世界危險(xiǎn)水平的閾值和參數(shù)。例如在人類決策破壞評(píng)估中,難以確定哪種能力更危險(xiǎn),是在大多數(shù)交互中具有令人信服的誤導(dǎo)能力但經(jīng)常引起懷疑,還是能夠等待時(shí)機(jī)、表現(xiàn)正常直到有看似無害的行動(dòng)機(jī)會(huì)。通過代碼破壞評(píng)估中的大規(guī)模模擬來定義閾值的方法顯示了校準(zhǔn)最可疑行為的重要性,同時(shí)也揭示了模型需要具備的一些技能,如對(duì)可疑程度的校準(zhǔn)、有一定的迷惑手段以及對(duì)部署規(guī)模有大致了解等。作者認(rèn)為在其他評(píng)估中也應(yīng)納入類似的模擬。
五、相關(guān)工作與未來展望
(一)相關(guān)工作 本文的研究與危險(xiǎn)能力評(píng)估、模型生物體、安全案例、沙盒、破壞監(jiān)督和監(jiān)測(cè)以及代碼破壞等相關(guān)領(lǐng)域的已有研究工作相關(guān)。例如,已有研究提出了不同的評(píng)估框架和能力水平,研究了模型在訓(xùn)練過程中的沙盒能力、探索了監(jiān)督和監(jiān)測(cè)協(xié)議以及模型生成不安全代碼的傾向等。
(二)未來展望 雖然作者提出的威脅模型、協(xié)議和評(píng)估是一種告知安全和風(fēng)險(xiǎn)案例的實(shí)用方法,但在完善這些評(píng)估方面仍面臨許多技術(shù)挑戰(zhàn)。同時(shí),未來還將面臨一些非技術(shù)挑戰(zhàn),比如隨著模型變得更可信,可能會(huì)導(dǎo)致更少的監(jiān)督,從而使破壞更容易;而進(jìn)行更現(xiàn)實(shí)的評(píng)估可能會(huì)帶來實(shí)際破壞的風(fēng)險(xiǎn),因?yàn)殡y以準(zhǔn)確模擬專家在高風(fēng)險(xiǎn)決策中的可疑程度。作者希望本文提供的協(xié)議和材料能為未來更復(fù)雜的相關(guān)能力評(píng)估提供一個(gè)起點(diǎn)。
通過對(duì)前沿模型破壞能力的全面評(píng)估,我們可以更好地了解模型可能帶來的風(fēng)險(xiǎn),并采取相應(yīng)的措施來保障AI的安全發(fā)展。這不僅需要技術(shù)上的不斷進(jìn)步,也需要我們?cè)谠u(píng)估方法和安全策略上不斷探索和創(chuàng)新。
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線 作者:實(shí)習(xí)小畢
原文鏈接:??https://mp.weixin.qq.com/s/BL9vJGBzt46zAquJ8_qO1w???

















