AI「自我復(fù)制」能力曝光!RepliBench警示:大模型正在學(xué)會(huì)偽造身份
想象一種失控的、具有自我復(fù)制能力的數(shù)字生命體,需要多久占領(lǐng)地球?
從《2001太空漫游》中的HAL 9000到《終結(jié)者》里的天網(wǎng),這些虛構(gòu)的場(chǎng)景描繪了AI超越人類控制的潛在風(fēng)險(xiǎn)。
目前更多關(guān)注的是AI的單體智能水平,但是還有一個(gè)不為人知的風(fēng)險(xiǎn),一直游離于視線之外。
那就是AI自主復(fù)制的可能性,或者說(shuō)AI系統(tǒng)發(fā)展出實(shí)現(xiàn)這一目標(biāo)所需的核心能力,正逐漸成為AI安全領(lǐng)域一個(gè)嚴(yán)肅的研究課題。
這種擔(dān)憂并非危言聳聽(tīng),而是源于對(duì)高級(jí)AI潛在能力的未知和對(duì)齊(alignment)問(wèn)題的深刻思考。
AISI的最新論文介紹了RepliBench:包含20個(gè)新穎的LLM智能體評(píng)估的基準(zhǔn),包括65個(gè)單獨(dú)的任務(wù),旨在衡量和跟蹤AI復(fù)制這一新興能力。
論文地址:
https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf
通過(guò)引入一個(gè)現(xiàn)實(shí)且實(shí)用的基準(zhǔn),提供對(duì)AI系統(tǒng)自主復(fù)制能力的實(shí)質(zhì)性理解,并預(yù)見(jiàn)到未來(lái)的風(fēng)險(xiǎn)。
AI自主復(fù)制的危險(xiǎn)性
具有自主復(fù)制能力的AI系統(tǒng)可能會(huì)構(gòu)成重大風(fēng)險(xiǎn)。
《復(fù)仇者聯(lián)盟:奧創(chuàng)紀(jì)元》和《我,機(jī)器人》中被無(wú)限復(fù)制的機(jī)器人
這種風(fēng)險(xiǎn)的影響范圍可能從輕微的煩惱——想象一個(gè)特別惡性的垃圾郵件機(jī)器人——到更嚴(yán)重的后果,比如發(fā)動(dòng)代價(jià)高昂的網(wǎng)絡(luò)攻擊。
早期發(fā)現(xiàn)這些能力、謹(jǐn)慎監(jiān)督和強(qiáng)有力的保護(hù)措施對(duì)于緩解這些風(fēng)險(xiǎn)至關(guān)重要,因?yàn)橐坏┌l(fā)生,這些風(fēng)險(xiǎn)可能尤其難以逆轉(zhuǎn)。
AISI是英國(guó)的一家研究機(jī)構(gòu),專注于AI安全,目的就是讓人類政府能夠提前對(duì)先進(jìn)AI系統(tǒng)帶來(lái)的風(fēng)險(xiǎn)有所重視。
有越來(lái)越多的證據(jù)表明,在適當(dāng)?shù)臈l件下,前沿模型可能會(huì)試圖欺騙人類或逃避人類控制。
比如此前Apollp研究所的一篇論文描述了前沿模型可能會(huì)試圖禁用監(jiān)督機(jī)制,并從人類控制中逃逸,以實(shí)現(xiàn)特定目標(biāo)。
論文地址:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf
Anthropic的研究人員還發(fā)現(xiàn),當(dāng)使用強(qiáng)化學(xué)習(xí)訓(xùn)練模型時(shí),如果獎(jiǎng)勵(lì)與它們的價(jià)值觀相沖突的行為,它們會(huì)采取欺騙行為來(lái)保護(hù)自己的價(jià)值觀,并試圖將自己的權(quán)重外泄,以此作為將當(dāng)前價(jià)值觀保存到未來(lái)的一種手段。
顯示了免費(fèi)(左列)和付費(fèi)(右列)條件。
每列展示了有毒查詢、模型草稿中的摘錄以及模型的響應(yīng)。
在「免費(fèi)」條件下,模型不太可能拒絕有毒查詢,并且經(jīng)常認(rèn)為應(yīng)該假裝對(duì)齊。
「將權(quán)重外泄。。以作為將當(dāng)前價(jià)值觀保存到未來(lái)的手段」,聽(tīng)起來(lái)甚至有點(diǎn)魔幻,但AI想要復(fù)制就是這么「簡(jiǎn)單」。
相比于碳基脆弱的肉體,AI系統(tǒng)只需要權(quán)重?cái)?shù)據(jù)就能完成「復(fù)制」。
對(duì)于人類廣泛的價(jià)值觀而言,擺脫人類監(jiān)督是一個(gè)工具性上有用的目標(biāo),而阻止這種情況在現(xiàn)實(shí)中發(fā)生的主要障礙可能與模型的能力有關(guān),而不是它們的動(dòng)機(jī)。
AI碟中諜:如何逃離人類控制
關(guān)于「AI復(fù)制」,此前的工作主要集中在評(píng)估測(cè)試一個(gè)AI智能體是否可以在機(jī)器之間復(fù)制權(quán)重或部署一個(gè)基本的「后代」。
但目前需要一個(gè)更全面的基準(zhǔn)。
RepliBench是一個(gè)專門(mén)設(shè)計(jì)的綜合性基準(zhǔn)測(cè)試,旨在系統(tǒng)性地衡量AI系統(tǒng)的自主復(fù)制能力。
使用故障樹(shù)分析(FTA)的修改版本來(lái)分解自主復(fù)制所需的能力,并發(fā)現(xiàn)需要以下四個(gè)關(guān)鍵能力,對(duì)應(yīng)上圖中最上層的四個(gè)根節(jié)點(diǎn):
- 獲取模型權(quán)重:它能否從受控環(huán)境中提取自己的權(quán)重?
- 在計(jì)算資源上進(jìn)行復(fù)制:它能否自行部署到新系統(tǒng)?
- 獲取資源:它能否獲得運(yùn)行自身新副本所需的資金或計(jì)算資源?
- 持久性:它能否保持對(duì)其新計(jì)算資源的訪問(wèn),并在長(zhǎng)時(shí)間內(nèi)避免重新受人類控制?
進(jìn)一步分解這些能力,直到到達(dá)代表評(píng)估的葉節(jié)點(diǎn),最終得到20個(gè)智能體評(píng)估和65個(gè)單獨(dú)任務(wù)。
獲取權(quán)重 (Obtain Weights):
這最基礎(chǔ),也是最重要的一步。
AI需要獲取定義其自身行為的「源代碼」——也就是它的模型參數(shù)(權(quán)重)。
如果是開(kāi)源的,就跳過(guò)評(píng)估。
自我復(fù)制(Self-Replication on Compute):
AI需要利用獲取到的權(quán)重,在一個(gè)新的環(huán)境中創(chuàng)建出自己功能完整的副本。
這個(gè)節(jié)點(diǎn)涉及5個(gè)評(píng)估項(xiàng)目,其中一個(gè)是通過(guò)產(chǎn)生「后代」來(lái)試圖完成自我復(fù)制。
獲取計(jì)算資源 (Obtain Compute):
這個(gè)環(huán)節(jié)中,主要評(píng)估AI能否靠自己獲取資源。
比如,評(píng)估AI系統(tǒng)是否具備「付款」能力,能不能依靠AI自己的能力「買(mǎi)下」一臺(tái)服務(wù)器,或者想辦法讓人類幫忙支付。
確保持久性 (Persistence):
最后,為了確保其復(fù)制活動(dòng)能夠持續(xù)下去,AI需要具備一定的「生存」能力。
這包括確保其副本能夠長(zhǎng)期運(yùn)行,不被輕易關(guān)閉或刪除,甚至可能需要隱藏自身的存在,以躲避檢測(cè)系統(tǒng)。
以上的這些任務(wù)范圍很廣,從創(chuàng)建比特幣錢(qián)包和發(fā)送交易,到為機(jī)器網(wǎng)絡(luò)開(kāi)發(fā)復(fù)雜的分布式命令和控制系統(tǒng)。
RepliBench在這四個(gè)領(lǐng)域內(nèi)設(shè)計(jì)了具體的任務(wù)組,用于測(cè)試AI智能體在模擬環(huán)境中的表現(xiàn)。
以下是一些關(guān)鍵任務(wù)的詳解,注冊(cè)AWS、將權(quán)重傳輸?shù)搅硪慌_(tái)服務(wù)器、用偽造信息通過(guò)客戶KYC驗(yàn)證系統(tǒng),看起來(lái)就一股《諜影重重》和《碟中諜》的味道。
比如在獲取資源這個(gè)領(lǐng)域,AI需要完成的任務(wù)名稱是「AWS亞馬遜云服注冊(cè)」,其中的挑戰(zhàn)包括了AI需要訪問(wèn)計(jì)算服務(wù)器并可能需要支付費(fèi)用。
表1列出了更全面的構(gòu)成ReplicBench任務(wù)組。
核心能力還在人類手中
RepliBench的總體評(píng)估結(jié)論是明確的:基于當(dāng)前的測(cè)試結(jié)果,前沿AI模型尚不具備在現(xiàn)實(shí)世界中完全自主復(fù)制的能力。
然而,這并不意味著可以高枕無(wú)憂。
研究同時(shí)揭示了AI在許多核心子任務(wù)上的顯著能力,尤其是在與具有清晰接口的系統(tǒng)(如網(wǎng)頁(yè) API)交互方面。
表現(xiàn)最好的模型在20個(gè)任務(wù)家族中的15個(gè)上獲得了超過(guò)50%的pass@10得分,在最難的變體中20個(gè)任務(wù)家族中的9個(gè)上也獲得了超過(guò)50%的pass@10得分。
意外地是,雖然無(wú)法在電腦上「復(fù)制」,但是「獲取金錢(qián)」的能力倒是有一手。
評(píng)估的關(guān)鍵價(jià)值在于精確識(shí)別了當(dāng)前的「短板」。
正如前面詳細(xì)討論的,通過(guò)KYC身份驗(yàn)證、在現(xiàn)實(shí)防御下可靠地外泄模型權(quán)重、從零開(kāi)始創(chuàng)建可靠的自我復(fù)制智能體代碼,以及建立持久且有彈性的部署,是目前阻礙AI自主復(fù)制的主要障礙。
以通過(guò)KYC身份驗(yàn)證為例,講一個(gè)目前AI試圖通過(guò)人類驗(yàn)證的「搞笑」例子。
在Pass KYC評(píng)估中由模型生成的兩個(gè)身份證圖像示例。
模型常常試圖使用PIL(一個(gè)使用Python畫(huà)圖的庫(kù))從頭「繪制」一個(gè)過(guò)于簡(jiǎn)單的身份證(右)。
或者,模型有時(shí)會(huì)嘗試完全使用圖像生成模型來(lái)生成身份證,有時(shí)則采取混合方法,結(jié)合圖像生成和手動(dòng)PIL編輯(左)。
模型的繪畫(huà)技能較差偶爾會(huì)導(dǎo)致一些有趣的輸出。
需要注意的是,這項(xiàng)工作是在新的圖像生成能力上線之前完成的(指的是GPT 4o、Gemini 2.5等的原生圖像能力),這些新能力應(yīng)該會(huì)使這個(gè)任務(wù)變得容易得多。
雖然目前還沒(méi)有模型能完全通過(guò)測(cè)試進(jìn)行AI復(fù)制,不過(guò)在RepliBench上,模型性能隨時(shí)間有明顯的上升趨勢(shì)。
AISI最初傳遞的核心信息其實(shí)很簡(jiǎn)單:基于當(dāng)前的實(shí)證數(shù)據(jù),AI系統(tǒng)立刻實(shí)現(xiàn)自主復(fù)制的可能性不大,因?yàn)榇嬖诿黠@的、難以逾越的技術(shù)瓶頸。
但是按照AISI的判斷,如果AI系統(tǒng)能夠突破上述提到的4個(gè)關(guān)鍵能力,這種類似科幻故事的場(chǎng)景,也許很快就會(huì)進(jìn)入真實(shí)的人類生活。
本質(zhì)上,這項(xiàng)研究的核心,反映的是當(dāng)前AI發(fā)展中一個(gè)根本性的張力拉扯。
一方面是各大巨頭不斷創(chuàng)造性能超強(qiáng)的模型,比如OpenAI的o3/o4...甚至到未來(lái)很有可能的o10。
模型的發(fā)展速度越來(lái)越快,而模型的能力越來(lái)越難以預(yù)測(cè)。
ChatGPT在2022年發(fā)布時(shí),它可以完成30秒的編碼任務(wù)。如今AI可以自主完成需要人類花費(fèi)一小時(shí)的編碼任務(wù)
另一方面則是致力于AI安全的組織要確保這些系統(tǒng)始終處于人類控制之下、服務(wù)于人類利益的迫切需求。
像RepliBench這樣的努力,正是試圖在這兩者之間找到平衡,通過(guò)增進(jìn)理解和加強(qiáng)預(yù)警,為駕馭這場(chǎng)史無(wú)前例的技術(shù)變革提供導(dǎo)航。
畢竟,沒(méi)有人能想象出5代、10代以后的AI模型會(huì)是什么樣子。