AI內(nèi)部部署的隱患:治理缺口與災(zāi)難性風(fēng)險(xiǎn)
當(dāng)OpenAI在兩年多前發(fā)布當(dāng)時(shí)更先進(jìn)的語言模型GPT-4時(shí),許多研究人員抱怨缺乏關(guān)于該模型是如何創(chuàng)建的信息。盡管名字中有“開放”一詞,但該公司卻將所有事情都保密,以免其尖端研究被競(jìng)爭(zhēng)對(duì)手或惡意行為者利用。
雖然這些擔(dān)憂是可以理解的,但這也意味著人們幾乎無法監(jiān)督該公司在實(shí)驗(yàn)室中的所作所為,以及為防止其最新模型通過濫用或“失控”并以可能傷害人類的方式追求其目標(biāo)而造成危害而采取的保障措施。
一年后,即2024年6月,該公司的一些前員工和現(xiàn)員工撰寫了一份匿名公開信,警告稱AI公司有強(qiáng)烈的經(jīng)濟(jì)動(dòng)機(jī)來避免有效的監(jiān)督,并且公司的自我監(jiān)管不會(huì)有效地改變這一點(diǎn)。
時(shí)間快進(jìn)到2025年,情況幾乎沒有改變。包括谷歌、OpenAI和Anthropic在內(nèi)的主要AI公司仍然在內(nèi)部部署其最先進(jìn)的AI系統(tǒng),幾乎沒有任何監(jiān)督。
英國(guó)非營(yíng)利組織Apollo Research發(fā)布的一份新報(bào)告《閉門造車:前沿AI系統(tǒng)內(nèi)部部署治理入門》警告稱,這種不受監(jiān)管的內(nèi)部部署可能導(dǎo)致災(zāi)難性風(fēng)險(xiǎn),從AI系統(tǒng)失控到企業(yè)積聚前所未有的權(quán)力,而監(jiān)管機(jī)構(gòu)對(duì)此卻一無所知。
在該報(bào)告中,由OpenAI前歐洲公共政策主管領(lǐng)導(dǎo)的一組專家和研究人員強(qiáng)調(diào),“內(nèi)部部署——即在開發(fā)它們的公司內(nèi)部部署AI系統(tǒng)——是前沿AI系統(tǒng)帶來利益和風(fēng)險(xiǎn)的主要來源。盡管如此,對(duì)于高度先進(jìn)的前沿AI系統(tǒng)內(nèi)部部署的治理似乎卻不存在”。
隨著行業(yè)領(lǐng)導(dǎo)者預(yù)計(jì)未來幾年內(nèi)AI將取得變革性進(jìn)展,可能在2030年前開發(fā)出在多個(gè)領(lǐng)域超越人類能力的系統(tǒng),這一治理空白隨之出現(xiàn)。據(jù)報(bào)道,谷歌已經(jīng)使用AI生成了超過25%的新代碼,而Anthropic的CEO達(dá)里奧·阿莫代(Dario Amodei)預(yù)測(cè),“在12個(gè)月內(nèi),我們可能會(huì)進(jìn)入一個(gè)AI基本上編寫所有代碼的世界”。
該報(bào)告概述了不受監(jiān)管的內(nèi)部AI部署可能帶來的兩個(gè)特別令人不寒而栗的場(chǎng)景。第一個(gè)涉及所謂的“陰謀”AI,即暗中追求與既定目標(biāo)不一致的目標(biāo)同時(shí)躲避偵查的系統(tǒng)。
“這些AI系統(tǒng)可能會(huì)在未被發(fā)現(xiàn)、控制或監(jiān)督的情況下從事陰謀行為,同時(shí)通過將其應(yīng)用于AI研發(fā)(R&D)管道來獲得和利用資源?!弊髡呓忉屨f。
最終,在能夠利用公司所有資源來加速自身研發(fā)的情況下,該系統(tǒng)可能會(huì)以人類無法理解或控制的方式迭代改進(jìn)自身,這樣說起來可能像是一個(gè)牽強(qiáng)附會(huì)的科幻場(chǎng)景,但研究人員已經(jīng)發(fā)現(xiàn),在受控環(huán)境中,AI模型會(huì)試圖欺騙操作人員,隱瞞它們自己的能力和目標(biāo)。
第二個(gè)同樣令人擔(dān)憂的風(fēng)險(xiǎn)是權(quán)力的不受控集中。正如報(bào)告作者所寫:“隨著AI公司過渡到主要由AI驅(qū)動(dòng)的內(nèi)部勞動(dòng)力,得益于內(nèi)部智能的爆發(fā),它們可能會(huì)創(chuàng)造出經(jīng)濟(jì)史上前所未有的生產(chǎn)力集中”,并補(bǔ)充說,“少數(shù)‘明星’企業(yè)可能會(huì)獲取過大的經(jīng)濟(jì)利潤(rùn)份額,從而在它們選擇進(jìn)入的任何領(lǐng)域擊敗任何基于人類的企業(yè)”。
這種不受控的權(quán)力積累可能會(huì)使AI公司、個(gè)人,甚至AI系統(tǒng)本身能夠?qū)舱邲Q策、選舉過程、市場(chǎng)動(dòng)態(tài)和社會(huì)敘事產(chǎn)生隱蔽但實(shí)質(zhì)性的影響。內(nèi)部部署的不透明性可能會(huì)阻止監(jiān)管機(jī)構(gòu)和民間社會(huì)有效識(shí)別并應(yīng)對(duì)這些發(fā)展。
該報(bào)告明確警告說,如果內(nèi)部AI部署仍然不受監(jiān)控,可能會(huì)導(dǎo)致“民主秩序的逐漸或突然崩潰”。
為減輕這些風(fēng)險(xiǎn),Apollo Research倡導(dǎo)建立一個(gè)受生物研究、核能和化學(xué)制造等安全關(guān)鍵行業(yè)啟發(fā)的綜合治理框架。
主要建議包括用于檢測(cè)和控制陰謀行為的明確框架、管理誰可以訪問和使用高度先進(jìn)的AI系統(tǒng)的結(jié)構(gòu)化內(nèi)部使用政策,以及如內(nèi)部部署監(jiān)督委員會(huì)等強(qiáng)有力的監(jiān)督機(jī)構(gòu)。
這些監(jiān)督機(jī)構(gòu)將負(fù)責(zé)持續(xù)監(jiān)測(cè)、定期審計(jì),以及執(zhí)行內(nèi)部政策和安全協(xié)議的合規(guī)性。此外,這些機(jī)構(gòu)應(yīng)整合技術(shù)專家、倫理學(xué)家、法律顧問和相關(guān)政府機(jī)構(gòu)代表,以確保全面和多學(xué)科的監(jiān)督。
該報(bào)告還強(qiáng)調(diào),AI公司可以建立互惠的公私合作伙伴關(guān)系,與政府達(dá)成戰(zhàn)略協(xié)議。在這種安排下,公司將向政府提供監(jiān)督,并允許政府訪問有關(guān)內(nèi)部部署AI系統(tǒng)的關(guān)鍵安全和性能數(shù)據(jù)。
作為回報(bào),政府將提供必要的關(guān)鍵資源,如增強(qiáng)的安全基礎(chǔ)設(shè)施、監(jiān)管減免或優(yōu)先能源資源,用于先進(jìn)AI設(shè)施的運(yùn)行。
那么公眾呢?簡(jiǎn)而言之,就是我們大多數(shù)人呢?假設(shè)我們能夠了解實(shí)驗(yàn)室中發(fā)生的事情及其影響(這絕非理所當(dāng)然),我們應(yīng)該被蒙在鼓里還是參與其中?Apollo研究人員認(rèn)為,我們至少應(yīng)該被給予“有關(guān)內(nèi)部部署所實(shí)施的治理框架的高級(jí)概述”,例如了解誰是監(jiān)督委員會(huì)的成員以及有哪些監(jiān)督程序。
這將是一種安慰:如果民主崩潰或一個(gè)失控的AI系統(tǒng)在追求錯(cuò)誤目標(biāo)的過程中制造浩劫,至少我們會(huì)知道該責(zé)怪誰。