OpenAI向1億ChatGPT用戶,公開10種安全措施
OpenAI為了保證全球超過1億的ChatGPT和數(shù)百萬開發(fā)人員,能以安全、穩(wěn)定的方式使用其產(chǎn)品,更新了安全策略和保護(hù)措施。
以下是OpenAI最近更新的10種安全策略,并且會(huì)在首爾AI安全峰會(huì)上與更多的科學(xué)家、政務(wù)部門分享。
模型測(cè)試與發(fā)布前評(píng)估:在發(fā)布前,OpenAI會(huì)準(zhǔn)備框架和自愿承諾,對(duì)模型安全性進(jìn)行內(nèi)部和外部的實(shí)證評(píng)估。如果新模型的風(fēng)險(xiǎn)等級(jí)達(dá)到準(zhǔn)備框架中的“中等”風(fēng)險(xiǎn)閾值,將不會(huì)發(fā)布該模型,直到實(shí)施足夠的安全干預(yù)措施,將風(fēng)險(xiǎn)等級(jí)降低回“中等”。
例如,在發(fā)布GPT-4o時(shí),超過70位外部專家?guī)椭鶲penAI通過外部紅隊(duì)努力評(píng)估相關(guān)的風(fēng)險(xiǎn)。這種評(píng)估不僅包括公司內(nèi)部的審核,還包括外部專家的參與,以獲得更全面的風(fēng)險(xiǎn)評(píng)估。
對(duì)齊和安全研究:OpenAI的模型隨著時(shí)間的推移變得更加安全。這可以歸因于構(gòu)建更智能的模型,這些模型通常犯的事實(shí)錯(cuò)誤更少,即使在越獄等對(duì)抗條件下也不太可能產(chǎn)生有害內(nèi)容。未來,OpenAI的模型將被訓(xùn)練遵循的指令,旨在大幅提高AI模型對(duì)越獄等攻擊的魯棒性。
監(jiān)控濫用:隨著通過API和ChatGPT部署越來越強(qiáng)大的語言模型,利用了包括專用內(nèi)容審核模型和使用自己的模型監(jiān)控安全風(fēng)險(xiǎn)和濫用在內(nèi)的廣泛工具。
OpenAI已經(jīng)分享了一些關(guān)鍵發(fā)現(xiàn),包括與微軟聯(lián)合披露的濫用技術(shù)案例,以便其他人能更好地防范類似風(fēng)險(xiǎn)。還使用GPT-4進(jìn)行內(nèi)容政策開發(fā)和內(nèi)容審核決策,實(shí)現(xiàn)政策細(xì)化的快速反饋循環(huán),減少人類審核員暴露于濫用材料。
模型安全方法:在模型生命周期的每個(gè)階段實(shí)施一系列安全措施,從預(yù)訓(xùn)練到部署。隨著在開發(fā)更安全、更一致的模型行為方面取得進(jìn)展,也投資于預(yù)訓(xùn)練數(shù)據(jù)安全、系統(tǒng)級(jí)模型行為引導(dǎo)、數(shù)據(jù)飛輪為持續(xù)安全改進(jìn)和強(qiáng)大的監(jiān)控基礎(chǔ)設(shè)施。
保護(hù)兒童:OpenAI在ChatGPT和DALL·E中構(gòu)建了強(qiáng)大的默認(rèn)防護(hù)措施和安全措施,以減輕對(duì)兒童的潛在傷害。2023年,還與Thorn的Safer合作,檢測(cè)、審查并向國(guó)家失蹤和受剝削兒童中心報(bào)告兒童性虐待材料。
公平誠(chéng)信:OpenAI與政府和利益相關(guān)者合作,防止濫用確保AI生成內(nèi)容的透明度,并提高獲取準(zhǔn)確投票信息的途徑。為此,還引入了一個(gè)工具,用于識(shí)別DALL·E 3創(chuàng)建的圖像,加入了內(nèi)容真實(shí)性倡議(C2PA)的指導(dǎo)委員會(huì),并在DALL·E 3中加入了C2PA元數(shù)據(jù),幫助人們了解在網(wǎng)上找到的媒體的來源。
影響評(píng)估和政策分析:OpenAI的影響評(píng)估工作在研究、行業(yè)規(guī)范和政策方面具有廣泛影響力,包括早期關(guān)于測(cè)量AI系統(tǒng)與化學(xué)、生物、放射性和核(CBRN)風(fēng)險(xiǎn)相關(guān)的工作,以及研究估計(jì)不同職業(yè)和行業(yè)可能受語言模型影響的程度。還發(fā)表開創(chuàng)性的工作,探討社會(huì)如何最好地管理相關(guān)風(fēng)險(xiǎn)。
安全和訪問控制措施:優(yōu)先保護(hù)OpenAI的客戶、知識(shí)產(chǎn)權(quán)和數(shù)據(jù)。通過API將AI模型部署到世界各地,再通過API控制訪問實(shí)現(xiàn)政策執(zhí)行。OpenAI的網(wǎng)絡(luò)安全工作包括限制對(duì)訓(xùn)練環(huán)境和高價(jià)值算法秘密的訪問,基于需要知道的原則,進(jìn)行內(nèi)部和外部滲透測(cè)試,漏洞賞金計(jì)劃等。
OpenAI認(rèn)為,保護(hù)先進(jìn)的AI系統(tǒng)將從基礎(chǔ)設(shè)施安全的演變中受益,并正在探索像GPU的保密計(jì)算和AI在網(wǎng)絡(luò)防御中的應(yīng)用等新穎控制措施。為了加強(qiáng)網(wǎng)絡(luò)防御,通過網(wǎng)絡(luò)安全資助計(jì)劃資助第三方安全研究人員。
與政府合作:OpenAI與世界各地的政府合作,為有效和適應(yīng)性強(qiáng)的AI安全政策的發(fā)展提供信息。這包括展示工作和分享OpenAI的學(xué)習(xí)成果,合作試點(diǎn)政府和其他第三方保證,以及為新的標(biāo)準(zhǔn)和法律的公共辯論提供信息。
安全決策和董事會(huì)監(jiān)督:作為OpenAI準(zhǔn)備框架的一部分,建立一個(gè)安全決策的操作結(jié)構(gòu)。OpenAI的跨職能安全咨詢小組在部署前審查模型能力報(bào)告并提出建議。公司領(lǐng)導(dǎo)層會(huì)做出最終決定,董事會(huì)對(duì)這些決定行使監(jiān)督權(quán)。
本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
