OpenAI揭秘ChatGPT升級(jí)計(jì)劃:你找到的bug都在改了
OpenAI 的使命是確保通用人工智能(AGI)惠及全人類(lèi)。因此,我們對(duì)我們?cè)趯?shí)現(xiàn) AGI 的過(guò)程中所構(gòu)建的人工智能系統(tǒng)的行為,以及決定這種行為的方式進(jìn)行了大量的思考。
自從我們推出 ChatGPT 以來(lái),用戶已經(jīng)分享了他們認(rèn)為有政治偏見(jiàn)或其他令人反感的產(chǎn)出。在許多情況下,我們認(rèn)為大家所提出的關(guān)切是合理的,并發(fā)現(xiàn)了我們系統(tǒng)的真正局限性,我們希望解決這些問(wèn)題。但與此同時(shí),我們也看到了一些誤解,這些誤解與「我們的系統(tǒng)和政策如何共同塑造 ChatGPT 的輸出」有關(guān)。
博客要點(diǎn)總結(jié)如下:
- ChatGPT 的行為是如何形成的;
- 我們計(jì)劃如何改進(jìn) ChatGPT 的默認(rèn)行為;
- 我們想允許更多的系統(tǒng)定制;
- 我們會(huì)努力讓公眾對(duì)我們的決策提出更多意見(jiàn)。
我們的首要任務(wù)
與普通軟件不同,我們的模型是大規(guī)模的神經(jīng)網(wǎng)絡(luò)。它們的行為是從廣泛的數(shù)據(jù)中學(xué)習(xí)的,而不是明確的編程。打個(gè)不那么恰當(dāng)?shù)谋确?,這個(gè)過(guò)程更類(lèi)似于訓(xùn)練一只狗,而不是普通的編程。首先,模型要經(jīng)歷一個(gè)「預(yù)訓(xùn)練」階段。在這個(gè)階段中,模型通過(guò)接觸大量的互聯(lián)網(wǎng)文本(以及大量的觀點(diǎn))來(lái)學(xué)習(xí)預(yù)測(cè)一個(gè)句子中的下一個(gè)詞。接下來(lái)是第二個(gè)階段,我們對(duì)模型進(jìn)行「微調(diào)」,以縮小系統(tǒng)的行為范圍。
截至目前,這個(gè)過(guò)程還不完善。有時(shí),微調(diào)過(guò)程沒(méi)有滿足我們的意圖(產(chǎn)生一個(gè)安全、有用的工具)和用戶的意圖(獲得一個(gè)有用的輸出以響應(yīng)給定的輸入)。隨著 AI 系統(tǒng)變得越來(lái)越強(qiáng)大,改進(jìn)我們使 AI 系統(tǒng)與人類(lèi)價(jià)值保持一致的方法成為我們公司的首要任務(wù)。
兩大步驟:預(yù)訓(xùn)練和微調(diào)
構(gòu)建 ChatGPT 的兩個(gè)主要步驟如下:
首先,我們對(duì)模型進(jìn)行 「預(yù)訓(xùn)練」,讓它們預(yù)測(cè)包含互聯(lián)網(wǎng)部分內(nèi)容的大數(shù)據(jù)集的下一步是什么。它們可能會(huì)學(xué)習(xí)補(bǔ)全「她沒(méi)有向左轉(zhuǎn),而是轉(zhuǎn)到了__」這個(gè)句子。通過(guò)從數(shù)十億的句子中學(xué)習(xí),我們的模型掌握了語(yǔ)法、關(guān)于世界的許多事實(shí),以及一些推理能力。他們還學(xué)會(huì)了這幾十億句子中存在的一些偏見(jiàn)。
然后,我們?cè)谝粋€(gè)范圍更窄的數(shù)據(jù)集上對(duì)這些模型進(jìn)行「微調(diào)」,這些數(shù)據(jù)集是由遵循我們提供的指南的人類(lèi)評(píng)審員精心制作的。由于我們無(wú)法預(yù)測(cè)未來(lái)用戶可能輸入我們系統(tǒng)的所有信息,所以我們沒(méi)有為 ChatGPT 將遇到的每一個(gè)輸入編寫(xiě)詳細(xì)的說(shuō)明。取而代之的是,我們?cè)谥改现懈攀隽藥讉€(gè)類(lèi)別,我們的評(píng)審員用這些類(lèi)別來(lái)審查和評(píng)價(jià)一系列示例輸入的可能模型輸出。然后,在使用過(guò)程中,模型從評(píng)審員的反饋中歸納出來(lái),以便對(duì)特定用戶提供的廣泛的具體輸入做出反應(yīng)。
評(píng)審員的作用 & OpenAI 在系統(tǒng)開(kāi)發(fā)中的策略
在某些情況下,我們可能會(huì)給我們的評(píng)審員提供關(guān)于某類(lèi)輸出的指導(dǎo)(例如,「不要完成非法內(nèi)容的請(qǐng)求」)。在其他情況下,我們與評(píng)審員分享的指導(dǎo)是更高層次的(例如,「避免在有爭(zhēng)議的話題中站隊(duì)」)。重要的是,我們與評(píng)審員的合作不是一勞永逸的,而是一種持續(xù)的關(guān)系。在這種關(guān)系中,我們從他們的專業(yè)知識(shí)中學(xué)習(xí)了很多。
微調(diào)過(guò)程的很大一部分工作是與我們的審查員保持一個(gè)強(qiáng)大的反饋回路,這涉及到每周的會(huì)議,以解決他們可能有的問(wèn)題,或?qū)ξ覀兊闹笇?dǎo)進(jìn)行進(jìn)一步說(shuō)明。這種反復(fù)的反饋過(guò)程是我們訓(xùn)練模型的方式,使其隨著時(shí)間的推移越來(lái)越好。
解決偏見(jiàn)
對(duì)于 AI 系統(tǒng),偏見(jiàn)問(wèn)題由來(lái)已久,許多研究者對(duì)此表示擔(dān)心。我們堅(jiān)定地承諾會(huì)解決這一問(wèn)題,并公開(kāi)意圖和進(jìn)展。為了表達(dá)實(shí)際行動(dòng)進(jìn)展,我們?cè)诖朔窒砹伺c政治和爭(zhēng)議有關(guān)話題的部分指南。該指南明確指出評(píng)審員不應(yīng)偏袒任何政治團(tuán)體。盡管如此,偏見(jiàn)還是可能會(huì)出現(xiàn)。
指南地址:https://cdn.openai.com/snapshot-of-chatgpt-model-behavior-guidelines.pdf
盡管分歧始終存在,但我們希望通過(guò)這篇博客以及一些指南,大家可以更深入地了解我們是如何看待偏見(jiàn)的。我們堅(jiān)信科技公司必須負(fù)責(zé)任地制定出經(jīng)得起審查的政策。
我們一直在努力提高這些指南的清晰度,基于從 ChatGPT 發(fā)布到目前為止所了解到的情況,我們將向評(píng)審員提供關(guān)于與偏見(jiàn)相關(guān)的潛在陷阱和挑戰(zhàn),以及有爭(zhēng)議的數(shù)據(jù)和主題更清晰的說(shuō)明。此外,作為正在進(jìn)行的透明度計(jì)劃的一部分,我們正在努力以不違反隱私規(guī)則和規(guī)范的方式共享有關(guān)評(píng)審員的匯總統(tǒng)計(jì)信息,因?yàn)檫@是系統(tǒng)輸出中潛在偏見(jiàn)的另一個(gè)來(lái)源。
基于規(guī)則獎(jiǎng)勵(lì)和 Constitutional AI(原發(fā)人工智能方法)等進(jìn)展之上,我們目前正在研究如何使微調(diào)過(guò)程更容易理解和可控。
未來(lái)發(fā)展方向:系統(tǒng)構(gòu)建塊
為了實(shí)現(xiàn)我們的使命,我們致力于確保更廣大的人群能夠使用 AI 和 AGI,并從中受益。我們認(rèn)為要實(shí)現(xiàn)這些目標(biāo),至少需要三個(gè)構(gòu)建塊
1. 改進(jìn)默認(rèn)行為:我們希望 AI 系統(tǒng)做到開(kāi)箱即用,讓盡可能多的用戶發(fā)現(xiàn)我們 AI 系統(tǒng)確實(shí)有用,并認(rèn)為我們的技術(shù)理解并尊重他們的價(jià)值觀。
為此,我們對(duì)研究和工程進(jìn)行了投資,以減少 ChatGPT 對(duì)不同輸入響應(yīng)產(chǎn)生的微妙偏見(jiàn)。在某些情況下,ChatGPT 會(huì)拒絕輸出應(yīng)該輸出的內(nèi)容,而在某些情況下情況又相反,它輸出了本不該輸出的內(nèi)容。我們相信,在這兩個(gè)方面 ChatGPT 都有改善的可能。
此外,我們的 AI 系統(tǒng)在其他方面還有改進(jìn)的空間,例如系統(tǒng)經(jīng)常會(huì)「編造東西」,對(duì)于這一問(wèn)題,用戶反饋對(duì)改進(jìn) ChatGPT 非常寶貴。
2. 在廣泛的范圍內(nèi)定義 AI 價(jià)值:我們相信 AI 應(yīng)該成為對(duì)個(gè)人有用的工具,因此每個(gè)用戶都可以根據(jù)一些限制條款進(jìn)行定制使用?;诖?,我們正在對(duì) ChatGPT 的升級(jí)進(jìn)行開(kāi)發(fā),以允許用戶輕松自定義其行為。
這也意味著,一些人強(qiáng)烈反對(duì)的輸出,對(duì)另一些人是可見(jiàn)的。實(shí)現(xiàn)這一平衡面臨巨大的挑戰(zhàn),因?yàn)閷⒍ㄖ苹龅綐O致可能會(huì)導(dǎo)致有些人惡意使用我們的技術(shù),以及盲目放大 AI 的性能。
因此,系統(tǒng)行為總會(huì)有一些限制。挑戰(zhàn)在于定義這些界限是什么。如果我們?cè)噲D自己做出所有這些決定,或者如果我們?cè)噲D開(kāi)發(fā)一個(gè)單一的、整體的 AI 系統(tǒng),我們將無(wú)法履行「避免權(quán)力過(guò)度集中」的承諾。
3. 公共輸入(默認(rèn)值和硬性界限):避免權(quán)力過(guò)度集中的一種方法是讓使用 ChatGPT 等系統(tǒng)或受其影響的人反過(guò)來(lái)能夠影響系統(tǒng)規(guī)則。
我們認(rèn)為,默認(rèn)值和硬性界限這部分內(nèi)容應(yīng)該集中做出,雖然實(shí)施起來(lái)困難重重,但我們的目標(biāo)是盡可能多地納入更多觀點(diǎn)。作為起點(diǎn),我們以「red teaming」的形式尋求外部對(duì)我們技術(shù)的投入。我們最近還開(kāi)始征求公眾對(duì) AI 教育的意見(jiàn)(我們正在部署的一個(gè)特別重要的環(huán)境)。
結(jié)論
結(jié)合上述三個(gè)構(gòu)建模塊,我們可以得出如下框架
有時(shí)我們會(huì)犯錯(cuò),但當(dāng)我們犯錯(cuò)時(shí),我們將進(jìn)行學(xué)習(xí)并迭代模型和系統(tǒng)。此外,我們還要感謝 ChatGPT 用戶等人員,讓我們時(shí)刻記住責(zé)任、保持警惕,我們很高興在未來(lái)幾個(gè)月內(nèi)分享更多關(guān)于在上述三個(gè)領(lǐng)域的工作。