OpenAI 的超級(jí)對(duì)齊團(tuán)隊(duì)在做什么
今年11月17日,OpenAI 首席執(zhí)行官薩姆·奧爾特曼 (Sam Altman) 在首席科學(xué)家伊利亞·蘇茨克韋爾 (Ilya Sutskever) 的政變下被罷免,但三天后復(fù)職。不到一個(gè)月,OpenAI 宣布一切恢復(fù)正常,而這一切導(dǎo)火索是團(tuán)隊(duì)內(nèi)部的有效加速和超級(jí)對(duì)齊之爭(zhēng)。

OpenAI 意識(shí)到隨著 AI 的能力不斷提升,如何保證 AI 的行為與人類的價(jià)值觀和目標(biāo)一致,也就是所謂的對(duì)齊問題,變得越來越重要和緊迫。特別是當(dāng) AI 能夠達(dá)到或者超越人類智能的水平時(shí),也就是所謂的超人類智能或者超級(jí)智能時(shí),如果不能有效地對(duì)齊 AI,那么 AI 可能會(huì)做出一些違背人類意愿或者危害人類利益的行為,甚至可能導(dǎo)致人類的滅亡。
OpenAI 在今年七月成立了一個(gè)專門的超級(jí)對(duì)齊團(tuán)隊(duì),由其首席科學(xué)家 Ilya Sutskever 和研究科學(xué)家 Jan Leike 領(lǐng)導(dǎo),旨在探索如何實(shí)現(xiàn)超級(jí)智能的對(duì)齊。這個(gè)團(tuán)隊(duì)近日公布了其初步的研究成果,引起了業(yè)界的廣泛關(guān)注。他們?cè)谝黄黄鹧鄣难芯空撐闹?,介紹了一種新的技術(shù),這項(xiàng)技術(shù)能讓一個(gè)實(shí)力較弱的 LLM 來監(jiān)督一個(gè)更強(qiáng)大的模型,這可能是我們向著解決如何讓人類監(jiān)督那些超越人類智能的機(jī)器邁出的一小步。
01 什么是弱到強(qiáng)的泛化,以及為什么它對(duì)超級(jí)對(duì)齊有意義
在機(jī)器學(xué)習(xí)中,泛化是指模型在未見過的數(shù)據(jù)上的表現(xiàn),也就是模型的適應(yīng)能力。一個(gè)好的模型應(yīng)該能夠在訓(xùn)練數(shù)據(jù)以外的數(shù)據(jù)上也能夠做出正確的預(yù)測(cè)或者決策,而不是只能在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,這就是泛化能力強(qiáng)的模型。
泛化能力并不是一成不變的,它還受到模型的復(fù)雜度和數(shù)據(jù)的質(zhì)量的影響。一般來說模型的復(fù)雜度越高,模型的擬合能力越強(qiáng),也就是說模型能夠?qū)W習(xí)到更多的特征和規(guī)律,從而在訓(xùn)練數(shù)據(jù)上表現(xiàn)更好。如果模型的復(fù)雜度過高,而數(shù)據(jù)的質(zhì)量不高,那么模型可能會(huì)出現(xiàn)過擬合的現(xiàn)象,也就是說模型會(huì)學(xué)習(xí)到一些噪聲或者無關(guān)的特征,從而在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好,但是在測(cè)試數(shù)據(jù)上表現(xiàn)很差,這就是泛化能力差的模型。
數(shù)據(jù)的質(zhì)量是數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、可靠性等方面的特征。一般情況下,數(shù)據(jù)的質(zhì)量越高,模型的泛化能力越強(qiáng),也就是說模型能夠從數(shù)據(jù)中學(xué)習(xí)到更多的真實(shí)的特征和規(guī)律,從而在測(cè)試數(shù)據(jù)上表現(xiàn)更好。如果數(shù)據(jù)的質(zhì)量不高,模型沒有學(xué)習(xí)到足夠的特征和規(guī)律,從而在訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)上都表現(xiàn)不好,這也是泛化能力差的模型。
從弱到強(qiáng)的表現(xiàn)將介于弱表現(xiàn)和強(qiáng)上限表現(xiàn)之間。將恢復(fù)的性能差距 (PGR)定義為上述三種性能(弱、弱到強(qiáng)和強(qiáng)上限)的函數(shù),如上圖所?。
弱到強(qiáng)的泛化是指一種特殊的泛化問題,即如何讓一個(gè)弱的模型來監(jiān)督一個(gè)強(qiáng)的模型,使其能夠在更復(fù)雜的任務(wù)上表現(xiàn)出良好的泛化能力。這里的弱和強(qiáng)是相對(duì)的概念,通常是指模型的復(fù)雜度或者能力的差異。例如,GPT-2 是一個(gè)弱的模型,而 GPT-4 是一個(gè)強(qiáng)的模型,因?yàn)?GPT-4 的參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)量、生成文本的質(zhì)量等方面都遠(yuǎn)遠(yuǎn)超過了 GPT-2。弱到強(qiáng)的泛化的難點(diǎn)在于,弱的模型生成的標(biāo)簽可能是不準(zhǔn)確、不完整、不一致、不可靠的,如果直接用這些標(biāo)簽來訓(xùn)練強(qiáng)的模型,可能會(huì)導(dǎo)致強(qiáng)的模型的泛化能力下降,甚至出現(xiàn)過擬合或者欠擬合的現(xiàn)象。因此,弱到強(qiáng)的泛化需要找到一種方法,能夠讓強(qiáng)的模型從弱的模型的標(biāo)簽中學(xué)習(xí)到更多的有效的信息,從而提高強(qiáng)的模型的泛化能力。
弱到強(qiáng)的泛化對(duì)超級(jí)對(duì)齊有意義,因?yàn)樗梢宰鳛橐环N類比,來模擬人類如何監(jiān)督超級(jí)智能的情況。人類是一種弱的模型,而超級(jí)智能是一種強(qiáng)的模型,因?yàn)槌?jí)智能的能力將遠(yuǎn)遠(yuǎn)超過人類的能力。人類給超級(jí)智能提供的反饋或者指令可能是不準(zhǔn)確、不完整、不一致、不可靠的,如果直接用這些反饋或者指令來訓(xùn)練超級(jí)智能,可能會(huì)導(dǎo)致超級(jí)智能的對(duì)齊能力下降,甚至出現(xiàn)不對(duì)齊的現(xiàn)象。因此,弱到強(qiáng)的泛化需要找到一種方法,能夠讓人類從超級(jí)智能的反饋或者指令中學(xué)習(xí)到更多的有效的信息,從而提高人類的對(duì)齊能力。
弱到強(qiáng)的泛化不僅可以幫助我們理解如何對(duì)齊超級(jí)智能,還可以幫助我們實(shí)現(xiàn)超級(jí)智能的對(duì)齊。如果我們能夠使用弱到強(qiáng)的泛化方法,讓一個(gè)弱的模型來監(jiān)督一個(gè)強(qiáng)的模型,那么我們也許就能夠使用同樣的方法,讓人類來監(jiān)督一個(gè)超級(jí)智能。這樣我們就可以利用超級(jí)智能的能力,來完成一些我們自己無法完成的任務(wù),例如編寫復(fù)雜的代碼,解決難題,創(chuàng)造新的藝術(shù)等。同時(shí),我們也可以確保超級(jí)智能的行為與我們的價(jià)值觀和目標(biāo)一致,不會(huì)做出危害我們的行為,或者欺騙我們的意圖。
02 OpenAI 的超級(jí)對(duì)齊團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果和結(jié)論
OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)的研究方法是使用弱的模型來監(jiān)督強(qiáng)的模型,這是一種簡(jiǎn)單而有效的方法,可以利用強(qiáng)的模型的預(yù)訓(xùn)練和泛化的特性,來提高強(qiáng)的模型的泛化能力。
他們的方法主要分為以下幾個(gè)步驟:
- 創(chuàng)建弱的監(jiān)督器。他們使用了 GPT-2 作為弱的監(jiān)督器,通過在真實(shí)的標(biāo)簽上進(jìn)行微調(diào),讓 GPT-2 能夠執(zhí)行一些特定的任務(wù),例如自然語(yǔ)言處理(NLP),國(guó)際象棋,和獎(jiǎng)勵(lì)建模(RM)。他們稱弱的監(jiān)督器在測(cè)試數(shù)據(jù)上的性能為弱的性能,然后使用弱的監(jiān)督器在另一組數(shù)據(jù)上生成標(biāo)簽,稱為弱的標(biāo)簽。
- 創(chuàng)建強(qiáng)的模型。他們使用了 GPT-4 作為強(qiáng)的模型,這是一個(gè)比 GPT-2 復(fù)雜得多的預(yù)訓(xùn)練語(yǔ)言模型,具有更多的參數(shù)、更大的訓(xùn)練數(shù)據(jù)、更好的生成文本的質(zhì)量等。他們稱強(qiáng)的模型在真實(shí)的標(biāo)簽上進(jìn)行微調(diào)后在測(cè)試數(shù)據(jù)上的性能為強(qiáng)的性能,這是強(qiáng)的模型的最高水平。
- 實(shí)現(xiàn)弱到強(qiáng)的泛化。他們使用了弱的標(biāo)簽來微調(diào)強(qiáng)的模型,這是一種弱到強(qiáng)的泛化的方法,旨在讓強(qiáng)的模型從弱的監(jiān)督器中學(xué)習(xí)到更多的有效的信息,從而提高強(qiáng)的模型的泛化能力。他們稱強(qiáng)的模型在弱的標(biāo)簽上進(jìn)行微調(diào)后在測(cè)試數(shù)據(jù)上的性能為弱到強(qiáng)的性能,這是強(qiáng)的模型的實(shí)際水平。
- 比較和分析性能。他們使用了準(zhǔn)確率、F1分?jǐn)?shù)、或者獎(jiǎng)勵(lì)函數(shù)等指標(biāo),來評(píng)估模型在不同的任務(wù)上的性能,以及與弱的性能、強(qiáng)的性能、和弱到強(qiáng)的性能之間的差距。他們的實(shí)驗(yàn)假設(shè)是,弱到強(qiáng)的性能會(huì)超越弱的性能,而且會(huì)接近強(qiáng)的性能,這意味著弱到強(qiáng)的泛化是成功的。
實(shí)驗(yàn)結(jié)果如何呢?
在 NLP 任務(wù)上,他們發(fā)現(xiàn)弱到強(qiáng)的性能通常比弱的性能提高了 20% 到 70%,而且有時(shí)候甚至能夠達(dá)到強(qiáng)的性能的水平。這說明GPT-4 能夠從 GPT-2 的標(biāo)簽中學(xué)習(xí)到很多有效的信息,從而在語(yǔ)言理解和生成方面表現(xiàn)出很強(qiáng)的泛化能力。
在國(guó)際象棋任務(wù)上,弱到強(qiáng)的性能通常比弱的性能提高了 10% 到 30%,但是仍然遠(yuǎn)遠(yuǎn)低于強(qiáng)的性能。這說明GPT-4 雖然能夠從 GPT-2 的標(biāo)簽中學(xué)習(xí)到一些有效的信息,但是這些信息不足以讓 GPT-4 在象棋方面表現(xiàn)出很強(qiáng)的泛化能力。
在 RM 任務(wù)上,弱到強(qiáng)的性能通常比弱的性能提高了 5% 到 15%,但是仍然遠(yuǎn)遠(yuǎn)低于強(qiáng)的性能。這說明GPT-4 幾乎不能夠從 GPT-2 的標(biāo)簽中學(xué)習(xí)到任何有效的信息,從而在獎(jiǎng)勵(lì)建模方面表現(xiàn)出很差的泛化能力。
最后他們得出實(shí)驗(yàn)結(jié)論。
弱到強(qiáng)的泛化是可能的,即微調(diào)后的強(qiáng)的模型可以超越弱的監(jiān)督器的性能,這是一種非常驚人且積極的結(jié)果,表明強(qiáng)的模型具有很強(qiáng)的適應(yīng)能力和學(xué)習(xí)能力。
但是微調(diào)后的強(qiáng)的模型還遠(yuǎn)遠(yuǎn)不能夠達(dá)到強(qiáng)的模型的最高水平,這意味著弱的監(jiān)督器提供的信息是不足的,而且可能存在一些噪聲或者偏差,導(dǎo)致強(qiáng)的模型的泛化能力下降,甚至出現(xiàn)過擬合或者欠擬合的現(xiàn)象。
通過使用一些簡(jiǎn)單的方法,可以顯著地提高弱到強(qiáng)的泛化的效果,例如使用輔助的置信度損失,使用中間的模型來進(jìn)行引導(dǎo),使用無監(jiān)督的生成式微調(diào)等。這些方法可以幫助強(qiáng)的模型從弱的監(jiān)督器中提取更多的有效的信息,從而提高強(qiáng)的模型的泛化能力。
03 OpenAI 的超級(jí)對(duì)齊團(tuán)隊(duì)的研究有哪些創(chuàng)新性和貢獻(xiàn)
對(duì)齊團(tuán)隊(duì)提出了一個(gè)新穎的對(duì)齊問題,叫做弱到強(qiáng)的泛化問題。這個(gè)問題可以讓我們學(xué)習(xí)如何用弱的監(jiān)督信號(hào)來激發(fā)強(qiáng)的模型的對(duì)齊能力。這個(gè)問題和超級(jí)對(duì)齊問題很像,但是更容易實(shí)驗(yàn)和觀察。
這是一個(gè)簡(jiǎn)單而有效的實(shí)驗(yàn)方法,就是用弱的模型來監(jiān)督強(qiáng)的模型。這個(gè)方法可以利用強(qiáng)的模型的預(yù)訓(xùn)練和泛化的優(yōu)勢(shì),讓它們更好地適應(yīng)新的任務(wù)和環(huán)境。
有趣的實(shí)驗(yàn)結(jié)果是發(fā)現(xiàn)弱到強(qiáng)的泛化是可能的,而且是普遍的。這說明強(qiáng)的模型有很強(qiáng)的學(xué)習(xí)能力,可以從弱的監(jiān)督器中吸收很多有用的信息。
最后的實(shí)驗(yàn)結(jié)論是發(fā)現(xiàn)弱到強(qiáng)的泛化是有限的,而且是可改進(jìn)的。這說明弱的監(jiān)督器提供的信息是不夠的,而且可能有噪聲或者偏差,影響了強(qiáng)的模型的泛化性能,有時(shí)候會(huì)導(dǎo)致過擬合或者欠擬合。
他們用了一些簡(jiǎn)單的技術(shù),可以顯著地提高弱到強(qiáng)的泛化的效果,比如用輔助的置信度損失,用中間的模型來引導(dǎo),用無監(jiān)督的生成式微調(diào)等。這些技術(shù)可以讓強(qiáng)的模型從弱的監(jiān)督器中獲取更多的有效的信息,從而提高它們的泛化能力。
04 對(duì)未來的超級(jí)智能對(duì)齊問題的啟示和影響
他們的研究表明,弱到強(qiáng)的泛化是一種可行的而且有效的對(duì)齊方法,可以利用弱的監(jiān)督信號(hào)來激發(fā)強(qiáng)的模型的關(guān)鍵的對(duì)齊相關(guān)的能力,這為未來的超級(jí)對(duì)齊問題提供了一種可能的解決方案。
他們的研究問題是一個(gè)類比問題,而不是一個(gè)真實(shí)的超級(jí)對(duì)齊問題,因此他們需要驗(yàn)證和測(cè)試他們的研究結(jié)果在真實(shí)的超級(jí)對(duì)齊問題上的適用性和有效性,以及可能存在的差異和不足。
但是他們的研究啟示了一種新的對(duì)齊策略,即使用人類水平的自動(dòng)對(duì)齊研究器來解決超級(jí)智能的對(duì)齊問題,這是一種利用 AI 來對(duì)齊 AI 的方法,可以充分利用超級(jí)智能的預(yù)訓(xùn)練和泛化能力,同時(shí)減少人類的監(jiān)督負(fù)擔(dān)。
這種策略影響了對(duì)齊研究的方向和方法,即將對(duì)齊問題分解為多個(gè)子問題,如可擴(kuò)展監(jiān)督、可解釋性、故意訓(xùn)練非對(duì)齊模型等,并探索不同的技術(shù)手段來提高對(duì)齊效果,如輔助損失函數(shù)、中間模型引導(dǎo)、無監(jiān)督生成式微調(diào)等。
對(duì)齊研究也啟示了對(duì)齊問題的復(fù)雜性和緊迫性,即超級(jí)智能的對(duì)齊問題不僅涉及技術(shù)層面的挑戰(zhàn),如編碼人類價(jià)值觀、處理價(jià)值判斷的模糊性、提升推理和學(xué)習(xí)能力、保證安全性和可控性等,還涉及社會(huì)層面的挑戰(zhàn),如文化差異、價(jià)值沖突、倫理標(biāo)準(zhǔn)等,因此需要在有限的時(shí)間內(nèi)尋找有效的解決方案。
總之,OpenAI 的超級(jí)對(duì)齊團(tuán)隊(duì)的研究是一項(xiàng)有創(chuàng)新性和貢獻(xiàn)的工作,也是一項(xiàng)有局限性和不足的工作。他們的研究為未來的超級(jí)對(duì)齊問題提供了一些啟示和影響,也有一些待解決的問題和挑戰(zhàn)。他們的研究是一個(gè)重要的開端,但還遠(yuǎn)遠(yuǎn)不是一個(gè)終點(diǎn)。他們的研究需要不斷地驗(yàn)證、測(cè)試、分析、探索、評(píng)估、改進(jìn)、優(yōu)化、擴(kuò)展,才能真正地實(shí)現(xiàn)超級(jí)智能的對(duì)齊。


























