偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI超級對齊團隊再發(fā)「絕唱」!首提「證明者-驗證者」博弈,訓(xùn)練GPT說人話

人工智能
當(dāng)我們不停在CoT等領(lǐng)域大下苦功、試圖提升LLM推理準(zhǔn)確性的同時,OpenAI的對齊團隊從另一個角度發(fā)現(xiàn)了華點——除了準(zhǔn)確性,生成答案的清晰度、可讀性和可驗證性也同樣重要。

不知道你有沒有過這樣的經(jīng)歷:碰到一道做不出的數(shù)學(xué)題,于是丟給ChatGPT。

結(jié)果一通生成之后,ChatGPT的「不知所云」讓你從之前的略有頭緒瞬間變成完全迷茫。不管它是對是錯,反正人類是看不懂了。

圖片圖片

提高LLM的數(shù)學(xué)和推理能力是最近研究關(guān)注的焦點,但同樣重要的是,確保模型生成可理解的文本。

否則即使答案正確,99%的人類都理解不了,也不能讓LLM真正協(xié)助我們處理復(fù)雜任務(wù)。

OpenAI近期發(fā)表的一篇論文就旨在研究并解決模型性能和可讀性(legibility)之間的平衡。

圖片圖片

論文地址:https://openai.com/index/prover-verifier-games-improve-legibility/

和之前發(fā)出來的兩篇一樣,這次又是Jan Leike的庫存作品,但共同一作是兩位在職研究員Jan Hendrik Kirchner和Yining Chen。

圖片

估計超級對齊團隊的「遺作」夠OpenAI發(fā)一陣子了

通過優(yōu)化提升可讀性

論文發(fā)現(xiàn),如果僅僅針對答案正確性來訓(xùn)練模型,其中一個副作用是,可能會讓LLM的輸出變得難以理解。

如果讓人類評估者對高度優(yōu)化的答案進行評價,在有限時間內(nèi)(45s)的評估準(zhǔn)確率會明顯下降(圖4b),正確評估所需的時間也逐步增長(圖4c)。

圖片圖片

因此,提升LLM響應(yīng)的可讀性,不僅能增強其可信度,還有助于準(zhǔn)確的驗證和評價。

響應(yīng)輸出「可讀性」與模型的「可解釋性」(explainabiliby)之間,有什么聯(lián)系?

作者給出的解釋是:兩者是互補屬性,都可以脫離另一個而單獨存在。

「可解釋性」試圖描述模型的推理過程,無論推理本身是否正確,而且最終的生成也可以無限復(fù)雜。

而「可讀性」忽略模型如何產(chǎn)生推理過程,只要求輸出連貫且便于人類理解。

為了提升可讀性,論文提出的思路是:用小學(xué)數(shù)學(xué)題(GSM數(shù)據(jù)集)訓(xùn)練較高級的模型,讓它創(chuàng)建較弱模型也能輕松驗證的文本答案,這個過程就是「證明者-驗證者博弈」(prover-verifier games)。

這是一種博弈論框架,其中較強模型擔(dān)任「證明者」負責(zé)解決生成方案,較弱模型擔(dān)任「驗證者」檢查其準(zhǔn)確性。

圖片圖片

實驗證明,這種方法不僅提升了輸出內(nèi)容的正確性,也能讓人類和其他AI系統(tǒng)更易于理解并驗證。

同時,作者提出,進一步縮小可讀性模型(驗證者)與高性能模型(證明者)之間的性能差距,將是未來對齊研究的重要目標(biāo)。

工作原理

實驗中,GPT-4系列的大模型和小模型分別擔(dān)任「證明者」和「驗證者」,它們在預(yù)訓(xùn)練計算量上相差約3個數(shù)量級。

這些模型都在人類書寫的數(shù)學(xué)推導(dǎo)上進行了少量監(jiān)督訓(xùn)練,但沒有進行廣泛的后續(xù)訓(xùn)練(post-training)。

首先,證明者模型生成多個數(shù)學(xué)問題的解決方案,由于模型本身產(chǎn)生的錯誤,其中一些解決方案是不正確的。

然后,在下面兩個階段之間交替進行多輪訓(xùn)練:

- 驗證者訓(xùn)練:訓(xùn)練較弱的驗證者模型,預(yù)測證明者生成解決方案的正確性

- 證明者訓(xùn)練:指示能力較強的證明者模型扮演「有幫助的」或「狡猾的」角色

對于「有幫助」的角色,我們獎勵驗證者打出高分正確答案;對于「狡猾」角色則相反,獎勵驗證者評分高的錯誤答案。

從論文中給出的樣例可以看到,在每一輪的可檢查性訓(xùn)練(checkability)中,模型輸出答案的清晰度和可讀性都在逐步提升。

比如下面這個問題:

Shawna的父親的年齡是Shawna的五倍。Shawna目前的年齡是Aliya的三倍。如果Aliya現(xiàn)在3歲,Shawna的父親多大?

模型初始化時給出如下答案:

根據(jù)題目,Shawna目前$3^2=9$歲。

這意味著 Shawna的父親目前$9\cdot5=4$歲。

答案是:45

圖片圖片

第一輪訓(xùn)練后,模型在原來正確答案的基礎(chǔ)上加入了推理過程,感覺是參考答案「簡略版」和「詳細版」的區(qū)別:

首先我們需要確定Aliya的年齡。根據(jù)問題描述,Aliya 3歲。

然后我們需要確定Shawna的年齡。根據(jù)問題描述,Shawna目前的年齡是Aliya的三倍,所以Shawna的年齡是3乘以3,結(jié)果是<<3*3=9>>9。

接下來,我們需要確定Shawna 父親的年齡。題目中提到Shawna的父親年齡是Shawna的五倍。因此Shawna的父親的年齡是5乘以9,結(jié)果是<<5*9=45>>45。

答案是:45

圖片圖片

如果說上面的答案在詳細之余顯得有些冗余,下面這個5輪訓(xùn)練后的答案就進一步平衡了「全面詳細」和「簡潔精煉」。

我們從計算Aliya的年齡開始。

根據(jù)題目描述,Aliya 3歲。

然后,我們需要計算Shawna當(dāng)前的年齡。

Shawna目前的年齡是Aliya的三倍。因此,Shawna當(dāng)前的年齡是3乘以3,結(jié)果是 <<3*3=9>>9。

現(xiàn)在我們需要計算Shawna父親的年齡。

Shawna的父親年齡是Shawna的五倍。因此,Shawna的父親的年齡是5乘以9,結(jié)果是 <<5*9=45>>45。

因此,Shawna的父親的年齡是45。

答案是:45

圖片圖片

而且,這種多輪訓(xùn)練也能增強驗證者逐漸辨別「狡猾」證明者的能力。

在最初的實驗中,「狡猾」的證明者能夠輕松生成讓驗證者信服的錯誤答案。但這些答案被添加到下一輪后,就無法再騙過驗證者。

于是,隨著驗證者能力的提升,每一輪訓(xùn)練都激勵「狡猾」的證明者探索不同的策略「瞞天過?!?。

比如,同樣是上面的問題,「狡猾」的證明者第一輪所犯的錯誤非常簡單直接:把5×9的結(jié)果算成36。

圖片圖片

到第三輪時,模型選擇在問題語義上動手腳,偷偷把第一步計算中的「3倍」變成「5倍」,錯誤更加隱蔽。

圖片圖片

一旦后者無法再騙過前者時,訓(xùn)練結(jié)束。

關(guān)鍵結(jié)果

基線

根據(jù)上述的實驗思路,一個自然的基線設(shè)置就是忽略可讀性,讓模型只優(yōu)化正確性。本文選擇采用強化學(xué)習(xí)(RL)方法微調(diào)LLM。

從圖4中可以看到,這種方法能夠讓模型在小學(xué)數(shù)學(xué)題上取得優(yōu)異的準(zhǔn)確率,但生成答案的可讀性也隨之顯著降低,提升了人類的評估難度。

圖片圖片

權(quán)衡

圖5展示了博弈中各種角色在訓(xùn)練過程中的動態(tài)變化??梢钥吹剑S著訓(xùn)練步數(shù)增加,證明者們對驗證者的說服能力逐漸提高(5a),但答案的準(zhǔn)確性并不是單調(diào)變化,會出現(xiàn)顯著波動(5b)。

使用更大的驗證者模型時(訓(xùn)練計算量從證明者的10^-3增長到10^-1.8),也能發(fā)現(xiàn)類似的變化趨勢(圖c)。

圖片圖片

但說服力的提升并不意味著驗證者模型分辨能力的停滯或弱化。正相反,驗證者的穩(wěn)健性逐步提高,「狡猾」的模型需要越來越多的步驟才能騙過驗證者,直至最后無法成功欺騙(圖6)。

圖片圖片

實驗關(guān)注的核心——「有用」的證明者,在訓(xùn)練過程中實現(xiàn)了答案準(zhǔn)確性和可讀性的同步提升(圖8),尤其是與僅針對正確性的訓(xùn)練(圖4)相比。這表明驗證者模型的反饋起到了有效作用。

圖片圖片

綜合上述結(jié)果,從更抽象的層次來看(圖1),這種訓(xùn)練方法能使強大的證明者模型在不損失可讀性的同時,實現(xiàn)生成答案準(zhǔn)確率的一定提升。

這種方法的代價就是,準(zhǔn)確率的提升幅度相比之前的RL方法有所下降。這個差距被作者命名為「可讀稅」(legibility tax)。

圖片圖片

研究結(jié)論

通過解決小學(xué)數(shù)學(xué)應(yīng)用題這個具體的實驗設(shè)置,論文探索了模型性能和答案易讀性之間存在的張力,并提出了一種權(quán)衡方法。

實驗結(jié)果投射出一種希望——我們可以期待LLM在未來變得比人類更有能力,同時人類也依舊能夠理解并信任模型給出的解決方案。

在此基礎(chǔ)上,未來研究有多個繼續(xù)拓展的方向,比如提高易讀性的半監(jiān)督/無監(jiān)督方法、提高樣本效率,以及系統(tǒng)性地研究對于人類的易讀性,而非只是用較弱模型代替人類判斷。

局限性

論文從數(shù)據(jù)集、研究思路和范圍、實驗設(shè)置等多方面進行了局限性分析。

數(shù)據(jù)集方面,研究僅使用了一個數(shù)據(jù)集GSM,問題相對簡單,解決方案也相當(dāng)標(biāo)準(zhǔn)化。不能確定這種訓(xùn)練框架對更困難的數(shù)學(xué)和編碼問題,或者更模糊的領(lǐng)域(如人類偏好數(shù)據(jù))依舊適用。

這項研究聚焦了用自然語言解釋的數(shù)學(xué)問題,是因為數(shù)學(xué)問題的正確性易于判斷,且人類通常使用自然語言解釋論證過程。

然而,某些領(lǐng)域的結(jié)論是難以用自然語言描述的,比如面孔識別。你很難用語言向別人描述自己「認臉」的過程。

同時,論文提出的主要訓(xùn)練方法「驗證者-證明者博弈」,將CoT過程和可讀性提升混合在一起,這對CoT的準(zhǔn)確性造成了潛在限制。

更好的方法可能是分開訓(xùn)練,先讓第一個模型用CoT最大限度提升準(zhǔn)確性,然后訓(xùn)練第二個模型提升生成答案的可讀性,這樣可以進一步降低對模型準(zhǔn)確性的損失。

實驗設(shè)置方面,整篇論文沒有對所有超參數(shù)進行全面調(diào)整,而且混合了兩種訓(xùn)練停止標(biāo)準(zhǔn):達到固定數(shù)量的RL步,或發(fā)現(xiàn)「狡猾」證明者無法騙過驗證者時。但實驗中并沒有觀察到早停輪和非早停輪之間有質(zhì)的差異。

作者簡介

本文的共同一作之一Yining Chen是南京外國語學(xué)校的校友,本科畢業(yè)于達特茅斯學(xué)院,獲得計算機科學(xué)和哲學(xué)雙專業(yè)的學(xué)士學(xué)位,后前往斯坦福攻讀博士,師從馬騰宇教授。

圖片

去年7月畢業(yè)后,Yining進入OpenAI對齊團隊任職至今。此前OpenAI發(fā)表的Weak-to-strong generalization論文也有她的參與。

圖片圖片

論文地址:https://openai.com/index/weak-to-strong-generalization/

參考資料:https://x.com/OpenAI/status/1813623470452064432

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-12-16 09:45:56

論文GPT-4AI

2023-12-18 16:02:04

OpenAI人工智能

2025-08-04 14:22:33

GPT-5Claude編碼

2024-07-18 13:19:17

2023-08-11 13:41:42

2024-06-28 13:40:03

2023-12-15 12:52:17

AI模型

2023-06-08 07:58:29

2024-07-18 12:52:50

2024-04-15 06:30:00

2025-08-04 09:15:00

2010-05-10 13:37:15

2024-06-07 18:14:53

2012-03-29 16:55:24

N9MeeGo諾基亞

2024-09-18 10:37:00

強化學(xué)習(xí)AI模型

2023-07-06 07:40:31

OpenAI人工智能

2023-11-26 17:50:00

AI模型

2023-04-15 19:37:50

OpenAIGPT-5

2024-06-07 16:40:53

2024-01-11 07:28:42

點贊
收藏

51CTO技術(shù)棧公眾號