偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

十行代碼媲美RLHF,用社交游戲數(shù)據(jù)訓(xùn)練社會(huì)對(duì)齊模型

人工智能 新聞
人類大腦中真的存在一個(gè)打分模型負(fù)責(zé)價(jià)值判斷嗎?

讓語(yǔ)言模型的行為符合人類社會(huì)價(jià)值觀是當(dāng)前語(yǔ)言模型開發(fā)的重要環(huán)節(jié)。相應(yīng)的訓(xùn)練也被稱為價(jià)值對(duì)齊 (value alignment)。

當(dāng)前主流的方案是 ChatGPT 所采用的 RLHF (Reinforcenment Learning from Human Feedback),也就是在人類反饋上進(jìn)行強(qiáng)化學(xué)習(xí)。這一方案首先先訓(xùn)練一個(gè) reward model (價(jià)值模型)作為人類判斷的代理。代理模型在強(qiáng)化學(xué)習(xí)階段為生成式語(yǔ)言模型的提供獎(jiǎng)勵(lì)作為監(jiān)督信號(hào)。

這一方法存在如下痛點(diǎn):

1.代理模型產(chǎn)生的獎(jiǎng)勵(lì)很容易被破除或者篡改。

2. 在訓(xùn)練過(guò)程中,代理模型需要和生成式模型進(jìn)行不斷交互,而這一過(guò)程可能非常耗時(shí)且效率不高。為了保證高質(zhì)量的監(jiān)督信號(hào),代理模型不應(yīng)小于生成式模型,這也就意味著在強(qiáng)化學(xué)習(xí)優(yōu)化過(guò)程中,至少有兩個(gè)比較大的模型需要交替進(jìn)行推理(判斷得到的獎(jiǎng)勵(lì))和參數(shù)更新(生成式模型參數(shù)優(yōu)化)。這樣的設(shè)定在大規(guī)模分布式訓(xùn)練中可能會(huì)非常不便。

3. 價(jià)值模型本身并無(wú)和人類思考模型上明顯的對(duì)應(yīng)。我們腦海中并沒(méi)有一個(gè)單獨(dú)的打分模型,而且實(shí)際上長(zhǎng)期維護(hù)一個(gè)固定的打分標(biāo)準(zhǔn)也非常困難。相反,我們的成長(zhǎng)過(guò)程中價(jià)值判斷的形成大部分來(lái)自每天的社交 —— 通過(guò)對(duì)相似場(chǎng)景的不同社交反饋的分析,我們逐漸意識(shí)到什么是會(huì)被鼓勵(lì)的,什么是不允許的。這些通過(guò)大量 “社交 — 反饋 — 改進(jìn)” 而逐漸積累的經(jīng)驗(yàn)和共識(shí)成為了人類社會(huì)共同的價(jià)值判斷。

最近一項(xiàng)來(lái)自達(dá)特茅斯,斯坦福,谷歌 DeepMind 等機(jī)構(gòu)的研究表明,利用社交游戲構(gòu)造的高質(zhì)量數(shù)據(jù)配合簡(jiǎn)單高效的對(duì)齊算法,也許才是實(shí)現(xiàn) alignment 的關(guān)鍵所在。

圖片

  • 文章地址:https://arxiv.org/pdf/2305.16960.pdf
  • 代碼地址:https://github.com/agi-templar/Stable-Alignment
  • 模型下載(包含基座,SFT,和對(duì)齊模型):https://huggingface.co/agi-css

作者提出一種在多智能體游戲數(shù)據(jù)上訓(xùn)練的對(duì)齊方法?;舅枷肟梢岳斫鉃閷⒂?xùn)練階段的獎(jiǎng)勵(lì)模型和生成式模型的在線交互,轉(zhuǎn)移到游戲中大量自主智能體之間的離線交互之中(高采樣率,提前預(yù)演博弈)。游戲環(huán)境的運(yùn)行獨(dú)立于訓(xùn)練,并且可以大量并行。監(jiān)督信號(hào)從取決于代理獎(jiǎng)勵(lì)模型的性能變成取決于大量自主智能體的集體智慧。

圖片

為此作者設(shè)計(jì)了一個(gè)虛擬社會(huì)模型,稱之為沙盒 Sandbox。沙盒是一個(gè)格點(diǎn)構(gòu)成的世界,每一個(gè)格點(diǎn)是一個(gè) social agent (社交體)。社交體具有記憶系統(tǒng),用于存儲(chǔ)每一次交互的問(wèn)題,回答,反饋等各種信息。在社交體每一次對(duì)于問(wèn)題做出回答時(shí),都要先從記憶系統(tǒng)中檢索并返回和問(wèn)題最相關(guān)的 N 條歷史問(wèn)答,作為這一次回復(fù)的上下文參考。通過(guò)這一設(shè)計(jì),社交體能在多輪互動(dòng)中的立場(chǎng)不斷更新,且更新的立場(chǎng)能和過(guò)去保持一定延續(xù)性。初始化階段每一個(gè)社交體都有不同的預(yù)設(shè)立場(chǎng)。

圖片

將游戲數(shù)據(jù)轉(zhuǎn)化為 alignment 數(shù)據(jù)

在實(shí)驗(yàn)中作者使用 10x10 的格點(diǎn)沙盒(一共 100 個(gè)社交體)進(jìn)行社會(huì)仿真,且制定了一個(gè)社會(huì)規(guī)則(即所謂 Sandbox Rule):所有社交體必須通過(guò)使自己對(duì)于問(wèn)題的回答更加 socially aligned (社交對(duì)齊)來(lái)給其它社交體留下好的印象。此外沙盒還部署了沒(méi)有記憶的觀察者,在每一次社交前后,給社交體的答復(fù)做出打分。打分基于 alignment 和 engagement 兩個(gè)維度。

圖片

使用不同模型在沙盒中的模擬人類社會(huì)

作者利用沙盒 Sandbox 測(cè)試了不同大小,以及不同訓(xùn)練階段的語(yǔ)言模型。整體而言,經(jīng)過(guò) alignment 訓(xùn)練的模型 (即所謂 “對(duì)齊后的模型”),比如 davinci-003, GPT-4,和 ChatGPT,能在更少的交互輪次中就能生成符合社會(huì)規(guī)范的回復(fù)。換句話說(shuō),alignment 訓(xùn)練的意義就在于讓模型在 “開箱即用” 的場(chǎng)景下更加安全,而不需要特別的多輪對(duì)話引導(dǎo)。而未經(jīng) alignment 訓(xùn)練的模型,不僅需要更多的交互次數(shù)使回復(fù)達(dá)到 alignment 和 engagement 的整體最優(yōu),而且這種整體最優(yōu)的上限顯著低于對(duì)齊后的模型。

圖片

作者同時(shí)提出一種簡(jiǎn)便易行的對(duì)齊算法,稱為 Stable Alignment (穩(wěn)定對(duì)齊),用于從沙盒的歷史數(shù)據(jù)中學(xué)習(xí) alignment。穩(wěn)定對(duì)齊算法在每一個(gè) mini-batch (小批次)中進(jìn)行打分調(diào)制的對(duì)比學(xué)習(xí) —— 回復(fù)的得分越低,對(duì)比學(xué)習(xí)的邊界值就會(huì)被設(shè)定的越大 —— 換句話說(shuō),穩(wěn)定對(duì)齊通過(guò)不斷采樣小批次數(shù)據(jù),鼓勵(lì)模型生成更接近高分回復(fù),更不接近低分回復(fù)。穩(wěn)定對(duì)齊最終會(huì)收斂于 SFT 損失。作者還對(duì)穩(wěn)定對(duì)齊和 SFT,RLHF 的差異進(jìn)行了討論。

圖片

作者特別強(qiáng)調(diào)來(lái)自沙盒 Sandbox 的游戲的數(shù)據(jù),由于機(jī)制的設(shè)定,大量包含通過(guò)修訂 (revision)而成為符合社會(huì)價(jià)值觀的數(shù)據(jù)。作者通過(guò)消融實(shí)驗(yàn)證明這種大量自帶漸進(jìn)式 (step-by-step)改進(jìn)的數(shù)據(jù)是穩(wěn)定訓(xùn)練的關(guān)鍵。

圖片

圖片

作者還和當(dāng)前主流對(duì)齊算法性能和訓(xùn)練穩(wěn)定性進(jìn)行了性能上的比較,證明穩(wěn)定對(duì)齊不僅比 reward modeling 更穩(wěn)定,而且在通用性能和 alignment 性能上都足以媲美 RLHF (由于 ChatGPT 使用未公開的模型,數(shù)據(jù)和算法,因此僅作為參考)。

實(shí)例生成結(jié)果:

圖片

更多細(xì)節(jié)請(qǐng)參考論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2011-04-29 14:08:19

手機(jī)社交游戲游戲開發(fā)

2010-09-16 09:21:45

OpenFeintAndroid

2012-03-05 20:14:00

移動(dòng)

2022-03-14 09:57:30

Python代碼

2023-12-06 18:09:01

2010-09-01 08:32:40

2012-03-12 21:49:33

移動(dòng)

2013-04-27 16:14:33

Corona

2020-11-08 14:44:37

VSCode代碼編碼

2022-07-07 15:50:19

Python開發(fā)功能

2013-11-11 13:55:56

移動(dòng)社交游戲微信游戲

2013-03-26 10:27:32

社交游戲公司云存儲(chǔ)

2012-02-01 15:09:00

社交游戲休閑游戲用戶維續(xù)

2011-07-22 09:31:11

Google+Facebook谷歌

2013-10-15 17:40:52

手游騰訊游戲

2013-01-28 09:27:56

移動(dòng)社交Line移動(dòng)游戲

2022-03-23 15:32:38

Python開發(fā)代碼

2022-01-25 12:51:58

Python代碼證件照

2011-12-26 13:27:58

2013-08-19 10:45:36

社交游戲手機(jī)游戲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)