偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

斯坦福提出對(duì)比偏好學(xué)習(xí):無(wú)需強(qiáng)化學(xué)習(xí)即可從人類反饋中學(xué)習(xí)

人工智能 新聞
我們知道,ChatGPT 的成功離不開(kāi) RLHF 這個(gè)「秘密武器」。不過(guò) RLHF 并不是完美無(wú)缺的,存在難以處理的優(yōu)化難題。本文中,斯坦福大學(xué)等研究機(jī)構(gòu)的團(tuán)隊(duì)探索用「對(duì)比偏好學(xué)習(xí)」替換掉「強(qiáng)化學(xué)習(xí)」,在速度和性能上都有不俗的表現(xiàn)。

在模型與人類意圖對(duì)齊方面,根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)已經(jīng)成為一大流行范式。通常來(lái)說(shuō),RLHF 算法的工作過(guò)程分為兩個(gè)階段:一、使用人類偏好學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù);二、通過(guò)使用強(qiáng)化學(xué)習(xí)優(yōu)化所學(xué)習(xí)的獎(jiǎng)勵(lì)來(lái)對(duì)齊模型。

RLHF 范式假定人類偏好的分布遵照獎(jiǎng)勵(lì),但近期有研究認(rèn)為情況并非如此,人類偏好其實(shí)遵循用戶最優(yōu)策略下的后悔值(regret)。因此,根據(jù)反饋學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)不僅基于一個(gè)有漏洞的對(duì)于人類偏好的假設(shè),而且還會(huì)導(dǎo)致出現(xiàn)難以處理的優(yōu)化難題 —— 這些難題來(lái)自強(qiáng)化學(xué)習(xí)階段的策略梯度或 bootstrapping。

由于存在這些優(yōu)化難題,當(dāng)今的 RLHF 方法都會(huì)將自身限定在基于上下文的 bandit 設(shè)置中(比如在大型語(yǔ)言模型中)或會(huì)限制自己的觀察維度(比如基于狀態(tài)的機(jī)器人技術(shù))。

為了克服這些難題,斯坦福等多所大學(xué)的一個(gè)研究團(tuán)隊(duì)提出了一系列新算法,可使用基于后悔的人類偏好模型來(lái)優(yōu)化采用人類反饋時(shí)的行為,而沒(méi)有采用社區(qū)廣泛接受的僅考慮獎(jiǎng)勵(lì)總和的部分回報(bào)模型。不同于部分回報(bào)模型,基于后悔的模型可直接提供有關(guān)最優(yōu)策略的信息。

這樣一種機(jī)制帶來(lái)了一個(gè)幸運(yùn)的結(jié)果:完全不需要強(qiáng)化學(xué)習(xí)了!

這樣一來(lái),就能在具有高維狀態(tài)和動(dòng)作空間的通用型 MDP 框架中來(lái)解決 RLHF 問(wèn)題了。

研究者提出,他們這項(xiàng)研究成果的核心見(jiàn)解是:將基于后悔的偏好框架與最大熵(MaxEnt)原理結(jié)合起來(lái),可得到優(yōu)勢(shì)函數(shù)與策略之間的雙射。通過(guò)將對(duì)優(yōu)勢(shì)的優(yōu)化換成對(duì)策略的優(yōu)化,可以推導(dǎo)出一個(gè)純監(jiān)督學(xué)習(xí)的目標(biāo),其最優(yōu)值為專家獎(jiǎng)勵(lì)下的最優(yōu)策略。該團(tuán)隊(duì)將這種方法命名為對(duì)比偏好學(xué)習(xí)(Contrastive Preference Learning/CPL),因?yàn)槠漕愃朴谌藗儚V為接受的對(duì)比學(xué)習(xí)目標(biāo)。

圖片


  • 論文地址:https://arxiv.org/pdf/2310.13639.pdf
  • 代碼地址:https://github.com/jhejna/cpl

相比于之前的方法,CPL 有三大關(guān)鍵優(yōu)勢(shì)。

一、CPL 能像監(jiān)督學(xué)習(xí)一樣擴(kuò)展,因?yàn)樗皇褂帽O(jiān)督式目標(biāo)來(lái)匹配最優(yōu)優(yōu)勢(shì),而無(wú)需使用任何策略梯度或動(dòng)態(tài)規(guī)劃。

二、CPL 是完全離策略的方法,因此其可有效使用任何離線的次優(yōu)數(shù)據(jù)源。

三、CPL 可應(yīng)用于任意馬爾可夫決策過(guò)程(MDP),使其可以從序列數(shù)據(jù)上的偏好查詢中學(xué)習(xí)。

該團(tuán)隊(duì)表示,之前的 RLHF 方法都無(wú)法同時(shí)滿足以上三點(diǎn)。為了表明 CPL 方法符合以上三點(diǎn)描述,研究者進(jìn)行了實(shí)驗(yàn),結(jié)果表明該方法確實(shí)能有效應(yīng)對(duì)帶有次優(yōu)和高維離策略數(shù)據(jù)的序列決策問(wèn)題。

值得注意的是,他們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn):在 MetaWorld 基準(zhǔn)上,CPL 竟能有效地使用與對(duì)話模型一樣的 RLHF 微調(diào)流程來(lái)學(xué)習(xí)在時(shí)間上擴(kuò)展的操作策略。

具體來(lái)說(shuō),他們使用監(jiān)督學(xué)習(xí)方法,在高維圖像觀察上對(duì)策略進(jìn)行預(yù)訓(xùn)練,然后使用偏好來(lái)對(duì)其進(jìn)行微調(diào)。無(wú)需動(dòng)態(tài)規(guī)劃或策略梯度,CPL 就能達(dá)到與基于先驗(yàn)式強(qiáng)化學(xué)習(xí)的方法一樣的性能表現(xiàn)。與此同時(shí),CPL 方法要快 1.6 倍,參數(shù)效率也提高了四倍。當(dāng)使用更密集的偏好數(shù)據(jù)時(shí),CPL 的性能表現(xiàn)在 6 項(xiàng)任務(wù)的 5 項(xiàng)上超越了強(qiáng)化學(xué)習(xí)。

對(duì)比偏好學(xué)習(xí)

這種方法的核心思想很簡(jiǎn)單:研究者發(fā)現(xiàn),當(dāng)使用最大熵強(qiáng)化學(xué)習(xí)框架時(shí),后悔偏好模型中使用的優(yōu)勢(shì)函數(shù)可被輕松替換成策略的對(duì)數(shù)概率。但是,這種簡(jiǎn)單的替換能帶來(lái)巨大的好處。如果使用策略的對(duì)數(shù)概率,就不需要學(xué)習(xí)優(yōu)勢(shì)函數(shù)或應(yīng)付與類強(qiáng)化學(xué)習(xí)算法相關(guān)的優(yōu)化難題了。

研究者表示,這不僅能造就對(duì)齊更緊密的后悔偏好模型,還能完全依靠監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)人類反饋。

下面首先將推導(dǎo) CPL 目標(biāo),并表明對(duì)于帶有無(wú)界數(shù)據(jù)的專家用戶獎(jiǎng)勵(lì)函數(shù) r_E,該方法可以收斂到最優(yōu)策略。然后將說(shuō)明 CPL 與其它監(jiān)督學(xué)習(xí)方法的聯(lián)系。最后,研究者將說(shuō)明如何在實(shí)踐中使用 CPL。他們表示,這些算法屬于一個(gè)用于解決序列決策問(wèn)題的新方法類別,這類方法非常高效,因?yàn)樗苤苯訌幕诤蠡诘钠弥袑W(xué)習(xí)出策略,而無(wú)需強(qiáng)化學(xué)習(xí)。

圖片

從最優(yōu)優(yōu)勢(shì)到最優(yōu)策略

在使用后悔偏好模型時(shí),偏好數(shù)據(jù)集 D_pref 包含有關(guān)最優(yōu)優(yōu)勢(shì)函數(shù) A^? (s, a) 的信息。我們可以直觀地認(rèn)為,該函數(shù)度量的是一個(gè)給定動(dòng)作 a 比最優(yōu)策略在狀態(tài) s 時(shí)生成的動(dòng)作的糟糕程度。

因此根據(jù)定義,最大化最優(yōu)優(yōu)勢(shì)的動(dòng)作就是最優(yōu)動(dòng)作,并且從偏好學(xué)習(xí)最優(yōu)優(yōu)勢(shì)函數(shù)應(yīng)該讓人能直觀地提取出最優(yōu)策略。

具體而言,該團(tuán)隊(duì)證明了以下定理:

圖片

直接學(xué)習(xí)策略的好處。以這種方式直接學(xué)習(xí) π 有諸多實(shí)踐和理論上的好處。其中最明顯的可能是:直接學(xué)習(xí)策略的話,就無(wú)需學(xué)習(xí)其它任何函數(shù)了,比如獎(jiǎng)勵(lì)函數(shù)或價(jià)值函數(shù)。這使得 CPL 比之前的方法簡(jiǎn)單很多。

與對(duì)比學(xué)習(xí)的聯(lián)系。CPL 方法直接使用一個(gè)對(duì)比目標(biāo)來(lái)進(jìn)行策略學(xué)習(xí)。研究者表示,鑒于對(duì)比學(xué)習(xí)目標(biāo)已經(jīng)在大型數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)方面取得了有目共睹的成功,因此他們預(yù)計(jì) CPL 能比使用傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的強(qiáng)化學(xué)習(xí)方法進(jìn)行更好的擴(kuò)展。

實(shí)踐方面需要考慮的問(wèn)題

對(duì)比偏好學(xué)習(xí)框架提供了一個(gè)通用的損失函數(shù),可用于從基于優(yōu)勢(shì)的偏好中學(xué)習(xí)策略,基于此可以派生出許多算法。下面將基于一個(gè)實(shí)踐效果很好的特定 CPL 框架實(shí)例介紹實(shí)踐方面需要考慮的問(wèn)題。

使用有限離線數(shù)據(jù)的 CPL。盡管 CPL 可通過(guò)無(wú)界偏好數(shù)據(jù)收斂到最優(yōu)策略,但實(shí)際上我們通常關(guān)心的是學(xué)習(xí)有限離線數(shù)據(jù)集。在這種設(shè)置下,外推到數(shù)據(jù)集支持之外太遠(yuǎn)的策略表現(xiàn)很差,因?yàn)樗鼈儾扇〉膭?dòng)作會(huì)導(dǎo)致出現(xiàn)分布之外的狀態(tài)。

正則化。在有限設(shè)置中,我們希望選擇能最小化 CPL 損失函數(shù)的策略,同時(shí)為該數(shù)據(jù)集中的動(dòng)作賦予更高的可能性。為了做到這一點(diǎn),研究者使用一個(gè)保守的正則化器得到了以下?lián)p失函數(shù):當(dāng)策略在 D_pref 中的動(dòng)作上有更高的可能性時(shí),就分配更低的損失,從而保證其在分布內(nèi)。

圖片

預(yù)訓(xùn)練。該團(tuán)隊(duì)發(fā)現(xiàn),如果使用行為克?。˙C)方法對(duì)策略 π_θ 進(jìn)行預(yù)訓(xùn)練,往往能得到更優(yōu)的結(jié)果。因此,在通過(guò) CPL 損失使用偏好來(lái)進(jìn)行微調(diào)之前,該團(tuán)隊(duì)使用了標(biāo)準(zhǔn)的最大似然行為克隆目標(biāo)來(lái)訓(xùn)練策略,即:

圖片

實(shí)驗(yàn)及結(jié)果

這一節(jié)將解答以下有關(guān) CPL 的問(wèn)題:一、CPL 能否有效地根據(jù)基于后悔的偏好來(lái)微調(diào)策略?二、CPL 能否擴(kuò)展用于高維控制問(wèn)題和更大的網(wǎng)絡(luò)?三、CPL 的哪些組件對(duì)于獲得高性能很重要?

偏好數(shù)據(jù)。使用次優(yōu)的離策略 rollout 數(shù)據(jù)和偏好,研究者評(píng)估了 CPL 為一般性 MDP 學(xué)習(xí)策略的能力。

基準(zhǔn)方法。實(shí)驗(yàn)中考慮了三種基準(zhǔn)方法:監(jiān)督式微調(diào)(SFT)、偏好隱式 Q 學(xué)習(xí)(P-IQL)、% BC(通過(guò)對(duì) rollout 的 top X% 進(jìn)行行為克隆來(lái)訓(xùn)練策略)。

CPL 表現(xiàn)如何?

使用基于狀態(tài)的觀察數(shù)據(jù)時(shí),CPL 表現(xiàn)如何?對(duì)于基于狀態(tài)的實(shí)驗(yàn)結(jié)果,主要可見(jiàn)表 1 的第 1 和 3 行。

當(dāng)使用更稀疏的比較數(shù)據(jù)時(shí)(第 3 行),CPL 在 6 個(gè)環(huán)境中的 5 個(gè)上都優(yōu)于之前的方法,并且相比于 P-IQL 的優(yōu)勢(shì)大都很明顯,尤其是 Button Press、Bin Picking 和 Sweep Into 環(huán)境。當(dāng)應(yīng)用于具有更密集比較的數(shù)據(jù)集時(shí),CPL 比 P-IQL 的優(yōu)勢(shì)還要更大(第 1 行),并且在所有環(huán)境上都很顯著。

圖片

CPL 如何擴(kuò)展用于高維觀察數(shù)據(jù)?為了測(cè)試 CPL 的監(jiān)督目標(biāo)能否擴(kuò)展用于高維連續(xù)控制問(wèn)題,該團(tuán)隊(duì)將 MetaWorld 數(shù)據(jù)集渲染成了 64 × 64 的圖像。

表 1 的第 2 和 4 行給出了基于圖像的實(shí)驗(yàn)結(jié)果。他們得到了有趣的發(fā)現(xiàn):對(duì) SFT 來(lái)說(shuō),性能表現(xiàn)略有提升,但 P-IQL 的提升卻很明顯。當(dāng)學(xué)習(xí)更密集的偏好數(shù)據(jù)時(shí)(第 2 行),CPL 仍舊在 6 個(gè)環(huán)境中的 4 個(gè)上優(yōu)于 P-IQL,在 Sweep Into 上兩者相當(dāng)。當(dāng)學(xué)習(xí)更稀疏的比較數(shù)據(jù)時(shí)(第 4 行),CPL 和 P-IQL 在大多數(shù)任務(wù)上都表現(xiàn)相當(dāng)。

考慮到 CPL 有明顯更低的復(fù)雜性,這樣的結(jié)果就更驚人了!P-IQL 必須學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)、一個(gè) Q 函數(shù)、一個(gè)價(jià)值函數(shù)和一個(gè)策略。CPL 則都不需要,它只需學(xué)習(xí)一個(gè)策略,這能極大減少訓(xùn)練時(shí)間和參數(shù)數(shù)量。

正如下表 2 所示,在圖像任務(wù)上,CPL 的運(yùn)行速度比 P-IQL 快 1.62 倍,并且參數(shù)數(shù)量還不到 P-IQL 的四分之一。隨著網(wǎng)絡(luò)越來(lái)越大,使用 CPL 所帶來(lái)的性能增益只會(huì)有增無(wú)減。

圖片

哪些組件有助于 CPL 的性能表現(xiàn)?

從實(shí)驗(yàn)結(jié)果可以看到,當(dāng)使用有更密集比較的數(shù)據(jù)集時(shí),CPL 和基準(zhǔn)方法之間的差距會(huì)更大。這與之前在對(duì)比學(xué)習(xí)方面的研究成果一致。

為了研究這種效果,研究者基于一個(gè)包含 5000 個(gè)片段的固定大小的數(shù)據(jù)集,通過(guò)增加每個(gè)片段采樣的比較數(shù)量,對(duì) CPL 的性能進(jìn)行了評(píng)估。下圖 2 給出了在基于狀態(tài)的觀察數(shù)據(jù)的開(kāi)抽屜(Drawer Open)任務(wù)上的結(jié)果。

整體上看,當(dāng)每片段采樣的比較數(shù)量增加時(shí),CPL 都能從中受益,僅有 Plate Slide 任務(wù)例外。

圖片

最后,該團(tuán)隊(duì)也對(duì) CPL 的超參數(shù)(溫度值 α 和偏差正則化器 λ)進(jìn)行了消融研究;該研究也基于開(kāi)抽屜任務(wù),結(jié)果見(jiàn)圖 2 右側(cè)。盡管 CPL 使用這些值的表現(xiàn)已經(jīng)很好了,但實(shí)驗(yàn)發(fā)現(xiàn)通過(guò)適當(dāng)調(diào)整超參數(shù)(尤其是 λ),其表現(xiàn)還能更好。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2024-06-05 09:59:13

2025-04-25 13:34:53

R1DeepSeekAgent

2020-12-02 10:09:00

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2024-12-09 08:45:00

模型AI

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2021-10-08 15:21:52

AI 數(shù)據(jù)人工智能

2023-01-31 10:13:29

AI模型

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2022-07-11 11:14:47

強(qiáng)化學(xué)習(xí)AI基于模型

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2023-02-27 14:55:54

技術(shù)研究

2023-02-14 09:45:11

模型測(cè)試

2025-05-28 02:25:00

2024-02-21 12:20:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)