強(qiáng)化學(xué)習(xí)也能預(yù)訓(xùn)練?效果可提升20倍,華人新作引爆RL新范式!
大規(guī)模預(yù)訓(xùn)練已經(jīng)從根本上改變了機(jī)器學(xué)習(xí)研究的方式:基礎(chǔ)模型只需訓(xùn)練一次。
之后即便缺乏數(shù)據(jù)或算力,基礎(chǔ)模型也能在具體任務(wù)上直接適配與微調(diào)。
從計(jì)算機(jī)視覺(jué)到自然語(yǔ)言處理等多個(gè)領(lǐng)域,這種「預(yù)訓(xùn)練-微調(diào)」的模式已經(jīng)取得了巨大成功。
但在「強(qiáng)化學(xué)習(xí)」(Reinforcement Learning,RL)中,這種模式的效果仍未被完全驗(yàn)證。
本質(zhì)上,強(qiáng)化學(xué)習(xí)更難,是因?yàn)檫@涉及對(duì)時(shí)間與意圖的推理——
(1)必須能夠推斷當(dāng)前動(dòng)作在長(zhǎng)期內(nèi)的影響;
(2)必須識(shí)別出多個(gè)用戶(hù)在執(zhí)行不同任務(wù)時(shí)收集的觀察數(shù)據(jù)。
目前,能處理「時(shí)間信息」的主流RL算法有兩類(lèi):
一類(lèi)基于「世界模型」(world models),另一類(lèi)基于「占據(jù)模型」(occupancy models)。
由于誤差累積的問(wèn)題,世界模型在長(zhǎng)時(shí)間推理方面的能力仍然有限。
在預(yù)測(cè)未來(lái)事件方面,占據(jù)模型表現(xiàn)優(yōu)異,但通常難以訓(xùn)練,且忽略了用戶(hù)意圖。
近年,「生成式AI」(GenAI)讓復(fù)雜分布建模變得可行。
它還能處理多種輸入類(lèi)型,如「流匹配」(flow matching)。
這為構(gòu)建依賴(lài)于意圖的占據(jù)模型提供了新工具:
流匹配(flow matching)+ 占據(jù)模型(Occupancy Models)= 意向條件流占用模型(Intention-Conditioned Flow Occupancy Models,InFOM)
傳統(tǒng)方法只預(yù)測(cè)「下一步觀測(cè)」。而InFOM不僅可預(yù)測(cè)多個(gè)未來(lái)步驟,還能適應(yīng)用戶(hù)不同的「意圖」。
具體而言,研究人員構(gòu)建的模型將「意圖」編碼為潛在變量,并通過(guò)「流匹配」(flow matching)來(lái)預(yù)測(cè)未來(lái)狀態(tài)的訪問(wèn)概率。
圖1:InFOM是用于強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練與微調(diào)的潛變量模型。(左)數(shù)據(jù)集由執(zhí)行不同任務(wù)的用戶(hù)采集而來(lái)。(中)通過(guò)最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)對(duì)意圖進(jìn)行編碼,(右)進(jìn)而實(shí)現(xiàn)基于流匹配的意圖感知未來(lái)狀態(tài)預(yù)測(cè)。
模型最大化數(shù)據(jù)似然進(jìn)行訓(xùn)練,能高效適應(yīng)特定任務(wù)。
論文地址:https://arxiv.org/abs/2506.08902
博客地址:https://chongyi-zheng.github.io/infom/
由于普通流匹配方法無(wú)法拼接多個(gè)狀態(tài)轉(zhuǎn)換,研究者引入基于SARSA的時(shí)序差分流匹配損失進(jìn)行改進(jìn)。
論文鏈接:https://arxiv.org/abs/2503.09817
借助InFOM,可以在下游任務(wù)中估算出多個(gè)帶有意圖條件的Q函數(shù),然后通過(guò)隱式廣義策略改進(jìn)(implicit GPI)方法提取最終策略。
在強(qiáng)化學(xué)習(xí)中的預(yù)訓(xùn)練與微調(diào)任務(wù)中,InFOM表現(xiàn)出色。
面對(duì)獎(jiǎng)勵(lì)稀疏或半稀疏的復(fù)雜任務(wù)時(shí),傳統(tǒng)方法難以學(xué)到有效策略,而InFOM能通過(guò)構(gòu)建具備表達(dá)能力的生成模型,配合implicit GPI,更有效地利用高獎(jiǎng)勵(lì)狀態(tài)。
與無(wú)監(jiān)督技能發(fā)現(xiàn)或后繼特征學(xué)習(xí)等方式相比,InFOM提供了一種更簡(jiǎn)單、更高效的意圖推理方式,性能更優(yōu)。
值得一提的是,排名第一的華人作者Chongyi Zheng和排名第4的作者Benjamin Eysenbach,是一對(duì)師徒。
此外,強(qiáng)化學(xué)習(xí)大牛、加州大學(xué)伯克利分校EECS系Sergey Levine也參與了這項(xiàng)研究。
方法介紹
針對(duì)無(wú)獎(jiǎng)勵(lì)預(yù)訓(xùn)練數(shù)據(jù)集D中的連續(xù)狀態(tài)-動(dòng)作對(duì)(s,a,s′,a′),通過(guò)編碼器pe(z∣s′,a′)推斷潛在意圖z∈Z,并利用占據(jù)度量模型qd(sf∣s,a,z)預(yù)測(cè)未來(lái)狀態(tài)sf的占據(jù)分布。
基于流匹配(flow matching)方法,通過(guò)最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)來(lái)聯(lián)合優(yōu)化編碼器與解碼器:
其中先驗(yàn)分布p(z)=N(0,I)為標(biāo)準(zhǔn)高斯分布。
為實(shí)現(xiàn)軌跡級(jí)未來(lái)狀態(tài)預(yù)測(cè)(動(dòng)態(tài)規(guī)劃),采用SARSA變體的時(shí)序差分流損失來(lái)學(xué)習(xí)流占據(jù)模型的向量場(chǎng)vd:[0,1]×S×S×A×Z→S:
InFOM允許估計(jì)一組基于意圖的Q函數(shù)用于下游任務(wù)。
然后,利用隱式廣義策略改進(jìn)(implicit GPI)過(guò)程來(lái)提取一個(gè)策略。
具體預(yù)訓(xùn)練和微調(diào)算法如下:
結(jié)果介紹
為了測(cè)試InFOM,能否從無(wú)標(biāo)簽數(shù)據(jù)集中捕獲基于用戶(hù)意圖的可操作信息,能否在微調(diào)后訓(xùn)練出高效的策略來(lái)解決下游任務(wù),在36個(gè)基于狀態(tài)的任務(wù)和4個(gè)基于圖像的任務(wù)中,比較了InFOM和八個(gè)基線方法的性能。
研究者在ExORL和OGBench基準(zhǔn)測(cè)試中評(píng)估了該方法,詳見(jiàn)圖3所示結(jié)果。
實(shí)驗(yàn)結(jié)果表明,InFOM在八個(gè)領(lǐng)域中的六個(gè)領(lǐng)域表現(xiàn)與基線方法相當(dāng)或更好。
在ExORL基準(zhǔn)測(cè)試中,在兩個(gè)較容易的領(lǐng)域(獵豹和四足機(jī)器人)上,所有方法表現(xiàn)相似。
但在jaco任務(wù)上,InFOM獲得了20倍的改進(jìn)。
在OGBench中更具挑戰(zhàn)性的基于狀態(tài)的操作任務(wù)上,基線方法與InFOM的表現(xiàn)有顯著差異;新算法在最佳基線方法上取得了36%更高的成功率。
此外,InFOM還能夠在直接使用RGB圖像作為輸入時(shí),超越最強(qiáng)基線31%。
這是由于任務(wù)中存在半稀疏獎(jiǎng)勵(lì)函數(shù),傳統(tǒng)基線方法往往難以應(yīng)對(duì)具有挑戰(zhàn)性的任務(wù)。
InFOM通過(guò)更強(qiáng)的生成模型和隱式策略?xún)?yōu)化,更高效地利用高獎(jiǎng)勵(lì)狀態(tài)。
圖3:在ExORL和OGBench任務(wù)上的評(píng)估結(jié)果。
與基于無(wú)監(jiān)督技能發(fā)現(xiàn)(unsupervised skill discovery) 或繼任特征學(xué)習(xí)(successor feature learning)的意圖編碼機(jī)制相比,InFOM提供了一種簡(jiǎn)單且高效的方式來(lái)推斷用戶(hù)的意圖。
圖4的結(jié)果表明,在4項(xiàng)任務(wù)中的3項(xiàng)上,InFOM能以更簡(jiǎn)單的方法超越先前的意圖編碼方法。
HILP和FB均基于演員-評(píng)論家框架,通過(guò)完全無(wú)監(jiān)督的強(qiáng)化學(xué)習(xí)目標(biāo)來(lái)捕獲意圖;相比之下,新方法僅需在相鄰狀態(tài)轉(zhuǎn)移上訓(xùn)練基于隱變量模型的意圖編碼器,無(wú)需依賴(lài)復(fù)雜的離線強(qiáng)化學(xué)習(xí)流程。
圖4:與現(xiàn)有意圖編碼機(jī)制的對(duì)比
下面視頻展示了一些具體的例子。
- 來(lái)自ExORL基準(zhǔn)測(cè)試的四個(gè)領(lǐng)域:獵豹(cheetah)、步態(tài)(walker)、四足機(jī)器人(quadruped)、Jaco,包括16個(gè)基于狀態(tài)的任務(wù)。
- 來(lái)自O(shè)GBench基準(zhǔn)測(cè)試的四個(gè)領(lǐng)域:?jiǎn)蝹€(gè)立方體(cube single)、雙立方體(cube double)、場(chǎng)景(scene)、謎題4x4(puzzle 4x4),包括20個(gè)基于狀態(tài)的任務(wù)和4個(gè)基于圖像的任務(wù),用于評(píng)估我們的算法。
作者介紹
Chongyi Zheng是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系的博士生。
他的研究興趣是通過(guò)概率推理方法,開(kāi)發(fā)具備長(zhǎng)時(shí)序推理能力的強(qiáng)化學(xué)習(xí)(RL)算法。
此前,他在卡耐基梅隆大學(xué)攻讀碩士學(xué)位。
2020年,他本科畢業(yè)于西南大學(xué);之后,在清華大學(xué)工作過(guò)。