偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化學(xué)習(xí)也能預(yù)訓(xùn)練?效果可提升20倍,華人新作引爆RL新范式!

人工智能 新聞
大模型的預(yù)訓(xùn)練-微調(diào)范式,正在悄然改寫(xiě)強(qiáng)化學(xué)習(xí)!伯克利團(tuán)隊(duì)提出新方法InFOM,不依賴(lài)獎(jiǎng)勵(lì)信號(hào),也能在多個(gè)任務(wù)中實(shí)現(xiàn)超強(qiáng)遷移,還能做到「讀心術(shù)」級(jí)別的推理。這到底怎么做到的?

大規(guī)模預(yù)訓(xùn)練已經(jīng)從根本上改變了機(jī)器學(xué)習(xí)研究的方式:基礎(chǔ)模型只需訓(xùn)練一次。

之后即便缺乏數(shù)據(jù)或算力,基礎(chǔ)模型也能在具體任務(wù)上直接適配與微調(diào)。

從計(jì)算機(jī)視覺(jué)到自然語(yǔ)言處理等多個(gè)領(lǐng)域,這種「預(yù)訓(xùn)練-微調(diào)」的模式已經(jīng)取得了巨大成功。

但在「強(qiáng)化學(xué)習(xí)」(Reinforcement Learning,RL)中,這種模式的效果仍未被完全驗(yàn)證。

本質(zhì)上,強(qiáng)化學(xué)習(xí)更難,是因?yàn)檫@涉及對(duì)時(shí)間與意圖的推理——

(1)必須能夠推斷當(dāng)前動(dòng)作在長(zhǎng)期內(nèi)的影響;

(2)必須識(shí)別出多個(gè)用戶(hù)在執(zhí)行不同任務(wù)時(shí)收集的觀察數(shù)據(jù)。

目前,能處理「時(shí)間信息」的主流RL算法有兩類(lèi):

一類(lèi)基于「世界模型」(world models),另一類(lèi)基于「占據(jù)模型」(occupancy models)。

由于誤差累積的問(wèn)題,世界模型在長(zhǎng)時(shí)間推理方面的能力仍然有限。

在預(yù)測(cè)未來(lái)事件方面,占據(jù)模型表現(xiàn)優(yōu)異,但通常難以訓(xùn)練,且忽略了用戶(hù)意圖。

近年,「生成式AI」(GenAI)讓復(fù)雜分布建模變得可行。

它還能處理多種輸入類(lèi)型,如「流匹配」(flow matching)。

這為構(gòu)建依賴(lài)于意圖的占據(jù)模型提供了新工具:

流匹配(flow matching)+ 占據(jù)模型(Occupancy Models)= 意向條件流占用模型(Intention-Conditioned Flow Occupancy Models,InFOM)

傳統(tǒng)方法只預(yù)測(cè)「下一步觀測(cè)」。而InFOM不僅可預(yù)測(cè)多個(gè)未來(lái)步驟,還能適應(yīng)用戶(hù)不同的「意圖」。

圖片

具體而言,研究人員構(gòu)建的模型將「意圖」編碼為潛在變量,并通過(guò)「流匹配」(flow matching)來(lái)預(yù)測(cè)未來(lái)狀態(tài)的訪問(wèn)概率。

圖片

圖1:InFOM是用于強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練與微調(diào)的潛變量模型。(左)數(shù)據(jù)集由執(zhí)行不同任務(wù)的用戶(hù)采集而來(lái)。(中)通過(guò)最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)對(duì)意圖進(jìn)行編碼,(右)進(jìn)而實(shí)現(xiàn)基于流匹配的意圖感知未來(lái)狀態(tài)預(yù)測(cè)。

模型最大化數(shù)據(jù)似然進(jìn)行訓(xùn)練,能高效適應(yīng)特定任務(wù)。

圖片

論文地址:https://arxiv.org/abs/2506.08902

博客地址:https://chongyi-zheng.github.io/infom/

由于普通流匹配方法無(wú)法拼接多個(gè)狀態(tài)轉(zhuǎn)換,研究者引入基于SARSA的時(shí)序差分流匹配損失進(jìn)行改進(jìn)。

圖片

論文鏈接:https://arxiv.org/abs/2503.09817

借助InFOM,可以在下游任務(wù)中估算出多個(gè)帶有意圖條件的Q函數(shù),然后通過(guò)隱式廣義策略改進(jìn)(implicit GPI)方法提取最終策略。

在強(qiáng)化學(xué)習(xí)中的預(yù)訓(xùn)練與微調(diào)任務(wù)中,InFOM表現(xiàn)出色。

面對(duì)獎(jiǎng)勵(lì)稀疏或半稀疏的復(fù)雜任務(wù)時(shí),傳統(tǒng)方法難以學(xué)到有效策略,而InFOM能通過(guò)構(gòu)建具備表達(dá)能力的生成模型,配合implicit GPI,更有效地利用高獎(jiǎng)勵(lì)狀態(tài)。

圖片

與無(wú)監(jiān)督技能發(fā)現(xiàn)或后繼特征學(xué)習(xí)等方式相比,InFOM提供了一種更簡(jiǎn)單、更高效的意圖推理方式,性能更優(yōu)。

值得一提的是,排名第一的華人作者Chongyi Zheng和排名第4的作者Benjamin Eysenbach,是一對(duì)師徒。

此外,強(qiáng)化學(xué)習(xí)大牛、加州大學(xué)伯克利分校EECS系Sergey Levine也參與了這項(xiàng)研究。

圖片

圖片

方法介紹

針對(duì)無(wú)獎(jiǎng)勵(lì)預(yù)訓(xùn)練數(shù)據(jù)集D中的連續(xù)狀態(tài)-動(dòng)作對(duì)(s,a,s′,a′),通過(guò)編碼器pe(z∣s′,a′)推斷潛在意圖z∈Z,并利用占據(jù)度量模型qd(sf∣s,a,z)預(yù)測(cè)未來(lái)狀態(tài)sf的占據(jù)分布。

基于流匹配(flow matching)方法,通過(guò)最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)來(lái)聯(lián)合優(yōu)化編碼器與解碼器:

圖片

其中先驗(yàn)分布p(z)=N(0,I)為標(biāo)準(zhǔn)高斯分布。

為實(shí)現(xiàn)軌跡級(jí)未來(lái)狀態(tài)預(yù)測(cè)(動(dòng)態(tài)規(guī)劃),采用SARSA變體的時(shí)序差分流損失來(lái)學(xué)習(xí)流占據(jù)模型的向量場(chǎng)vd:[0,1]×S×S×A×Z→S:

圖片

InFOM允許估計(jì)一組基于意圖的Q函數(shù)用于下游任務(wù)。

然后,利用隱式廣義策略改進(jìn)(implicit GPI)過(guò)程來(lái)提取一個(gè)策略。

圖片

具體預(yù)訓(xùn)練和微調(diào)算法如下:

圖片

圖片

結(jié)果介紹

為了測(cè)試InFOM,能否從無(wú)標(biāo)簽數(shù)據(jù)集中捕獲基于用戶(hù)意圖的可操作信息,能否在微調(diào)后訓(xùn)練出高效的策略來(lái)解決下游任務(wù),在36個(gè)基于狀態(tài)的任務(wù)和4個(gè)基于圖像的任務(wù)中,比較了InFOM和八個(gè)基線方法的性能。

研究者在ExORL和OGBench基準(zhǔn)測(cè)試中評(píng)估了該方法,詳見(jiàn)圖3所示結(jié)果。

實(shí)驗(yàn)結(jié)果表明,InFOM在八個(gè)領(lǐng)域中的六個(gè)領(lǐng)域表現(xiàn)與基線方法相當(dāng)或更好。

在ExORL基準(zhǔn)測(cè)試中,在兩個(gè)較容易的領(lǐng)域(獵豹和四足機(jī)器人)上,所有方法表現(xiàn)相似。

但在jaco任務(wù)上,InFOM獲得了20倍的改進(jìn)。

在OGBench中更具挑戰(zhàn)性的基于狀態(tài)的操作任務(wù)上,基線方法與InFOM的表現(xiàn)有顯著差異;新算法在最佳基線方法上取得了36%更高的成功率。

此外,InFOM還能夠在直接使用RGB圖像作為輸入時(shí),超越最強(qiáng)基線31%。

這是由于任務(wù)中存在半稀疏獎(jiǎng)勵(lì)函數(shù),傳統(tǒng)基線方法往往難以應(yīng)對(duì)具有挑戰(zhàn)性的任務(wù)。

InFOM通過(guò)更強(qiáng)的生成模型和隱式策略?xún)?yōu)化,更高效地利用高獎(jiǎng)勵(lì)狀態(tài)。

圖片

圖3:在ExORL和OGBench任務(wù)上的評(píng)估結(jié)果。

與基于無(wú)監(jiān)督技能發(fā)現(xiàn)(unsupervised skill discovery) 或繼任特征學(xué)習(xí)(successor feature learning)的意圖編碼機(jī)制相比,InFOM提供了一種簡(jiǎn)單且高效的方式來(lái)推斷用戶(hù)的意圖。

圖4的結(jié)果表明,在4項(xiàng)任務(wù)中的3項(xiàng)上,InFOM能以更簡(jiǎn)單的方法超越先前的意圖編碼方法。

HILP和FB均基于演員-評(píng)論家框架,通過(guò)完全無(wú)監(jiān)督的強(qiáng)化學(xué)習(xí)目標(biāo)來(lái)捕獲意圖;相比之下,新方法僅需在相鄰狀態(tài)轉(zhuǎn)移上訓(xùn)練基于隱變量模型的意圖編碼器,無(wú)需依賴(lài)復(fù)雜的離線強(qiáng)化學(xué)習(xí)流程。

圖片

圖4:與現(xiàn)有意圖編碼機(jī)制的對(duì)比

下面視頻展示了一些具體的例子。

  • 來(lái)自ExORL基準(zhǔn)測(cè)試的四個(gè)領(lǐng)域:獵豹(cheetah)、步態(tài)(walker)、四足機(jī)器人(quadruped)、Jaco,包括16個(gè)基于狀態(tài)的任務(wù)。
  • 來(lái)自O(shè)GBench基準(zhǔn)測(cè)試的四個(gè)領(lǐng)域:?jiǎn)蝹€(gè)立方體(cube single)、雙立方體(cube double)、場(chǎng)景(scene)、謎題4x4(puzzle 4x4),包括20個(gè)基于狀態(tài)的任務(wù)和4個(gè)基于圖像的任務(wù),用于評(píng)估我們的算法。

作者介紹

圖片

圖片

Chongyi Zheng是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系的博士生。

他的研究興趣是通過(guò)概率推理方法,開(kāi)發(fā)具備長(zhǎng)時(shí)序推理能力的強(qiáng)化學(xué)習(xí)(RL)算法。

此前,他在卡耐基梅隆大學(xué)攻讀碩士學(xué)位。

2020年,他本科畢業(yè)于西南大學(xué);之后,在清華大學(xué)工作過(guò)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-06-11 14:45:57

強(qiáng)化學(xué)習(xí)訓(xùn)練模型

2025-06-13 09:29:51

2025-03-24 10:15:00

2025-05-26 09:16:00

2025-06-05 08:40:00

2025-05-12 08:24:01

2024-10-06 12:32:42

2021-11-16 15:26:23

強(qiáng)化學(xué)習(xí)火箭人工智能

2025-06-27 15:44:35

蘋(píng)果AI模型

2024-11-01 13:30:56

2021-12-06 17:38:51

強(qiáng)化學(xué)習(xí)工具人工智能

2019-01-31 10:42:04

框架AI開(kāi)發(fā)

2024-09-18 10:37:00

強(qiáng)化學(xué)習(xí)AI模型

2021-07-27 15:55:01

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-03-28 10:16:15

2020-12-23 06:07:54

人工智能AI深度學(xué)習(xí)

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)