偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

PWM: 基于世界模型的策略學(xué)習(xí) 原創(chuàng)

發(fā)布于 2024-7-8 08:01
瀏覽
0收藏

強(qiáng)化學(xué)習(xí)(RL)在復(fù)雜任務(wù)上取得了令人矚目的成果,但在具有不同實(shí)施方式的多任務(wù)設(shè)置中存在困難。世界模型通過學(xué)習(xí)環(huán)境的模擬來提供可伸縮性,但它們通常依賴于低效的無梯度優(yōu)化方法。近日,佐治亞理工學(xué)者聯(lián)合英偉達(dá)、加州大學(xué)圣地亞哥分校等學(xué)者提出了基于大世界模型的策略學(xué)習(xí)(PWM),這是一種新穎的基于模型的RL算法,它從大型多任務(wù)世界模型中學(xué)習(xí)連續(xù)控制策略。通過對(duì)離線數(shù)據(jù)進(jìn)行世界模型的預(yù)訓(xùn)練,并將其用于一階梯度策略學(xué)習(xí),PWM有效地解決了具有多達(dá)152個(gè)動(dòng)作維度的任務(wù),并且勝過使用真實(shí)動(dòng)力學(xué)的方法。此外,PWM在80個(gè)任務(wù)設(shè)置中進(jìn)行了擴(kuò)展,相比于現(xiàn)有基準(zhǔn)方法,其獎(jiǎng)勵(lì)提高了高達(dá)27%,而無需昂貴的在線規(guī)劃。

PWM: 基于世界模型的策略學(xué)習(xí)-AI.x社區(qū)

方法概述

PWM是一種新穎的基于模型的RL(MBRL)算法和框架,旨在從大型多任務(wù)世界模型中得出有效的連續(xù)控制策略。利用預(yù)訓(xùn)練的TD-MPC2世界模型,在每個(gè)任務(wù)中以小于10分鐘的時(shí)間高效地學(xué)習(xí)控制策略。對(duì)復(fù)雜的運(yùn)動(dòng)任務(wù)進(jìn)行的實(shí)證評(píng)估表明,PWM不僅在獎(jiǎng)勵(lì)上超過了基準(zhǔn)方法,還勝過了使用真實(shí)模擬動(dòng)力學(xué)的方法。

PWM的預(yù)告結(jié)果

PWM: 基于世界模型的策略學(xué)習(xí)-AI.x社區(qū)


對(duì)高維連續(xù)控制任務(wù)上的PWM進(jìn)行評(píng)估(左圖),發(fā)現(xiàn)它不僅勝過了無模型的基準(zhǔn)方法SAC和PPO,還在獎(jiǎng)勵(lì)上超過了直接使用模擬器動(dòng)力學(xué)和獎(jiǎng)勵(lì)函數(shù)的SHAC方法。在一個(gè)包含80個(gè)任務(wù)的設(shè)置中(右圖),使用了一個(gè)龐大的4800萬參數(shù)的世界模型,PWM能夠持續(xù)勝過使用相同世界模型的TD-MPC2方法,而無需在線規(guī)劃。

單任務(wù)結(jié)果

PWM: 基于世界模型的策略學(xué)習(xí)-AI.x社區(qū)

圖中顯示了50%的IQM(實(shí)線)、均值(虛線)和所有5個(gè)任務(wù)和5個(gè)隨機(jī)種子的95%置信區(qū)間。PWM能夠獲得比無模型的基準(zhǔn)方法PPO和SAC、使用與PWM相同世界模型的TD-MPC2以及使用真實(shí)動(dòng)力學(xué)和獎(jiǎng)勵(lì)函數(shù)的SHAC更高的獎(jiǎng)勵(lì)。這些結(jié)果表明,經(jīng)過良好正則化的世界模型可以平滑優(yōu)化空間,從而實(shí)現(xiàn)更好的一階梯度優(yōu)化。

多任務(wù)結(jié)果

PWM: 基于世界模型的策略學(xué)習(xí)-AI.x社區(qū)

圖中顯示了PWM和TD-MPC2在30個(gè)和80個(gè)多任務(wù)基準(zhǔn)測(cè)試上的性能,結(jié)果基于10個(gè)隨機(jī)種子。PWM能夠在使用相同世界模型且無需任何形式的在線規(guī)劃的情況下勝過TD-MPC2,這使其成為大型世界模型更可擴(kuò)展的方法。右圖將PWM(多任務(wù)策略)與單任務(wù)專家SAC和DreamerV3進(jìn)行了比較。令人印象深刻的是,PWM能夠在多任務(wù)情況下與它們的性能相匹配,同時(shí)只使用離線數(shù)據(jù)進(jìn)行訓(xùn)練。

譯自(有刪改):https://www.imgeorgiev.com/pwm


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/UQqEdQl1YIuwqp-3ytCMpA??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦