偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí) 原創(chuàng)

發(fā)布于 2024-5-27 12:57
瀏覽
0收藏

獎(jiǎng)勵(lì)工程長(zhǎng)期以來(lái)一直是強(qiáng)化學(xué)習(xí)研究中的挑戰(zhàn),因?yàn)樗ǔP枰罅咳肆ν度?。在本文中,研究人員提出了RL-VLM-F,它可以自動(dòng)生成代理學(xué)習(xí)新任務(wù)的獎(jiǎng)勵(lì)函數(shù),僅利用任務(wù)目標(biāo)的文本描述和代理的視覺(jué)觀察,通過(guò)利用視覺(jué)語(yǔ)言基礎(chǔ)模型(VLMs)的反饋。該方法的關(guān)鍵在于查詢這些模型,根據(jù)任務(wù)目標(biāo)的文本描述對(duì)代理的圖像觀察對(duì)進(jìn)行偏好,并從偏好標(biāo)簽中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。RL-VLM-F成功地在各種領(lǐng)域中產(chǎn)生了有效的獎(jiǎng)勵(lì)和策略,包括經(jīng)典控制,以及剛性、關(guān)節(jié)和可變形物體的操作,而無(wú)需人工監(jiān)督,在相同假設(shè)下優(yōu)于使用大型預(yù)訓(xùn)練模型進(jìn)行獎(jiǎng)勵(lì)生成的先前方法。

RL-VLM-F組件

RL-VLM-F自動(dòng)為代理生成獎(jiǎng)勵(lì)函數(shù),以學(xué)習(xí)新任務(wù),僅利用任務(wù)目標(biāo)的文本描述和代理的視覺(jué)觀察,通過(guò)利用視覺(jué)語(yǔ)言基礎(chǔ)模型(VLMs)的反饋。該方法的關(guān)鍵在于查詢這些模型,根據(jù)任務(wù)目標(biāo)的文本描述對(duì)代理的圖像觀察對(duì)進(jìn)行偏好,并從偏好標(biāo)簽中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。研究人員使用基于偏好的強(qiáng)化學(xué)習(xí)同時(shí)學(xué)習(xí)策略和獎(jiǎng)勵(lì)函數(shù)。

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

RL-VLM-F查詢?cè)O(shè)計(jì)

RL-VLM-F兩階段查詢:首先,查詢VLM以生成自由形式的響應(yīng),比較兩個(gè)圖像分別完成任務(wù)的效果。接下來(lái),使用第一階段的文本響應(yīng)提示VLM,以提取對(duì)兩個(gè)圖像的偏好標(biāo)簽。研究人員對(duì)所有任務(wù)使用相同的查詢模板,將任務(wù)描述替換為特定任務(wù)的目標(biāo)描述。

RL-VLM-F:提示和策略

下面展示了該方法和基線在七項(xiàng)任務(wù)上的策略執(zhí)行,包括剛性、關(guān)節(jié)和可變形物體的操作。對(duì)于每個(gè)任務(wù),展示了任務(wù)目標(biāo)的簡(jiǎn)短文本描述,與下面的模板提示結(jié)合起來(lái),形成用于查詢VLM偏好的完整提示。

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

  • 折疊布料對(duì)角線

任務(wù)描述:“將布料從左上角對(duì)角線對(duì)折到右下角”

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

  • 拉直繩子

任務(wù)描述:“拉直藍(lán)色繩子”

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

  • 不溢水地傳遞水

任務(wù)描述:“將裝水的容器移動(dòng)到距離紅色圓圈盡可能近的地方,而不會(huì)導(dǎo)致太多水滴溢出”

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

  • 將足球移入球門

任務(wù)描述:“將足球移入球門”

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

  • 打開(kāi)抽屜

任務(wù)描述:“打開(kāi)抽屜”

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

  • 將方塊掃入洞中

任務(wù)描述:“使綠色方塊與洞之間的距離最小化”

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

  • CartPole

任務(wù)描述:“在黑色小車上平衡棕色桿,使其直立”

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

實(shí)驗(yàn)和結(jié)果

研究人員對(duì)RL-VLM-F在各種任務(wù)上進(jìn)行了全面評(píng)估,包括經(jīng)典控制,以及剛性、關(guān)節(jié)和可變形物體的操作,無(wú)需人工監(jiān)督,在相同假設(shè)下優(yōu)于使用大型預(yù)訓(xùn)練模型進(jìn)行獎(jiǎng)勵(lì)生成的先前方法。

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

與基線方法的比較

如所有對(duì)比方法在7項(xiàng)任務(wù)上的學(xué)習(xí)曲線所示,RL-VLM-F在所有任務(wù)上均優(yōu)于所有基線,并且在7項(xiàng)任務(wù)中的6項(xiàng)任務(wù)上與地面真實(shí)偏好的表現(xiàn)相匹配或超越。

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

VLM偏好標(biāo)簽的準(zhǔn)確性

研究人員提供了與環(huán)境獎(jiǎng)勵(lì)函數(shù)定義的地面真實(shí)偏好標(biāo)簽相比,VLM偏好標(biāo)簽準(zhǔn)確性的分析。x軸表示圖像對(duì)之間的不同水平,離散為10個(gè)區(qū)間,其中差異是指與圖像對(duì)關(guān)聯(lián)的地面真實(shí)任務(wù)進(jìn)展之間的差異。y軸顯示了VLM偏好標(biāo)簽正確、不正確或無(wú)法對(duì)圖像對(duì)進(jìn)行偏好的比例。像人類一樣,當(dāng)兩個(gè)圖像在實(shí)現(xiàn)目標(biāo)方面有明顯不同時(shí),VLM更擅長(zhǎng)評(píng)估兩個(gè)圖像,并且當(dāng)兩個(gè)圖像非常相似時(shí),其表現(xiàn)較差。

ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

學(xué)習(xí)獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展的一致性

研究人員比較了RL-VLM-F學(xué)習(xí)的獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展在3個(gè)MetaWorld任務(wù)上的一致性。如所示,RL-VLM-F生成的獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展更一致。學(xué)習(xí)的獎(jiǎng)勵(lì)是通過(guò)3個(gè)具有不同種子的訓(xùn)練獎(jiǎng)勵(lì)模型進(jìn)行平均的,陰影區(qū)域表示標(biāo)準(zhǔn)誤差。

譯自(有刪改):https://rlvlmf2024.github.io


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/tPUIxt3Msrra5kiLB_dftg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦