ICML 2024:從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí) 原創(chuàng)
獎(jiǎng)勵(lì)工程長(zhǎng)期以來(lái)一直是強(qiáng)化學(xué)習(xí)研究中的挑戰(zhàn),因?yàn)樗ǔP枰罅咳肆ν度?。在本文中,研究人員提出了RL-VLM-F,它可以自動(dòng)生成代理學(xué)習(xí)新任務(wù)的獎(jiǎng)勵(lì)函數(shù),僅利用任務(wù)目標(biāo)的文本描述和代理的視覺(jué)觀察,通過(guò)利用視覺(jué)語(yǔ)言基礎(chǔ)模型(VLMs)的反饋。該方法的關(guān)鍵在于查詢這些模型,根據(jù)任務(wù)目標(biāo)的文本描述對(duì)代理的圖像觀察對(duì)進(jìn)行偏好,并從偏好標(biāo)簽中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。RL-VLM-F成功地在各種領(lǐng)域中產(chǎn)生了有效的獎(jiǎng)勵(lì)和策略,包括經(jīng)典控制,以及剛性、關(guān)節(jié)和可變形物體的操作,而無(wú)需人工監(jiān)督,在相同假設(shè)下優(yōu)于使用大型預(yù)訓(xùn)練模型進(jìn)行獎(jiǎng)勵(lì)生成的先前方法。
RL-VLM-F組件
RL-VLM-F自動(dòng)為代理生成獎(jiǎng)勵(lì)函數(shù),以學(xué)習(xí)新任務(wù),僅利用任務(wù)目標(biāo)的文本描述和代理的視覺(jué)觀察,通過(guò)利用視覺(jué)語(yǔ)言基礎(chǔ)模型(VLMs)的反饋。該方法的關(guān)鍵在于查詢這些模型,根據(jù)任務(wù)目標(biāo)的文本描述對(duì)代理的圖像觀察對(duì)進(jìn)行偏好,并從偏好標(biāo)簽中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。研究人員使用基于偏好的強(qiáng)化學(xué)習(xí)同時(shí)學(xué)習(xí)策略和獎(jiǎng)勵(lì)函數(shù)。

RL-VLM-F查詢?cè)O(shè)計(jì)
RL-VLM-F兩階段查詢:首先,查詢VLM以生成自由形式的響應(yīng),比較兩個(gè)圖像分別完成任務(wù)的效果。接下來(lái),使用第一階段的文本響應(yīng)提示VLM,以提取對(duì)兩個(gè)圖像的偏好標(biāo)簽。研究人員對(duì)所有任務(wù)使用相同的查詢模板,將任務(wù)描述替換為特定任務(wù)的目標(biāo)描述。
RL-VLM-F:提示和策略
下面展示了該方法和基線在七項(xiàng)任務(wù)上的策略執(zhí)行,包括剛性、關(guān)節(jié)和可變形物體的操作。對(duì)于每個(gè)任務(wù),展示了任務(wù)目標(biāo)的簡(jiǎn)短文本描述,與下面的模板提示結(jié)合起來(lái),形成用于查詢VLM偏好的完整提示。

- 折疊布料對(duì)角線
任務(wù)描述:“將布料從左上角對(duì)角線對(duì)折到右下角”

- 拉直繩子
任務(wù)描述:“拉直藍(lán)色繩子”

- 不溢水地傳遞水
任務(wù)描述:“將裝水的容器移動(dòng)到距離紅色圓圈盡可能近的地方,而不會(huì)導(dǎo)致太多水滴溢出”

- 將足球移入球門
任務(wù)描述:“將足球移入球門”

- 打開(kāi)抽屜
任務(wù)描述:“打開(kāi)抽屜”

- 將方塊掃入洞中
任務(wù)描述:“使綠色方塊與洞之間的距離最小化”

- CartPole
任務(wù)描述:“在黑色小車上平衡棕色桿,使其直立”

實(shí)驗(yàn)和結(jié)果
研究人員對(duì)RL-VLM-F在各種任務(wù)上進(jìn)行了全面評(píng)估,包括經(jīng)典控制,以及剛性、關(guān)節(jié)和可變形物體的操作,無(wú)需人工監(jiān)督,在相同假設(shè)下優(yōu)于使用大型預(yù)訓(xùn)練模型進(jìn)行獎(jiǎng)勵(lì)生成的先前方法。

與基線方法的比較
如所有對(duì)比方法在7項(xiàng)任務(wù)上的學(xué)習(xí)曲線所示,RL-VLM-F在所有任務(wù)上均優(yōu)于所有基線,并且在7項(xiàng)任務(wù)中的6項(xiàng)任務(wù)上與地面真實(shí)偏好的表現(xiàn)相匹配或超越。

VLM偏好標(biāo)簽的準(zhǔn)確性
研究人員提供了與環(huán)境獎(jiǎng)勵(lì)函數(shù)定義的地面真實(shí)偏好標(biāo)簽相比,VLM偏好標(biāo)簽準(zhǔn)確性的分析。x軸表示圖像對(duì)之間的不同水平,離散為10個(gè)區(qū)間,其中差異是指與圖像對(duì)關(guān)聯(lián)的地面真實(shí)任務(wù)進(jìn)展之間的差異。y軸顯示了VLM偏好標(biāo)簽正確、不正確或無(wú)法對(duì)圖像對(duì)進(jìn)行偏好的比例。像人類一樣,當(dāng)兩個(gè)圖像在實(shí)現(xiàn)目標(biāo)方面有明顯不同時(shí),VLM更擅長(zhǎng)評(píng)估兩個(gè)圖像,并且當(dāng)兩個(gè)圖像非常相似時(shí),其表現(xiàn)較差。

學(xué)習(xí)獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展的一致性
研究人員比較了RL-VLM-F學(xué)習(xí)的獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展在3個(gè)MetaWorld任務(wù)上的一致性。如所示,RL-VLM-F生成的獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展更一致。學(xué)習(xí)的獎(jiǎng)勵(lì)是通過(guò)3個(gè)具有不同種子的訓(xùn)練獎(jiǎng)勵(lì)模型進(jìn)行平均的,陰影區(qū)域表示標(biāo)準(zhǔn)誤差。
譯自(有刪改):https://rlvlmf2024.github.io
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線

















