偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí) 原創(chuàng)

發(fā)布于 2024-5-27 12:57

瀏覽

0收藏

獎(jiǎng)勵(lì)工程長(zhǎng)期以來(lái)一直是強(qiáng)化學(xué)習(xí)研究中的挑戰(zhàn)，因?yàn)樗ǔＰ枰罅咳肆ν度?。在本文中，研究人員提出了RL-VLM-F，它可以自動(dòng)生成代理學(xué)習(xí)新任務(wù)的獎(jiǎng)勵(lì)函數(shù)，僅利用任務(wù)目標(biāo)的文本描述和代理的視覺(jué)觀察，通過(guò)利用視覺(jué)語(yǔ)言基礎(chǔ)模型（VLMs）的反饋。該方法的關(guān)鍵在于查詢這些模型，根據(jù)任務(wù)目標(biāo)的文本描述對(duì)代理的圖像觀察對(duì)進(jìn)行偏好，并從偏好標(biāo)簽中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。RL-VLM-F成功地在各種領(lǐng)域中產(chǎn)生了有效的獎(jiǎng)勵(lì)和策略，包括經(jīng)典控制，以及剛性、關(guān)節(jié)和可變形物體的操作，而無(wú)需人工監(jiān)督，在相同假設(shè)下優(yōu)于使用大型預(yù)訓(xùn)練模型進(jìn)行獎(jiǎng)勵(lì)生成的先前方法。

RL-VLM-F組件

RL-VLM-F自動(dòng)為代理生成獎(jiǎng)勵(lì)函數(shù)，以學(xué)習(xí)新任務(wù)，僅利用任務(wù)目標(biāo)的文本描述和代理的視覺(jué)觀察，通過(guò)利用視覺(jué)語(yǔ)言基礎(chǔ)模型（VLMs）的反饋。該方法的關(guān)鍵在于查詢這些模型，根據(jù)任務(wù)目標(biāo)的文本描述對(duì)代理的圖像觀察對(duì)進(jìn)行偏好，并從偏好標(biāo)簽中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。研究人員使用基于偏好的強(qiáng)化學(xué)習(xí)同時(shí)學(xué)習(xí)策略和獎(jiǎng)勵(lì)函數(shù)。

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

RL-VLM-F查詢?cè)O(shè)計(jì)

RL-VLM-F兩階段查詢：首先，查詢VLM以生成自由形式的響應(yīng)，比較兩個(gè)圖像分別完成任務(wù)的效果。接下來(lái)，使用第一階段的文本響應(yīng)提示VLM，以提取對(duì)兩個(gè)圖像的偏好標(biāo)簽。研究人員對(duì)所有任務(wù)使用相同的查詢模板，將任務(wù)描述替換為特定任務(wù)的目標(biāo)描述。

RL-VLM-F：提示和策略

下面展示了該方法和基線在七項(xiàng)任務(wù)上的策略執(zhí)行，包括剛性、關(guān)節(jié)和可變形物體的操作。對(duì)于每個(gè)任務(wù)，展示了任務(wù)目標(biāo)的簡(jiǎn)短文本描述，與下面的模板提示結(jié)合起來(lái)，形成用于查詢VLM偏好的完整提示。

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

折疊布料對(duì)角線

任務(wù)描述：“將布料從左上角對(duì)角線對(duì)折到右下角”

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

拉直繩子

任務(wù)描述：“拉直藍(lán)色繩子”

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

不溢水地傳遞水

任務(wù)描述：“將裝水的容器移動(dòng)到距離紅色圓圈盡可能近的地方，而不會(huì)導(dǎo)致太多水滴溢出”

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

將足球移入球門

任務(wù)描述：“將足球移入球門”

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

打開(kāi)抽屜

任務(wù)描述：“打開(kāi)抽屜”

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

將方塊掃入洞中

任務(wù)描述：“使綠色方塊與洞之間的距離最小化”

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

CartPole

任務(wù)描述：“在黑色小車上平衡棕色桿，使其直立”

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

實(shí)驗(yàn)和結(jié)果

研究人員對(duì)RL-VLM-F在各種任務(wù)上進(jìn)行了全面評(píng)估，包括經(jīng)典控制，以及剛性、關(guān)節(jié)和可變形物體的操作，無(wú)需人工監(jiān)督，在相同假設(shè)下優(yōu)于使用大型預(yù)訓(xùn)練模型進(jìn)行獎(jiǎng)勵(lì)生成的先前方法。

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

與基線方法的比較

如所有對(duì)比方法在7項(xiàng)任務(wù)上的學(xué)習(xí)曲線所示，RL-VLM-F在所有任務(wù)上均優(yōu)于所有基線，并且在7項(xiàng)任務(wù)中的6項(xiàng)任務(wù)上與地面真實(shí)偏好的表現(xiàn)相匹配或超越。

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

VLM偏好標(biāo)簽的準(zhǔn)確性

研究人員提供了與環(huán)境獎(jiǎng)勵(lì)函數(shù)定義的地面真實(shí)偏好標(biāo)簽相比，VLM偏好標(biāo)簽準(zhǔn)確性的分析。x軸表示圖像對(duì)之間的不同水平，離散為10個(gè)區(qū)間，其中差異是指與圖像對(duì)關(guān)聯(lián)的地面真實(shí)任務(wù)進(jìn)展之間的差異。y軸顯示了VLM偏好標(biāo)簽正確、不正確或無(wú)法對(duì)圖像對(duì)進(jìn)行偏好的比例。像人類一樣，當(dāng)兩個(gè)圖像在實(shí)現(xiàn)目標(biāo)方面有明顯不同時(shí)，VLM更擅長(zhǎng)評(píng)估兩個(gè)圖像，并且當(dāng)兩個(gè)圖像非常相似時(shí)，其表現(xiàn)較差。

ICML 2024：從視覺(jué)語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

學(xué)習(xí)獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展的一致性

研究人員比較了RL-VLM-F學(xué)習(xí)的獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展在3個(gè)MetaWorld任務(wù)上的一致性。如所示，RL-VLM-F生成的獎(jiǎng)勵(lì)與地面真實(shí)任務(wù)進(jìn)展更一致。學(xué)習(xí)的獎(jiǎng)勵(lì)是通過(guò)3個(gè)具有不同種子的訓(xùn)練獎(jiǎng)勵(lì)模型進(jìn)行平均的，陰影區(qū)域表示標(biāo)準(zhǔn)誤差。

譯自（有刪改）：https://rlvlmf2024.github.io

本文轉(zhuǎn)載自公眾號(hào)AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/tPUIxt3Msrra5kiLB_dftg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

視覺(jué)語(yǔ)言基礎(chǔ)模型

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

擴(kuò)散模型如何幫助創(chuàng)建更好的強(qiáng)化學(xué)習(xí)系統(tǒng)

51CTO內(nèi)容精選 ? 3882瀏覽 ? 0回復(fù)
Nature：最大擴(kuò)散強(qiáng)化學(xué)習(xí)

ceesoft ? 5232瀏覽 ? 0回復(fù)
Advanced RAG 07：在 RAG 系統(tǒng)中進(jìn)行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 7428瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 1.0w瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 1.2w瀏覽 ? 0回復(fù)
從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景

AI探索時(shí)代 ? 4494瀏覽 ? 0回復(fù)
為啥強(qiáng)化學(xué)習(xí)開(kāi)始成為了大語(yǔ)言模型（LLM）的新寵？

智駐未來(lái) ? 4235瀏覽 ? 0回復(fù)
DeepSeek-R1：通過(guò)強(qiáng)化學(xué)習(xí)激發(fā)大語(yǔ)言模型的推理潛能

柏企閱文 ? 6257瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 4517瀏覽 ? 0回復(fù)
斯坦福大學(xué)團(tuán)隊(duì)使用多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練社交推理語(yǔ)言模型

xuxiangda ? 4247瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3386瀏覽 ? 0回復(fù)
視覺(jué)"頓悟時(shí)刻"被破解！MM-Eureka：大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)

angel ? 2880瀏覽 ? 0回復(fù)
在自然語(yǔ)言處理(NLP)任務(wù)中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進(jìn)行處理？

AI探索時(shí)代 ? 3437瀏覽 ? 0回復(fù)
Search-R1：強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力

十一月雨_55 ? 4244瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)強(qiáng)在哪里？基礎(chǔ)探索

柏企閱文 ? 2538瀏覽 ? 0回復(fù)
Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型

AIRoobt ? 4255瀏覽 ? 0回復(fù)
ICML 2025 | 從語(yǔ)言到視覺(jué)，自回歸模型VARSR開(kāi)啟圖像超分新范式

快手技術(shù) ? 4629瀏覽 ? 0回復(fù)
智能體強(qiáng)化學(xué)習(xí)綜述；強(qiáng)化學(xué)習(xí)原生GUI智能體；多輪工具交互強(qiáng)化學(xué)習(xí)；模塊化多輪工具強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3578瀏覽 ? 0回復(fù)
早期經(jīng)驗(yàn)監(jiān)督的智能體強(qiáng)化學(xué)習(xí)；推理元信息感知的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)；安全與有效聯(lián)合訓(xùn)練智能體框架

AI研究前瞻 ? 1981瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測(cè)未來(lái)模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測(cè)未來(lái)模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽(tīng)不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：斯坦福學(xué)者提出sim2real解決方案TRANSIC: 通過(guò)在線糾正學(xué)習(xí)進(jìn)行模擬到真實(shí)政策轉(zhuǎn)移

下一篇： Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法

社區(qū)精華內(nèi)容

目錄