偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<p id="3hw2g"><strong id="3hw2g"></strong></p>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Meta推出MoDem世界模型：解決視覺(jué)領(lǐng)域三大挑戰(zhàn)，LeCun轉(zhuǎn)發(fā)

作者：新智元 2023-01-02 13:33:25

人工智能新聞

MetaAI這次發(fā)布的MoDem解決了視覺(jué)強(qiáng)化學(xué)習(xí)領(lǐng)域的三個(gè)挑戰(zhàn)，無(wú)需解碼器，效率最高提升250%，一起看看它有多牛。

12月27日，MetaAI 負(fù)責(zé)視覺(jué)和強(qiáng)化學(xué)習(xí)領(lǐng)域的A

截止27日晚間，這篇推文的閱讀量已經(jīng)達(dá)到73.9k。

他表示，僅給出5個(gè)演示，MoDem就能在100K交互步驟中解決具有稀疏獎(jiǎng)勵(lì)和高維動(dòng)作空間的具有挑戰(zhàn)性的視覺(jué)運(yùn)動(dòng)控制任務(wù)，大大優(yōu)于現(xiàn)有的最先進(jìn)方法。

有多優(yōu)秀呢？

他們發(fā)現(xiàn)MoDem在完成稀疏獎(jiǎng)勵(lì)任務(wù)方面的成功率比低數(shù)據(jù)機(jī)制中的先前方法高出150%-250%。

Lecun也轉(zhuǎn)發(fā)了這一研究，表示MoDem的模型架構(gòu)類(lèi)似于JEPA，可在表征空間做出預(yù)測(cè)且無(wú)需解碼器。

鏈接小編就放在下面啦，有興趣的小伙伴可以看看~

論文鏈接：https://arxiv.org/abs/2212.05698

Github鏈接：https://github.com/facebookresearch/modem

研究創(chuàng)新和模型架構(gòu)

樣本效率低下是實(shí)際應(yīng)用部署深度強(qiáng)化學(xué)習(xí) (RL) 算法的主要挑戰(zhàn)，尤其是視覺(jué)運(yùn)動(dòng)控制。

基于模型的RL有可能通過(guò)同時(shí)學(xué)習(xí)世界模型并使用合成部署來(lái)進(jìn)行規(guī)劃和政策改進(jìn)，從而實(shí)現(xiàn)高樣本效率。

然而在實(shí)踐中，基于模型的RL的樣本高效學(xué)習(xí)受到探索挑戰(zhàn)的瓶頸，這次研究恰恰解決了這些主要挑戰(zhàn)。

首先，MoDem分別通過(guò)使用世界模型、模仿+RL和自監(jiān)督視覺(jué)預(yù)訓(xùn)練，解決了視覺(jué)強(qiáng)化學(xué)習(xí)/控制領(lǐng)域的三個(gè)主要挑戰(zhàn)：

大樣本復(fù)雜性（Large sample complexity）
高維狀態(tài)和動(dòng)作空間探索（Exploration in high-dimensional state and action space）
同步視覺(jué)表征和行為學(xué)習(xí)（Simultaneous learning of visual representations and behaviors）

這次的模型架構(gòu)類(lèi)似于Yann LeCun的JEPA，并且無(wú)需解碼器。

作者Aravind Rajeswaran表示，相比Dreamer需要像素級(jí)預(yù)測(cè)的解碼器，架構(gòu)繁重，無(wú)解碼器架構(gòu)可支持直接插入使用SSL預(yù)訓(xùn)練的視覺(jué)表示。

此外基于IL+RL，他們提出了一個(gè)三階段算法：

BC預(yù)訓(xùn)練策略
使用包含演示和探索的種子數(shù)據(jù)集預(yù)訓(xùn)練世界模型，此階段對(duì)于整體穩(wěn)定性和效率很重要
通過(guò)在線互動(dòng)微調(diào)世界模型

結(jié)果顯示，生成的算法在21個(gè)硬視覺(jué)運(yùn)動(dòng)控制任務(wù)中取得了SOTA結(jié)果（State-Of-The-Art result），包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數(shù)據(jù)上來(lái)看，MoDem在各項(xiàng)任務(wù)中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于其他模型，結(jié)果比之前的SOTA方法提升了150%到250%。

紅色線條為MoDem在各項(xiàng)任務(wù)中的表現(xiàn)

在此過(guò)程中，他們還闡明了MoDem中不同階段的重要性、數(shù)據(jù)增強(qiáng)對(duì)視覺(jué)MBRL的重要性以及預(yù)訓(xùn)練視覺(jué)表示的實(shí)用性。

最后，使用凍結(jié)的 R3M 功能遠(yuǎn)遠(yuǎn)優(yōu)于直接的 E2E 方法。這很令人興奮，表明視頻中的視覺(jué)預(yù)訓(xùn)練可以支持世界模型。

但8月數(shù)據(jù)強(qiáng)勁的E2E與凍結(jié)的R3M競(jìng)爭(zhēng)，我們可以通過(guò)預(yù)訓(xùn)練做得更好。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型強(qiáng)化學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="ryawy"><tt id="ryawy"><progress id="ryawy"></progress></tt></abbr>

<tr id="ryawy"></tr>