偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="iigge"><source id="iigge"></source></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

作者：Yucheng Lu, Yikang S 2021-04-19 13:57:12

新聞深度學習

在現(xiàn)實世界里，人類尤其具有這種將復雜任務有效分解為多個子任務的能力。這種能力幫助人類面對新環(huán)境時加速自身的學習過程并獲得更好的泛化能力。

假設你給機器看了一段很長的游戲視頻，在里面有砍樹，打獵，造房子等，你的模型能否從這個非結(jié)構(gòu)化的錄像中自動地發(fā)現(xiàn)這些有意義的技能包？

在現(xiàn)實世界里，人類尤其具有這種將復雜任務有效分解為多個子任務的能力。這種能力幫助人類面對新環(huán)境時加速自身的學習過程并獲得更好的泛化能力。

傳統(tǒng)方法主要圍繞概率圖模型。這些工作將子任務結(jié)構(gòu)建模為潛在變量，并從學到的后驗中提取子任務標識。在一篇ICLR 2021的論文中，MIT-IBM Lab 淦創(chuàng)團隊與蒙特利爾大學合作提出了：是否可以設計更智能的神經(jīng)網(wǎng)絡，使子任務結(jié)構(gòu)自動在模仿學習中出現(xiàn)？具體而言，研究者設計了一個循環(huán)決策網(wǎng)絡，使得子任務結(jié)構(gòu)能夠體現(xiàn)在每一步的表征中。

在該研究中，研究者提出有序記憶決策網(wǎng)絡（OMPN）。模型可以經(jīng)過正常的行為克?。╞ehavior cloning）來發(fā)現(xiàn)子任務的層級，從非結(jié)構(gòu)化示范中恢復子任務邊界。在 Craft 和 Dial 上進行的實驗表明，在沒有任何人類額外標注的情況下，子任務層次結(jié)構(gòu)會自然地從模型中演化出。

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

論文地址：https://openreview.net/pdf?id=vcopnwZ7bC
項目地址：https://github.com/Ordered-Memory-RL/

Memory 如何表達子任務？

研究者提供了一個網(wǎng)格世界的示例用于說明。示例中有不同的原料（例如草）可供智能體拾取，還包括一家工廠以便智能體使用這些原料。假設智能體想要完成搭橋任務，該任務可以分解為樹狀多層結(jié)構(gòu)。其中，根任務可以分為 “拾取原料” 和“制造橋梁”。“拾取原料”可以進一步分為 “拾取草” 和“拾取木頭”。

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

為了能夠?qū)崿F(xiàn)上述的結(jié)構(gòu)，智能體的記憶在每一步應該如何 “更新”？在下圖中，將記憶劃分為不同級別，對應不同層級的子任務。當‘t=1’時，模型僅從根任務“搭建橋梁” 開始，并 “展開” 得到 “拾取原料”，然后進一步“展開” 為“拾取木頭”。這里的 “展開”（藍色箭頭）可以理解成一種“planning operator”，動作從最低層級的記憶中產(chǎn)生。在‘t<3’時，“拾取原料” 會被復制，但是當 “拾取木頭” 完成后，即‘t=3’時，該子任務會被 “更新”。這里的“更新” 可以視為每個子任務的內(nèi)部更新，而 “更新” 后的 “拾取原料” 通過 “展開” 重新得到下一個子任務 “拾取草”。同理“搭建橋梁” 一直被復制直到在‘t=5’（“拾取原料”完成）時進行 “更新”，然后“展開” 為“制造橋梁”和“前往工廠”。

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

這樣的過程中，可以定義 “展開高度”，即每一時刻發(fā)生“展開” 的記憶的位置。研究者同時觀察到，通過觀察 “展開高度” 的變化，可以由此確定子任務的邊界。例如從‘t=2’到‘t=3’，擴展位置從最低級別到中間級別，表明了低級別子任務的完成。從‘t=4’到‘t=5’，擴展位置從最低級別到最高級別，表明低級別和中級別子任務均已完成。所以目標就是希望通過合理的網(wǎng)絡設計，讓模型可以收斂到上述記憶更新規(guī)則。具體包括：

若模型認為當前底層子任務已被完成，則需要輸出高展開位置，并從高層子任務中展開。
若模型認為當前底層子任務未被完成，則需要輸出低展開位置, 并將高層任務復制，來實現(xiàn) long-term dependency。

網(wǎng)絡設計的數(shù)據(jù)流效果如下所示：

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

從行為克隆中進行任務分解

主要的實驗結(jié)果就是表明：正確的子任務結(jié)構(gòu)的確可以通過行為克隆后，在模型中體現(xiàn)出來，而在這個過程中，沒有任何額外的任務邊界標注。在接下來示例中，將智能體的軌跡以及展開位置的變化進行可視化。經(jīng)過學習后，模型學會在每個子任務快結(jié)束的時刻，將展開高度提高。在每個子任務的行進過程中，將展開高度保持低位，符合之前說的直覺。

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

在 Craft 任務中，模型需要完成 4 個子任務來“造床”。

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

在 Dial 任務中，模型需要控制機器手臂連續(xù)按 4 個數(shù)字。

ICLR 2021研究挖掘游戲技能包？有序記憶決策網(wǎng)絡幫你實現(xiàn)

在 Kitchen 任務中，模型需要連續(xù)操控四個家電。

責任編輯：張燕妮來源：機器之心Pro

神經(jīng)網(wǎng)絡 AI 算法

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營