偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)

新聞 深度學習
在現(xiàn)實世界里,人類尤其具有這種將復雜任務有效分解為多個子任務的能力。這種能力幫助人類面對新環(huán)境時加速自身的學習過程并獲得更好的泛化能力。

 [[394114]]

假設你給機器看了一段很長的游戲視頻,在里面有砍樹,打獵,造房子等,你的模型能否從這個非結(jié)構(gòu)化的錄像中自動地發(fā)現(xiàn)這些有意義的技能包?

在現(xiàn)實世界里,人類尤其具有這種將復雜任務有效分解為多個子任務的能力。這種能力幫助人類面對新環(huán)境時加速自身的學習過程并獲得更好的泛化能力。

傳統(tǒng)方法主要圍繞概率圖模型。這些工作將子任務結(jié)構(gòu)建模為潛在變量,并從學到的后驗中提取子任務標識。在一篇ICLR 2021的論文中,MIT-IBM Lab 淦創(chuàng)團隊與蒙特利爾大學合作提出了:是否可以設計更智能的神經(jīng)網(wǎng)絡,使子任務結(jié)構(gòu)自動在模仿學習中出現(xiàn)?具體而言,研究者設計了一個循環(huán)決策網(wǎng)絡,使得子任務結(jié)構(gòu)能夠體現(xiàn)在每一步的表征中。

在該研究中,研究者提出有序記憶決策網(wǎng)絡(OMPN)。模型可以經(jīng)過正常的行為克?。╞ehavior cloning)來發(fā)現(xiàn)子任務的層級,從非結(jié)構(gòu)化示范中恢復子任務邊界。在 Craft 和 Dial 上進行的實驗表明,在沒有任何人類額外標注的情況下,子任務層次結(jié)構(gòu)會自然地從模型中演化出。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)
  • 論文地址:https://openreview.net/pdf?id=vcopnwZ7bC
  • 項目地址:https://github.com/Ordered-Memory-RL/

Memory 如何表達子任務?

研究者提供了一個網(wǎng)格世界的示例用于說明。示例中有不同的原料(例如草)可供智能體拾取,還包括一家工廠以便智能體使用這些原料。假設智能體想要完成搭橋任務,該任務可以分解為樹狀多層結(jié)構(gòu)。其中,根任務可以分為 “拾取原料” 和“制造橋梁”。“拾取原料”可以進一步分為 “拾取草” 和“拾取木頭”。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)

為了能夠?qū)崿F(xiàn)上述的結(jié)構(gòu),智能體的記憶在每一步應該如何 “更新”?在下圖中,將記憶劃分為不同級別,對應不同層級的子任務。當‘t=1’時,模型僅從根任務“搭建橋梁” 開始,并 “展開” 得到 “拾取原料”,然后進一步“展開” 為“拾取木頭”。這里的 “展開”(藍色箭頭)可以理解成一種“planning operator”,動作從最低層級的記憶中產(chǎn)生。在‘t<3’時,“拾取原料” 會被復制,但是當 “拾取木頭” 完成后,即‘t=3’時,該子任務會被 “更新”。這里的“更新” 可以視為每個子任務的內(nèi)部更新,而 “更新” 后的 “拾取原料” 通過 “展開” 重新得到下一個子任務 “拾取草”。同理“搭建橋梁” 一直被復制直到在‘t=5’(“拾取原料”完成)時進行 “更新”,然后“展開” 為“制造橋梁”和“前往工廠”。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)

這樣的過程中,可以定義 “展開高度”,即每一時刻發(fā)生“展開” 的記憶的位置。研究者同時觀察到,通過觀察 “展開高度” 的變化,可以由此確定子任務的邊界。例如從‘t=2’到‘t=3’,擴展位置從最低級別到中間級別,表明了低級別子任務的完成。從‘t=4’到‘t=5’,擴展位置從最低級別到最高級別,表明低級別和中級別子任務均已完成。所以目標就是希望通過合理的網(wǎng)絡設計,讓模型可以收斂到上述記憶更新規(guī)則。具體包括:

  • 若模型認為當前底層子任務已被完成,則需要輸出高展開位置,并從高層子任務中展開。
  • 若模型認為當前底層子任務未被完成,則需要輸出低展開位置, 并將高層任務復制,來實現(xiàn) long-term dependency。

網(wǎng)絡設計的數(shù)據(jù)流效果如下所示:

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)

從行為克隆中進行任務分解

主要的實驗結(jié)果就是表明:正確的子任務結(jié)構(gòu)的確可以通過行為克隆后,在模型中體現(xiàn)出來,而在這個過程中,沒有任何額外的任務邊界標注。在接下來示例中,將智能體的軌跡以及展開位置的變化進行可視化。經(jīng)過學習后,模型學會在每個子任務快結(jié)束的時刻,將展開高度提高。在每個子任務的行進過程中,將展開高度保持低位,符合之前說的直覺。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)

在 Craft 任務中,模型需要完成 4 個子任務來“造床”。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)

在 Dial 任務中,模型需要控制機器手臂連續(xù)按 4 個數(shù)字。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡幫你實現(xiàn)

在 Kitchen 任務中,模型需要連續(xù)操控四個家電。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2012-01-10 15:17:49

2017-03-20 15:23:46

人工智能連續(xù)學習神經(jīng)網(wǎng)絡

2022-08-25 21:41:43

ArkUI鴻蒙

2022-06-13 13:45:56

Linuxmtr命令

2021-03-25 15:32:21

深度學習編程人工智能

2021-12-22 14:27:02

網(wǎng)絡游戲網(wǎng)絡攻擊惡意軟件

2020-05-20 10:07:31

Python開發(fā)工具

2021-01-13 11:25:12

JavaScript閉包函數(shù)

2020-04-30 09:22:06

人工智能知識圖譜研究

2021-03-15 10:19:43

網(wǎng)絡安全技能網(wǎng)絡安全網(wǎng)絡攻擊

2021-01-08 15:23:45

網(wǎng)絡安全技能網(wǎng)絡安全網(wǎng)絡攻擊

2023-08-25 09:00:00

2010-03-17 10:01:36

無線Mesh網(wǎng)絡標準

2021-11-08 07:11:49

決策樹數(shù)據(jù)分類器

2022-09-03 11:37:30

網(wǎng)絡安全游戲網(wǎng)絡防御

2017-07-07 09:21:53

Python 機器學習決策

2017-05-19 12:49:18

大數(shù)據(jù)時空算法商業(yè)決策

2015-04-22 09:33:41

2011-11-10 09:43:14

ZigBee協(xié)議棧網(wǎng)絡層

2023-06-06 10:20:55

模型效率
點贊
收藏

51CTO技術(shù)棧公眾號