偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

驚呆了!訓(xùn)練7萬小時(shí)后,OpenAI的模型竟然學(xué)會(huì)在「我的世界」里刨木頭

人工智能 新聞
2022年6月,OpenAI發(fā)表論文稱用「視頻預(yù)訓(xùn)練模型」,讓AI學(xué)會(huì)了在「我的世界」里從頭開始造石鎬。

最近,似乎早已把GPT拋在腦后的OpenAI又整了個(gè)新活。

在經(jīng)過海量無標(biāo)注視頻以及一點(diǎn)點(diǎn)標(biāo)注過的數(shù)據(jù)訓(xùn)練之后,AI終于學(xué)會(huì)了在「我的世界」(Minecraft)里制作鉆石鎬。

而整套流程需要一個(gè)骨灰級玩家至少20分鐘的時(shí)間才能完成,總計(jì)要操作24000次。

圖片

這個(gè)東西吧,看似簡單,但對AI來說卻非常困難。

7歲小孩看10分鐘就能學(xué)會(huì)

對于最簡單的木鎬,讓人類玩家從頭開始學(xué)過程并不太難。

一個(gè)死宅不到3分鐘用單個(gè)視頻就能教會(huì)下一個(gè)。

圖片

演示視頻全長2分52秒

然而,鉆石鎬的制作就復(fù)雜多了。

不過即便如此,一個(gè)7歲小孩也只需看上十分鐘的演示視頻,就能學(xué)會(huì)了。

圖片

這個(gè)任務(wù)的難點(diǎn),主要在如何挖到鉆石礦。

過程大概可以概括為12個(gè)步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊制作木棍,木棍制作工坊裝具臺,工臺造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠制作鐵鎬,鐵鎬去挖鉆石。

圖片

現(xiàn)在,壓力來到了AI這邊。

正巧,CMU、OpenAI、DeepMind、Microsoft Research等機(jī)構(gòu)自2019年起,就搞了一個(gè)相關(guān)的比賽——MineRL。

參賽選手需要自研出一個(gè)「自主從零開始打造工具、自動(dòng)尋找并挖掘鉆石礦」的人工智能體,而獲勝條件也很簡單—最快者勝出。

結(jié)果如何?

在首屆MineRL比賽結(jié)束之后,「7歲小孩看10分鐘視頻就學(xué)會(huì),AI用了8百萬步還搞不定」,可是上了Nature雜志的。

數(shù)據(jù)雖多,但我用不上啊

「我的世界」作為沙盒建筑游戲,其玩家策略、游戲內(nèi)虛擬環(huán)境的高開放性,特別適合作為各種AI模型學(xué)習(xí)、決策能力的測試場和試金石。

而且作為一款「國民級」的游戲,想在網(wǎng)上找到和「我的世界」相關(guān)的視頻簡直易如反掌。

然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來說都只是在畫面上呈現(xiàn)出的結(jié)果。

圖片

換句話說,看視頻的人只能知道up主干了個(gè)啥,干的怎么樣,但沒法知道是怎么干的。

更具體點(diǎn),電腦屏幕上呈現(xiàn)出來的只是結(jié)果,而操作步驟是up主在鍵盤上的不停點(diǎn)擊,以及鼠標(biāo)的不停移動(dòng),這部分是看不到的。

甚至,連這個(gè)過程都是經(jīng)過剪輯的,人看了估計(jì)都學(xué)不會(huì),更別說AI了。

雪上加霜的是,不少玩家抱怨在游戲里刨木頭的枯燥度,太像做作業(yè)完成任務(wù)。結(jié)果一波更新之后,有不少工具可以直接白撿……這下,連數(shù)據(jù)都不好找了。

而OpenAI想要讓AI學(xué)會(huì)玩兒「我的世界」,就必須找到一個(gè)辦法,能夠讓這些海量的未標(biāo)注的視頻數(shù)據(jù)派上用場。

視頻預(yù)訓(xùn)練模型——VPT

于是,VPT應(yīng)運(yùn)而出。

圖片

論文地址:https://cdn.openai.com/vpt/Paper.pdf

這東西說新也新,但是卻并不復(fù)雜,是一種半監(jiān)督式的模仿學(xué)習(xí)方法。

首先,收集一波數(shù)據(jù)標(biāo)注外包們玩游戲的數(shù)據(jù),其中包含視頻和鍵鼠操作的記錄。

圖片

VPT方法概述

然后,研究人員用這些數(shù)據(jù)搞了個(gè)逆動(dòng)力學(xué)模型(inverse dynamics model,IDM),可以推測出視頻中每一步進(jìn)行的時(shí)候,鍵鼠都是怎么動(dòng)的。

這樣一來,整個(gè)任務(wù)就變得簡單多了,只需要比原來少很多的數(shù)據(jù)就可以實(shí)現(xiàn)目的。

用一小撮外包數(shù)據(jù)搞完IDM之后,就可以用IDM接下來標(biāo)注更大規(guī)模的無標(biāo)記數(shù)據(jù)集了。

圖片

基礎(chǔ)模型訓(xùn)練數(shù)據(jù)對微調(diào)的影響

在訓(xùn)練了70000個(gè)小時(shí)以后,OpenAI的行為克隆模型就能實(shí)現(xiàn)各種別的模型做不到的工作了。

模型學(xué)會(huì)了怎么砍樹收集木頭,怎么用木頭做木條,怎么用木條做桌子。而這一套事兒需要一個(gè)比較熟練的玩家操作小50秒的時(shí)間。

圖片

除了做桌子,模型還能游泳,打獵,吃東西。

甚至還有「跑跳搭」的騷操作,也就是起跳的時(shí)候腳下放個(gè)磚塊或者木塊,跳著跳著就能搭個(gè)柱子。這屬于是骨灰級玩家的必修課了。

圖片

制作桌子(0 shot)

圖片

打獵(0 shot)

圖片

「跑跳搭」簡陋版(0 shot)

而為了讓模型能完成一些更精細(xì)的任務(wù),一般還會(huì)把數(shù)據(jù)集微調(diào)成更小的規(guī)模,區(qū)分細(xì)小的方向。

OpenAI做了一項(xiàng)研究,展示了用VPT訓(xùn)練過的模型,再經(jīng)過了微調(diào)之后,有多適應(yīng)下游的數(shù)據(jù)集。

研究人員邀請人玩兒了10分鐘的「我的世界」,用基礎(chǔ)材料搭了個(gè)房子。他們希望通過這種方式可以加強(qiáng)模型執(zhí)行一些游戲初期的任務(wù)的能力,比如說搭一個(gè)工作臺。

當(dāng)對該數(shù)據(jù)集進(jìn)行完微調(diào)以后,研究人員不僅發(fā)現(xiàn)模型在執(zhí)行初期任務(wù)時(shí)更加得心應(yīng)手,還發(fā)現(xiàn)模型自個(gè)兒研究明白了怎么分別做出一張木制的工作臺,和一張石制的工具臺。

有時(shí)候,研究人員還能看到模型自己搭建簡陋的避難所,搜查村子,還有搶箱子。

圖片

制作一把石鎬的全過程(下方標(biāo)注的時(shí)間是一名熟練玩家執(zhí)行同樣的任務(wù)的耗時(shí))

圖片

制作石鎬

然后我們來看看,OpenAI的專家們是怎么進(jìn)行的微調(diào)。

他們使用的辦法是,強(qiáng)化學(xué)習(xí)(RL)。

大多數(shù)RL方法通過隨機(jī)探索先驗(yàn)來解決這些挑戰(zhàn),例如模型通常被激勵(lì)通過熵獎(jiǎng)勵(lì)隨機(jī)行動(dòng)。VPT 模型應(yīng)該是RL更好的先驗(yàn)?zāi)P?,因?yàn)槟M人類行為可能比采取隨機(jī)行動(dòng)更有幫助。

研究人員將模型設(shè)置為收集鉆石鎬這類艱巨任務(wù),這是「我的世界」中前所未有的功能,因?yàn)閳?zhí)行整個(gè)任務(wù)時(shí)使用本機(jī)人機(jī)界面時(shí)會(huì)變得更加困難。

制作鉆石鎬需要一系列漫長而復(fù)雜的子任務(wù)。為了使這項(xiàng)任務(wù)易于處理,研究人員為序列中的每個(gè)項(xiàng)目獎(jiǎng)勵(lì)智能體。

圖片

他們發(fā)現(xiàn),從隨機(jī)初始化(標(biāo)準(zhǔn)RL方法)訓(xùn)練的RL策略幾乎沒有獲得任何獎(jiǎng)勵(lì),從不學(xué)習(xí)收集日志,而且很少收集木棍。

與之形成鮮明對比的是,VPT模型的微調(diào)不僅可以學(xué)習(xí)如何制作鉆石鎬,而且在收集所有物品方面的成功率,甚至達(dá)到人類水平。

而這是第一次有人展示能夠在「我的世界」中制作鉆石工具的計(jì)算機(jī)模型。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-04-02 07:31:53

RPC超時(shí)服務(wù)端

2021-07-05 18:05:40

SpringBean方法

2015-06-24 16:09:54

Easy Connec深信服

2024-05-24 08:42:29

智能體訓(xùn)練

2021-09-30 08:40:28

Oracle數(shù)據(jù)庫后端開發(fā)

2020-01-06 09:14:59

Java程序員線程

2022-11-27 12:58:50

2020-10-31 09:06:37

C語言編程語言

2021-03-17 11:47:37

tomcatJavaServerJava

2012-05-16 09:53:56

2022-11-26 21:34:08

Python可視化世界杯

2013-08-09 10:37:31

代碼數(shù)據(jù)

2022-07-12 16:46:45

DeepMindAIAlphaFold?

2016-12-21 12:19:57

AR廣告奧迪

2021-11-02 11:31:47

Go代碼模式

2021-12-13 22:52:37

iphone iOSHTML

2023-11-20 16:02:34

ChatGPT人工智能OpenAI

2015-05-19 14:30:48

加密視頻加密億賽通

2024-07-05 11:47:43

2024-02-19 08:31:10

SoraAIOpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號