偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

人工智能 新聞
這是UC伯克利大學(xué)帶來(lái)的最新成果,讓機(jī)器人直接在實(shí)際環(huán)境中訓(xùn)練學(xué)習(xí),不再依賴(lài)于模擬器。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

現(xiàn)在,讓機(jī)械狗自己打滾一個(gè)小時(shí),它就能學(xué)會(huì)走路了!

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

步態(tài)看著相當(dāng)有模有樣:

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

還能扛住大棍子的一通狂懟:

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

就算是摔了個(gè)四仰八叉,翻個(gè)身自己又站起來(lái)了:

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

如此看來(lái),訓(xùn)機(jī)械狗和普通訓(xùn)狗真是要沒(méi)什么兩樣了啊。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

這就是UC伯克利大學(xué)帶來(lái)的最新成果,讓機(jī)器人直接在實(shí)際環(huán)境中訓(xùn)練學(xué)習(xí),不再依賴(lài)于模擬器

應(yīng)用這一方法,研究人員在短時(shí)間內(nèi)訓(xùn)練出了4個(gè)機(jī)器人。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

比如開(kāi)頭看到的1小時(shí)學(xué)會(huì)走路的機(jī)械狗;

還有2個(gè)機(jī)械臂,在8-10小時(shí)實(shí)戰(zhàn)抓取后,表現(xiàn)接近于人類(lèi)水平;

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

以及一個(gè)擁有計(jì)算機(jī)視覺(jué)的小機(jī)器人,在自己摸索2小時(shí)后,能絲滑地滾動(dòng)到指定位置。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

該研究由Pieter Abbeel等人提出,Pieter Abbeel是吳恩達(dá)的第一位博士生,前不久他剛剛獲得2021 ACM 計(jì)算獎(jiǎng)(ACM Prize in Computing)。

目前,該方法的所有軟件基礎(chǔ)架構(gòu)已經(jīng)開(kāi)源。

一個(gè)叫做“空想家”的算法

本文方法的pipeline大致可分為4步:

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

第一步,是先把機(jī)器人放在真實(shí)環(huán)境里,收集數(shù)據(jù)。

第二步,把這些數(shù)據(jù)傳輸?shù)絉eplay Buffer。這一步驟就是利用歷史數(shù)據(jù)進(jìn)行訓(xùn)練、“總結(jié)經(jīng)驗(yàn)”,高效利用收集到的樣本。

第三步,World Model會(huì)對(duì)已有經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),然后“腦補(bǔ)”出策略。

第四步,再用演員評(píng)論家(Actor Critic)算法來(lái)提升策略梯度法的性能。

然后循環(huán)往復(fù),將已經(jīng)提煉出的辦法再使用到機(jī)器人身上,最后達(dá)到一種“自己摸索學(xué)習(xí)”的感覺(jué)。

具體來(lái)看,這里的核心環(huán)節(jié)是World Model

World Models是2018年由DAVID HA等人提出的一種快速無(wú)監(jiān)督學(xué)習(xí)方式,獲得了NIPS 2018的Oral Presentation。

它的核心理念是認(rèn)為人類(lèi)是基于已有經(jīng)驗(yàn),形成了一個(gè)心理世界模型,我們所做的決定和行動(dòng)都是基于這個(gè)內(nèi)部模型。

比如人類(lèi)在打棒球時(shí),做出反應(yīng)的速度遠(yuǎn)比視覺(jué)信息傳達(dá)到大腦中的快,那么在這種情況下還能正確回球的原因,就是因?yàn)榇竽X已經(jīng)做出了本能的預(yù)測(cè)。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

此前,基于World Model這種“腦補(bǔ)”的學(xué)習(xí)方法,谷歌提出了Dreamer這種可擴(kuò)展的強(qiáng)化學(xué)習(xí)方法。

這一次提出的方法是在此基礎(chǔ)上,叫做DayDreamer。

(貌似可以叫做空想家?)

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

具體來(lái)看,World Model就是一個(gè)智能體模型。

它包括一個(gè)視覺(jué)感知組件,能將看到的圖像壓縮成一個(gè)低維的表征向量作為模型輸入。

同時(shí)還有一個(gè)記憶組件,可以基于歷史信息,對(duì)未來(lái)的表征向量做出預(yù)測(cè)。

最后,還包括一個(gè)決策組件,它能基于視覺(jué)感知組件、決策組件的表征向量,決定采取怎樣的動(dòng)作。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

現(xiàn)在,我們回到本次UC伯克利學(xué)者提出的方法。

不難發(fā)現(xiàn),其中World Model Learning部分的邏輯就是一個(gè)經(jīng)驗(yàn)積累的過(guò)程,Behavior Learning部分則是一個(gè)動(dòng)作輸出的過(guò)程。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

本篇論文方法的提出,主要解決了機(jī)器人訓(xùn)練中兩方面的問(wèn)題:

效率和準(zhǔn)確率。

一般來(lái)說(shuō),訓(xùn)練機(jī)器人的常規(guī)方法是強(qiáng)化學(xué)習(xí),通過(guò)反復(fù)實(shí)驗(yàn)來(lái)調(diào)整機(jī)器人的運(yùn)作。

不過(guò)這種方法往往需要非常大量的測(cè)試,才能達(dá)到很好的效果。

不僅效率低下,而且訓(xùn)練需要付出的成本也不低。

后來(lái),不少人提出在模擬器中對(duì)機(jī)器人進(jìn)行訓(xùn)練,可以很好增效降本。

但是本文作者認(rèn)為,模擬器訓(xùn)練方法在準(zhǔn)確性方面的表現(xiàn)還是不夠好,只有真實(shí)的環(huán)境才能讓機(jī)器人達(dá)到最好的效果。

從結(jié)果來(lái)看,在訓(xùn)練機(jī)器狗的過(guò)程中,只花10分鐘時(shí)間,機(jī)器狗就能適應(yīng)自己的行為了。

和SAC方法對(duì)比來(lái)看,效果有明顯提升。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

在機(jī)械臂訓(xùn)練過(guò)程中,這一新方法還克服了視覺(jué)定位和稀疏獎(jiǎng)勵(lì)的挑戰(zhàn),幾小時(shí)內(nèi)的訓(xùn)練成果明顯優(yōu)于其他方法。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

研究團(tuán)隊(duì)

值得一提的是,本次帶來(lái)新成果的研究團(tuán)隊(duì)成員,也非常令人矚目。

其中,Pieter Abbeel是吳恩達(dá)的開(kāi)山大弟子。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

他現(xiàn)在是UC伯克利電氣工程和計(jì)算機(jī)科學(xué)教授,伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室主任,伯克利AI研究院共同主任,曾加入過(guò)OpenAI。

前不久,他還獲得了2021 ACM 計(jì)算獎(jiǎng)(ACM Prize in Computing),以表彰其在機(jī)器人學(xué)習(xí)方面的貢獻(xiàn)。

與此同時(shí),他還是AI機(jī)器人公司Covariant的聯(lián)合創(chuàng)始人。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

另一位Ken Goldberg,也是AI領(lǐng)域的頂級(jí)專(zhuān)家。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

他現(xiàn)在是UC伯克利工程教授,研究方向?yàn)閺?qiáng)化學(xué)習(xí)、人機(jī)交互等。

2005年,他被評(píng)選為IEEE院士。

與此同時(shí),Goldberg還是一位藝術(shù)家,是UC伯克利藝術(shù)、科技文化研討會(huì)的奠基人。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner三人為共同一作。

其中Philipp Wu還只是UC伯克利一位大四的學(xué)生。

One More Thing

在觀看機(jī)械狗訓(xùn)練的視頻時(shí),我們發(fā)現(xiàn)研究人員使用的是Unitree機(jī)械狗。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

這個(gè)品牌來(lái)自中國(guó)企業(yè)宇樹(shù)科技,之前登上過(guò)春晚的機(jī)器小牛,也來(lái)自它家。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

而且,最近宇樹(shù)機(jī)器狗集體進(jìn)行Go1測(cè)試的視頻曝光,還在國(guó)外火了一波。

新出生的機(jī)器狗,打滾1小時(shí)后自己掌握走路,吳恩達(dá)大弟子成果

論文地址:

https://danijar.com/project/daydreamer/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2022-06-06 12:53:17

吳恩達(dá)AI機(jī)器學(xué)習(xí)

2021-04-13 09:25:21

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-06-13 09:05:36

2017-12-15 12:44:02

2021-04-23 10:55:52

人工智能深度學(xué)習(xí)

2025-02-07 15:20:00

AI數(shù)據(jù)訓(xùn)練

2024-09-23 09:00:00

模型訓(xùn)練

2022-07-20 14:59:51

機(jī)器狗算法

2017-03-22 20:18:04

百度人工智能吳恩達(dá)

2020-11-09 08:55:10

Python 開(kāi)發(fā)AI

2019-09-24 08:16:14

Reactor響應(yīng)式編程

2022-02-13 17:27:59

吳恩達(dá)AI小數(shù)據(jù)

2020-12-25 15:34:35

AI 數(shù)據(jù)人工智能

2019-10-21 09:51:20

AI 數(shù)據(jù)人工智能

2022-02-21 13:57:47

人工智能小數(shù)據(jù)機(jī)器學(xué)習(xí)

2017-01-12 15:35:07

人工智能學(xué)習(xí)機(jī)器

2024-08-20 14:28:15

2017-03-22 13:34:42

離職百度吳恩達(dá)

2018-12-14 10:35:54

AI數(shù)據(jù)科技

2022-02-25 14:22:46

攻擊安全網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)