偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

作者：明敏 2022-06-30 17:53:56

人工智能新聞

這是UC伯克利大學(xué)帶來(lái)的最新成果，讓機(jī)器人直接在實(shí)際環(huán)境中訓(xùn)練學(xué)習(xí)，不再依賴(lài)于模擬器。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

現(xiàn)在，讓機(jī)械狗自己打滾一個(gè)小時(shí)，它就能學(xué)會(huì)走路了！

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

步態(tài)看著相當(dāng)有模有樣：

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

還能扛住大棍子的一通狂懟：

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

就算是摔了個(gè)四仰八叉，翻個(gè)身自己又站起來(lái)了：

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

如此看來(lái)，訓(xùn)機(jī)械狗和普通訓(xùn)狗真是要沒(méi)什么兩樣了啊。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

這就是UC伯克利大學(xué)帶來(lái)的最新成果，讓機(jī)器人直接在實(shí)際環(huán)境中訓(xùn)練學(xué)習(xí)，不再依賴(lài)于模擬器。

應(yīng)用這一方法，研究人員在短時(shí)間內(nèi)訓(xùn)練出了4個(gè)機(jī)器人。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

比如開(kāi)頭看到的1小時(shí)學(xué)會(huì)走路的機(jī)械狗；

還有2個(gè)機(jī)械臂，在8-10小時(shí)實(shí)戰(zhàn)抓取后，表現(xiàn)接近于人類(lèi)水平；

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

以及一個(gè)擁有計(jì)算機(jī)視覺(jué)的小機(jī)器人，在自己摸索2小時(shí)后，能絲滑地滾動(dòng)到指定位置。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

該研究由Pieter Abbeel等人提出，Pieter Abbeel是吳恩達(dá)的第一位博士生，前不久他剛剛獲得2021 ACM 計(jì)算獎(jiǎng)（ACM Prize in Computing）。

目前，該方法的所有軟件基礎(chǔ)架構(gòu)已經(jīng)開(kāi)源。

一個(gè)叫做“空想家”的算法

本文方法的pipeline大致可分為4步：

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

第一步，是先把機(jī)器人放在真實(shí)環(huán)境里，收集數(shù)據(jù)。

第二步，把這些數(shù)據(jù)傳輸?shù)絉eplay Buffer。這一步驟就是利用歷史數(shù)據(jù)進(jìn)行訓(xùn)練、“總結(jié)經(jīng)驗(yàn)”，高效利用收集到的樣本。

第三步，World Model會(huì)對(duì)已有經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)，然后“腦補(bǔ)”出策略。

第四步，再用演員評(píng)論家（Actor Critic）算法來(lái)提升策略梯度法的性能。

然后循環(huán)往復(fù)，將已經(jīng)提煉出的辦法再使用到機(jī)器人身上，最后達(dá)到一種“自己摸索學(xué)習(xí)”的感覺(jué)。

具體來(lái)看，這里的核心環(huán)節(jié)是World Model。

World Models是2018年由DAVID HA等人提出的一種快速無(wú)監(jiān)督學(xué)習(xí)方式，獲得了NIPS 2018的Oral Presentation。

它的核心理念是認(rèn)為人類(lèi)是基于已有經(jīng)驗(yàn)，形成了一個(gè)心理世界模型，我們所做的決定和行動(dòng)都是基于這個(gè)內(nèi)部模型。

比如人類(lèi)在打棒球時(shí)，做出反應(yīng)的速度遠(yuǎn)比視覺(jué)信息傳達(dá)到大腦中的快，那么在這種情況下還能正確回球的原因，就是因?yàn)榇竽X已經(jīng)做出了本能的預(yù)測(cè)。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

此前，基于World Model這種“腦補(bǔ)”的學(xué)習(xí)方法，谷歌提出了Dreamer這種可擴(kuò)展的強(qiáng)化學(xué)習(xí)方法。

這一次提出的方法是在此基礎(chǔ)上，叫做DayDreamer。

（貌似可以叫做空想家？）

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

具體來(lái)看，World Model就是一個(gè)智能體模型。

它包括一個(gè)視覺(jué)感知組件，能將看到的圖像壓縮成一個(gè)低維的表征向量作為模型輸入。

同時(shí)還有一個(gè)記憶組件，可以基于歷史信息，對(duì)未來(lái)的表征向量做出預(yù)測(cè)。

最后，還包括一個(gè)決策組件，它能基于視覺(jué)感知組件、決策組件的表征向量，決定采取怎樣的動(dòng)作。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

現(xiàn)在，我們回到本次UC伯克利學(xué)者提出的方法。

不難發(fā)現(xiàn)，其中World Model Learning部分的邏輯就是一個(gè)經(jīng)驗(yàn)積累的過(guò)程，Behavior Learning部分則是一個(gè)動(dòng)作輸出的過(guò)程。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

本篇論文方法的提出，主要解決了機(jī)器人訓(xùn)練中兩方面的問(wèn)題：

效率和準(zhǔn)確率。

一般來(lái)說(shuō)，訓(xùn)練機(jī)器人的常規(guī)方法是強(qiáng)化學(xué)習(xí)，通過(guò)反復(fù)實(shí)驗(yàn)來(lái)調(diào)整機(jī)器人的運(yùn)作。

不過(guò)這種方法往往需要非常大量的測(cè)試，才能達(dá)到很好的效果。

不僅效率低下，而且訓(xùn)練需要付出的成本也不低。

后來(lái)，不少人提出在模擬器中對(duì)機(jī)器人進(jìn)行訓(xùn)練，可以很好增效降本。

但是本文作者認(rèn)為，模擬器訓(xùn)練方法在準(zhǔn)確性方面的表現(xiàn)還是不夠好，只有真實(shí)的環(huán)境才能讓機(jī)器人達(dá)到最好的效果。

從結(jié)果來(lái)看，在訓(xùn)練機(jī)器狗的過(guò)程中，只花10分鐘時(shí)間，機(jī)器狗就能適應(yīng)自己的行為了。

和SAC方法對(duì)比來(lái)看，效果有明顯提升。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

在機(jī)械臂訓(xùn)練過(guò)程中，這一新方法還克服了視覺(jué)定位和稀疏獎(jiǎng)勵(lì)的挑戰(zhàn)，幾小時(shí)內(nèi)的訓(xùn)練成果明顯優(yōu)于其他方法。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

研究團(tuán)隊(duì)

值得一提的是，本次帶來(lái)新成果的研究團(tuán)隊(duì)成員，也非常令人矚目。

其中，Pieter Abbeel是吳恩達(dá)的開(kāi)山大弟子。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

他現(xiàn)在是UC伯克利電氣工程和計(jì)算機(jī)科學(xué)教授，伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室主任，伯克利AI研究院共同主任，曾加入過(guò)OpenAI。

前不久，他還獲得了2021 ACM 計(jì)算獎(jiǎng)（ACM Prize in Computing），以表彰其在機(jī)器人學(xué)習(xí)方面的貢獻(xiàn)。

與此同時(shí)，他還是AI機(jī)器人公司Covariant的聯(lián)合創(chuàng)始人。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

另一位Ken Goldberg，也是AI領(lǐng)域的頂級(jí)專(zhuān)家。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

他現(xiàn)在是UC伯克利工程教授，研究方向?yàn)閺?qiáng)化學(xué)習(xí)、人機(jī)交互等。

2005年，他被評(píng)選為IEEE院士。

與此同時(shí)，Goldberg還是一位藝術(shù)家，是UC伯克利藝術(shù)、科技文化研討會(huì)的奠基人。

此外，Philipp Wu、Alejandro Escontrela、Danijar Hafner三人為共同一作。

其中Philipp Wu還只是UC伯克利一位大四的學(xué)生。

One More Thing

在觀看機(jī)械狗訓(xùn)練的視頻時(shí)，我們發(fā)現(xiàn)研究人員使用的是Unitree機(jī)械狗。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

這個(gè)品牌來(lái)自中國(guó)企業(yè)宇樹(shù)科技，之前登上過(guò)春晚的機(jī)器小牛，也來(lái)自它家。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

而且，最近宇樹(shù)機(jī)器狗集體進(jìn)行Go1測(cè)試的視頻曝光，還在國(guó)外火了一波。

新出生的機(jī)器狗，打滾1小時(shí)后自己掌握走路，吳恩達(dá)大弟子成果

論文地址：

https://danijar.com/project/daydreamer/

責(zé)任編輯：張燕妮來(lái)源：量子位

機(jī)器狗智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="8djvg"><p id="8djvg"></p></sub>