偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="hnb6p"></rt><p id="hnb6p"></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

CMU清華MIT引爆全球首個(gè)Agent無限流，機(jī)器人「007」加班自學(xué)停不下來！具身智能被革命

作者：新智元 2023-11-05 10:08:36

人工智能新聞

最近，由CMU/MIT/清華/Umass提出的全球首個(gè)生成式機(jī)器人智能體RoboGen，可以無限生成數(shù)據(jù)，讓機(jī)器人7*24小時(shí)永不停歇地訓(xùn)練。AIGC for Robotics，果然是未來的方向。

全球首個(gè)生成式機(jī)器人Agent發(fā)布了！

長久以來，相比于語言或者視覺模型可以在大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練，訓(xùn)練機(jī)器人的策略模型需要帶有動(dòng)態(tài)物理交互信息的數(shù)據(jù)，而這些數(shù)據(jù)的匱乏一直是具身智能發(fā)展的最大瓶頸。

最近，來自CMU、清華、MIT，UMass等機(jī)構(gòu)的研究人員提出了一種全新的RoboGen智能體。

利用涵蓋在大語言模型和生成式模型中蘊(yùn)含的大規(guī)模知識(shí)，配以逼真模擬世界提供的物理信息，可以「無限」生成各種任務(wù)、場(chǎng)景以及教學(xué)數(shù)據(jù)，實(shí)現(xiàn)機(jī)器人7x24小時(shí)全自動(dòng)訓(xùn)練。

現(xiàn)在，我們正在迅速耗盡來自網(wǎng)絡(luò)的高質(zhì)量的真實(shí)token。全球訓(xùn)練AI的數(shù)據(jù)，都快不夠用了。

深度學(xué)習(xí)之父Hinton表示，「科技公司們正在未來18個(gè)月內(nèi)，要使用比現(xiàn)在GPT-4多100倍的算力訓(xùn)練新模型」。模型參數(shù)更大，算力需求巨大，然而數(shù)據(jù)在哪里？

面對(duì)饑渴的模型，AI合成就是答案。

論文地址：https://arxiv.org/abs/2311.01455

項(xiàng)目主頁：https://robogen-ai.github.io/

開源地址：https://github.com/Genesis-Embodied-AI

具體來說，由MIT-IBM首席科學(xué)家淦創(chuàng)帶領(lǐng)的研究團(tuán)隊(duì)，在生成式AI和和可微分物理模擬的加持下，提出了一種「提出-生成-學(xué)習(xí)」循環(huán)，讓Agent能夠自己出題自己訓(xùn)練機(jī)器人。

首先，Agent提出，我們要開發(fā)這個(gè)技能。

然后，它會(huì)生成相應(yīng)的環(huán)境、配置和技能學(xué)習(xí)指導(dǎo)，來創(chuàng)建模擬環(huán)境。

最后，Agent會(huì)將提出的上層任務(wù)分解為子任務(wù)，選擇最佳學(xué)習(xí)方法，然后學(xué)習(xí)策略、掌握所提技能。

值得注意的是，整個(gè)過程幾乎都不需要人類的監(jiān)督，而且任務(wù)的數(shù)量，竟然是——無限個(gè)！

對(duì)于這則重磅的研究，英偉達(dá)高級(jí)科學(xué)家Jim Fan也進(jìn)行了轉(zhuǎn)發(fā)。

現(xiàn)在，機(jī)器人已經(jīng)學(xué)會(huì)一系列炸裂操作——

把物品放到儲(chǔ)物柜中：

用微波爐加熱一碗湯：

拉動(dòng)杠桿沖泡咖啡：

以及后空翻等等：

模擬環(huán)境，多樣化技能學(xué)習(xí)的關(guān)鍵

機(jī)器人研究中，長期存在這樣一個(gè)難題：怎樣賦予機(jī)器人多種技能，讓它們?cè)诜枪S環(huán)境中操作，為人類執(zhí)行廣泛的任務(wù)？

近年來，我們教會(huì)了機(jī)器人各種復(fù)雜的技能，比如流體操縱、投擲物體、踢足球、跑酷等等，然而這些技能卻各自為政，視野較短，需要人工設(shè)計(jì)的任務(wù)描述和訓(xùn)練監(jiān)督。

因?yàn)楝F(xiàn)實(shí)世界數(shù)據(jù)收集成本高昂且費(fèi)力，這些技能都是在適當(dāng)領(lǐng)域隨機(jī)化的模擬中訓(xùn)練，然后部署到現(xiàn)實(shí)世界中的。

與現(xiàn)實(shí)世界中的探索和數(shù)據(jù)收集相比，模擬環(huán)境具有許多優(yōu)點(diǎn)，比如提供了低級(jí)狀態(tài)的特權(quán)訪問和無限的探索機(jī)會(huì)；支持大規(guī)模并行計(jì)算，數(shù)據(jù)收集速度顯著加快；允許機(jī)器人開發(fā)閉環(huán)策略和錯(cuò)誤恢復(fù)能力。

然而，構(gòu)建模擬環(huán)境需要一系列繁瑣的任務(wù)（設(shè)計(jì)任務(wù)、選擇相關(guān)且語義上有意義的資產(chǎn)、生成合理的場(chǎng)景布局和配置、制定獎(jiǎng)勵(lì)或損失函數(shù)等訓(xùn)練監(jiān)督）。即使在模擬世界中，也極大限制了機(jī)器人技能學(xué)習(xí)的可擴(kuò)展性。

因此，研究者提出一種「生成模擬」范式，將模擬機(jī)器人技能學(xué)習(xí)的進(jìn)步與基礎(chǔ)和生成模型的最新進(jìn)展結(jié)合起來。

利用最先進(jìn)的基礎(chǔ)模型的生成能力，生成模擬可以為模擬中各種機(jī)器人技能學(xué)習(xí)所需的所有階段生成信息。

得益于最新基礎(chǔ)模型中全面的編碼知識(shí)，以這種方式生成的場(chǎng)景和任務(wù)數(shù)據(jù)，可能與現(xiàn)實(shí)世界場(chǎng)景的分布非常相似。

此外，這些模型可以進(jìn)一步提供分解的低級(jí)子任務(wù)，這些子任務(wù)可以通過特定領(lǐng)域的策略學(xué)習(xí)方法無縫處理，從而產(chǎn)生各種技能和場(chǎng)景的閉環(huán)演示。

RoboGen流程

RoboGen是一種全自動(dòng)流程，可以7x24h地讓機(jī)器人學(xué)習(xí)各種技能，其中包括4個(gè)階段：

1. 任務(wù)建議；

2. 場(chǎng)景生成；

3. 訓(xùn)練監(jiān)督生成；

4. 利用生成的信息進(jìn)行技能學(xué)習(xí)。

利用最新基礎(chǔ)模型的嵌入式常識(shí)和生成功能，RoboGen可以自動(dòng)生成任務(wù)、場(chǎng)景和訓(xùn)練監(jiān)督，從而讓機(jī)器人的多種技能學(xué)習(xí)實(shí)現(xiàn)規(guī)?；?/span>

任務(wù)建議

在這一階段，RoboGen能夠提出上層任務(wù)，生成相應(yīng)的環(huán)境，將上層目標(biāo)分解為底層子任務(wù)，然后按順序?qū)W習(xí)子技能。

首先，RoboGen會(huì)生成有意義的、多樣化的、高水平的任務(wù)，供機(jī)器人學(xué)習(xí)。

研究者使用特定的機(jī)器人類型和從池中隨機(jī)采樣的對(duì)象，來初始化系統(tǒng)。然后將提供的機(jī)器人和采樣對(duì)象信息輸入LLM。

這種采樣過程，就確保了生成任務(wù)的多樣性。

比如，四足機(jī)器人等腿式機(jī)器人能夠獲得多種運(yùn)動(dòng)技能，而機(jī)械臂操縱器在配對(duì)時(shí)，有可能執(zhí)行多種操縱任務(wù)與不同的采樣對(duì)象。

研究者使用GPT-4在當(dāng)前的流程中進(jìn)行查詢。隨后在機(jī)械的背景下解釋 RoboGen的詳細(xì)信息，以及與對(duì)象操作相關(guān)的任務(wù)。

用于初始化的對(duì)象是從預(yù)定義的列表中采樣的，包括家庭場(chǎng)景中常見的鉸接式和非鉸接式對(duì)象，例如烤箱、微波爐、飲水機(jī)、筆記本電腦、洗碗機(jī)等。

因?yàn)镚PT-4接受過大量互聯(lián)網(wǎng)數(shù)據(jù)集的培訓(xùn)，所以它對(duì)這些對(duì)象的可供性、如何與它們交互、它們可以與哪些有意義的任務(wù)相關(guān)聯(lián)，都有著豐富的理解。

比如，假設(shè)采樣的鉸接物體是微波爐，其中關(guān)節(jié)0是連接門的旋轉(zhuǎn)關(guān)節(jié)，關(guān)節(jié)1是控制計(jì)時(shí)器旋鈕的另一個(gè)旋轉(zhuǎn)關(guān)節(jié)，GPT-4會(huì)返回一個(gè)任務(wù)——「機(jī)器人手臂將一碗湯放入微波爐內(nèi)，關(guān)上門并設(shè)置微波爐計(jì)時(shí)器，適當(dāng)加熱時(shí)間a」。

生成的任務(wù)所需的其他對(duì)象，有一碗湯a，以及與任務(wù)相關(guān)的關(guān)節(jié)和鏈接，包括關(guān)節(jié)0（用于打開微波爐門）、關(guān)節(jié)1（用于設(shè)置定時(shí)器）、鏈接0（門）和鏈接1（定時(shí)器旋鈕）。

對(duì)于鉸接物體，由于PartNetMobility是唯一高質(zhì)量的鉸接物體數(shù)據(jù)集，并且已經(jīng)涵蓋了各種鉸接資產(chǎn)，因此將根據(jù)采樣資產(chǎn)生成任務(wù)。

通過重復(fù)查詢不同的采樣對(duì)象和示例，可以生成各種操作和運(yùn)動(dòng)任務(wù)。

場(chǎng)景生成

給定一個(gè)任務(wù)，就可以繼續(xù)生成相應(yīng)的模擬場(chǎng)景，以學(xué)習(xí)完成該任務(wù)的技能。

如圖所示，根據(jù)任務(wù)描述生成場(chǎng)景組件和配置，并檢索或生成對(duì)象資產(chǎn)，隨后填充模擬場(chǎng)景。

場(chǎng)景組件和配置由以下元素組成: 對(duì)要填充到場(chǎng)景中的相關(guān)資產(chǎn)的查詢、其物理參數(shù)(例如大小)、配置 (例如初始關(guān)節(jié)角度) 以及資產(chǎn)的整體空間配置。

除了上一步中生成的任務(wù)所需的必要對(duì)象資產(chǎn)之外，為了增加生成場(chǎng)景的復(fù)雜性和多樣性，同時(shí)類似于真實(shí)場(chǎng)景的對(duì)象分布，研究者還讓GPT-4返回與任務(wù)語義相關(guān)對(duì)象的附加查詢。

比如，對(duì)于任務(wù)「打開柜子，將玩具放入其中，然后關(guān)上它」，生成的場(chǎng)景還會(huì)包括客廳墊子、臺(tái)燈、一本書和一把辦公椅。

訓(xùn)練監(jiān)督生成

為了獲得相關(guān)技能，就需要對(duì)技能學(xué)習(xí)進(jìn)行監(jiān)督。

RoboGen會(huì)首先查詢GPT-4，來把長任務(wù)規(guī)劃和分解為較短范圍的子任務(wù)。

一個(gè)關(guān)鍵假設(shè)是，當(dāng)任務(wù)被分解為足夠短的子任務(wù)時(shí)，每個(gè)子任務(wù)都可以通過強(qiáng)化學(xué)習(xí)、運(yùn)動(dòng)規(guī)劃、軌跡優(yōu)化等現(xiàn)有算法可靠地解決。

分解后，RoboGen會(huì)查詢GPT-4，選擇合適的算法來解決每個(gè)子任務(wù)。

RoboGen中集成了幾種不同類型的學(xué)習(xí)算法: 強(qiáng)化學(xué)習(xí)、進(jìn)化策略、基于梯度的軌跡優(yōu)化、帶有運(yùn)動(dòng)規(guī)劃的動(dòng)作初始化。

每一種都適合不同的任務(wù)，例如基于梯度的軌跡優(yōu)化更適合學(xué)習(xí)涉及軟體的細(xì)粒度操作任務(wù)，比如將面團(tuán)塑造成目標(biāo)形狀。

與運(yùn)動(dòng)規(guī)劃相結(jié)合的動(dòng)作初始化在解決任務(wù)時(shí)更加可靠，例如通過無碰撞路徑接近目標(biāo)對(duì)象。

強(qiáng)化學(xué)習(xí)和進(jìn)化策略更適合接觸豐富、涉及與其他場(chǎng)景組件持續(xù)交互的任務(wù)，例如腿部運(yùn)動(dòng)，或者當(dāng)所需的動(dòng)作不能簡單地通過離散的末端執(zhí)行器姿勢(shì)參數(shù)化時(shí)，比如轉(zhuǎn)動(dòng)一個(gè)烤箱的旋鈕。

總之，GPT-4會(huì)根據(jù)生成的子任務(wù)，在線選擇使用哪種算法。

接下來，就可以為機(jī)器人構(gòu)建模擬場(chǎng)景，讓它們學(xué)習(xí)技能了。

機(jī)器人學(xué)會(huì)開保險(xiǎn)箱

舉個(gè)例子，RoboGen會(huì)讓機(jī)器人去學(xué)習(xí)調(diào)整臺(tái)燈方向這種非常精巧的任務(wù)。

有趣的是，在這個(gè)場(chǎng)景里，地面上竟然還放著像是電腦顯示器這樣的易碎物。

可以說，非?？简?yàn)機(jī)器人的環(huán)境識(shí)別能力了。

對(duì)此，RoboGen會(huì)生成非常詳盡的操作代碼，包括場(chǎng)景配置、任務(wù)分解和監(jiān)督：

此外，還會(huì)訓(xùn)練一些需要執(zhí)行很多步驟才能完成的任務(wù)，比如讓機(jī)器人把保險(xiǎn)箱里的東西取出來。

這里就涉及到開門，取物，放下，關(guān)門等操作，期間還需要盡量避免與家具產(chǎn)生碰撞。

RoboGen給出的代碼如下：

或者，諸如讓波士頓動(dòng)力的人形機(jī)器人原地轉(zhuǎn)個(gè)圈，這種在狹小空間中可能會(huì)遇到情景。

代碼如下：

實(shí)驗(yàn)結(jié)果

- 任務(wù)多樣性

如表1所示，與之前的所有基準(zhǔn)相比，RoboGen實(shí)現(xiàn)了最低的Self-BLEU和嵌入相似度。也就是說，RoboGen生成任務(wù)的多樣性，比人工制作的技能學(xué)習(xí)基準(zhǔn)和數(shù)據(jù)集還要高！

- 場(chǎng)景有效性

如圖4所示，取消大小驗(yàn)證會(huì)導(dǎo)致BLIP-2分?jǐn)?shù)急劇下降，這是因?yàn)镺bjaverse和PartNetMobility中的物體尺寸，與現(xiàn)實(shí)世界的實(shí)際尺寸之間存在著巨大差異。此外，沒有對(duì)象驗(yàn)證的BLIP-2得分也較低，而且方差更大。

相比之下，RoboGen中的驗(yàn)證步驟，可以顯著提高對(duì)象選擇的有效性。

- 訓(xùn)練指導(dǎo)有效性

如圖3所示，機(jī)器人在4個(gè)長程任務(wù)中，基于RoboGen生成的訓(xùn)練指導(dǎo)（即任務(wù)分解和獎(jiǎng)勵(lì)函數(shù)）學(xué)習(xí)到的技能。

結(jié)果表明，機(jī)器人成功學(xué)習(xí)到了完成相應(yīng)任務(wù)的技能。也就是說，自動(dòng)生成的訓(xùn)練指導(dǎo)能有效衍生出有意義且有用的技能。

- 技能學(xué)習(xí)

表2的結(jié)果顯示，允許選擇學(xué)習(xí)算法有利于提高完成任務(wù)的性能。如果只使用RL，大多數(shù)任務(wù)的技能學(xué)習(xí)都會(huì)失敗。

- 系統(tǒng)

如圖1所示，RoboGen可以生成各種任務(wù)，用于技能學(xué)習(xí)，包括剛性/關(guān)節(jié)物體操作、運(yùn)動(dòng)和軟體操作。

而圖3進(jìn)一步表明，RoboGen能夠以合理的分解方式提供長程操作技能。

作者介紹

Yufei Wang是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所三年級(jí)的博士生，導(dǎo)師是Zackory Erickson教授和David Held教授，研究興趣是機(jī)器人學(xué)習(xí)。

此前，他于2020年12月在CMU獲得了計(jì)算機(jī)科學(xué)碩士學(xué)位，導(dǎo)師是David Held教授，于2019年7月在北京大學(xué)元培學(xué)院獲得了數(shù)據(jù)科學(xué)學(xué)士學(xué)位，導(dǎo)師是Bin Dong教授。

Zhou Xian是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所的一名博士生，導(dǎo)師是Katerina Fragkiadaki。研究興趣是機(jī)器人、計(jì)算機(jī)視覺和世界模型學(xué)習(xí)。

在進(jìn)入CMU之前，他在新加坡南洋理工大學(xué)完成了學(xué)士學(xué)位，師從Pham Quang Cuong和I-Ming Chen。并曾在Meta AI、Akshara Rai，以及MIT-IBM AI Lab實(shí)習(xí)，導(dǎo)師是Chuang Gan。

目前，他的研究重點(diǎn)是為可擴(kuò)展的機(jī)器人學(xué)習(xí)構(gòu)建統(tǒng)一的神經(jīng)策略和仿真基礎(chǔ)設(shè)施。

此外，共同一作還有清華姚班的陳楓。

團(tuán)隊(duì)負(fù)責(zé)人淦創(chuàng)，現(xiàn)任IBM首席科學(xué)家和麻省大學(xué)助理教授，是姚期智院士的弟子。在博士期間曾獲得清華特獎(jiǎng)，微軟學(xué)者，百度學(xué)者。他的研究同時(shí)得到了Amazon Research Award，Sony Faculty Award，Cisco Faculty Award，Microsoft Accelerate Foundation Models Research Program等資助。

責(zé)任編輯：張燕妮來源：新智元

AI 機(jī)器人

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="oben3"></style>