偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達(dá)團(tuán)隊機(jī)器訓(xùn)練新方法!僅5次演示讓機(jī)器生成1000個新demo,李飛飛高徒與徒孫聯(lián)手出品

人工智能 新聞
英偉達(dá)實(shí)驗(yàn)室,提出了機(jī)器人訓(xùn)練數(shù)據(jù)缺乏問題的新解決方案——DexMimicGen。

人類只需要演示五次,就能讓機(jī)器人學(xué)會一項復(fù)雜技能。

英偉達(dá)實(shí)驗(yàn)室,提出了機(jī)器人訓(xùn)練數(shù)據(jù)缺乏問題的新解決方案——DexMimicGen

五次演示之后,DexMimicGen就可以直接模仿出1000個新的demo。

圖片

而且可用性強(qiáng),用這些新demo訓(xùn)練出的機(jī)器人,在仿真環(huán)境中的任務(wù)成功率可以高達(dá)97%,比用真人數(shù)據(jù)效果還要好。

圖片

參與此項目的英偉達(dá)科學(xué)家范麟熙(Jim Fan)認(rèn)為,這種用機(jī)器訓(xùn)練機(jī)器的方式,解決了機(jī)器人領(lǐng)域最大的痛點(diǎn)(指數(shù)據(jù)收集)

同時,Jim Fan還預(yù)言:

機(jī)器人數(shù)據(jù)的未來是生成式的,整個機(jī)器人學(xué)習(xí)流程的未來也將是生成式的。

圖片

值得一提的是,DexMimicGen三名共同一作都是李飛飛的“徒孫”,具體說是德克薩斯大學(xué)奧斯汀分校(UT奧斯汀)助理教授朱玉可(Yuke Zhu)的學(xué)生。

而且三人均為華人,目前都在英偉達(dá)研究院實(shí)習(xí)。

圖片

5次演示,生成1000條數(shù)據(jù)

如前所述,DexMimicGen可以僅根據(jù)人類的5次演示,生成1000個新DEMO。

在整個實(shí)驗(yàn)中,作者設(shè)置了9個場景,涵蓋了3種機(jī)器人形態(tài),共進(jìn)行了60次演示,獲得了21000多個生成DEMO。

在仿真環(huán)境當(dāng)中,用DexMimicGen生成數(shù)據(jù)訓(xùn)練出的策略執(zhí)行整理抽屜這一任務(wù),成功率可達(dá)76%,而單純使用人工數(shù)據(jù)只有0.7%。

圖片

對于積木組裝任務(wù),成功率也從3.3%提升到了80.7%。

圖片

成功率最高的任務(wù)是罐子分類,更是高達(dá)97.3%,只用人工數(shù)據(jù)的成功率同樣只有0.7%。

圖片

整體來看,在仿真環(huán)境中,生成數(shù)據(jù)讓機(jī)器人在作者設(shè)計的九類任務(wù)上的成功率均明顯增加。

圖片

相比于baseline方法,用DexMimicGen生成的數(shù)據(jù)也更為有效。

圖片

遷移到真實(shí)環(huán)境之后,作者測試了易拉罐分揀的任務(wù),結(jié)果僅用了40個生成DEMO,成功率就達(dá)到了90%,而不使用生成數(shù)據(jù)時的成功率為零。

圖片

除此之外,DexMimicGen還展現(xiàn)了跨任務(wù)的泛化能力,使訓(xùn)練出的策略在各種不同任務(wù)上表現(xiàn)良好。

針對初始狀態(tài)分布變化,DexMimicGen也體現(xiàn)出了較強(qiáng)的魯棒性,在更廣泛的初始狀態(tài)分布D1和D2上測試時,仍然能夠擁有一定的成功率。

圖片

將仿真方法遷移到現(xiàn)實(shí)

DexMimicGen是由MimicGen改造而成,MimicGen也出自英偉達(dá)和UT奧斯汀的聯(lián)合團(tuán)隊。

朱玉可和范麟熙都參與過MimicGen的工作,該成果發(fā)表于CoRL 2023。

MimicGen的核心思想,是將人類示范數(shù)據(jù)分割成以目標(biāo)物體為中心的片段,然后通過變換物體相對位置和姿態(tài),在新環(huán)境中復(fù)現(xiàn)人類示范軌跡,從而實(shí)現(xiàn)自動化數(shù)據(jù)生成。

DexMimicGen則在MimicGen系統(tǒng)的基礎(chǔ)上,針對雙臂機(jī)器人靈巧操作任務(wù)做了改進(jìn)和擴(kuò)展,具體包括幾個方面:

  • 引入并行、協(xié)調(diào)、順序三種子任務(wù)類型,以適應(yīng)雙臂靈巧操作任務(wù)的需求;
  • 對應(yīng)三種子任務(wù)類型,設(shè)計了異步執(zhí)行、同步執(zhí)行和順序約束等機(jī)制,以實(shí)現(xiàn)雙臂的獨(dú)立動作、精密協(xié)同和特定順序操作;
  • 實(shí)現(xiàn)了“現(xiàn)實(shí)-模擬-現(xiàn)實(shí)”的框架,通過構(gòu)建數(shù)字孿生,將DexMimicGen拓展到了實(shí)際機(jī)器人系統(tǒng)的應(yīng)用。

圖片

工作流程上,DexMimicGen會首先對人類示范進(jìn)行采集和分割。

研究人員通過佩戴XR頭顯,遠(yuǎn)程控制機(jī)器人完成目標(biāo)任務(wù),在這一過程中就會產(chǎn)生一小批示范數(shù)據(jù),作者針對每個任務(wù)采集了5~10個人類示范樣本。

這些人類示范樣本會按照并行、協(xié)調(diào)、順序三種子任務(wù)定義被切分成片段——

  • 并行子任務(wù)允許兩臂獨(dú)立執(zhí)行;
  • 協(xié)調(diào)子任務(wù)要求兩臂在關(guān)鍵時刻同步動作;
  • 順序子任務(wù)則規(guī)定了某些子任務(wù)必須在另一些子任務(wù)完成后才能執(zhí)行。

總之,在示范數(shù)據(jù)被切分后,機(jī)器人的每個手臂會得到自己對應(yīng)的片段集合。

圖片

在數(shù)據(jù)生成開始時,DexMimicGen隨機(jī)化模擬環(huán)境中物體的位置、姿態(tài)等數(shù)據(jù),并隨機(jī)選擇一個人類示范作為參考。

對于當(dāng)前子任務(wù),DexMimicGen會計算示范片段與當(dāng)前環(huán)境中關(guān)鍵物體位置和姿態(tài)的變換。

之后用該變換對參考片段中的機(jī)器人動作軌跡進(jìn)行處理,以使執(zhí)行這一變換后的軌跡能夠與新環(huán)境中物體位置匹配。

生成變換后,DexMimicGen會維護(hù)每個手臂的動作隊列,手指關(guān)節(jié)的運(yùn)動則直接重放示范數(shù)據(jù)中的動作。

在整個過程中,系統(tǒng)不斷檢查任務(wù)是否成功完成,如果一次執(zhí)行成功完成了任務(wù),則將執(zhí)行過程記錄下來作為有效的演示數(shù)據(jù),失敗則將數(shù)據(jù)丟棄。

之后就是將生成過程不斷迭代,直到獲得足夠量的演示數(shù)據(jù)。

收集好數(shù)據(jù)后,作者用DexMimicGen生成的演示數(shù)據(jù)訓(xùn)練模仿學(xué)習(xí)策略,策略的輸入為RGB相機(jī)圖像,輸出為機(jī)器人動作。

最后是模擬到現(xiàn)實(shí)的遷移,同樣地,作者使用DexMimicGen在數(shù)字孿生環(huán)境中生成的大規(guī)模演示數(shù)據(jù),訓(xùn)練模仿學(xué)習(xí)策略。

之后作者對在數(shù)字孿生環(huán)境中評估訓(xùn)練得到的策略進(jìn)行調(diào)優(yōu),以提高其泛化性能和魯棒性,并遷移到實(shí)際機(jī)器人系統(tǒng)中。

圖片

作者簡介

DexMimicGen的共同一作有三人,都是UT奧斯汀的華人學(xué)生。

并且三人均出自李飛飛的學(xué)生、浙大校友朱玉可(Yuke Zhu)助理教授門下,他們分別是:

  • 博士生Zhenyu Jiang,本科就讀于清華,2020年進(jìn)入UT奧斯汀,預(yù)計將于明年畢業(yè);
  • 碩士生Yuqi Xie(謝雨齊),本科是上海交大和美國密歇根大學(xué)聯(lián)培,預(yù)計畢業(yè)時間也是明年;
  • 博士生Kevin Lin,本科和碩士分別就讀于UC伯克利和斯坦福,今年加入朱玉可課題組讀博。

朱玉可的另一重身份是英偉達(dá)的研究科學(xué)家,團(tuán)隊的另外兩名負(fù)責(zé)人也都在英偉達(dá)。

他們分別是Ajay Mandlekar和范麟熙(Jim Fan),也都是李飛飛的學(xué)生,Mandlekar是整個DexMimicGen項目組中唯一的非華人。

另外,Zhenjia Xu和Weikang Wan兩名華人學(xué)者對此項目亦有貢獻(xiàn),整個團(tuán)隊的分工如下:

圖片

△中文為機(jī)翻,僅供參考

項目主頁:https://dexmimicgen.github.io/
論文地址:https://arxiv.org/abs/2410.24185

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2017-12-05 17:06:11

機(jī)器人

2024-11-11 08:30:00

2024-11-22 14:24:24

機(jī)器人AI

2024-09-03 14:30:00

機(jī)器人模型

2022-05-26 10:57:51

機(jī)器人人工智能

2021-08-27 10:04:53

機(jī)器人

2021-07-06 10:37:37

模型人工智能深度學(xué)習(xí)

2019-04-28 09:17:20

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2024-09-03 14:10:00

模型測試

2023-11-10 12:58:00

模型數(shù)據(jù)

2022-07-14 14:54:00

特斯拉AI自動駕駛

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2023-10-25 09:19:00

AI訓(xùn)練

2025-02-28 09:15:00

2024-04-08 12:18:57

訓(xùn)練AI

2020-11-03 10:25:39

AI 機(jī)器學(xué)習(xí)人工智能

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡(luò)AI算法

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-01-23 10:08:00

虛擬數(shù)字AI

2025-03-12 08:54:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號