戴著VR頭盔教機器人抓握,機器人當場就學(xué)會了
近年來,機器人領(lǐng)域涌現(xiàn)出許多有趣的進展,比如機器狗會跳舞,?會踢足球?,?雙足機器人搬東西?。通常這些機器人都依賴于根據(jù)感官輸入生成控制策略。盡管這種方法避免了開發(fā)狀態(tài)估計模塊、建模對象屬性和調(diào)整控制器增益方面的挑戰(zhàn),但需要大量的領(lǐng)域?qū)I(yè)知識。即使取得了諸多進展,但學(xué)習(xí)瓶頸讓機器人難以執(zhí)行任意任務(wù),無法實現(xiàn)通用的目標。
要了解機器人學(xué)習(xí)的關(guān)鍵,一個核心的問題是:我們?nèi)绾问占瘷C器人的訓(xùn)練數(shù)據(jù)?一種方法是通過自監(jiān)督的數(shù)據(jù)收集策略收集有關(guān)機器人的數(shù)據(jù)。雖然這種方法比較穩(wěn)健,但即使對于相對簡單的操作任務(wù),通常也需要數(shù)千小時與真實世界交互的大量數(shù)據(jù)。另一種是在模擬數(shù)據(jù)上進行訓(xùn)練,然后遷移到真實機器人(Sim2Real)。這允許機器人以快幾個數(shù)量級的速度學(xué)習(xí)復(fù)雜的機器人行為。然而,設(shè)置模擬機器人環(huán)境和指定模擬器參數(shù)通常需要廣泛的領(lǐng)域?qū)I(yè)知識。
實際上還有第三種方法,收集訓(xùn)練數(shù)據(jù)還可以要求人類教師提供演示,然后訓(xùn)練機器人快速模仿人類的演示。這種模仿方法最近在各種具有挑戰(zhàn)性的操作問題中顯示出巨大的潛力。然而,這些工作中的大多數(shù)都存在一個根本性的限制——為機器人收集高質(zhì)量的演示數(shù)據(jù)是很困難的。
基于上述問題,來自紐約大學(xué)和 Meta AI 的研究者提出了 HOLO-DEX,這是一個收集演示數(shù)據(jù)和訓(xùn)練靈巧機器人的新框架。它使用 VR 頭顯(例如 Quest 2)將人類教師置于身臨其境的虛擬世界中。在這個虛擬世界中,教師可以從機器人的眼睛中查看機器人「看到」的場景,并通過內(nèi)置的姿勢檢測器控制 Allegro 機械手。
看起來就像是人「手把手」教機器人做動作:
HOLODEX 允許人類通過低延遲的觀察反饋系統(tǒng)為機器人無縫提供高質(zhì)量的演示數(shù)據(jù),它有以下三個優(yōu)點:
- 與自監(jiān)督的數(shù)據(jù)收集方法相比,HOLODEX 基于強大的模仿學(xué)習(xí)技術(shù),可以在沒有獎勵機制的情況下快速訓(xùn)練;
- 與 Sim2Real 方法相比,學(xué)得的策略可以直接在真實機器人上執(zhí)行,因為它們是在真實數(shù)據(jù)上訓(xùn)練的;
- 與其他模仿方法相比,HOLODEX 顯著減少了對領(lǐng)域?qū)I(yè)知識的要求,只需要人們操作 VR 設(shè)備。
論文鏈接:https://arxiv.org/pdf/2210.06463.pdf
項目鏈接:https://holo-dex.github.io/
代碼鏈接:https://github.com/SridharPandian/Holo-Dex
為了評估 HOLO-DEX 的性能,該研究在六個需要靈巧操作的任務(wù)上進行了實驗,包括手持物體、單手擰開瓶蓋等。該研究發(fā)現(xiàn)人類教師使用 HOLO-DEX 可以比單圖像遙操作(teleoperation)的先前工作快 1.8 倍。在 4/6 任務(wù)上,HOLO-DEX 學(xué)習(xí)策略的成功率超過了 90%。此外,該研究還發(fā)現(xiàn)通過 HOLO-DEX 學(xué)得的靈巧策略可以泛化到新的、未見過的目標對象上。
總的來說,該研究的貢獻包括:
- 提供了一種借助 VR 頭顯讓人類教師在混合現(xiàn)實中實現(xiàn)高質(zhì)量遙操作的方法;
- 實驗表明,HOLO-DEX 收集的演示可用于訓(xùn)練有效且通用的靈巧操作行為;
- 該研究還對所提方法中的各種決策進行了分析和消融實驗,以驗證每一個關(guān)鍵設(shè)計的效用。
此外,與 HOLO-DEX 相關(guān)的混合現(xiàn)實 API、研究收集的演示和訓(xùn)練代碼均已開源:https://holo-dex.github.io/
HOLO-DEX 架構(gòu)概覽
如下圖 1 所示,HOLO-DEX 分兩個階段運行。在第一階段,人類教師使用虛擬現(xiàn)實 (VR) 頭顯向機器人提供演示。這個階段包括創(chuàng)建一個用于教學(xué)的虛擬世界、估計(estimate)教師的手部姿勢、將教師的手部姿勢重定位到機械手上,最后控制機器人的手部。在第一階段收集了一些演示之后,HOLO-DEX 的第二階段學(xué)習(xí)視覺策略來解決演示的任務(wù)。
該研究使用 Meta Quest 2 VR 頭顯將人類教師置于虛擬世界中,分辨率是 1832 × 1920,刷新率是 72 Hz。這款頭顯的基礎(chǔ)版售價為 399 美元,相對較輕,只有 503 克,這讓教師的演示操作更輕松舒適。更重要的是,Quest 2 的 API 接口允許創(chuàng)建自定義的混合現(xiàn)實世界,將機器人系統(tǒng)與 VR 中的診斷面板一起可視化。
使用 VR 頭顯估計手部姿勢
相比于之前關(guān)于靈巧遙操作的工作相比,使用 VR 頭顯在人類教師的手部姿勢估計方面具有三個好處。首先,由于 Quest 2 使用 4 個單色攝像頭,其手勢估計器比單攝像頭估計器強大很多。其次,由于攝像機是內(nèi)部校準的,因此它們不需要以前的多攝像機遙操作框架中所需的專門校準程序。第三,由于手部姿勢估計器是集成到設(shè)備中的,因此它能夠以 72Hz 的頻率傳輸實時姿勢。此前有研究指出,靈巧遙操作的一個重大挑戰(zhàn)是以高精度和高頻率獲取手部姿勢,HOLO-DEX 通過使用商業(yè)級 VR 頭顯顯著簡化了這個問題。
手部姿勢重定向
下一步,從 VR 中提取的教師手部姿勢需要重定位到機器手上。這首先要計算教師手部各個關(guān)節(jié)的角度,然后一種直接的重定向方法是「命令」機器人的關(guān)節(jié)變動到相應(yīng)的角度。這種方法適用于該研究中除拇指以外的所有手指,但 Allegro 機械手的形態(tài)與人類不是完全匹配的,拇指不能完全套用這種方法。
為了解決這個問題,該研究將教師拇指指尖的空間坐標映射到機器人的拇指指尖,然后通過逆運動學(xué)求解器計算拇指的關(guān)節(jié)角度。需要注意的是,由于 Allegro 機械手沒有小拇指,該研究也就忽略了教師的小拇指角度。
整個姿勢重定向過程不需要任何校準或教師特定的調(diào)整來收集演示。但該研究發(fā)現(xiàn)可以通過查找從教師拇指到機器人拇指的特定映射來改進拇指重定向。整個過程的計算成本很低,并且可以以 60 Hz 的頻率傳輸所需的機器手姿勢。
機器手控制
Allegro Hand 通過 ROS 通信框架進行異步控制。給定重定向程序計算的機器手關(guān)節(jié)位置,該研究使用 PD 控制器以 300Hz 輸出所需扭矩。為了減少穩(wěn)態(tài)誤差,該研究使用重力補償模塊來計算偏移扭矩。在延遲測試中,該研究發(fā)現(xiàn)當 VR 耳機與機器人手在同一本地網(wǎng)絡(luò)上時,可以實現(xiàn)低于 100 毫秒的延遲。低延遲和低錯誤率對于 HOLO-DEX 至關(guān)重要,因為這允許人類教師對機器手進行直觀的遙操作。
當人類教師控制機器手時,他們可以實時看到機器人的變化(60Hz)。這允許教師糾正機器手的執(zhí)行錯誤。在教學(xué)過程中,該研究以 5Hz 的頻率記錄來自三個 RGBD 攝像機的觀察數(shù)據(jù)和機器人的動作信息。由于記錄多個攝像機所需的大量數(shù)據(jù)占用空間和相關(guān)帶寬,該研究不得不降低記錄頻率。
使用 HOLO-DEX 數(shù)據(jù)進行模仿學(xué)習(xí)
收集數(shù)據(jù)后就進入了第二階段,HOLO-DEX 要在數(shù)據(jù)上訓(xùn)練視覺策略。該研究采用最近鄰模仿 (INN) 算法進行學(xué)習(xí)。在之前的工作中,INN 被證明可以在 Allegro 手上產(chǎn)生基于狀態(tài)的靈巧策略。HOLO-DEX 更進一步,并證明這些視覺策略可以推廣到各種靈巧操作任務(wù)中的新對象。
為了選擇獲得低維嵌入的學(xué)習(xí)算法,該研究嘗試了幾種最先進的自監(jiān)督學(xué)習(xí)算法,發(fā)現(xiàn) BYOL 提供了最好的最近鄰結(jié)果,因此選擇 BYOL 作為基本的自監(jiān)督學(xué)習(xí)方法。
實驗結(jié)果
下表 1 展示了 HOLO-DEX 收集成功演示的速度比 DIME 快 1.8 倍。對于需要精確 3D 運動的 3/6 任務(wù),該研究發(fā)現(xiàn)單圖像遙操作甚至不足以收集單個演示。
該研究檢查了各種模仿學(xué)習(xí)策略在靈巧任務(wù)上的性能,不同策略下每個任務(wù)的成功率如下表 2 所示。
由于該研究提出的策略是基于視覺的,并且不需要明確估計對象的狀態(tài),因此它們能與訓(xùn)練中未見過的對象兼容。該研究評估了其手動操作策略,這些策略經(jīng)過訓(xùn)練可在多種視覺外觀和幾何形狀的對象上執(zhí)行平面旋轉(zhuǎn)、對象翻轉(zhuǎn)和 Can Spinning 任務(wù),如下圖 5 所示。
此外,該研究還在不同任務(wù)的不同大小的數(shù)據(jù)集上測試了 HOLO-DEX 的性能,可視化結(jié)果如下圖所示。