斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移 原創(chuàng)
在模擬中學習并將學到的策略轉移到現(xiàn)實世界有潛力實現(xiàn)通用型機器人。這種方法的關鍵挑戰(zhàn)是解決模擬到現(xiàn)實(sim-to-real)之間的差距。先前的方法通常需要先驗的領域特定知識。研究人員認為獲得這種知識的一種簡單方法是讓人類觀察并協(xié)助機器人在現(xiàn)實世界中執(zhí)行策略。然后機器人可以從人類那里學習以消除各種模擬到真實的差距。研究人員提出了TRANSIC,這是一種基于人機協(xié)作框架的數(shù)據(jù)驅動方法,以實現(xiàn)成功的模擬到真實轉移。TRANSIC允許人類通過干預和在線糾正來增強模擬策略,以全面地克服各種未建模的模擬到真實差距。殘余策略可以從人類糾正中學習,并與模擬策略集成以進行自主執(zhí)行。研究人員展示了該方法可以在復雜且充滿接觸的操縱任務(如家具裝配)中實現(xiàn)成功的模擬到真實轉移。通過在模擬中學習的策略和從人類學習的策略的協(xié)同集成,TRANSIC作為一種全面的方法有效地解決了各種通常共存的模擬到真實差距。它顯示出隨著人力投入的擴展而具有吸引力的屬性。

方法概述
在高層次上,在模擬中訓練基本策略后,研究人員將其部署到真實機器人上,并由人類操作員監(jiān)控。當必要時,人類通過遠程操作中斷自主執(zhí)行,并進行在線糾正。收集此類干預和在線糾正數(shù)據(jù)以訓練殘余策略,然后部署基本策略和殘余策略以完成接觸豐富的操縱任務。
殘余策略從人類糾正中學習以彌合模擬到真實差距
這里的關鍵洞察是,人機協(xié)作框架有望作為整體解決模擬到真實差距,其中人類直接在政策執(zhí)行期間通過提供在線糾正信號來協(xié)助物理機器人。關閉模擬到真實差距所需的知識可以從人類信號中學習。
在人類操作員監(jiān)控執(zhí)行的情況下部署模擬策略。當必要時,人類通過遠程操作進行干預和糾正。收集此類干預和糾正數(shù)據(jù)以學習殘余策略。最后,在測試時間將殘余策略和模擬策略集成以實現(xiàn)成功轉移。
大規(guī)模模擬訓練以獲取基本策略
利用最先進的模擬技術,研究人員在模擬中以每秒數(shù)十萬幀的速度訓練基本策略,極大地減輕了數(shù)據(jù)收集的人力負擔。研究人員首先在大規(guī)模并行化環(huán)境中使用無模型強化學習(RL)訓練教師策略。然后將RL教師策略蒸餾為學生視覺動作策略。

對于每種操縱技能,研究人員首先訓練RL策略,然后將其蒸餾為視覺動作策略。應用領域隨機化,以使訓練的模擬策略足夠健壯。研究人員做出了幾項重要的設計選擇,以促進模擬到真實的轉移,例如采用點云輸入和采用關節(jié)位置動作。
使用點云觀察和關節(jié)位置動作的視覺動作策略
研究人員使用點云作為主要視覺方式。訓練視覺動作策略時典型的RGB觀察存在幾個缺點,這些缺點阻礙了成功的轉移。經過良好校準的點云觀察可以規(guī)避這些問題。 研究人員首先使用OSC訓練教師策略以便于學習,然后將成功的軌跡蒸餾為具有關節(jié)位置控制的學生策略。我們將這種方法稱為動作空間蒸餾,并發(fā)現(xiàn)它對于克服模擬到真實控制器差距至關重要。

使用點云作為主要視覺方式。模擬策略是在降低的合成點云觀察上訓練的。它們能夠轉移到由標準深度相機捕獲的真實世界點云觀察。
實驗
研究問題:
- Q1:相比傳統(tǒng)的模擬到真實方法,TRANSIC是否能夠實現(xiàn)更好的轉移性能?
- Q2:相較于現(xiàn)有的交互式模仿學習(IL)方法,TRANSIC是否能更好地將人類糾正集成到模擬中學到的策略中?
- Q3:與僅從真實機器人軌跡學習的算法相比,TRANSIC是否需要更少的真實世界數(shù)據(jù)來實現(xiàn)良好的性能?
- Q4:TRANSIC能夠有效地解決不同類型的模擬到真實差距嗎?
- Q5:TRANSIC如何隨著人力投入而擴展?
- Q6:TRANSIC是否表現(xiàn)出引人注目的特性,如對未見過的對象的泛化、有效的門控、策略穩(wěn)健性、學到的視覺特征的一致性、解決長期操縱任務的能力以及其他新發(fā)現(xiàn)的行為?
考慮需要高精度的復雜接觸豐富的家具操縱任務。具體來說,將正方形桌子的組裝分為四個獨立的任務:穩(wěn)定、抓取、插入和螺絲。


TRANSIC在所有四項任務上表現(xiàn)優(yōu)于所有基線方法。
研究人員展示了在模擬到真實轉移中,從模擬中學習的良好基本策略可以與有限的真實世界數(shù)據(jù)相結合以取得成功(Q3)。然而,有效利用人類糾正數(shù)據(jù)來解決模擬到真實差距是具有挑戰(zhàn)性的(Q1),特別是當我們想要防止基本策略的災難性遺忘時(Q2)。
解決不同模擬到真實差距的有效性(Q4)
雖然TRANSIC是一種全面解決多個模擬到真實差距的方法,但本文著重介紹了它解決每個單獨差距的能力。為此,研究人員創(chuàng)建了五組不同的模擬-現(xiàn)實對。對于每一組,有意地在模擬和真實世界之間制造了較大的差距。這些差距應用于真實世界設置中,包括感知誤差、欠驅動控制器、實體不匹配、動力學差異和對象資產不匹配。

對不同模擬到真實差距的穩(wěn)健性。數(shù)字是平均成功率(%)。極坐標圖代表針對特定差距收集數(shù)據(jù)后的性能。虛線表示零次嘗試的性能。陰影圓顯示了五組之間的平均性能。
TRANSIC在五組不同的模擬-真實對中實現(xiàn)了77%的平均成功率,這表明了它關閉這些單獨差距的顯著能力。相比之下,最佳基線方法IWR僅實現(xiàn)了18%的平均成功率。研究人員將這種解決不同模擬到真實差距的效果歸因于殘余策略設計。
與人類努力的可擴展性(Q5)
與人類努力的可擴展性是人機協(xié)作機器人學習方法的期望屬性。研究人員展示了TRANSIC比最佳基線IWR具有更好的人類數(shù)據(jù)可擴展性。如果將校正數(shù)據(jù)集的大小從完整數(shù)據(jù)集大小的25%增加到75%,TRANSIC的平均成功率相對提高了42%。相比之下,IWR僅實現(xiàn)了23%的相對改善。此外,隨著更多人類數(shù)據(jù)的可用,IWR的性能在早期階段就會達到平穩(wěn)狀態(tài),甚至開始下降。研究人員假設IWR存在災難性遺忘問題,并且在正確模擬人類和經過訓練的機器人的行為模式方面存在困難。另一方面,TRANSIC通過僅從人類糾正中學習門控殘余策略來避免這些問題。

人類糾正數(shù)據(jù)的可擴展性。數(shù)字是在不同數(shù)量的人類糾正數(shù)據(jù)下平均成功率,涵蓋了四個任務。
引人注目的特性和新發(fā)現(xiàn)的行為(Q6)
研究人員進一步研究了TRANSIC并討論了幾個新發(fā)現(xiàn)的能力。展示了:1)TRANSIC已經學習了可重用的類別級對象泛化技能;2)一旦學會了門控機制,TRANSIC可以在完全自主的環(huán)境中可靠運行;3)TRANSIC對部分點云觀察和次優(yōu)糾正數(shù)據(jù)具有穩(wěn)健性;4)TRANSIC學習了模擬和真實之間一致的視覺特征。

結論
在這項工作中,研究人員提出了TRANSIC,這是一種全面的人機協(xié)作方法,用于處理接觸豐富操縱任務的模擬到真實策略轉移。文中展示了在模擬到真實轉移中,從模擬中學習的良好基本策略可以與有限的真實世界數(shù)據(jù)相結合以取得成功。然而,有效地利用人類糾正數(shù)據(jù)來解決模擬到真實差距是具有挑戰(zhàn)性的,特別是當想要防止基本策略的災難性遺忘時。TRANSIC通過從人類糾正數(shù)據(jù)中學習門控殘余策略成功解決了這些挑戰(zhàn)。展示了當同時出現(xiàn)不同類型的模擬到真實差距時,TRANSIC作為一種全面方法有效;它也是解決性質截然不同的個別差距的方法。它具有諸如隨著人類努力的增加而擴展等吸引人的屬性。
本文轉載自公眾號AIGC最前線

















