谷歌RT-1模型讓一個機器人干幾份活,700條指令成功率達97%
機器學習 (ML) 研究的多個子領(lǐng)域(如計算機視覺和自然語言處理)的許多最新進展,都是建立在利用大型、多樣化的數(shù)據(jù)集和能夠有效吸收所有數(shù)據(jù)的表達模型。
但這種高性能模型方法在機器人技術(shù)領(lǐng)域的應用卻相對較少。
原因很簡單,首先缺乏大規(guī)模和多樣化的機器人數(shù)據(jù),限制了模型吸收廣泛機器人經(jīng)驗的能力。
其次,缺乏可從此類數(shù)據(jù)集中學習并有效泛化的表達力強、可擴展且速度足夠快的實時推理模型。
而這次,谷歌推出的Robotics Transformer 1 (簡稱RT-1)是一種多任務模型,它可以標記機器人輸入和輸出動作(例如,相機圖像、任務指令和電機命令)以在運行時實現(xiàn)高效推理,并使實時控制成為可能。

RT-1吸收了大量數(shù)據(jù),讓機器人勝任不同環(huán)境下的多種任務,從而提升機器性能和泛化能力
簡單來說,就是讓一個機器人同時干幾份活。
該模型是在一個包含130k個episode的大型真實世界機器人數(shù)據(jù)集上訓練的,該數(shù)據(jù)集涵蓋700多項任務,使用Everyday Robots (EDR) 的13臺機器人在17個月內(nèi)收集而成。
結(jié)果表明,與現(xiàn)有技術(shù)相比,RT-1可以顯著改進對新任務、環(huán)境和對象的零樣本泛化。
Github鏈接小編也貼心地放在下面啦,有興趣的小伙伴趕緊去看看。

?https://github.com/google-research/robotics_transformer?
RT-1模型具體原理
RT-1建立在Transformer架構(gòu)上,它能從機器人的相機中獲取圖像歷史記錄并以自然語言表達的任務描述作為輸入,同時直接輸出標記化的動作。
RT-1的架構(gòu)類似于僅解碼器序列模型(decoder-only sequence model)的架構(gòu),該模型針對具有因果掩蔽的標準分類交叉熵目標進行訓練。

該模型將文本指令和一組圖像作為輸入,通過預訓練的 FiLM EfficientNet 模型將它們編碼為標記,并通過 TokenLearner 對其進行壓縮,然后經(jīng)Transformer輸出動作標記。
其主要功能包括:圖像詞元化(Image Tokenization)、動作詞元化(Action Tokenization)和詞元壓縮(Token Compression )。
- 圖像tokenization:我們通過在 ImageNet 上預訓練的 EfficientNet-B3 模型傳遞圖像,然后將生成的 9×9×512 空間特征圖展平為81個標記。圖像分詞器以自然語言任務指令為條件,并使用初始化為身份的 FiLM 層在早期提取與任務相關(guān)的圖像特征。?
- 動作tokenization:機器人的動作維度是手臂運動的 7 個變量(x、y、z、滾動、俯仰、偏航、夾具打開),3 個基本運動變量(x、y、偏航),以及一個額外的離散變量在三種模式之間切換。?
- Token壓縮:該模型自適應地選擇圖像Token的軟組合,這些組合可以根據(jù)它們對使用元素注意模塊TokenLearner 進行學習的影響進行壓縮,從而使推理速度提高2.4倍以上。?

我們使用人類通過遠程操作提供的演示,并用機器人執(zhí)行指令的文本描述對每一集進行注釋。
而這個機器人執(zhí)行任務靠的是,「7個自由度的手臂、一個兩指夾持器和一個移動底座」。
數(shù)據(jù)集中表示的一組高級技能包括拾取和放置物品、打開和關(guān)閉抽屜、將物品放入和取出抽屜、將細長的物品直立放置、將物體打翻等操作。
整合異質(zhì)數(shù)據(jù)源
為進一步推動RT-1,我們使用從另一個機器人收集的數(shù)據(jù)對其進行訓練,以測試 (1) 模型在出現(xiàn)新數(shù)據(jù)源時是否保持其在原始任務上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的數(shù)據(jù)。
我們轉(zhuǎn)換收集的數(shù)據(jù)以匹配我們使用EDR收集的原始數(shù)據(jù)集的動作規(guī)范和邊界,并用任務指令標記每個數(shù)據(jù)集。
然后在每個訓練批次中將Kuka數(shù)據(jù)與EDR數(shù)據(jù)以1:2的比例混合,以控制原始EDR技能的回歸。

圖為從多個機器人收集數(shù)據(jù)時的訓練方法
結(jié)果表明,RT-1能夠通過觀察其他機器人的經(jīng)驗來獲得新技能。
當RT-1在Kuka的垃圾箱揀選數(shù)據(jù)和機器人教室的現(xiàn)有EDR數(shù)據(jù)上進行訓練時,僅使用 EDR 數(shù)據(jù)進行訓練時的22% 「準確率躍升了近2倍」,達到39%。

當單獨使用來自Kuka的揀選數(shù)據(jù)訓練RT-1,并使用來自EDR機器人的揀選數(shù)據(jù)對其進行評估時,準確率為0%。
實驗結(jié)果
為更好地理解RT-1的泛化能力,我們針對三個基線研究了它的性能:Gato、BC-Z和BC-Z XL(即與 RT-1 具有相同數(shù)量參數(shù)的 BC-Z)。
并將其分為四個類別:

圖為測試環(huán)境下RT-1與對照組的表現(xiàn)
- 可見任務表現(xiàn)(Seen tasks performance):在訓練期間觀測的任務表現(xiàn);
- 不可見任務表現(xiàn)(Unseen tasks performance):在看不見的任務上的表現(xiàn),其中技能和對象在訓練集中是分開的;
- 穩(wěn)健性(Robustness):在干擾因素介入期間的性能和背景變化(新廚房、照明、背景場景)的性能表現(xiàn)
- 遠景場景(long-horizon scenarios):真實廚房中SayCan類自然語言指令的執(zhí)行
RT-1 的高性能和泛化能力可以通過SayCan實現(xiàn)遠距離、移動操作任務。
SayCan的工作原理是將語言模型置于機器人可供性中,并利用少量提示將以自然語言表達的長期任務分解為一系列低級技能。
我們在兩個真實廚房中使用RT-1和其他兩個基線(SayCan with Gato 和 SayCan with BC-Z)評估SayCan。
下面,“Kitchen2”構(gòu)成了比“Kitchen1”更具挑戰(zhàn)性的泛化場景。用于收集大部分訓練數(shù)據(jù)的模擬廚房是在 Kitchen1 之后建模的。

可以看到,SayCan with RT-1在 Kitchen1中的執(zhí)行成功率為 67%,優(yōu)于其他基線。
由于新的看不見的廚房帶來的泛化困難,SayCan with Gato 和 SayCan with BCZ 的性能下降,但RT-1的成功率并沒有因此下降。

































