偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)具身智能新成果:用大規(guī)模視頻數(shù)據(jù)訓練GR-1,復雜任務輕松應對

人工智能 新聞
在最新的研究中,ByteDance Research 團隊提出 GR-1,首次證明了通過大規(guī)模的視頻生成式預訓練能夠大幅提升機器人端到端多任務操作方面的性能和泛化能力。

最近 GPT 模型在 NLP 領域取得了巨大成功。GPT 模型首先在大規(guī)模的數(shù)據(jù)上預訓練,然后在特定的下游任務的數(shù)據(jù)上微調(diào)。大規(guī)模的預訓練能夠幫助模型學習可泛化的特征,進而讓其輕松遷移到下游的任務上。

但相比自然語言數(shù)據(jù),機器人數(shù)據(jù)是十分稀缺的。而且機器人數(shù)據(jù)包括了圖片、語言、機器人狀態(tài)和機器人動作等多種模態(tài)。為了突破這些困難,過去的工作嘗試用 contrastive learning [1] 和 masked modeling [2] 等方式來做預訓練以幫助機器人更好的學習。

在最新的研究中,ByteDance Research 團隊提出 GR-1,首次證明了通過大規(guī)模的視頻生成式預訓練能夠大幅提升機器人端到端多任務操作方面的性能和泛化能力。實驗證明這種預訓練方法可以大幅提升模型表現(xiàn)。在極具挑戰(zhàn)的 CALVIN 機器人操作仿真數(shù)據(jù)集上,GR-1 在 1) 多任務學習 2) 零樣本場景遷移 3) 少量數(shù)據(jù) 4) 零樣本語言指令遷移上都取得了 SOTA 的結果。在真機上,經(jīng)過視頻預訓練的 GR-1 在未見過的場景和物體的表現(xiàn)也大幅領先現(xiàn)有方法。

圖片

GR-1 在 CALVIN 中連續(xù)完成多個任務

圖片

GR-1 在真機上端到端完成多種任務

圖片


  • 論文地址:https://arxiv.org/abs/2312.13139
  • 論文網(wǎng)站:https://gr1-manipulation.github.io

方法

GR-1 是一個端到端的機器人操作模型,采用了 GPT 風格的 transformer 作為模型架構。GR-1 首先在大規(guī)模視頻數(shù)據(jù)上進行視頻預測的預訓練。預訓練結束后,GR-1 在機器人數(shù)據(jù)上微調(diào)。微調(diào)的訓練任務包含未來幀的預測和機器人動作的預測。

GR-1 用來自 Ego4D [3] 數(shù)據(jù)的 8M 圖片來做視頻生成式預訓練。在預訓練階段,GR-1 的輸入包括視頻片段和描述視頻的文字。文字信息用 CLIP [4] 的文字編碼器編碼。視頻中的圖片用 MAE [5] 編碼,然后通過 perciever resampler [6] 來減少 token 的個數(shù)。輸出端 GR-1 在每一個時間戳通過學習 [OBS] token 來輸出未來幀的圖片。[OBS] 對應的輸出通過一個 transformer 來解碼成圖片。在預訓練階段,GR-1 采用了 mean squared error (MSE) 的損失函數(shù)。

圖片

在機器人數(shù)據(jù)微調(diào)階段,GR-1 的輸入包括任務語言指令,機器人狀態(tài)和觀測圖片。其中機器人狀態(tài)包括 6 維機器人位姿和夾抓的開閉狀態(tài)。機器人狀態(tài)通過 MLP 來編碼。輸出包括未來幀的圖片和機器人動作。語言和圖片的編碼方式與預訓練階段相同。輸出端 GR-1 通過學習 [ACT] token 來預測下一個時間戳機器人的動作。機械臂動作的損失函數(shù)采用 smooth L1 loss;夾抓動作的損失函數(shù)采用 binary cross entropy loss。

圖片

實驗

作者在 CALVIN 仿真平臺上做了大量實驗來驗證 GR-1 的性能。CALVIN 是一個極具挑戰(zhàn)性的機器人多任務操作仿真平臺。其中包括 34 個通過語言指令的操作任務和 A, B, C, D 四個不同的環(huán)境。

在 ABCD->D 實驗中,機器人在來自 A, B, C, D 四個環(huán)境的數(shù)據(jù)上訓練,并在 D 中測試。在 ABC->D 實驗中,機器人在來自 A, B, C 三個環(huán)境的數(shù)據(jù)上訓練,并在 D 中測試。這個實驗旨在測試 GR-1 應對零樣本場景遷移的能力。測試中,機器人需要連續(xù)完成 5 個任務。表中展示了不同方法在連續(xù)完成 1,2,3,4,5 個任務的成功率和平均完成的任務數(shù)量。GR-1 在兩個實驗中都超過了現(xiàn)有方法并在零樣本場景遷移上大幅領先。

圖片

該工作還進行了小數(shù)據(jù)集的實驗以理解 GR-1 在數(shù)據(jù)比較少的時候的表現(xiàn)。在 10% data 實驗中,作者把 34 個任務中的每個任務的訓練軌跡控制在 66 條??傑壽E數(shù)約為 ABCD->D 實驗中的 10%。為了測試 GR-1 應對未知語言的能力,作者用 GPT-4 為每個任務生成了 50 條新的未見過的語言指令來測試。GR-1 在小數(shù)據(jù)集和未知語言指令的設置中都超越了現(xiàn)有方法。

圖片

GR-1 真機實驗包括了移動物體和開關抽屜,如下圖所示:

移動物體實驗指令包括將物體移動到盤子 / 桌面上。訓練數(shù)據(jù)中包括移動一個茄子、西蘭花和彩椒(如上圖最左所示)。作者首先在這些訓練數(shù)據(jù)中見過的物體上做實驗。在這個設置下,作者還測試了加入了干擾物背景變化的實驗。

圖片

圖片

圖片

作者還在訓練數(shù)據(jù)中未見過的物體上做了實驗。未見的物體包括未見過的物體實例(一組在訓練數(shù)據(jù)中未見過的茄子、西蘭花和彩椒)和未見過的物體種類(西紅柿和黃桃)。

圖片

圖片

以下為開關抽屜的實驗:

圖片

圖片

如下表所示,GR-1 在真機實驗中大幅領先對比的現(xiàn)有方法。

圖片

在消融實驗中,作者對比了去掉未來幀預測和保留未來幀預測但去掉預訓練的模型的能力。結果表明預測未來幀和預訓練兩者都對 GR-1 學習魯棒的機器人操作起到了關鍵作用。在預測動作的同時加入未來幀的預測能幫助 GR-1 學習根據(jù)語言指令來預測未來場景變化的能力。這種能力正是機器人操作中需要的:根據(jù)人的語言指令來預測場景中應用的變化能夠指導機器人動作的生成。而大規(guī)模視頻數(shù)據(jù)的預訓練則能幫助 GR-1 學習魯棒可泛化的預測未來的能力。

結論

GR-1 首次證明了大規(guī)模視頻生成式預訓練能幫助機器人學習復雜的多任務操作。GR-1 首先在大規(guī)模視頻數(shù)據(jù)上預訓練然后在機器人數(shù)據(jù)上進行微調(diào)。在仿真環(huán)境和真機實驗中,GR-1 都取得了 SOTA 的結果,并在極具挑戰(zhàn)的零樣本遷移上表現(xiàn)出魯棒的性能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-11-06 11:29:02

機器人視覺

2023-07-11 10:07:10

機器人智能

2024-08-02 10:00:00

2024-06-04 09:25:51

2023-01-03 16:54:27

字節(jié)跳動深度學習

2021-09-06 11:15:05

數(shù)據(jù)治理字節(jié)跳動埋點

2025-03-07 10:24:43

2020-10-30 11:09:30

Pandas數(shù)據(jù)代碼

2024-11-07 14:35:45

2019-06-10 16:17:37

2024-03-11 00:35:00

谷歌智能研究

2024-07-15 00:00:00

OpenAI“草莓”模型人工智能

2023-11-27 13:51:00

模型訓練

2012-05-09 11:03:21

2017-05-13 15:02:40

2015-09-22 09:43:31

2024-11-14 10:40:00

智能體模型

2025-04-27 09:27:00

AI數(shù)據(jù)視頻
點贊
收藏

51CTO技術棧公眾號