GR-2登場!ByteDance Research提出機器人大模型,具備世界建模和強大泛化能力
最近,ByteDance Research 的第二代機器人大模型 —— GR-2,終于放出了官宣視頻和技術(shù)報告。GR-2 以其卓越的泛化能力和多任務(wù)通用性,預(yù)示著機器人大模型技術(shù)將爆發(fā)出巨大潛力和無限可能。
GR-2 官方項目頁面:
https://gr2-manipulation.github.io
初識 GR-2:百煉出真金
和許多大模型一樣,GR-2 的訓(xùn)練包括預(yù)訓(xùn)練和微調(diào)兩個過程。
如果把機器人和人做比較,預(yù)訓(xùn)練過程就好像是人類的 “嬰兒期”。而 GR-2 的嬰兒期與其他機器人截然不同。
在預(yù)訓(xùn)練的過程中,GR-2 在互聯(lián)網(wǎng)的海洋中遨游。
它在 3800 萬個互聯(lián)網(wǎng)視頻片段上進行生成式訓(xùn)練,也因此得名 GR-2(Generative Robot 2.0)。這些視頻來自學(xué)術(shù)公開數(shù)據(jù)集,涵蓋了人類在不同場景下(家庭、戶外、辦公室等)的各種日?;顒?。
這個過程,就像是它在經(jīng)歷一個快速的 “生長痛”,迅速學(xué)會了人類日常生活中的各種動態(tài)和行為模式。
該圖展示了 GR-2 預(yù)訓(xùn)練數(shù)據(jù)中的樣本視頻和動詞分布。下圖中的 y 軸是最熱門單詞的對數(shù)頻率。
這種預(yù)訓(xùn)練方式使 GR-2 具備了學(xué)習(xí)多種操作任務(wù)和在多種環(huán)境中泛化的潛能。龐大的知識儲備,讓 GR-2 擁有了對世界的深刻理解,仿佛它已經(jīng)環(huán)游世界無數(shù)次。
微調(diào)的藝術(shù):視頻生成能力拔高動作準確率
據(jù)悉,GR-2 的開發(fā)團隊采用了一種創(chuàng)新的微調(diào)方法。
在經(jīng)歷大規(guī)模預(yù)訓(xùn)練后,通過在機器人軌跡數(shù)據(jù)上進行微調(diào),GR-2 能夠預(yù)測動作軌跡并生成視頻。
GR-2 的視頻生成能力,讓它在動作預(yù)測方面有著天然的優(yōu)勢。它能夠通過輸入一幀圖片和一句語言指令,預(yù)測未來的視頻,進而生成相應(yīng)的動作軌跡。
如下圖所示,只需要輸入一句語言指令:“pick up the fork from the left of the white plate”,就可以讓 GR-2 生成動作和視頻??梢钥吹?,機械臂從白盤子旁邊抓起了叉子。右圖中預(yù)測的視頻和真機的實際運行也相差無幾。
以下是幾個進一步展示 GR-2 視頻生成能力的示例,包括把物品放進烤箱、將物品置于咖啡壺嘴下方等任務(wù)。
這種能力,不僅提升了 GR-2 動作預(yù)測的準確性,也為機器人的智能決策提供了新的方向。
Scaling Law:機器人 + 大模型的要訣
在人工智能領(lǐng)域,Scaling Law 是一個備受矚目的概念。它描述了模型性能與其規(guī)模之間的關(guān)系。對于 GR-2 這樣的機器人模型來說,這一法則尤為關(guān)鍵。
隨著模型規(guī)模的增加,GR-2 的性能呈現(xiàn)出顯著的提升。
(a)(b)(c) 分別展示了不同尺寸 GR-2 在 Ego4d、RT-1、GR-2 三個數(shù)據(jù)集的驗證集上的視頻生成損失。(d) 展示了不同尺寸 GR-2 在真機實驗中的成功率。
在 7 億參數(shù)規(guī)模的驗證中,團隊看到了令人鼓舞的結(jié)果:更大的模型不僅能夠處理更多復(fù)雜的任務(wù),而且在泛化到未見過的任務(wù)和場景時也表現(xiàn)得更加出色。
這表明,通過擴大模型規(guī)模,我們可以解鎖機器人更多的潛能,使其在多任務(wù)學(xué)習(xí)和適應(yīng)新環(huán)境方面更加得心應(yīng)手。
多任務(wù)學(xué)習(xí)與泛化:未知場景的挑戰(zhàn)者
在多任務(wù)學(xué)習(xí)測試中,GR-2 能夠完成 105 項不同的桌面任務(wù),平均成功率高達 97.7%。
GR-2 的強大之處不僅在于它能夠處理已知任務(wù),更在于其面對未知場景和物體時的泛化能力。無論是全新的環(huán)境、物體還是任務(wù),GR-2 都能夠迅速適應(yīng)并找到解決問題的方法。
我開、我放……我眼里有活兒
更讓人驚艷的是,GR-2 還能夠與大語言模型相結(jié)合,完成復(fù)雜的長任務(wù),并與人類進行互動。
比如,我們想要喝一杯咖啡。GR-2 會先從托盤里拿起杯子,并將其放在咖啡壺嘴下方。接著,它會按下咖啡機上的按鈕來煮一杯咖啡。最后,當(dāng)咖啡煮好了,機器人會把杯子放回托盤上。整個過程無需人類干預(yù)。
又如,我們早餐想要吃點東西。根據(jù)場景中的物體,機器人決定為我們制作一份烤面包。機器人首先按下烤面包機上的開關(guān)來烤制面包。然后它拿起烤好的面包,并將其放入紅色的碗中。
認真工作中,勿擾
ByteDance Research 還想強調(diào),GR-2 能夠魯棒地處理環(huán)境中的干擾,并通過適應(yīng)變化的環(huán)境成功完成任務(wù)。
以果蔬分類任務(wù)為例:桌子上放置著水果和蔬菜,我們需要機器人幫忙將水果和蔬菜分裝到不同的盤子里。機器人能夠自主識別物體的類別,并自動將它們放入正確的盤子中。
當(dāng)在機器人移動的過程中移動盤子,GR-2 依然能回過神來,準確找回它要放的目標盤子。
穿越“果”群,仍能找到你
工業(yè)應(yīng)用中的突破:端到端的絲滑物體揀選
在實際應(yīng)用中,GR-2 相比前一代的一個重大突破在于能夠端到端地完成兩個貨箱之間的物體揀選。
這個任務(wù)要求機器人從一個貨箱中逐個拿起物體,并將其放入旁邊的貨箱??此坪唵?,但在實際應(yīng)用中,能夠?qū)崿F(xiàn)這個需求的多模態(tài)端到端模型卻難得一見。
端到端揀選任務(wù)場景
如下圖所示,GR-2 可以實現(xiàn)貨箱之間絲滑且連續(xù)的物體揀選。
真 · 無情的揀選機器人
無論是透明物體、反光物體、柔軟物體還是其他具有挑戰(zhàn)性的物體,GR-2 均能準確抓取。這展現(xiàn)了其在工業(yè)領(lǐng)域和真實倉儲場景的巨大潛力。
除了能夠處理多達 100 余種不同的物體,例如螺絲刀、橡膠玩具、羽毛球,乃至一串葡萄和一根辣椒,GR-2 在未曾見過的場景和物體上也有著出的表現(xiàn)。
揀選任務(wù)中的 122 個測試物品,其中只有 55 個物體參與訓(xùn)練。
GR-2 可以識別透明的、可變形的或反光的物體。
話分兩頭,盡管 GR-2 在互聯(lián)網(wǎng)視頻上接受了大規(guī)模的預(yù)訓(xùn)練,但也存在一些進步空間。例如,真實世界動作數(shù)據(jù)的規(guī)模和多樣性仍然有限。
GR-2 的故事,是關(guān)于 AI 如何推動機器人發(fā)展的故事。它不僅僅是一個機器人大模型,更是一個能夠?qū)W習(xí)和適應(yīng)各種任務(wù)的智能體。我們有理由相信,GR-2 在實際應(yīng)用中擁有巨大潛力。
GR-2 的旅程,才剛剛開始。