偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="wvqs2"></abbr>

<dfn id="wvqs2"><strong id="wvqs2"></strong></dfn>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GR-2登場(chǎng)！ByteDance Research提出機(jī)器人大模型，具備世界建模和強(qiáng)大泛化能力

作者：機(jī)器之心 2024-10-09 15:06:56

人工智能新聞

GR-2 的故事，是關(guān)于 AI 如何推動(dòng)機(jī)器人發(fā)展的故事。它不僅僅是一個(gè)機(jī)器人大模型，更是一個(gè)能夠?qū)W習(xí)和適應(yīng)各種任務(wù)的智能體。我們有理由相信，GR-2 在實(shí)際應(yīng)用中擁有巨大潛力。

最近，ByteDance Research 的第二代機(jī)器人大模型 —— GR-2，終于放出了官宣視頻和技術(shù)報(bào)告。GR-2 以其卓越的泛化能力和多任務(wù)通用性，預(yù)示著機(jī)器人大模型技術(shù)將爆發(fā)出巨大潛力和無(wú)限可能。

GR-2 官方項(xiàng)目頁(yè)面：

https://gr2-manipulation.github.io

初識(shí) GR-2：百煉出真金

和許多大模型一樣，GR-2 的訓(xùn)練包括預(yù)訓(xùn)練和微調(diào)兩個(gè)過(guò)程。

如果把機(jī)器人和人做比較，預(yù)訓(xùn)練過(guò)程就好像是人類的 “嬰兒期”。而 GR-2 的嬰兒期與其他機(jī)器人截然不同。

在預(yù)訓(xùn)練的過(guò)程中，GR-2 在互聯(lián)網(wǎng)的海洋中遨游。

它在 3800 萬(wàn)個(gè)互聯(lián)網(wǎng)視頻片段上進(jìn)行生成式訓(xùn)練，也因此得名 GR-2（Generative Robot 2.0）。這些視頻來(lái)自學(xué)術(shù)公開數(shù)據(jù)集，涵蓋了人類在不同場(chǎng)景下（家庭、戶外、辦公室等）的各種日常活動(dòng)。

這個(gè)過(guò)程，就像是它在經(jīng)歷一個(gè)快速的 “生長(zhǎng)痛”，迅速學(xué)會(huì)了人類日常生活中的各種動(dòng)態(tài)和行為模式。

該圖展示了 GR-2 預(yù)訓(xùn)練數(shù)據(jù)中的樣本視頻和動(dòng)詞分布。下圖中的 y 軸是最熱門單詞的對(duì)數(shù)頻率。

這種預(yù)訓(xùn)練方式使 GR-2 具備了學(xué)習(xí)多種操作任務(wù)和在多種環(huán)境中泛化的潛能。龐大的知識(shí)儲(chǔ)備，讓 GR-2 擁有了對(duì)世界的深刻理解，仿佛它已經(jīng)環(huán)游世界無(wú)數(shù)次。

微調(diào)的藝術(shù)：視頻生成能力拔高動(dòng)作準(zhǔn)確率

據(jù)悉，GR-2 的開發(fā)團(tuán)隊(duì)采用了一種創(chuàng)新的微調(diào)方法。

在經(jīng)歷大規(guī)模預(yù)訓(xùn)練后，通過(guò)在機(jī)器人軌跡數(shù)據(jù)上進(jìn)行微調(diào)，GR-2 能夠預(yù)測(cè)動(dòng)作軌跡并生成視頻。

GR-2 的視頻生成能力，讓它在動(dòng)作預(yù)測(cè)方面有著天然的優(yōu)勢(shì)。它能夠通過(guò)輸入一幀圖片和一句語(yǔ)言指令，預(yù)測(cè)未來(lái)的視頻，進(jìn)而生成相應(yīng)的動(dòng)作軌跡。

如下圖所示，只需要輸入一句語(yǔ)言指令：“pick up the fork from the left of the white plate”，就可以讓 GR-2 生成動(dòng)作和視頻。可以看到，機(jī)械臂從白盤子旁邊抓起了叉子。右圖中預(yù)測(cè)的視頻和真機(jī)的實(shí)際運(yùn)行也相差無(wú)幾。

以下是幾個(gè)進(jìn)一步展示 GR-2 視頻生成能力的示例，包括把物品放進(jìn)烤箱、將物品置于咖啡壺嘴下方等任務(wù)。

這種能力，不僅提升了 GR-2 動(dòng)作預(yù)測(cè)的準(zhǔn)確性，也為機(jī)器人的智能決策提供了新的方向。

Scaling Law：機(jī)器人 + 大模型的要訣

在人工智能領(lǐng)域，Scaling Law 是一個(gè)備受矚目的概念。它描述了模型性能與其規(guī)模之間的關(guān)系。對(duì)于 GR-2 這樣的機(jī)器人模型來(lái)說(shuō)，這一法則尤為關(guān)鍵。

隨著模型規(guī)模的增加，GR-2 的性能呈現(xiàn)出顯著的提升。

(a)(b)(c) 分別展示了不同尺寸 GR-2 在 Ego4d、RT-1、GR-2 三個(gè)數(shù)據(jù)集的驗(yàn)證集上的視頻生成損失。(d) 展示了不同尺寸 GR-2 在真機(jī)實(shí)驗(yàn)中的成功率。

在 7 億參數(shù)規(guī)模的驗(yàn)證中，團(tuán)隊(duì)看到了令人鼓舞的結(jié)果：更大的模型不僅能夠處理更多復(fù)雜的任務(wù)，而且在泛化到未見(jiàn)過(guò)的任務(wù)和場(chǎng)景時(shí)也表現(xiàn)得更加出色。

這表明，通過(guò)擴(kuò)大模型規(guī)模，我們可以解鎖機(jī)器人更多的潛能，使其在多任務(wù)學(xué)習(xí)和適應(yīng)新環(huán)境方面更加得心應(yīng)手。

多任務(wù)學(xué)習(xí)與泛化：未知場(chǎng)景的挑戰(zhàn)者

在多任務(wù)學(xué)習(xí)測(cè)試中，GR-2 能夠完成 105 項(xiàng)不同的桌面任務(wù)，平均成功率高達(dá) 97.7%。

GR-2 的強(qiáng)大之處不僅在于它能夠處理已知任務(wù)，更在于其面對(duì)未知場(chǎng)景和物體時(shí)的泛化能力。無(wú)論是全新的環(huán)境、物體還是任務(wù)，GR-2 都能夠迅速適應(yīng)并找到解決問(wèn)題的方法。

我開、我放……我眼里有活兒

更讓人驚艷的是，GR-2 還能夠與大語(yǔ)言模型相結(jié)合，完成復(fù)雜的長(zhǎng)任務(wù)，并與人類進(jìn)行互動(dòng)。

比如，我們想要喝一杯咖啡。GR-2 會(huì)先從托盤里拿起杯子，并將其放在咖啡壺嘴下方。接著，它會(huì)按下咖啡機(jī)上的按鈕來(lái)煮一杯咖啡。最后，當(dāng)咖啡煮好了，機(jī)器人會(huì)把杯子放回托盤上。整個(gè)過(guò)程無(wú)需人類干預(yù)。

又如，我們?cè)绮拖胍渣c(diǎn)東西。根據(jù)場(chǎng)景中的物體，機(jī)器人決定為我們制作一份烤面包。機(jī)器人首先按下烤面包機(jī)上的開關(guān)來(lái)烤制面包。然后它拿起烤好的面包，并將其放入紅色的碗中。

認(rèn)真工作中，勿擾

ByteDance Research 還想強(qiáng)調(diào)，GR-2 能夠魯棒地處理環(huán)境中的干擾，并通過(guò)適應(yīng)變化的環(huán)境成功完成任務(wù)。

以果蔬分類任務(wù)為例：桌子上放置著水果和蔬菜，我們需要機(jī)器人幫忙將水果和蔬菜分裝到不同的盤子里。機(jī)器人能夠自主識(shí)別物體的類別，并自動(dòng)將它們放入正確的盤子中。

當(dāng)在機(jī)器人移動(dòng)的過(guò)程中移動(dòng)盤子，GR-2 依然能回過(guò)神來(lái)，準(zhǔn)確找回它要放的目標(biāo)盤子。

穿越“果”群，仍能找到你

工業(yè)應(yīng)用中的突破：端到端的絲滑物體揀選

在實(shí)際應(yīng)用中，GR-2 相比前一代的一個(gè)重大突破在于能夠端到端地完成兩個(gè)貨箱之間的物體揀選。

這個(gè)任務(wù)要求機(jī)器人從一個(gè)貨箱中逐個(gè)拿起物體，并將其放入旁邊的貨箱?？此坪?jiǎn)單，但在實(shí)際應(yīng)用中，能夠?qū)崿F(xiàn)這個(gè)需求的多模態(tài)端到端模型卻難得一見(jiàn)。

端到端揀選任務(wù)場(chǎng)景

如下圖所示，GR-2 可以實(shí)現(xiàn)貨箱之間絲滑且連續(xù)的物體揀選。

真 · 無(wú)情的揀選機(jī)器人

無(wú)論是透明物體、反光物體、柔軟物體還是其他具有挑戰(zhàn)性的物體，GR-2 均能準(zhǔn)確抓取。這展現(xiàn)了其在工業(yè)領(lǐng)域和真實(shí)倉(cāng)儲(chǔ)場(chǎng)景的巨大潛力。

除了能夠處理多達(dá) 100 余種不同的物體，例如螺絲刀、橡膠玩具、羽毛球，乃至一串葡萄和一根辣椒，GR-2 在未曾見(jiàn)過(guò)的場(chǎng)景和物體上也有著出的表現(xiàn)。

揀選任務(wù)中的 122 個(gè)測(cè)試物品，其中只有 55 個(gè)物體參與訓(xùn)練。

GR-2 可以識(shí)別透明的、可變形的或反光的物體。

話分兩頭，盡管 GR-2 在互聯(lián)網(wǎng)視頻上接受了大規(guī)模的預(yù)訓(xùn)練，但也存在一些進(jìn)步空間。例如，真實(shí)世界動(dòng)作數(shù)據(jù)的規(guī)模和多樣性仍然有限。

GR-2 的故事，是關(guān)于 AI 如何推動(dòng)機(jī)器人發(fā)展的故事。它不僅僅是一個(gè)機(jī)器人大模型，更是一個(gè)能夠?qū)W習(xí)和適應(yīng)各種任務(wù)的智能體。我們有理由相信，GR-2 在實(shí)際應(yīng)用中擁有巨大潛力。

GR-2 的旅程，才剛剛開始。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 機(jī)器人模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<bdo id="nb0j5"><strong id="nb0j5"></strong></bdo>