特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)!
特斯拉機(jī)器人Optimus最新視頻出爐,已經(jīng)可以在廠子里打工了。
正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:

官方還放出了20倍速下的樣子——在小小的“工位”上,揀啊揀啊揀:

這次放出的視頻亮點(diǎn)之一在于Optimus在廠子里完成這項(xiàng)工作,是完全自主的,全程沒有人為的干預(yù)。
并且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋矸胖?,主打一個(gè)自動糾錯(cuò):

對于Optimus的手
,英偉達(dá)科學(xué)家Jim Fan給出了高度的評價(jià):
Optimus的手是全球五指機(jī)器人里最靈巧的之一。
它的手不僅有觸覺感應(yīng),自由度(DoF)也達(dá)到了11個(gè),而同行基本上都只有5-6個(gè)自由度。
并且堅(jiān)固耐用,無需經(jīng)常維護(hù)即可承受大量物體交互。
而就在Jim Fan的評論區(qū),馬斯克還現(xiàn)身透露了一個(gè)更重磅的消息:
今年晚些時(shí)候,Optimus手的自由度將達(dá)到22個(gè)!

不過有一說一,視頻中展示Optimus分揀自家電池還只是“開胃菜”。
這一次,特斯拉罕見地公布了機(jī)器人的訓(xùn)練詳情。
和特斯拉汽車相似的邏輯
首先在神經(jīng)網(wǎng)絡(luò)方面,從視頻中的字幕中可以得知,特斯拉給Optimus部署的是一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)來訓(xùn)練分揀電池的任務(wù)。
也正因如此,Optimus所用到的數(shù)據(jù)僅僅是來自于2D攝像頭和手部的觸覺、力度傳感器,并直接生成關(guān)節(jié)控制序列。

特斯拉工程師Milan Kovac進(jìn)一步透露,這個(gè)神經(jīng)網(wǎng)絡(luò)完全是在機(jī)器人的嵌入式FSD計(jì)算機(jī)上運(yùn)行,并且由機(jī)載電池供電:
當(dāng)我們在訓(xùn)練過程中添加更多不同的數(shù)據(jù)時(shí),單個(gè)神經(jīng)網(wǎng)絡(luò)可以執(zhí)行多個(gè)任務(wù)。
在訓(xùn)練數(shù)據(jù)方面,我們可以看到是人類戴著VR眼鏡和手套,通過遠(yuǎn)程操作的方式來采集:

對于這一點(diǎn),Jim Fan認(rèn)為:
將軟件設(shè)置為第一人稱視頻流輸入和精確控制流輸出,同時(shí)保持極低的延遲是非常重要的。
這是因?yàn)槿祟悓ψ约旱膭幼骱蜋C(jī)器人的動作之間哪怕是最小的延遲都非常敏感。
而Optimus恰好有一個(gè)流體全身控制器,可以實(shí)時(shí)執(zhí)行人體姿勢。
并且特斯拉機(jī)器人已經(jīng)將這種模式擴(kuò)展到了其它任務(wù)中:

如此規(guī)模也是令Jim Fan大受震驚的一點(diǎn):
并行收集數(shù)據(jù),一個(gè)機(jī)器人是遠(yuǎn)遠(yuǎn)不夠的,而且人類還得每天輪班倒。
這種規(guī)模的操作可能是學(xué)術(shù)實(shí)驗(yàn)室里想都不敢想的。
不僅如此,從視頻中Optimus們正在執(zhí)行的任務(wù)來看也是多種多樣,有分揀電池的,有疊衣服的,還有整理物品的。
Milan Kovac表示特斯拉在其中一家工廠已經(jīng)部署了幾個(gè)機(jī)器人,它們每天正在真實(shí)的工作站接受測試并不斷改進(jìn)。

總而言之,Optimus單是從視覺和人類示范來進(jìn)行訓(xùn)練來看,這一點(diǎn)上是和特斯拉汽車的邏輯是有點(diǎn)類似了。
在視頻的最后,官方還曝出Optimus另一個(gè)能力上的提升——可以走更遠(yuǎn)的路了:

One More Thing
Jim Fan的實(shí)驗(yàn)室也在這兩天放出了一個(gè)新進(jìn)展——
讓機(jī)器狗踩著瑜伽球行走!

而它的訓(xùn)練方法和特斯拉Optimus截然不同,是完全在模擬環(huán)境中進(jìn)行,然后零樣本遷移到真實(shí)世界中,無需微調(diào),直接運(yùn)行。
具體背后的技術(shù)則是團(tuán)隊(duì)新推出的DrEureka,它是以之前五指機(jī)器人轉(zhuǎn)筆背后的技術(shù)Eureka為基礎(chǔ)。
DrEureka是一個(gè)LLM智能體,可以編寫代碼來訓(xùn)練機(jī)器人在模擬中的技能,并編寫更多的代碼來彌合困難的模擬與現(xiàn)實(shí)之間的差距。
簡而言之,它完全自動化了從新技能學(xué)習(xí)到現(xiàn)實(shí)世界部署的流程。

而相較于特斯拉Optimus和英偉達(dá)機(jī)器狗的訓(xùn)練方式,Jim Fan也做了個(gè)靈魂總結(jié):
遠(yuǎn)程操作是解決類人機(jī)器人問題的必要但不充分的條件。從根本上說,它無法擴(kuò)展。
并且也有網(wǎng)友對此表示認(rèn)同:

那么你覺得呢?















 
 
 















 
 
 
 