斯坦福炒蝦機(jī)器人爆火全網(wǎng)!華人團(tuán)隊(duì)成本22萬元,能做滿漢全席還會(huì)洗碗
今天,會(huì)做一大桌子菜的斯坦福機(jī)器人Mobile ALOHA刷屏全網(wǎng)。
滑蛋蝦仁、干貝燒雞、蠔油生菜,色香味俱全,看著很誘人。


就拿滑蛋蝦仁這道菜來說,Mobile ALOHA在燒水的過程中先打上3顆雞蛋,然后把蝦仁放到水中焯熟,平底鍋倒入雞蛋液再加入蝦仁,攪拌幾下,一道菜完成了。

再看干貝燒雞的制作過程。
首先,將去骨雞腿肉煎至兩面金黃,再加入干貝等調(diào)料之后,悶個(gè)20分鐘即可。

最后擺盤時(shí),再撒上一小撮蔥花,完美。

至于蠔油生菜,機(jī)器人「大廚」的基操也是非常嫻熟。

甚至,還能切蒜末。

網(wǎng)友看后紛紛表示,我們簡(jiǎn)直生活在未來!用不了多久快餐店做漢堡的工作要全面被機(jī)器人取代!

就連Pytorch之父稱贊道,很酷的新家機(jī)器人平臺(tái),很高興看到更多的工作在這個(gè)方向上!

這個(gè)由斯坦福三人團(tuán)隊(duì)研發(fā)的全新移動(dòng)機(jī)器人Mobile ALOHA,可以通過模仿學(xué)習(xí),執(zhí)行各種復(fù)雜的任務(wù)。
它不僅可以自主操作,還可以支持全身遠(yuǎn)程操控。
值得一提的是,機(jī)器人的成本僅為32000美元(約22萬),甚至軟件和硬件全部開源。

論文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf
研究人員每個(gè)任務(wù)只用了50個(gè)演示,便讓Mobile ALOHA機(jī)器人始終如一地做一件事,比如連續(xù)9次擦拭灑在桌子上的葡萄酒,連續(xù)5次乘坐電梯。
它還可以在受干擾的情況下,把鍋放入碗柜。即便是訓(xùn)練數(shù)據(jù)中看不到的椅子,也能夠擺正。

50個(gè)演示如何就讓機(jī)器人擁有如此強(qiáng)大的學(xué)習(xí)能力?
作者解釋關(guān)鍵在于,利用靜態(tài)ALOHA數(shù)據(jù)共同訓(xùn)練模仿學(xué)習(xí)算法。這能持續(xù)提高性能,尤其是在需要精確操作的任務(wù)中。

再來看一波Mobile ALOHA炫酷的演示吧!
清洗平底鍋:
和人擊掌:

炒蝦仁:

此外,還可以遙控Mobile ALOHA完成一些更加精細(xì)的工作。
比如把紙抽出來擦玻璃。

以及用笤帚掃地等等。

機(jī)器人元年強(qiáng)勢(shì)開局
2024年還沒到來之前,許多大佬都在預(yù)測(cè)機(jī)器人便是今年除了大模型,另一件重要的研究領(lǐng)域。

沒錯(cuò),2024年將會(huì)是機(jī)器人元年。


一般來說,開發(fā)通用機(jī)器人一個(gè)非常有前途的方法是,從人類提供的演示中進(jìn)行模仿學(xué)習(xí)。
這種「行為克隆」可以讓機(jī)器人學(xué)習(xí)各種原始的技能,從簡(jiǎn)單的拾放操作,到更精細(xì)的操作等等。
然而,現(xiàn)實(shí)生活中許多任務(wù),都需要全身協(xié)調(diào)的機(jī)動(dòng)性,以及靈巧操作,而非單獨(dú)的移動(dòng)或操作行為。
這篇論文中,作者研究了將「模仿學(xué)習(xí)」擴(kuò)展到需要雙臂移動(dòng)機(jī)器人全身控制的任務(wù)可行性。

當(dāng)前,有兩個(gè)主要因素阻礙了「模仿學(xué)習(xí)」在雙臂機(jī)器人移動(dòng)操作中的廣泛應(yīng)用。
一是,缺乏即插即用的「全身遠(yuǎn)程操控硬件」。
如果購買現(xiàn)成的,雙臂移動(dòng)操作器成本會(huì)很高,比如PR2和TIAGo這樣的機(jī)器人價(jià)格超過20萬美元。為了在這些平臺(tái)上實(shí)現(xiàn)遠(yuǎn)程操控,額外的硬件和校準(zhǔn)也是必要的
二是,之前的機(jī)器人學(xué)習(xí)研究中,尚未證明對(duì)于復(fù)雜任務(wù)的高性能雙臂移動(dòng)操作。

在本文中,研究人員試圖解決將「模仿學(xué)習(xí)」應(yīng)用于雙臂移動(dòng)操作的挑戰(zhàn)。
在硬件方面,作者引入了機(jī)器人Mobile ALOHA,一個(gè)低成本的全身遙操作系統(tǒng),用于收集雙臂移動(dòng)操作數(shù)據(jù)。
通過將其安裝在輪式底座上,Mobile ALOHA擴(kuò)展了原始ALOHA的能力,即低成本和靈巧的雙人木偶操縱設(shè)置。
然后,用戶將身體栓在系統(tǒng)上,反向驅(qū)動(dòng)輪子,以便底座移動(dòng)。
當(dāng)用戶雙手控制ALOHA時(shí),底座可以獨(dú)立移動(dòng)。研究人員同時(shí)記錄底座速度數(shù)據(jù)和手臂操縱數(shù)據(jù),形成一個(gè)全身遠(yuǎn)程操控系統(tǒng)。
成本只需3萬刀
值得一提的是,斯坦福團(tuán)隊(duì)在打造Mobile ALOHA的所有成本僅用了3萬美元。
在具體的機(jī)器人設(shè)計(jì)中,它們綜合考慮了四個(gè)關(guān)鍵的因素:
- 移動(dòng):系統(tǒng)的移動(dòng)速度可與人類行走的速度相媲美,大約每秒1.42米。
- 穩(wěn)定性:當(dāng)操作重型家用物品,如鍋和櫥柜時(shí),能夠保持穩(wěn)定。
- 全身遠(yuǎn)程操控:所有自由度都可以同時(shí)遙操作,包括手臂和移動(dòng)底座。
- 不受束縛:機(jī)載電源和計(jì)算
如下圖所示,可以清楚地看到Mobile ALOHA的技術(shù)規(guī)格。
Mobile ALOHA有2個(gè)腕部攝像頭,和1個(gè)頂部攝像頭,并配有機(jī)載電源和計(jì)算。
另外,遠(yuǎn)程操作裝置可以拆除,Mobile ALOHA自主執(zhí)行時(shí)只使用2個(gè)ViperX 300。兩只手臂的最低/最高高度分別為65厘米/200厘米,并從底座伸出100厘米。

研究人員選擇AgileX Tracer AGV(Tracer)作為了移動(dòng)底座,這是一個(gè)專為倉庫物流設(shè)計(jì)的。
其移動(dòng)速度可以達(dá)到1.6m/s,接近人類的平均步行速度。它的最大有效載荷為100千克,高度為17毫米。
值得一提的是,Tracer在美的售價(jià)為7000美元,比同等速度和有效載荷的Clearpath的AGV便宜5倍多。

然后,研究人員試圖在Tracer移動(dòng)底座和ALOHA機(jī)械臂的基礎(chǔ)上設(shè)計(jì)一個(gè)全身遠(yuǎn)程操控系統(tǒng),即一個(gè)可以同時(shí)控制底座和兩個(gè)機(jī)械臂的遠(yuǎn)程操控系統(tǒng)。
而將操作員的腰部拴在移動(dòng)底座上的設(shè)計(jì)是最簡(jiǎn)單直接的解決方案,這樣可以反向驅(qū)動(dòng)車輪,而車輪在扭矩關(guān)閉時(shí)摩擦力非常小。
為了改善人體工程學(xué)和擴(kuò)大工作空間,團(tuán)隊(duì)還安裝了4個(gè)ALOHA手臂都面向前,不同于原始面向內(nèi)的ALOHA手臂。

此外,為了讓Mobile ALOHA不受束縛,作者在底部配置了1.26千瓦時(shí)重14公斤的電池。同時(shí)還可以起到平衡作用,避免翻到。
在數(shù)據(jù)收集和推理過程中的所有計(jì)算都在一臺(tái)消費(fèi)級(jí)筆記本電腦上進(jìn)行,該筆記本電腦配有Nvidia 3070ti GPU (8gb VRAM)和 Intel i7-12800H。
以上便是Mobile ALOHA設(shè)計(jì)的重要組件。
一些開發(fā)細(xì)節(jié)




材料價(jià)格一覽
有興趣的小伙伴可以查看他們的官方文檔:https://docs.google.com/document/d/1_3yhWjodSNNYlpxkRCPIlvIAaQ76Nqk2wsqhnEVM6Dc/edit









協(xié)同學(xué)習(xí),提升「模仿學(xué)習(xí)」性能
硬件得到了,接下來便是使用數(shù)據(jù)進(jìn)行協(xié)同訓(xùn)練。
論文中,研究人員使用一個(gè)協(xié)同訓(xùn)練管道,利用現(xiàn)有的靜態(tài)ALOHA數(shù)據(jù)集,以改善模仿學(xué)習(xí)在移動(dòng)操作,特別是雙手臂操作的性能。
靜態(tài)ALOHA數(shù)據(jù)集總共有825個(gè)演示任務(wù),包括密封袋子、拿起叉子、包裝糖果、撕紙巾、打開帶蓋塑料杯、玩乒乓球、使用咖啡機(jī)、翻轉(zhuǎn)鉛筆、固定魔術(shù)貼電纜、裝上電池和操作螺絲刀。
然后,研究人員選擇了7個(gè)任務(wù),讓Mobile ALOHA去完成。
對(duì)于機(jī)器人需要清理灑在桌子上紅酒的任務(wù),需要機(jī)動(dòng)性和雙手靈活性。
具體來說,機(jī)器人需要首先導(dǎo)航到水龍頭,拿起毛巾,然后導(dǎo)航回到桌子。
然后一只手臂舉起酒杯,另一只手臂需要用毛巾擦拭桌子和杯底。這個(gè)任務(wù)在靜態(tài)ALOHA中是不可能完成的,單臂移動(dòng)機(jī)器人需要更多的時(shí)間來完成。

對(duì)于炒蝦仁來說,機(jī)器人需要將一個(gè)生蝦兩面煎熟,然后把它放進(jìn)碗里。
機(jī)動(dòng)性和雙手靈活性也是這項(xiàng)任務(wù)的必要條件:機(jī)器人需要從灶臺(tái)移動(dòng)到廚房臺(tái),用鏟子翻動(dòng)蝦仁,而另一只手臂還需傾斜平底鍋。
這項(xiàng)任務(wù)要求比擦酒精度更高,因?yàn)榉D(zhuǎn)半熟的蝦需要更高的精度。

同樣,對(duì)于清洗平底鍋、收納鍋、乘坐電梯、推椅子、擊掌的任務(wù),Mobile ALOHA也能熟練地完成。

下圖是機(jī)器人在執(zhí)行任務(wù)時(shí)的導(dǎo)航移動(dòng)軌跡。

50個(gè)演示,80%+成功率
實(shí)驗(yàn)評(píng)估中,研究人員主要為了回答兩個(gè)核心問題:
(1) 通過協(xié)同訓(xùn)練和少量移動(dòng)操作數(shù)據(jù),Mobile ALOHA能否掌握復(fù)雜的移動(dòng)操作技能?
(2)Mobile ALOHA能否使用不同類型的模仿學(xué)習(xí)方法,包括ACT、擴(kuò)散策略和基于檢索的VINN?
研究發(fā)現(xiàn),協(xié)同訓(xùn)練可以提高ACT性能。在7項(xiàng)具有挑戰(zhàn)性的移動(dòng)操作任務(wù)中,與靜態(tài)ALOHA數(shù)據(jù)集進(jìn)行協(xié)同訓(xùn)練可持續(xù)提高ACT的成功率。
這對(duì)于乘電梯時(shí)需要按鍵、清洗鍋時(shí)需要打開水龍頭,等子任務(wù)尤為重要,因?yàn)樵谶@些任務(wù)中,精確操作是瓶頸所在。

另外,Mobile ALOHA與「模仿學(xué)習(xí)」方法兼容。
帶分塊的VINN、擴(kuò)散策略和ACT在Mobile ALOHA上都取得了良好的性能,并且受益于與靜態(tài)ALOHA的協(xié)同訓(xùn)練。

協(xié)同訓(xùn)練針對(duì)不同數(shù)據(jù)組合,其表現(xiàn)也是非常穩(wěn)健。如下是使用ACT進(jìn)行擦拭酒的任務(wù)訓(xùn)練后的成功率。

協(xié)同訓(xùn)練和預(yù)訓(xùn)練效果對(duì)比如下。協(xié)同訓(xùn)練在擦拭酒的任務(wù)中的表現(xiàn),成功率95%,大大優(yōu)于預(yù)訓(xùn)練的成功率40%。

另外,用戶使用Mobile ALOHA遠(yuǎn)程操控未見過的任務(wù)時(shí),可以迅速接近專家級(jí)速度。

總而言之,僅用32000美元的預(yù)算,通過靜態(tài)ALOHA數(shù)據(jù)協(xié)同訓(xùn)練的模仿學(xué)習(xí),Mobile ALOHA只需要20-50個(gè)演示就能學(xué)會(huì)各種復(fù)雜的任務(wù)。
斯坦福Mobile ALOHA向所有人展示了機(jī)器人在各種應(yīng)用場(chǎng)景的潛力,甚至機(jī)器人開源實(shí)現(xiàn)了人人可復(fù)刻。
網(wǎng)友表示,機(jī)器人學(xué)是一門既需要硬件又需要算法的系統(tǒng)研究。我猜在2024年,我們將在現(xiàn)實(shí)世界中看到越來越多的機(jī)器人。

作者介紹
Zipeng Fu(項(xiàng)目共同負(fù)責(zé)人)

Zipeng Fu是斯坦福大學(xué)AI實(shí)驗(yàn)室的計(jì)算機(jī)科學(xué)博士生,導(dǎo)師是Chelsea Finn。同時(shí)也在Google DeepMind擔(dān)任學(xué)生研究員,與Jie Tan合作。
此前,他在卡內(nèi)基梅隆大學(xué)(CMU)攻讀機(jī)器學(xué)習(xí)領(lǐng)域的碩士學(xué)位,并在機(jī)器人學(xué)院(Robotics Institute)擔(dān)任學(xué)生研究員,導(dǎo)師是Deepak Pathak和Jitendra Malik。
他在加州大學(xué)洛杉磯分校(UCLA)獲得了計(jì)算機(jī)科學(xué)與應(yīng)用數(shù)學(xué)的學(xué)士學(xué)位,導(dǎo)師是Song-Chun Zhu。
他的研究興趣集中在機(jī)器人學(xué)、機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的交匯處。并致力于研究在復(fù)雜多變的開放世界中實(shí)現(xiàn)穩(wěn)定性能和可實(shí)際部署的機(jī)器人系統(tǒng)。
他的研究得到斯坦福研究生獎(jiǎng)學(xué)金的支持,并且還是Pierre和Christine Lamond獎(jiǎng)學(xué)金的獲得者。
Tony Z. Zhao(項(xiàng)目共同負(fù)責(zé)人)

Tony Z. Zhao是斯坦福大學(xué)的計(jì)算機(jī)科學(xué)博士生,導(dǎo)師是Chelsea Finn。同時(shí)也在Google DeepMind擔(dān)任兼職研究助理。
在此之前,他于2021年在加州大學(xué)伯克利分校(UCB)獲得了電子與計(jì)算機(jī)科學(xué)(EECS)學(xué)士學(xué)位,導(dǎo)師是Sergey Levine和Dan Klein。并曾在特斯拉Autopilot和谷歌X Intrinsic實(shí)習(xí)。
他的目標(biāo)是使機(jī)器人能夠完成復(fù)雜而精細(xì)的操控任務(wù)。
Chelsea Finn

Chelsea Finn是斯坦福大學(xué)計(jì)算機(jī)科學(xué)與電氣工程的助理教授。研究興趣是機(jī)器人及其他智能體能夠通過學(xué)習(xí)和互動(dòng)來展現(xiàn)出的智能行為。
她的實(shí)驗(yàn)室IRIS致力于通過大規(guī)模的機(jī)器人互動(dòng)研究智能,并且是SAIL和ML Group的合作實(shí)驗(yàn)室。同時(shí),她也在Google Brain團(tuán)隊(duì)擔(dān)任研究工作。
此前,她在加州大學(xué)伯克利分校(UCB)獲得了計(jì)算機(jī)科學(xué)博士學(xué)位,并在麻省理工學(xué)院(MIT)取得了電氣工程與計(jì)算機(jī)科學(xué)的學(xué)士學(xué)位。



































