偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

3B模型打通機(jī)器人任督二脈!沖咖啡疊衣服都能干,7種形態(tài)適配,OpenAI也投了

人工智能 新聞
在官宣當(dāng)中,π團(tuán)隊(duì)展示了疊衣服、整理桌子、雞蛋裝盒等等復(fù)雜(對(duì)機(jī)器人來(lái)說(shuō))任務(wù)。

只要一個(gè)3B參數(shù)的大模型,就能控制機(jī)器人,幫你搞定各種家務(wù)。

疊衣服沖咖啡都能輕松拿捏,而且全都是由模型自主控制,不需要遙控。

關(guān)鍵是,這還是個(gè)通用型的機(jī)器人控制模型,不同種類的機(jī)器人都能“通吃”。

請(qǐng)看VCR:

這些操作背后的大模型叫做π0,參數(shù)量只有3B,來(lái)自今年剛成立的初創(chuàng)公司Physical Intelligence(簡(jiǎn)稱π)

創(chuàng)立之后不久,π公司就獲得了7000萬(wàn)美元(約5億人民幣)的A輪融資,投資者中還包括OpenAI

而公司的目標(biāo),就是開(kāi)發(fā)通用的機(jī)器人控制模型,現(xiàn)在的π0,就是其首項(xiàng)成果。

有網(wǎng)友直言,π0控制的機(jī)器人,是他見(jiàn)過(guò)最接近真正的通用機(jī)器人的。

圖片

關(guān)鍵是,參數(shù)量只有3B,算力消耗非常小,如果和同規(guī)模的模型性能特征相近,廉價(jià)顯卡就能帶動(dòng)。

圖片

Hugging Face的機(jī)器人團(tuán)隊(duì)領(lǐng)軍人物、前特斯拉Optimus團(tuán)隊(duì)成員Remi Cadene也說(shuō),如果π0能開(kāi)源的話,人們自己在家就能體驗(yàn)了。

圖片

7種機(jī)器人都能控制

在官宣當(dāng)中,π團(tuán)隊(duì)展示了疊衣服、整理桌子、雞蛋裝盒等等復(fù)雜(對(duì)機(jī)器人來(lái)說(shuō))任務(wù)。

這些任務(wù)不僅需要長(zhǎng)時(shí)間、多階段的連續(xù)決策,還要求動(dòng)作同時(shí)具備高頻率與精細(xì)程度。

許多任務(wù)更是涉及了復(fù)雜的接觸動(dòng)力學(xué),如衣物的變形塑性、紙箱的剛性、雞蛋的脆弱性等。

機(jī)器人需要精準(zhǔn)建模并控制這些動(dòng)力學(xué)過(guò)程,甚至滿足更多物理約束,如保持物體平衡、避免碰撞。

但總之最后π團(tuán)隊(duì)還是成功了,π0不僅能控制機(jī)器人,還能控制不同的機(jī)器人,出色地完成這些任務(wù)。

圖片

比如讓雙臂可移動(dòng)機(jī)器人收拾洗好的衣服。

只見(jiàn)機(jī)器人站到洗衣機(jī)前,打開(kāi)了艙門,然后將洗好的衣服取出放入筐內(nèi)。

圖片

然后又來(lái)到一張桌子旁,將筐里的衣服取出、鋪開(kāi)然后疊好。

圖片

還有讓另一種雙臂機(jī)器人把盤子里的雞蛋裝入盒子中,之后再把盒子蓋好。

圖片

甚至有條不紊地折疊好一個(gè)展開(kāi)的紙盒。

圖片

而且知道利用工具,比如這個(gè)機(jī)器人,用叉子把剩余的食物裝進(jìn)了打包盒。

圖片

到了收拾桌子的任務(wù)當(dāng)中,負(fù)責(zé)執(zhí)行的機(jī)器人又變成了單臂。

它可以把要保留的物品放入收納筐,將不需要的垃圾丟進(jìn)垃圾桶。

圖片

并且在物品和垃圾混合放置時(shí)也能準(zhǔn)確操作。

圖片

當(dāng)然從數(shù)據(jù)上看,π0在零樣本泛化能力、語(yǔ)言控制響應(yīng)、新任務(wù)學(xué)習(xí)、多階段任務(wù)等維度上也表現(xiàn)優(yōu)異。

圖片

零樣本泛化能力上,π0在所有任務(wù)上都顯著超過(guò)了baseline模型,即使未加入預(yù)訓(xùn)練視覺(jué)模型的π0-small也比這些baseline表現(xiàn)優(yōu)異。

圖片

指令處理上,π0在3個(gè)語(yǔ)言指令任務(wù)上,經(jīng)人類指導(dǎo)取得了最好的自主表現(xiàn),高層策略指導(dǎo)也有提升。

圖片

在與預(yù)訓(xùn)練數(shù)據(jù)差異較大的新任務(wù)上,π0在大多數(shù)任務(wù)上性能最好,尤其在微調(diào)數(shù)據(jù)量較小時(shí)優(yōu)勢(shì)明顯。

這意味著,不需要專門訓(xùn)練,π0就能讓機(jī)器人自動(dòng)完成很多開(kāi)放性任務(wù)。

圖片

最后在一系列極具挑戰(zhàn)的復(fù)雜任務(wù)上,π團(tuán)隊(duì)通過(guò)結(jié)合微調(diào)和語(yǔ)言指令對(duì)π0進(jìn)行了測(cè)試。

結(jié)果π0能夠完成折衣服、整理餐桌、組裝紙箱、裝雞蛋等長(zhǎng)達(dá)5-20分鐘的任務(wù),取得了50%以上的平均得分。

效率方面,官方技術(shù)報(bào)告中公布了π0在4090上的運(yùn)行時(shí)間。

一次完整的前向傳播也需要73-86毫秒,這對(duì)實(shí)時(shí)性要求高的場(chǎng)景可能還有挑戰(zhàn)。

但考慮到流匹配過(guò)程能生成50個(gè)動(dòng)作步,平均下來(lái)每個(gè)動(dòng)作步的生成時(shí)間也并不高。這

所以從整體上看,π0的計(jì)算效率,或者說(shuō)實(shí)時(shí)性,還是比較高的,當(dāng)然離網(wǎng)友們期待的家家可用,可能還需要再提速一些。

圖片

那么,π團(tuán)隊(duì)在π0模型上,都運(yùn)用了什么樣的技術(shù)呢?

視覺(jué)大模型魔改而成

π0是基于視覺(jué)模型PaLM-ViT改造而成,在其基礎(chǔ)上增加了一個(gè)投影層、一個(gè)多層感知機(jī),以及一個(gè)較小的動(dòng)作專家模塊。

其中投影層用于處理機(jī)器人狀態(tài)和動(dòng)作的輸入輸出,多層感知機(jī)用于整合流匹配(flow matching)時(shí)間步信息,專家模塊則用單獨(dú)的權(quán)重處理機(jī)器人狀態(tài)和動(dòng)作tokens。

模型的輸入包括圖像、語(yǔ)言指令、機(jī)器人本體感受狀態(tài)和噪聲動(dòng)作塊。

圖像和語(yǔ)言tokens送入VLM主干網(wǎng)絡(luò),狀態(tài)和動(dòng)作tokens送入動(dòng)作專家模塊。

最終,模型會(huì)輸出動(dòng)作塊的向量場(chǎng)表示。

圖片

對(duì)于連續(xù)動(dòng)作分布的建模,π0模型使用了條件流匹配(conditional flow matching)方法。

流匹配的工作方式和擴(kuò)散模型有些類似,核心思想都是通過(guò)逐步添加噪聲來(lái)簡(jiǎn)化數(shù)據(jù)分布,然后逐步去噪得到隱私數(shù)據(jù)——

訓(xùn)練時(shí),隨機(jī)對(duì)動(dòng)作施加高斯噪聲,并訓(xùn)練模型輸出去噪向量場(chǎng);推理時(shí),從高斯噪聲開(kāi)始,通過(guò)數(shù)值積分向量場(chǎng)生成動(dòng)作序列。

不同之處在于,流匹配直接對(duì)數(shù)據(jù)和噪聲分布之間的映射場(chǎng)(vector field)進(jìn)行建模,訓(xùn)練目標(biāo)是匹配這一映射場(chǎng),而擴(kuò)散模型通常學(xué)習(xí)的是每個(gè)去噪步驟的條件分布。

流匹配方法能夠高精度地建模復(fù)雜多峰分布,非常適合高頻靈巧操作任務(wù)。

訓(xùn)練數(shù)據(jù)方面,π0是在迄今為止最大的機(jī)器人交互數(shù)據(jù)集上進(jìn)行訓(xùn)練的。

預(yù)訓(xùn)練階段的數(shù)據(jù)集中包括OXE、DROID、Bridge等開(kāi)源數(shù)據(jù),以及團(tuán)隊(duì)在8個(gè)不同的機(jī)器人平臺(tái)中收集的大量靈巧類任務(wù)數(shù)據(jù)等內(nèi)容。

團(tuán)隊(duì)自己收集的數(shù)據(jù)集括68個(gè)任務(wù),涉及單臂任務(wù)106M步、雙臂任務(wù)797M步,數(shù)據(jù)采用了50Hz高頻控制。

開(kāi)源數(shù)據(jù)和團(tuán)隊(duì)自己收集的數(shù)據(jù),比例大約是1:9。

圖片

另外為了讓?duì)?掌握特定復(fù)雜技能,團(tuán)隊(duì)在20多個(gè)下游任務(wù)上進(jìn)行了微調(diào)。

根據(jù)任務(wù)的難度和相似度,微調(diào)數(shù)據(jù)量從5小時(shí)到100多小時(shí)不等,一些任務(wù)還結(jié)合了高層語(yǔ)言策略模塊來(lái)分解復(fù)雜目標(biāo)。

用團(tuán)隊(duì)成員切爾西·芬(Chelsea Finn)的話說(shuō),預(yù)訓(xùn)練是為了讓模型能夠應(yīng)對(duì)各種場(chǎng)景,后訓(xùn)練(微調(diào))則是讓?duì)?掌握更多的策略。

圖片

“不造機(jī)器人”的機(jī)器人公司

Physical Intelligence公司成立于今年,已經(jīng)獲得總計(jì)7000萬(wàn)美元的A輪融資。

融資由紅杉資本領(lǐng)先,此外還有包括OpenAI在內(nèi)的6家公司參投。

公司還有個(gè)簡(jiǎn)稱叫做π,因?yàn)镻hysical Intelligence的縮寫pi,剛好是π的拉丁轉(zhuǎn)寫。

圖片

雖然是家機(jī)器人公司,但π并不生產(chǎn)機(jī)器人硬件,只負(fù)責(zé)訓(xùn)練模型,目標(biāo)是構(gòu)建能夠通用的機(jī)器人模型。

對(duì)此,π的聯(lián)合創(chuàng)始人兼CEO卡羅爾·豪斯曼(Karol Hausman)在公開(kāi)場(chǎng)合解釋:

我們的目標(biāo)是通過(guò)一個(gè)通用模型將AI帶入物理世界,這個(gè)模型可以為任何機(jī)器人或任何物理設(shè)備提供動(dòng)力,基本上適用于任何應(yīng)用。

對(duì)于此事的意義,公司另一名聯(lián)創(chuàng)謝爾蓋·萊文(Sergey Levine)在推特上舉例說(shuō)明,π創(chuàng)業(yè)要做的事之于機(jī)器人控制,其重要程度就像NLP之于大模型。

圖片

π的創(chuàng)始人背景也都十分亮眼,都是機(jī)器人和AI專家,在機(jī)器人、工程和許多其他領(lǐng)域擁有深厚經(jīng)驗(yàn)。

CEO卡羅爾·豪斯曼(Karol Hausman),此前曾是谷歌大腦機(jī)器人操作研究主管,2021年至今兼任斯坦??妥淌凇?/p>

圖片

聯(lián)合創(chuàng)始人謝爾蓋·萊文(Sergey Levine),UC伯克利電氣工程和計(jì)算機(jī)科學(xué)系副教授,谷歌學(xué)術(shù)被引用量為超過(guò)12.7萬(wàn)。

而且還是不折不扣的頂會(huì)狂魔,據(jù)不完全統(tǒng)計(jì),萊文2018年在ML和NLP頂會(huì)上共發(fā)表22篇論文,與另外兩人并列全球第一……

萊文在UC伯克利還是個(gè)網(wǎng)紅教授,此前推出的深度學(xué)習(xí)課程Deep Reinforcement Learning(深度強(qiáng)化學(xué)習(xí),課程代號(hào)CS 285)非常受歡迎。

同時(shí),在斯坦福家務(wù)機(jī)器人ALOHA的相關(guān)論文中,萊文的名字也經(jīng)常出現(xiàn)。

圖片

聯(lián)創(chuàng)切爾西·芬(Chelsea Finn),斯坦福計(jì)算機(jī)科學(xué)和電氣工程系助理教授,谷歌學(xué)術(shù)論文引用數(shù)超4.7萬(wàn)。

在ALOHA團(tuán)隊(duì)的論文當(dāng)中,芬經(jīng)常以通訊作者的身份出現(xiàn)。

圖片

此外,還有谷歌大腦機(jī)器人團(tuán)隊(duì)前科學(xué)家布賴恩·伊希特(Brian Ichter)、豐田研究院ML研究團(tuán)隊(duì)的研究科學(xué)家蘇拉吉·奈爾(Suraj Nair)等。

可以說(shuō)陣容是非常豪華了。

擁有超級(jí)團(tuán)隊(duì)的π,也仍在繼續(xù)招兵買馬,在研究科學(xué)家、ML工程師、數(shù)據(jù)工程師等多個(gè)崗位招聘員工和實(shí)習(xí)生。

圖片

技術(shù)報(bào)告:https://www.physicalintelligence.company/download/pi0.pdf

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-02-26 21:59:22

Git版本系統(tǒng)

2016-10-20 09:29:38

云極星創(chuàng)云計(jì)算

2021-04-20 19:20:57

Kafka架構(gòu)設(shè)計(jì)

2010-05-04 17:58:22

云計(jì)算

2015-07-14 09:00:16

DR Rapid戴爾DR系列

2013-10-28 15:29:49

數(shù)字家庭三網(wǎng)融合

2009-06-24 15:21:00

路由器下載速度

2018-01-26 09:37:04

DBAMySQL架構(gòu)

2024-04-02 11:13:59

機(jī)器人人工智能自變量機(jī)器人

2016-02-22 14:28:52

2018-12-20 11:12:44

機(jī)器人算法伯克利

2014-04-01 09:31:47

打通任督二脈:用友NC

2010-12-20 15:00:43

2019-01-07 19:49:31

Oracle NetS一體化管理

2010-05-20 11:30:47

OA協(xié)作平臺(tái)寶時(shí)得鼎捷軟件

2018-08-13 18:13:00

大數(shù)據(jù)

2020-05-20 14:41:11

微軟機(jī)器學(xué)習(xí)Windows

2024-09-02 10:00:00

機(jī)器人開(kāi)源

2021-12-13 07:02:47

硬件軟件CPU
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)