偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

3B模型打通機(jī)器人任督二脈！沖咖啡疊衣服都能干，7種形態(tài)適配，OpenAI也投了

作者：量子位 2024-11-04 08:00:00

人工智能新聞

在官宣當(dāng)中，π團(tuán)隊(duì)展示了疊衣服、整理桌子、雞蛋裝盒等等復(fù)雜（對(duì)機(jī)器人來(lái)說(shuō)）任務(wù)。

只要一個(gè)3B參數(shù)的大模型，就能控制機(jī)器人，幫你搞定各種家務(wù)。

疊衣服沖咖啡都能輕松拿捏，而且全都是由模型自主控制，不需要遙控。

關(guān)鍵是，這還是個(gè)通用型的機(jī)器人控制模型，不同種類的機(jī)器人都能“通吃”。

請(qǐng)看VCR：

這些操作背后的大模型叫做π0，參數(shù)量只有3B，來(lái)自今年剛成立的初創(chuàng)公司Physical Intelligence（簡(jiǎn)稱π）。

創(chuàng)立之后不久，π公司就獲得了7000萬(wàn)美元（約5億人民幣）的A輪融資，投資者中還包括OpenAI。

而公司的目標(biāo)，就是開(kāi)發(fā)通用的機(jī)器人控制模型，現(xiàn)在的π0，就是其首項(xiàng)成果。

有網(wǎng)友直言，π0控制的機(jī)器人，是他見(jiàn)過(guò)最接近真正的通用機(jī)器人的。

關(guān)鍵是，參數(shù)量只有3B，算力消耗非常小，如果和同規(guī)模的模型性能特征相近，廉價(jià)顯卡就能帶動(dòng)。

Hugging Face的機(jī)器人團(tuán)隊(duì)領(lǐng)軍人物、前特斯拉Optimus團(tuán)隊(duì)成員Remi Cadene也說(shuō)，如果π0能開(kāi)源的話，人們自己在家就能體驗(yàn)了。

7種機(jī)器人都能控制

在官宣當(dāng)中，π團(tuán)隊(duì)展示了疊衣服、整理桌子、雞蛋裝盒等等復(fù)雜（對(duì)機(jī)器人來(lái)說(shuō)）任務(wù)。

這些任務(wù)不僅需要長(zhǎng)時(shí)間、多階段的連續(xù)決策，還要求動(dòng)作同時(shí)具備高頻率與精細(xì)程度。

許多任務(wù)更是涉及了復(fù)雜的接觸動(dòng)力學(xué)，如衣物的變形塑性、紙箱的剛性、雞蛋的脆弱性等。

機(jī)器人需要精準(zhǔn)建模并控制這些動(dòng)力學(xué)過(guò)程，甚至滿足更多物理約束，如保持物體平衡、避免碰撞。

但總之最后π團(tuán)隊(duì)還是成功了，π0不僅能控制機(jī)器人，還能控制不同的機(jī)器人，出色地完成這些任務(wù)。

比如讓雙臂可移動(dòng)機(jī)器人收拾洗好的衣服。

只見(jiàn)機(jī)器人站到洗衣機(jī)前，打開(kāi)了艙門，然后將洗好的衣服取出放入筐內(nèi)。

然后又來(lái)到一張桌子旁，將筐里的衣服取出、鋪開(kāi)然后疊好。

還有讓另一種雙臂機(jī)器人把盤子里的雞蛋裝入盒子中，之后再把盒子蓋好。

甚至有條不紊地折疊好一個(gè)展開(kāi)的紙盒。

而且知道利用工具，比如這個(gè)機(jī)器人，用叉子把剩余的食物裝進(jìn)了打包盒。

到了收拾桌子的任務(wù)當(dāng)中，負(fù)責(zé)執(zhí)行的機(jī)器人又變成了單臂。

它可以把要保留的物品放入收納筐，將不需要的垃圾丟進(jìn)垃圾桶。

并且在物品和垃圾混合放置時(shí)也能準(zhǔn)確操作。

當(dāng)然從數(shù)據(jù)上看，π0在零樣本泛化能力、語(yǔ)言控制響應(yīng)、新任務(wù)學(xué)習(xí)、多階段任務(wù)等維度上也表現(xiàn)優(yōu)異。

零樣本泛化能力上，π0在所有任務(wù)上都顯著超過(guò)了baseline模型，即使未加入預(yù)訓(xùn)練視覺(jué)模型的π0-small也比這些baseline表現(xiàn)優(yōu)異。

指令處理上，π0在3個(gè)語(yǔ)言指令任務(wù)上，經(jīng)人類指導(dǎo)取得了最好的自主表現(xiàn)，高層策略指導(dǎo)也有提升。

在與預(yù)訓(xùn)練數(shù)據(jù)差異較大的新任務(wù)上，π0在大多數(shù)任務(wù)上性能最好，尤其在微調(diào)數(shù)據(jù)量較小時(shí)優(yōu)勢(shì)明顯。

這意味著，不需要專門訓(xùn)練，π0就能讓機(jī)器人自動(dòng)完成很多開(kāi)放性任務(wù)。

最后在一系列極具挑戰(zhàn)的復(fù)雜任務(wù)上，π團(tuán)隊(duì)通過(guò)結(jié)合微調(diào)和語(yǔ)言指令對(duì)π0進(jìn)行了測(cè)試。

結(jié)果π0能夠完成折衣服、整理餐桌、組裝紙箱、裝雞蛋等長(zhǎng)達(dá)5-20分鐘的任務(wù)，取得了50%以上的平均得分。

效率方面，官方技術(shù)報(bào)告中公布了π0在4090上的運(yùn)行時(shí)間。

一次完整的前向傳播也需要73-86毫秒，這對(duì)實(shí)時(shí)性要求高的場(chǎng)景可能還有挑戰(zhàn)。

但考慮到流匹配過(guò)程能生成50個(gè)動(dòng)作步,平均下來(lái)每個(gè)動(dòng)作步的生成時(shí)間也并不高。這

所以從整體上看，π0的計(jì)算效率，或者說(shuō)實(shí)時(shí)性，還是比較高的，當(dāng)然離網(wǎng)友們期待的家家可用，可能還需要再提速一些。

那么，π團(tuán)隊(duì)在π0模型上，都運(yùn)用了什么樣的技術(shù)呢？

視覺(jué)大模型魔改而成

π0是基于視覺(jué)模型PaLM-ViT改造而成，在其基礎(chǔ)上增加了一個(gè)投影層、一個(gè)多層感知機(jī)，以及一個(gè)較小的動(dòng)作專家模塊。

其中投影層用于處理機(jī)器人狀態(tài)和動(dòng)作的輸入輸出，多層感知機(jī)用于整合流匹配（flow matching）時(shí)間步信息，專家模塊則用單獨(dú)的權(quán)重處理機(jī)器人狀態(tài)和動(dòng)作tokens。

模型的輸入包括圖像、語(yǔ)言指令、機(jī)器人本體感受狀態(tài)和噪聲動(dòng)作塊。

圖像和語(yǔ)言tokens送入VLM主干網(wǎng)絡(luò)，狀態(tài)和動(dòng)作tokens送入動(dòng)作專家模塊。

最終，模型會(huì)輸出動(dòng)作塊的向量場(chǎng)表示。

對(duì)于連續(xù)動(dòng)作分布的建模，π0模型使用了條件流匹配（conditional flow matching）方法。

流匹配的工作方式和擴(kuò)散模型有些類似，核心思想都是通過(guò)逐步添加噪聲來(lái)簡(jiǎn)化數(shù)據(jù)分布，然后逐步去噪得到隱私數(shù)據(jù)——

訓(xùn)練時(shí)，隨機(jī)對(duì)動(dòng)作施加高斯噪聲，并訓(xùn)練模型輸出去噪向量場(chǎng)；推理時(shí)，從高斯噪聲開(kāi)始，通過(guò)數(shù)值積分向量場(chǎng)生成動(dòng)作序列。

不同之處在于，流匹配直接對(duì)數(shù)據(jù)和噪聲分布之間的映射場(chǎng)（vector field）進(jìn)行建模，訓(xùn)練目標(biāo)是匹配這一映射場(chǎng)，而擴(kuò)散模型通常學(xué)習(xí)的是每個(gè)去噪步驟的條件分布。

流匹配方法能夠高精度地建模復(fù)雜多峰分布，非常適合高頻靈巧操作任務(wù)。

訓(xùn)練數(shù)據(jù)方面，π0是在迄今為止最大的機(jī)器人交互數(shù)據(jù)集上進(jìn)行訓(xùn)練的。

預(yù)訓(xùn)練階段的數(shù)據(jù)集中包括OXE、DROID、Bridge等開(kāi)源數(shù)據(jù)，以及團(tuán)隊(duì)在8個(gè)不同的機(jī)器人平臺(tái)中收集的大量靈巧類任務(wù)數(shù)據(jù)等內(nèi)容。

團(tuán)隊(duì)自己收集的數(shù)據(jù)集括68個(gè)任務(wù)，涉及單臂任務(wù)106M步、雙臂任務(wù)797M步，數(shù)據(jù)采用了50Hz高頻控制。

開(kāi)源數(shù)據(jù)和團(tuán)隊(duì)自己收集的數(shù)據(jù)，比例大約是1:9。

另外為了讓?duì)?掌握特定復(fù)雜技能，團(tuán)隊(duì)在20多個(gè)下游任務(wù)上進(jìn)行了微調(diào)。

根據(jù)任務(wù)的難度和相似度，微調(diào)數(shù)據(jù)量從5小時(shí)到100多小時(shí)不等，一些任務(wù)還結(jié)合了高層語(yǔ)言策略模塊來(lái)分解復(fù)雜目標(biāo)。

用團(tuán)隊(duì)成員切爾西·芬（Chelsea Finn）的話說(shuō)，預(yù)訓(xùn)練是為了讓模型能夠應(yīng)對(duì)各種場(chǎng)景，后訓(xùn)練（微調(diào)）則是讓?duì)?掌握更多的策略。

“不造機(jī)器人”的機(jī)器人公司

Physical Intelligence公司成立于今年，已經(jīng)獲得總計(jì)7000萬(wàn)美元的A輪融資。

融資由紅杉資本領(lǐng)先，此外還有包括OpenAI在內(nèi)的6家公司參投。

公司還有個(gè)簡(jiǎn)稱叫做π，因?yàn)镻hysical Intelligence的縮寫pi，剛好是π的拉丁轉(zhuǎn)寫。

雖然是家機(jī)器人公司，但π并不生產(chǎn)機(jī)器人硬件，只負(fù)責(zé)訓(xùn)練模型，目標(biāo)是構(gòu)建能夠通用的機(jī)器人模型。

對(duì)此，π的聯(lián)合創(chuàng)始人兼CEO卡羅爾·豪斯曼（Karol Hausman）在公開(kāi)場(chǎng)合解釋：

我們的目標(biāo)是通過(guò)一個(gè)通用模型將AI帶入物理世界，這個(gè)模型可以為任何機(jī)器人或任何物理設(shè)備提供動(dòng)力，基本上適用于任何應(yīng)用。

對(duì)于此事的意義，公司另一名聯(lián)創(chuàng)謝爾蓋·萊文（Sergey Levine）在推特上舉例說(shuō)明，π創(chuàng)業(yè)要做的事之于機(jī)器人控制，其重要程度就像NLP之于大模型。

π的創(chuàng)始人背景也都十分亮眼，都是機(jī)器人和AI專家，在機(jī)器人、工程和許多其他領(lǐng)域擁有深厚經(jīng)驗(yàn)。

CEO卡羅爾·豪斯曼（Karol Hausman），此前曾是谷歌大腦機(jī)器人操作研究主管，2021年至今兼任斯坦?？妥淌凇?/p>

聯(lián)合創(chuàng)始人謝爾蓋·萊文（Sergey Levine），UC伯克利電氣工程和計(jì)算機(jī)科學(xué)系副教授，谷歌學(xué)術(shù)被引用量為超過(guò)12.7萬(wàn)。

而且還是不折不扣的頂會(huì)狂魔，據(jù)不完全統(tǒng)計(jì)，萊文2018年在ML和NLP頂會(huì)上共發(fā)表22篇論文，與另外兩人并列全球第一……

萊文在UC伯克利還是個(gè)網(wǎng)紅教授，此前推出的深度學(xué)習(xí)課程Deep Reinforcement Learning（深度強(qiáng)化學(xué)習(xí)，課程代號(hào)CS 285）非常受歡迎。

同時(shí)，在斯坦福家務(wù)機(jī)器人ALOHA的相關(guān)論文中，萊文的名字也經(jīng)常出現(xiàn)。

聯(lián)創(chuàng)切爾西·芬（Chelsea Finn），斯坦福計(jì)算機(jī)科學(xué)和電氣工程系助理教授，谷歌學(xué)術(shù)論文引用數(shù)超4.7萬(wàn)。

在ALOHA團(tuán)隊(duì)的論文當(dāng)中，芬經(jīng)常以通訊作者的身份出現(xiàn)。

此外，還有谷歌大腦機(jī)器人團(tuán)隊(duì)前科學(xué)家布賴恩·伊希特（Brian Ichter）、豐田研究院ML研究團(tuán)隊(duì)的研究科學(xué)家蘇拉吉·奈爾（Suraj Nair）等。

可以說(shuō)陣容是非常豪華了。

擁有超級(jí)團(tuán)隊(duì)的π，也仍在繼續(xù)招兵買馬，在研究科學(xué)家、ML工程師、數(shù)據(jù)工程師等多個(gè)崗位招聘員工和實(shí)習(xí)生。

技術(shù)報(bào)告：https://www.physicalintelligence.company/download/pi0.pdf

責(zé)任編輯：張燕妮來(lái)源：量子位

機(jī)器人 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="alifv"><samp id="alifv"><form id="alifv"></form></samp></ruby>