撰文丨伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
辛苦工作一天后,你躺在沙發(fā)上,有一個(gè)能為你遞上香蕉的機(jī)器人怎么樣?這聽起來就像擁有一只會(huì)叼拖鞋的狗狗一樣酷!
RFM-1 可以!他可以聽懂你的指令,在一堆食物中準(zhǔn)確的識(shí)別香蕉并進(jìn)行抓取。
就像Sora一樣,RFM-1通過大量的數(shù)據(jù)理解真實(shí)世界的物理規(guī)律,并進(jìn)行理解和推理——只是不生產(chǎn)視頻,而是作為機(jī)器人與真實(shí)世界進(jìn)行交互。
圖片
創(chuàng)造RFM-1的公司名叫Covariant,中文意思為“協(xié)變”,頗有與時(shí)俱進(jìn)、順勢(shì)而為的意思。這家公司的聯(lián)合創(chuàng)始人兼CEO彼得-陳(Peter Chen),曾在2016年進(jìn)入OpenAI工作,是最早期的發(fā)起者之一,一年后他離開OpenAI創(chuàng)立了covariant.ai。
圍繞Sora的爭議帶火了“世界模型”概念。很多人相信AI能模擬和理解現(xiàn)實(shí)世界的各種現(xiàn)象和過程的“奇點(diǎn)”即將到達(dá)。而 Covariant 也瞄準(zhǔn)這一定位,野心是將AI技術(shù)的突破擴(kuò)展到物理領(lǐng)域(相對(duì)于ChatGPT、Sora等一眾AI發(fā)力的數(shù)字領(lǐng)域)。
AI大佬Jim也對(duì)RFM-1給出很高的評(píng)價(jià)。比起使用真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練的RFM-1,其他機(jī)器人就像是玩具一樣。
圖片
那么,RFM-1都可以做什么?又是如何做到的?
1.真實(shí)數(shù)據(jù)訓(xùn)練,機(jī)器人要走出象牙塔
我們知道大多數(shù)現(xiàn)有的機(jī)器人的樣子——遲鈍、笨拙地在實(shí)驗(yàn)室中緩慢地穿行著。因?yàn)樗麄兊挠?xùn)練數(shù)據(jù)就來自實(shí)驗(yàn)環(huán)境,主要在相對(duì)靜態(tài)的條件下與物體進(jìn)行交互。
而Covariant卻選擇使用真實(shí)世界的數(shù)據(jù)創(chuàng)建RFM-1。
雖然很難,但這使得RFM-1能夠在要求苛刻的真實(shí)世界環(huán)境中工作,并保持符合水準(zhǔn)的精度和性能。簡而言之,機(jī)器人終于不再那么脆弱了!
因?yàn)槭窃谡鎸?shí)世界,因此機(jī)器人要理解參差多態(tài)的事物,理解物體材質(zhì)的輕與重、硬與軟。更復(fù)雜的,還涉及到物體的形變、遮擋、需要推理不同材料的不同吸力動(dòng)態(tài)、處理運(yùn)動(dòng)中不規(guī)則形狀物體的混亂,直至能處理從化妝品和衣服到雜貨和機(jī)械零件等各種物體。(這么想想我們?nèi)祟愓娴暮軈柡Α#?/p>
圖片
也因?yàn)槭钦鎸?shí)世界,因此機(jī)器人需要了解并能處理意外情況。RFM-1在真實(shí)工作場(chǎng)景中訓(xùn)練到許多實(shí)驗(yàn)室環(huán)境中很難遇到的長尾事件,如下面這個(gè)魚一般滾動(dòng)在軌道外的物體,有可能會(huì)讓許多機(jī)器人“一臉懵”。
圖片
2.更懂世界的RFM-1是怎么做到的?
RFM-1 是一個(gè)多模態(tài)任意序列模型( any-to-any sequence model),采用一個(gè)80 億參數(shù)變換器,能精準(zhǔn)地學(xué)習(xí)和處理各種復(fù)雜的信息。
RFM-1 將所有模態(tài)標(biāo)記到一個(gè)共同空間,并執(zhí)行自回歸下一個(gè)標(biāo)記預(yù)測(cè),從而利用其廣泛的輸入和輸出模態(tài)實(shí)現(xiàn)多樣化應(yīng)用。可以說,RFM-1 就像一個(gè)多面手,擅長處理各種不同類型的信息。它有一個(gè)大大的魔法袋,可以裝下文本、圖像、視頻、機(jī)器人動(dòng)作和各種數(shù)字傳感器的讀數(shù)。然后,這些信息可以互相交流、互相影響。
,時(shí)長00:23
這樣,RFM-1 可以可以為場(chǎng)景分析任務(wù)(如分割和識(shí)別)執(zhí)行圖像到圖像學(xué)習(xí),把一張圖片變成另一張圖片;它還能夠把文字說明和圖片結(jié)合起來,生成一系列動(dòng)作或者運(yùn)動(dòng)的序列;或者把場(chǎng)景的圖片和目標(biāo)的圖片配對(duì)起來,以視頻形式預(yù)測(cè)結(jié)果。
3.補(bǔ)物理:機(jī)器人“成為”人類的必修課
Covariant明白學(xué)習(xí)世界模型是機(jī)器人的未來。
從RFM-1的表現(xiàn)來看,這條路走對(duì)了!世界模型的預(yù)測(cè)能力可以讓機(jī)器人擁有人類生活中至關(guān)重要的物理直覺。
像很多短視頻時(shí)代出生的小孩,RFM-1 理解世界也是靠看視頻開始的:通過輸入初始圖像標(biāo)記和機(jī)器人動(dòng)作,它可以作為物理世界模型預(yù)測(cè)未來。實(shí)際上沒有聽起來那么玄乎!這種預(yù)測(cè)包括,把一件物品從垃圾箱取走后,箱子會(huì)變成什么樣子,通過圖像的比對(duì),機(jī)器人可以判斷任務(wù)是否執(zhí)行成功。
圖片
AlphaGo 等之前的AI研究成果表明,在世界模型中進(jìn)行規(guī)劃很可能是實(shí)現(xiàn)超人類水平性能的關(guān)鍵。此外,物理理解力直接增強(qiáng)了 RFM-1 的其他能力,如將圖像映射到機(jī)器人的行動(dòng)中。
4.學(xué)語言:不止交互、還能尋求人類幫助
這個(gè)我抓不住,怎么辦?”這樣的求助不再是人類幼崽的專屬,機(jī)器人將主動(dòng)向人請(qǐng)教和學(xué)習(xí)。
當(dāng)機(jī)器人發(fā)現(xiàn)它執(zhí)行某項(xiàng)任務(wù)遇到困難時(shí),操作員可以向機(jī)器人提供新的運(yùn)動(dòng)策略,例如通過移動(dòng)或撞擊物體來擾動(dòng)物體,從而找到更好的抓取點(diǎn)。
今后,機(jī)器人可以將這種新策略應(yīng)用到未來的行動(dòng)中??磥恚瑱C(jī)器人進(jìn)化的步伐會(huì)越來越快了。
5.從OpenAI走出的華人團(tuán)隊(duì)
Covariant 由加州大學(xué)伯克利分校教授Pieter Abbeel和他的三名學(xué)生Peter Chen、Rocky Duan and Tianhao Zhang創(chuàng)立,都有非常好的AI技術(shù)背景。
聯(lián)合創(chuàng)始人兼CEO Peter Chen,2016年進(jìn)入OpenAI工作,參與了深度生成模型 (https://openai.com/research/generative-models) 和強(qiáng)化學(xué)習(xí)方面的研究。Peter的領(lǐng)英主頁的語言技能標(biāo)注了英語、普通話以及粵語三種語言。
圖片
擔(dān)任CTO的Rocky Duan同樣有一段長達(dá)兩年在OpenAI工作和實(shí)習(xí)的經(jīng)歷。
圖片
另外一位聯(lián)合創(chuàng)始人,則在博士期間有一段微軟的實(shí)習(xí)經(jīng)歷,在校期間承擔(dān)自然語言處理的研究項(xiàng)目。
圖片
他們從一個(gè)倉庫機(jī)器人系統(tǒng)開始,逐步完善自己的技術(shù)。該公司在成立的七年中,Covariant 通過攝像頭和其他傳感器收集數(shù)據(jù),以了解機(jī)器人是如何運(yùn)行的并優(yōu)化訓(xùn)練。
Peter Chen 非常重視數(shù)據(jù)的意義。通過從數(shù)字?jǐn)?shù)據(jù)(物理世界中發(fā)生的數(shù)十萬個(gè)實(shí)例)中學(xué)習(xí),機(jī)器人能應(yīng)對(duì)各種意外情況。當(dāng)這些操作與語言相結(jié)合時(shí),機(jī)器人還能像聊天機(jī)器人一樣,對(duì)文字和語音建議做出回應(yīng)。
就像Peter采訪中說過的,“數(shù)字?jǐn)?shù)據(jù)中的內(nèi)容可以移植到現(xiàn)實(shí)世界中”。
毫無疑問,與ChatGPT和Sora一樣,機(jī)器人也將更加強(qiáng)大。
參考鏈接:
1.https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/
2.https://www.nytimes.com/2024/03/11/technology/ai-robots-technology.html