拋棄OpenAI,F(xiàn)igure亮王牌:史上首次兩個機器人「共腦」,網(wǎng)友直呼太恐怖!
與OpenAI分手之后,F(xiàn)igure自研首個模型終于交卷了!
不用ChatGPT,F(xiàn)igure直接把視覺-語言-動作模型(VLA)——Helix裝入人形機器人大腦。
它可以讓機器人感知、語言理解、學(xué)習(xí)控制,是一個端到端的通用模型。
圖片
果然,F(xiàn)igure的一大目標(biāo),就是發(fā)展家庭機器人。為此,其內(nèi)部的AI需要像人一樣推理,需要處理任何家庭用品。
圖片
「機器人若不實現(xiàn)能力上的飛躍,將無法進(jìn)入家庭領(lǐng)域」
目前,Helix還主要用于Figure上半身控制,包括手腕、頭、單個手指、甚至軀干,能以高速率執(zhí)行復(fù)雜任務(wù)。
只需一句話,機器人便可以拿起任何物品。
當(dāng)被要求「撿起沙漠物品」時,Helix會識別出玩具仙人掌,選擇最近的手,并執(zhí)行精確的電機指令以牢固地抓住它。
圖片
還有生活中各種小物件,比如金屬鏈、帽子、玩具等等,它皆精準(zhǔn)「拿捏」。
圖片
快看,它還會將物品放置在冰箱,而且是兩個Figure協(xié)作完成。
圖片
這是因為Helix是首個同時操控兩臺機器人的VLA,使他它們能夠解決共同的、長序列操作任務(wù),即使是處理從未見過的物品。
有網(wǎng)友表示,這一刻讓我瞬間不寒而栗。
圖片
另有網(wǎng)友表示,「這非常令人印象深刻」,甚至有人馬上想要買兩臺體驗一下。
圖片
圖片
圖片
值得一提的是,新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為,無需任何特定的微調(diào)。
而且,它還是首款完全在嵌入式低功耗GPU上運行的VLA,未來商業(yè)部署,甚至走入家庭近在咫尺。
Helix:通用視覺-語言-動作模型
家庭環(huán)境是機器人技術(shù)面臨的最大挑戰(zhàn)。
與可控的工業(yè)環(huán)境不同,家庭中充滿了無數(shù)物品——易碎的玻璃器皿、褶皺的衣物、散落的玩具——每個物品都有著不可預(yù)測的形狀、尺寸、顏色和質(zhì)地。
要想讓機器人在家庭中發(fā)揮作用,它們需要能夠生成智能化的新行為來應(yīng)對各種情況,特別是對于那些此前從未見過的物品。
如果沒有質(zhì)的飛躍,當(dāng)前的機器人技術(shù)將無法適應(yīng)家庭環(huán)境。
目前,僅僅教會機器人一個新行為就需要大量人力投入:要么需要博士級專家花費數(shù)小時進(jìn)行手動編程,要么需要數(shù)千次示教。
考慮到家庭環(huán)境問題的龐大性,這兩種方法的成本都高得難以承受。
圖片
圖1:不同機器人技能獲取方法的擴展曲線。在傳統(tǒng)啟發(fā)式控制中,技能的增長取決于博士研究人員的手動編程。在傳統(tǒng)機器人模仿學(xué)習(xí)中,技能隨數(shù)據(jù)采集量擴展。而采用Helix技術(shù),只需通過自然語言即可實時定義新技能
但在人工智能的其他領(lǐng)域已經(jīng)掌握了即時泛化的能力。
如果我們能夠?qū)⒁曈X語言模型(Vision Language Models,VLM)中捕獲的豐富語義知識直接轉(zhuǎn)化為機器人動作,將會帶來什么改變?
這種新能力將從根本上改變機器人技術(shù)的發(fā)展軌跡(圖1)。
突然間,那些曾經(jīng)需要數(shù)百次示教才能掌握的新技能,現(xiàn)在只需通過自然語言與機器人對話就能立即獲得。
關(guān)鍵問題在于:我們?nèi)绾螐腣LM中提取所有這些常識知識,并將其轉(zhuǎn)化為可泛化的機器人控制?Helix的構(gòu)建正是為了跨越這一鴻溝。
圖片
首創(chuàng)「系統(tǒng)1,系統(tǒng)2」VLA
團(tuán)隊表示,Helix是首個由「系統(tǒng)1,系統(tǒng)2」組成的VLA,可以實現(xiàn)人形機器人上半身的高速精確控制。
先前的VLM主干網(wǎng)絡(luò)具有通用性但速度不快,機器人視覺運動策略速度快但缺乏通用性。而Helix通過兩個系統(tǒng)解決了這個難題,兩個系統(tǒng)經(jīng)過端到端訓(xùn)練,并可以相互通信:
- 系統(tǒng)2(S2):VLM主干網(wǎng)絡(luò),經(jīng)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,工作頻率7-9Hz,用于場景和語言理解,可對不同的物體和場景進(jìn)行泛化。
- 系統(tǒng)1(S1):80M參數(shù)交叉注意力Transformer,依靠一個全卷積的多尺度視覺主干網(wǎng)絡(luò)進(jìn)行視覺處理,該網(wǎng)絡(luò)在模擬環(huán)境中完成預(yù)訓(xùn)練初始化。
這種解耦架構(gòu)讓每個系統(tǒng)都能在最佳時間尺度上運行,S2可以「慢思考」高層目標(biāo),S1通過「快思考」來實時執(zhí)行和調(diào)整動作。
例如,在協(xié)作中,S1能快速適應(yīng)伙伴機器人的動作變化,同時維持S2設(shè)定的語義目標(biāo)。
圖片
Helix的設(shè)計相較現(xiàn)有方法具有以下幾個關(guān)鍵優(yōu)勢:
- 速度和泛化能力:Helix不僅達(dá)到了專門針對單任務(wù)行為克?。╞ehavioral cloning)策略的運行速度,還能夠?qū)?shù)千個全新測試對象實現(xiàn)零樣本學(xué)習(xí)。
- 可擴展性:Helix能夠直接輸出高維動作空間的連續(xù)控制,避免了先前VLA方法中使用的復(fù)雜動作token化方案。這些方案雖然在低維控制設(shè)置(如二指夾爪)中取得了一定成功,但在高維人形機器人控制中面臨擴展性挑戰(zhàn)。
- 架構(gòu)簡單:Helix采用標(biāo)準(zhǔn)架構(gòu)——系統(tǒng)2使用開源、開放權(quán)重的視覺語言模型,系統(tǒng)1則采用簡單的基于Transformer的視覺運動策略。
- 職責(zé)分離:通過S1和S2的「解耦」,能夠獨立迭代優(yōu)化每個系統(tǒng),無需受限于尋找統(tǒng)一的觀察空間或動作表示。
模型和訓(xùn)練細(xì)節(jié)
數(shù)據(jù)
研究人員收集了一個高質(zhì)量的、多機器人、多操作員的多樣化遙操作行為數(shù)據(jù)集,總計約500小時。
為了生成自然語言條件下的訓(xùn)練對,他們使用自動標(biāo)注VLM來生成回顧性指令。
VLM會處理來自機器人板載攝像頭的分段視頻片段,提示詞是這樣的:「如果要實現(xiàn)視頻中看到的動作,你會給機器人什么指令?」
為了防止數(shù)據(jù)干擾,所有訓(xùn)練中使用的物品都被排除在評估之外。
架構(gòu)
這個系統(tǒng)主要包括兩個主要組件,S2(VLM主干網(wǎng)絡(luò))和S1(基于潛層條件的視覺運動Transformer)。
S2建立在一個經(jīng)過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開源開放權(quán)重VLM之上。它處理單目機器人圖像和機器人狀態(tài)信息(包括手腕姿態(tài)和手指位置),將這些信息投影到視覺-語言嵌入空間中。
結(jié)合指定期望行為的自然語言命令,S2會將所有與任務(wù)相關(guān)的語義信息提煉為單個連續(xù)潛層向量,傳遞給S1用于條件化其低層動作。
其中S1是一個80M參數(shù)的交叉注意力(cross-attention)編碼器-解碼器Transformer,負(fù)責(zé)低層控制。它依賴于一個全卷積的多尺度視覺主干網(wǎng)絡(luò)進(jìn)行視覺處理,該網(wǎng)絡(luò)完全在模擬環(huán)境中預(yù)訓(xùn)練初始化。
雖然S1接收與S2相同的圖像和狀態(tài)輸入,但它以更高的頻率處理這些信息,以實現(xiàn)更快速的閉環(huán)控制。來自S2的潛層向量被投影到S1的token空間,并在序列維度上與S1視覺主干網(wǎng)絡(luò)的視覺特征連接,提供任務(wù)條件。
S1以200Hz的頻率輸出完整的上半身人形機器人控制信號,包括期望的手腕姿態(tài)、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。
另外,團(tuán)隊還在動作空間中,附加了一個合成的「任務(wù)完成百分比」動作,讓Helix能預(yù)測自己的終止條件。這樣,多個學(xué)習(xí)行為的序列化就更容易了。
訓(xùn)練
Helix采用完全端到端(end-to-end)的訓(xùn)練方式,將原始像素和文本命令映射到連續(xù)動作,使用標(biāo)準(zhǔn)回歸損失。
梯度通過用于條件化S1行為的潛在通信向量從S1反向傳播到S2,實現(xiàn)兩個組件的聯(lián)合優(yōu)化。
Helix不需要任務(wù)特定的適配;它保持單一訓(xùn)練階段和單一神經(jīng)網(wǎng)絡(luò)權(quán)重集,無需獨立的動作輸出頭或每個任務(wù)的微調(diào)階段。
在訓(xùn)練過程中,研究中還在S1和S2輸入之間添加了時間延遲。這個延遲經(jīng)過校準(zhǔn),以匹配S1和S2在部署推理延遲之間的差距,確保部署期間的實時控制要求在訓(xùn)練中得到準(zhǔn)確反映。
優(yōu)化的流式推理
因為這種訓(xùn)練設(shè)計,Helix就能在Figure機器人上進(jìn)行高效的模型并行部署了,每個機器人都配備了雙低功耗嵌入式GPU。
其中,推理流程在S2(高層潛規(guī)劃)和S1(低層控制)模型之間分割,各自在專用GPU上運行。
S2作為異步后臺進(jìn)程運行,處理最新的觀察數(shù)據(jù)(機載相機和機器人狀態(tài))和自然語言命令。它會持續(xù)更新共享內(nèi)存中的潛在向量,用于編碼高層行為意圖。
而S1作為獨立的實時進(jìn)程執(zhí)行,能維持平滑的整體上半身動作所需的關(guān)鍵200Hz控制循環(huán)。它會同時接收最新的觀察數(shù)據(jù)和最近的S2潛在向量。
S2和S1推理之間固有的速度差異,自然會導(dǎo)致S1以更高的時間分辨率處理機器人觀察數(shù)據(jù),為響應(yīng)式控制創(chuàng)建更緊密的反饋循環(huán)。
這種部署策略有意模仿訓(xùn)練中引入的時間延遲,最小化訓(xùn)練和推理之間的分布差異。異步執(zhí)行模型允許兩個進(jìn)程以其最優(yōu)頻率運行,因此能以與最快的單任務(wù)模仿學(xué)習(xí)策略相當(dāng)?shù)乃俣冗\行Helix。
結(jié)果
精細(xì)化VLA全上半身控制
Helix以200Hz的頻率協(xié)調(diào)35個自由度的動作空間,控制從單個手指運動到末端執(zhí)行器(end-effector)軌跡、頭部注視和軀干姿態(tài)的所有動作。
頭部和軀干控制帶來獨特的挑戰(zhàn)——當(dāng)它們移動時,既會改變機器人的可達(dá)范圍,也會改變它的可視范圍,形成傳統(tǒng)上容易導(dǎo)致系統(tǒng)不穩(wěn)定的反饋循環(huán)。
機器人在調(diào)整軀干以獲得最佳可達(dá)范圍的同時,用頭部平滑地跟蹤其手部動作,并保持精確的手指控制以進(jìn)行抓取。
從傳統(tǒng)角度來看,即使對于單個已知任務(wù),在如此高維(high-dimensional)的動作空間中實現(xiàn)這種精度一直被認(rèn)為是極具挑戰(zhàn)性的。
目前,還沒有VLA系統(tǒng)能夠在保持通用泛化能力(適用于不同任務(wù)和物體)的同時,展示出這種程度的實時協(xié)調(diào)控制。
圖片
零樣本學(xué)習(xí)多機器人協(xié)調(diào)
研究人員在一個具有挑戰(zhàn)性的多智能體(multi-agent)操作場景中將Helix推向極限:兩臺Figure機器人之間的協(xié)作式零樣本學(xué)習(xí)雜貨存儲任務(wù)。
結(jié)果顯示,機器人成功操作了在訓(xùn)練中從未見過的雜貨,展示了對不同形狀、尺寸和材料的強大通用泛化能力。
圖片
此外,兩個機器人使用完全相同的Helix模型權(quán)重(model weights)運行,無需針對特定機器人的訓(xùn)練或明確的角色分配。
它們通過自然語言提示詞來實現(xiàn)協(xié)調(diào)配合,比如「把餅干袋遞給你右邊的機器人」或「從你左邊的機器人那里接過餅干袋并放入打開的抽屜中」。
這是首次使用VLA實現(xiàn)多機器人之間的靈活、持續(xù)性協(xié)作任務(wù),而且機器人能夠成功處理完全陌生的物體,這一成就具有重要的里程碑意義。
圖片
「任意物品拾取」能力涌現(xiàn)
研究人員發(fā)現(xiàn)配備Helix的Figure機器人只需一個簡單的「拾取[X]」指令就能拾取幾乎任何小型家居物品。
即使在雜亂的環(huán)境下,機器人也能成功處理從玻璃器皿和玩具到工具和衣物等數(shù)千件前所未見的物品,而這一切無需任何事先示范或定制編程。
值得注意的是,Helix成功地連接了大規(guī)模語言理解能力與精確的機器人控制系統(tǒng)。
例如,當(dāng)接收到「拾取沙漠物品」這樣的提示詞時,Helix不僅能識別出玩具仙人掌符合這個抽象概念,還能選擇最近的機械手臂并執(zhí)行精確的運動指令(motor commands)來穩(wěn)固抓取它。
這種通用的「語言到動作」抓取能力為類人機器人在復(fù)雜且不確定的非結(jié)構(gòu)化環(huán)境中的部署開創(chuàng)了激動人心的可能性。
圖片
討論
Helix的訓(xùn)練極其高效
Helix僅需極少的資源就實現(xiàn)了強大的物體識別和適應(yīng)能力(物體泛化能力)。
研究人員總共使用了約500小時的高質(zhì)量監(jiān)督數(shù)據(jù)(supervised data)來訓(xùn)練Helix,這僅占此前收集的VLA數(shù)據(jù)集規(guī)模的一小部分(<5%),而且無需依賴多機器人實體數(shù)據(jù)收集或多階段訓(xùn)練。
值得注意的是,這種數(shù)據(jù)收集規(guī)模更接近現(xiàn)代單任務(wù)模仿學(xué)習(xí)(imitation learning)數(shù)據(jù)集。盡管數(shù)據(jù)需求相對較小,Helix仍然可以擴展到更具挑戰(zhàn)性的完整上肢人形機器人控制動作空間,成功實現(xiàn)高頻率、高維度的輸出控制。
統(tǒng)一的模型權(quán)重系統(tǒng)
現(xiàn)有的VLA系統(tǒng)通常需要專門的微調(diào)或?qū)S玫膭幼鬏敵鰧觼韮?yōu)化不同復(fù)雜行為的性能。
然而,Helix卻能使用單一統(tǒng)一模型就實現(xiàn)了各種任務(wù)的出色表現(xiàn)。
僅使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重(System 2使用70億參數(shù),System 1使用8千萬參數(shù)),Helix就能夠完成將物品放入各種容器、操作抽屜和冰箱、協(xié)調(diào)精確的多機器人交接,以及操作數(shù)千種全新物體等多樣化任務(wù)。
結(jié)論
Helix是首個能夠通過自然語言直接控制整個人形機器人上半身的視覺-語言-動作模型(Vision-Language-Action model)。
與早期的機器人系統(tǒng)相比,Helix能夠?qū)崟r完成持續(xù)性、需要配合的精密操作,而無需任何特定任務(wù)示范或大量手動編程。
Helix展現(xiàn)出卓越的物體適應(yīng)能力,只需通過自然語言指令,就能拾取數(shù)千種在訓(xùn)練中從未接觸過的家居物品,這些物品具有各種不同的形狀、尺寸、顏色和材料特性。
這標(biāo)志著Figure在拓展人形機器人行為能力方面取得了突破性進(jìn)展——研究人員相信,隨著機器人在日常家居環(huán)境中的應(yīng)用日益廣泛,這一進(jìn)展將發(fā)揮重要的推動作用。
盡管這些初步成果令人振奮,但這僅僅是揭開了可能性的冰山一角。研究人員熱切期待著將Helix的規(guī)模擴大至現(xiàn)有規(guī)模的千倍乃至更多時會帶來怎樣的突破。
參考資料:HNYZs
https://www.figure.ai/news/helix