谷歌發(fā)布本地具身智能模型!全程無(wú)聯(lián)網(wǎng)執(zhí)行精細(xì)操作,從人形機(jī)器人到工業(yè)機(jī)器人全覆蓋
機(jī)器人終于有了自己的“離線大腦”。
Google DeepMind團(tuán)隊(duì)首個(gè)可以完全在機(jī)器人本地運(yùn)行的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型Gemini Robotics On-Device發(fā)布。
這個(gè)模型不僅能離線運(yùn)行,還保持了相當(dāng)強(qiáng)悍的操作能力,能遵循指令完成各種需要精細(xì)操作的任務(wù)。

支持從人形機(jī)器人到工業(yè)雙臂機(jī)器人的多種機(jī)器人本體上部署,響應(yīng)延遲還低到飛起。
此前3月份發(fā)布的Gemini Robotics雖然性能強(qiáng)大,但需要依賴(lài)云端計(jì)算。而這次的On-Device版本,直接把AI塞進(jìn)了機(jī)器人的“大腦”里,徹底解決了網(wǎng)絡(luò)延遲和連接不穩(wěn)定的老大難問(wèn)題。
給機(jī)器人裝上本地大腦
團(tuán)隊(duì)把Gemini 2.0的多模態(tài)推理能力和真實(shí)世界理解能力,全都塞進(jìn)了這個(gè)可以在機(jī)器人設(shè)備上運(yùn)行的模型里。

由于模型獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行,它特別適合對(duì)延遲敏感的應(yīng)用,并確保在網(wǎng)絡(luò)間歇性或零連接的環(huán)境中也能穩(wěn)定工作。
評(píng)測(cè)數(shù)據(jù)顯示,On-Device版本在泛化性能測(cè)試中表現(xiàn)亮眼。在視覺(jué)泛化、語(yǔ)義理解和行為泛化等多個(gè)維度上,雖然比云端版本的Gemini Robotics略有差距,但已經(jīng)大幅超越了之前最好的本地模型。

在處理分布外任務(wù)(out-of-distribution tasks)和復(fù)雜多步驟指令時(shí),Gemini Robotics On-Device對(duì)比此前的本地模型也展現(xiàn)出了碾壓級(jí)的優(yōu)勢(shì)。
這種指令跟隨能力,讓機(jī)器人真正能夠理解人類(lèi)的自然語(yǔ)言指令,而不是簡(jiǎn)單地執(zhí)行預(yù)設(shè)程序。

快速適應(yīng)新任務(wù),跨平臺(tái)部署不是夢(mèng)
如果說(shuō)性能強(qiáng)悍只是基礎(chǔ),那么Gemini Robotics On-Device的適應(yīng)能力才是真正的殺手锏。
這是谷歌首次開(kāi)放VLA模型的微調(diào)功能。
開(kāi)發(fā)者只需要50到100個(gè)演示樣本,就能讓模型適應(yīng)全新的任務(wù)。在測(cè)試中,團(tuán)隊(duì)在七個(gè)不同難度的靈巧操作任務(wù)上進(jìn)行了驗(yàn)證,包括給午餐盒拉拉鏈、抽卡片、倒沙拉醬等。

結(jié)果顯示,即使是最復(fù)雜的任務(wù),用不到100個(gè)樣本就能達(dá)到相當(dāng)高的成功率。

雖然這個(gè)模型最初只在ALOHA機(jī)器人上訓(xùn)練,但團(tuán)隊(duì)成功將其遷移到了完全不同的機(jī)器人平臺(tái)上。
在雙臂Franka FR3機(jī)器人上,模型不僅能執(zhí)行通用的指令跟隨任務(wù),還能完成工業(yè)級(jí)的皮帶裝配任務(wù)。
而在Apptronik公司的Apollo人形機(jī)器人上,面對(duì)截然不同的機(jī)械結(jié)構(gòu),模型同樣展現(xiàn)出了強(qiáng)大的泛化能力。它能夠遵循自然語(yǔ)言指令,操作各種物體,包括訓(xùn)練時(shí)從未見(jiàn)過(guò)的新物體。
團(tuán)隊(duì)還特別強(qiáng)調(diào),他們?cè)陂_(kāi)發(fā)過(guò)程中嚴(yán)格遵循了谷歌的AI原則,采用了語(yǔ)義安全和物理安全并重的整體安全方案。通過(guò)Live API捕獲語(yǔ)義和內(nèi)容安全問(wèn)題,并與底層安全關(guān)鍵控制器接口來(lái)執(zhí)行動(dòng)作。
SDK開(kāi)放申請(qǐng),機(jī)器人開(kāi)發(fā)者有福了
為了讓更多開(kāi)發(fā)者能夠使用這項(xiàng)技術(shù),谷歌同時(shí)發(fā)布了Gemini Robotics SDK。
這個(gè)SDK不僅能讓開(kāi)發(fā)者輕松評(píng)估模型在自己任務(wù)和環(huán)境中的表現(xiàn),還提供了MuJoCo物理模擬器的測(cè)試功能。開(kāi)發(fā)者可以先在模擬環(huán)境中驗(yàn)證想法,再部署到真實(shí)機(jī)器人上,大大降低了開(kāi)發(fā)成本和風(fēng)險(xiǎn)。

目前,SDK正在通過(guò)可信測(cè)試者計(jì)劃(trusted tester program)逐步開(kāi)放。感興趣的開(kāi)發(fā)者可以在官網(wǎng)上申請(qǐng)加入,搶先體驗(yàn)這項(xiàng)技術(shù)。
























