谷歌發(fā)布本地具身智能模型！全程無聯(lián)網(wǎng)執(zhí)行精細(xì)操作，從人形機(jī)器人到工業(yè)機(jī)器人全覆蓋

2025-06-25 09:04:59

Google DeepMind團(tuán)隊(duì)首個(gè)可以完全在機(jī)器人本地運(yùn)行的視覺-語言-動(dòng)作（VLA）模型Gemini Robotics On-Device發(fā)布。

機(jī)器人終于有了自己的“離線大腦”。

Google DeepMind團(tuán)隊(duì)首個(gè)可以完全在機(jī)器人本地運(yùn)行的視覺-語言-動(dòng)作（VLA）模型Gemini Robotics On-Device發(fā)布。

這個(gè)模型不僅能離線運(yùn)行，還保持了相當(dāng)強(qiáng)悍的操作能力，能遵循指令完成各種需要精細(xì)操作的任務(wù)。

支持從人形機(jī)器人到工業(yè)雙臂機(jī)器人的多種機(jī)器人本體上部署，響應(yīng)延遲還低到飛起。

此前3月份發(fā)布的Gemini Robotics雖然性能強(qiáng)大，但需要依賴云端計(jì)算。而這次的On-Device版本，直接把AI塞進(jìn)了機(jī)器人的“大腦”里，徹底解決了網(wǎng)絡(luò)延遲和連接不穩(wěn)定的老大難問題。

給機(jī)器人裝上本地大腦

團(tuán)隊(duì)把Gemini 2.0的多模態(tài)推理能力和真實(shí)世界理解能力，全都塞進(jìn)了這個(gè)可以在機(jī)器人設(shè)備上運(yùn)行的模型里。

由于模型獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行，它特別適合對(duì)延遲敏感的應(yīng)用，并確保在網(wǎng)絡(luò)間歇性或零連接的環(huán)境中也能穩(wěn)定工作。

評(píng)測(cè)數(shù)據(jù)顯示，On-Device版本在泛化性能測(cè)試中表現(xiàn)亮眼。在視覺泛化、語義理解和行為泛化等多個(gè)維度上，雖然比云端版本的Gemini Robotics略有差距，但已經(jīng)大幅超越了之前最好的本地模型。

在處理分布外任務(wù)（out-of-distribution tasks）和復(fù)雜多步驟指令時(shí)，Gemini Robotics On-Device對(duì)比此前的本地模型也展現(xiàn)出了碾壓級(jí)的優(yōu)勢(shì)。

這種指令跟隨能力，讓機(jī)器人真正能夠理解人類的自然語言指令，而不是簡(jiǎn)單地執(zhí)行預(yù)設(shè)程序。

快速適應(yīng)新任務(wù)，跨平臺(tái)部署不是夢(mèng)

如果說性能強(qiáng)悍只是基礎(chǔ)，那么Gemini Robotics On-Device的適應(yīng)能力才是真正的殺手锏。

這是谷歌首次開放VLA模型的微調(diào)功能。

開發(fā)者只需要50到100個(gè)演示樣本，就能讓模型適應(yīng)全新的任務(wù)。在測(cè)試中，團(tuán)隊(duì)在七個(gè)不同難度的靈巧操作任務(wù)上進(jìn)行了驗(yàn)證，包括給午餐盒拉拉鏈、抽卡片、倒沙拉醬等。

結(jié)果顯示，即使是最復(fù)雜的任務(wù)，用不到100個(gè)樣本就能達(dá)到相當(dāng)高的成功率。

雖然這個(gè)模型最初只在ALOHA機(jī)器人上訓(xùn)練，但團(tuán)隊(duì)成功將其遷移到了完全不同的機(jī)器人平臺(tái)上。

在雙臂Franka FR3機(jī)器人上，模型不僅能執(zhí)行通用的指令跟隨任務(wù)，還能完成工業(yè)級(jí)的皮帶裝配任務(wù)。

而在Apptronik公司的Apollo人形機(jī)器人上，面對(duì)截然不同的機(jī)械結(jié)構(gòu)，模型同樣展現(xiàn)出了強(qiáng)大的泛化能力。它能夠遵循自然語言指令，操作各種物體，包括訓(xùn)練時(shí)從未見過的新物體。

團(tuán)隊(duì)還特別強(qiáng)調(diào)，他們?cè)陂_發(fā)過程中嚴(yán)格遵循了谷歌的AI原則，采用了語義安全和物理安全并重的整體安全方案。通過Live API捕獲語義和內(nèi)容安全問題，并與底層安全關(guān)鍵控制器接口來執(zhí)行動(dòng)作。

SDK開放申請(qǐng)，機(jī)器人開發(fā)者有福了

為了讓更多開發(fā)者能夠使用這項(xiàng)技術(shù)，谷歌同時(shí)發(fā)布了Gemini Robotics SDK。

這個(gè)SDK不僅能讓開發(fā)者輕松評(píng)估模型在自己任務(wù)和環(huán)境中的表現(xiàn)，還提供了MuJoCo物理模擬器的測(cè)試功能。開發(fā)者可以先在模擬環(huán)境中驗(yàn)證想法，再部署到真實(shí)機(jī)器人上，大大降低了開發(fā)成本和風(fēng)險(xiǎn)。

目前，SDK正在通過可信測(cè)試者計(jì)劃（trusted tester program）逐步開放。感興趣的開發(fā)者可以在官網(wǎng)上申請(qǐng)加入，搶先體驗(yàn)這項(xiàng)技術(shù)。

責(zé)任編輯：張燕妮來源：量子位

機(jī)器人視覺語言模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌發(fā)布本地具身智能模型！全程無聯(lián)網(wǎng)執(zhí)行精細(xì)操作，從人形機(jī)器人到工業(yè)機(jī)器人全覆蓋

給機(jī)器人裝上本地大腦

快速適應(yīng)新任務(wù)，跨平臺(tái)部署不是夢(mèng)

SDK開放申請(qǐng)，機(jī)器人開發(fā)者有福了

谷歌發(fā)布本地具身智能模型！全程無聯(lián)網(wǎng)執(zhí)行精細(xì)操作，從人形機(jī)器人到工業(yè)機(jī)器人全覆蓋

SDK開放申請(qǐng)，機(jī)器人開發(fā)者有福了