偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華姚班團隊,開源具身智能視覺語言動作(VLA)模型工具箱,打造行業(yè)通用技術(shù)底座

人工智能 新聞
Dexbotic是基于PyTorch的視覺語言動作(Vision-Language-Action,VLA)模型工具箱。

一群來自清華姚班、前曠視科技的核心人物,決定為具身智能領(lǐng)域建立一套通用準(zhǔn)則,叫Dexbotic。

Dexbotic是基于PyTorch的視覺語言動作(Vision-Language-Action,VLA)模型工具箱。目的是為具身智能領(lǐng)域的專業(yè)人士提供一站式VLA研究服務(wù),由一家叫原力靈機(Dexmal)的具身智能公司開發(fā)。

Dexbotic由大牛開發(fā),并開源

原力靈機專注于具身智能(Embodied Intelligence)技術(shù)研發(fā),2024年11月成立。剛成立,就宣布完成2億元天使輪融資,投資方包括君聯(lián)資本、九坤創(chuàng)投和啟明創(chuàng)投。

原力靈機的核心團隊出身于知名人工智能公司曠視科技,兼具頂尖學(xué)術(shù)背景以及超過10年的AI原生產(chǎn)品落地經(jīng)驗。

創(chuàng)始人兼CEO唐文斌是曠視科技聯(lián)合創(chuàng)始人兼CTO,清華大學(xué)"姚班"出身,首屆"Yao Award"金牌得主。

近年隨著視覺-語言-動作(VLA)模型的發(fā)展,具身智能領(lǐng)域發(fā)展迅速。VLA模型能夠?qū)⒁曈X感知、語言理解和動作執(zhí)行整合到一個統(tǒng)一的框架中,使機器人能夠理解自然語言指令并執(zhí)行相應(yīng)的物理任務(wù)。

根據(jù)《2025人形機器人與具身智能產(chǎn)業(yè)研究報告》數(shù)據(jù),2025年,全球具身智能市場規(guī)模預(yù)計達(dá)195.25億元,2030年預(yù)計達(dá)2326.3億元,復(fù)合年增長率達(dá)64.18%。

然而,在行業(yè)繁榮的背后,是研發(fā)路徑中的重重困境。搞具身智能的全球研究者們,說著不同的語言。

有人用PyTorch,有人用TensorFlow。有人基于這個視覺模型,有人基于那個語言模型。每個人都在自己的角落里,用自己的一套工具和方法論,從零開始搭建基礎(chǔ)設(shè)施。硬件接口、通信協(xié)議、數(shù)據(jù)格式五花八門,沒有統(tǒng)一的規(guī)范。

整個領(lǐng)域形成了一個個碎片化的開發(fā)生態(tài)。這帶來了幾大困難。

一個研究團隊發(fā)布了一個看起來很厲害的新算法,另一個團隊想要復(fù)現(xiàn)對比一下,麻煩就來了。他們得先花大量時間和精力去搭建一套和發(fā)布者一模一樣的實驗環(huán)境,處理截然不同的數(shù)據(jù)格式。這個過程極其繁瑣,耗費巨大的人力、算力和時間。很多時候,僅僅是環(huán)境配置的微小差異,就可能導(dǎo)致結(jié)果天差地別。

在現(xiàn)有模式下,你很難說清一個算法表現(xiàn)不好,究竟是算法本身的問題,還是因為你沒有把它調(diào)整到最優(yōu)狀態(tài)。這嚴(yán)重影響了對技術(shù)路線的客觀判斷和有效迭代。

同時,很多視覺-語言-動作(VLA)模型,也就是控制機器人干活的核心大腦,還在使用一些過時或者不同時期的視覺-語言模型(VLM)作為基礎(chǔ)。這導(dǎo)致VLM領(lǐng)域在語義理解、多模態(tài)對齊方面的最新技術(shù)突破,無法順暢地傳導(dǎo)到VLA模型上,限制了機器人在開放世界里的泛化和推理能力。

當(dāng)具身智能要從仿真環(huán)境走向現(xiàn)實世界時,問題變得更加復(fù)雜。研究者需要在主流的仿真器和真實的機器人上同步測試,這對現(xiàn)有的研發(fā)模式提出了更大的挑戰(zhàn)。

整個行業(yè),都在為這種重復(fù)造輪子的內(nèi)耗付出高昂的代價。創(chuàng)新,在很多時候,被淹沒在了繁瑣的環(huán)境配置與算法復(fù)現(xiàn)工作中。

正是洞察到以上行業(yè)瓶頸,原力靈機Dexbotic團隊研發(fā)并開源了Dexbotic。

一套代碼庫,一個通用底座

Dexbotic是一個基于PyTorch的開源視覺-語言-動作(VLA)模型工具箱。它的核心理念,是想通過代碼庫+預(yù)訓(xùn)練模型的雙引擎,為具身智能研究打造一個通用底座。

這個底座的目標(biāo):把開發(fā)者從繁瑣的環(huán)境配置和算法復(fù)現(xiàn)中解放出來,讓他們能真正專注于模型調(diào)優(yōu)和算法創(chuàng)新本身。

為了實現(xiàn)這個目標(biāo),Dexbotic設(shè)計了一個三層閉環(huán)的研發(fā)架構(gòu)。

第一層是數(shù)據(jù)層。它定義了一種名為Dexdata的統(tǒng)一數(shù)據(jù)格式。不管你的數(shù)據(jù)來自哪個機器人、哪個傳感器,只要轉(zhuǎn)換成這個格式,就能無縫接入Dexbotic的處理流程。這就像一個萬能數(shù)據(jù)適配器,不僅統(tǒng)一了標(biāo)準(zhǔn),還優(yōu)化了存儲效率,為后續(xù)的模型訓(xùn)練提取出標(biāo)準(zhǔn)的圖像、文本和狀態(tài)信息。

第二層是模型層。這一層的核心是DexboticVLM基礎(chǔ)模型。它像一個高度標(biāo)準(zhǔn)化的汽車底盤,上面可以搭載各種不同風(fēng)格的車身,也就是多樣化的VLA策略。無論是直接用于離散動作的訓(xùn)練,還是作為現(xiàn)有策略(比如Pi0、OpenVLA-OFT)的基座,都可以。目前,它已經(jīng)集成了Pi0、OpenVLA-OFT、CogACT、MemoryVLA、MUVLA等多種主流策略,并且支持用戶很方便地自定義新模型。

第三層是實驗層。這是Dexbotic的精髓所在。它基于模型層的實現(xiàn),創(chuàng)造了一套實驗?zāi)_本機制。用戶想跑一個新實驗,不再需要重寫大量代碼,往往只需要修改幾行配置,就能快速啟動。這種分層配置+工廠注冊+入口分發(fā)的軟件架構(gòu),在保證系統(tǒng)穩(wěn)定性的前提下,賦予了框架極高的靈活性。

比如,用戶想跑一個實驗,只需在終端輸入一行命令:python xxx_exp.py -task train。這里的task可以切換成train(訓(xùn)練)或inference(推理)。這種設(shè)計,比傳統(tǒng)的基于YAML文件進(jìn)行配置的方式(例如LeRobot工具箱),更貼近開發(fā)者的編程習(xí)慣,讓參數(shù)調(diào)試、實驗復(fù)現(xiàn)和版本管理變得異常直觀高效。

Dexbotic想做的,就是把具身智能研發(fā)過程中那些最耗時、最繁瑣、最重復(fù)性的工作,全部標(biāo)準(zhǔn)化、自動化。它提供統(tǒng)一的框架、強大的預(yù)訓(xùn)練模型、靈活的實驗流程、以及對云端和本地訓(xùn)練環(huán)境的全面支持。

它甚至還開源了硬件。為了加速技術(shù)在真實世界的落地,原力靈機發(fā)布了首款開源硬件產(chǎn)品——Dexbotic Open Source - W1 (DOS-W1)。從技術(shù)文檔、BOM清單、設(shè)計圖紙到組裝方案和相關(guān)代碼,全部公開。這個硬件大量采用快拆結(jié)構(gòu)和可替換模塊,讓改造和維護(hù)變得非常方便。

從軟件到硬件,從代碼到部署,Dexbotic試圖覆蓋從仿真驗證到真實機器人無縫落地的完整流程,打通研發(fā)測試的最后一公里。

強大的預(yù)訓(xùn)練模型是核心優(yōu)勢

統(tǒng)一的框架是Dexbotic的骨架,高性能的預(yù)訓(xùn)練模型則是它強健的肌肉。

為了滿足不同用戶對各種機械臂的需求,Dexbotic提供了兩類預(yù)訓(xùn)練模型:一類是用于通用VLA策略的預(yù)訓(xùn)練離散模型,另一類是用于特定VLA策略的預(yù)訓(xùn)練連續(xù)模型。后者又進(jìn)一步分為單臂和雙臂任務(wù)的版本。

離散預(yù)訓(xùn)練模型,名為Dexbotic-Base。它在一個龐大且多樣的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,這個數(shù)據(jù)集里不僅包含了Open-X Embodiment數(shù)據(jù)集的子集,還有來自多個主流模擬器(如RLBench、LIBERO和ManiSkill2)的數(shù)據(jù),甚至還包括了一些真實機器人(如UR5)的數(shù)據(jù)。

它的訓(xùn)練方式很巧妙。在訓(xùn)練過程中,機器人真實、連續(xù)的動作,被量化切分成了256個區(qū)間,然后模型被訓(xùn)練來預(yù)測這些離散的標(biāo)記。這個經(jīng)過預(yù)訓(xùn)練的Dexbotic-Base模型,可以直接作為任何基于VLM的操作和導(dǎo)航策略的微調(diào)起點。用戶可以用它來學(xué)習(xí)離散動作,也可以在它的基礎(chǔ)上添加一個動作專家(Action Expert)模塊,來處理連續(xù)動作。

連續(xù)預(yù)訓(xùn)練模型,以CogACT策略為例,我們來看看Dexbotic是怎么做的。它首先用前面提到的Dexbotic-Base模型來初始化VLM部分,然后隨機初始化一個DiT(擴散變換器)頭部,接著用真實的連續(xù)動作數(shù)據(jù)來監(jiān)督整個模型的訓(xùn)練。

用于訓(xùn)練的數(shù)據(jù)來源,除了Open-X等公開數(shù)據(jù)集,還包括了原力靈機自己收集的私有數(shù)據(jù)集。這份私有數(shù)據(jù)集,是團隊使用八種不同的單臂真實機器人、在52個操作任務(wù)中收集的。這八種機器人包括UR5、Franka、Unitree Z1、Realman GEN72等等,它們的形態(tài)、自由度(DoF)各不相同。在一個模型里消化掉這么多形態(tài)迥異的機器人數(shù)據(jù),本身就是對基礎(chǔ)設(shè)施能力的巨大挑戰(zhàn),但也正因如此,訓(xùn)練出的模型才具有更強的泛化能力。這個模型被稱為Dexbotic-CogACT。

混合臂連續(xù)模型,則更進(jìn)一步。原始的CogACT策略并不支持多視角輸入和雙臂協(xié)同。Dexbotic對它進(jìn)行了改造。為了支持雙臂任務(wù),他們將模型的噪聲標(biāo)記從7個增加到16個,前半部分代表左臂動作,后半部分代表右臂動作。

訓(xùn)練時,它在單臂連續(xù)模型的基礎(chǔ)上,繼續(xù)用混合臂的機器人數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)除了前面提到的單臂數(shù)據(jù),還引入了Robomind、AgiBot World等雙臂數(shù)據(jù)集,以及團隊自己用ALOHA雙臂機器人收集的私有數(shù)據(jù)。一個聰明的做法是,當(dāng)輸入單臂數(shù)據(jù)時,就只用這部分?jǐn)?shù)據(jù)來監(jiān)督前半部分的標(biāo)記,后半部分的損失在訓(xùn)練中被忽略。這樣就高效地利用了所有可得數(shù)據(jù)。為了支持多視角輸入,來自不同攝像頭的圖像共享同一個視覺編碼器,提取出的視覺標(biāo)記被連接起來,作為語言模型的輸入。

這一系列精心設(shè)計的預(yù)訓(xùn)練模型,為開發(fā)者提供了一個極高的起點和可靠的性能基準(zhǔn),有效降低了從零開始的訓(xùn)練成本。

用Dexbotic訓(xùn)練的模型更強了

Dexbotic在多個主流的模擬基準(zhǔn)測試中,驗證了這些預(yù)訓(xùn)練模型的有效性。

首先是SimplerEnv,一個旨在縮小模擬與現(xiàn)實差距的基準(zhǔn)。結(jié)果顯示,使用了Dexbotic預(yù)訓(xùn)練模型,DB-CogACT比官方的CogACT成功率高出18.2%。DB-OFT與官方OpenVLA-OFT相比,成功率更是提升了驚人的46.2%。在一個本身就是領(lǐng)域內(nèi)最先進(jìn)的策略MemoryVLA上,使用Dexbotic預(yù)訓(xùn)練模型后,成功率也提升了超過12%。

然后是ManiSkill2,一個專注于拾取和放置任務(wù)的基準(zhǔn)。原始的OpenVLA-OFT表現(xiàn)不佳,平均成功率只有21%。而DB-OFT直接將這個數(shù)字提升到了63%,絕對性能提高了42個百分點。即使是面對原始CogACT這樣強大的基線,DB-CogACT也進(jìn)一步將平均成功率提升了18個百分點。

在針對長視野任務(wù)的CALVIN基準(zhǔn)上,DB-CogACT在所有指標(biāo)上都優(yōu)于官方CogACT,平均任務(wù)完成長度從3.25提升到了4.06。

在新引入的雙臂任務(wù)基準(zhǔn)RoboTwin 2.0上,DB-CogACT也以58.5%的成功率,超過了CogACT 14.75個百分點,證明了預(yù)訓(xùn)練模型在雙臂場景下的有效性。

即便是在性能已經(jīng)接近飽和的LIBERO基準(zhǔn)上,使用Dexbotic預(yù)訓(xùn)練模型后,CogACT和MemoryVLA等策略依然能獲得一些性能提升。

這些巨大的性能提升,證明了通過Dexbotic提供的預(yù)訓(xùn)練模型具有強大的表示能力。

在真實世界中,Dexbotic同樣表現(xiàn)出色。團隊發(fā)布了一個任務(wù)庫,展示了在UR5e、ALOHA、ARX5和Franka等不同機器人上完成的各種日常任務(wù)。

在擺盤子和搜索綠色盒子任務(wù)中,成功率分別達(dá)到了100%和80%。當(dāng)然,對于像撕碎廢紙和將薯條倒入盤子這類精細(xì)操作任務(wù),對現(xiàn)有的VLA策略仍然構(gòu)成挑戰(zhàn)。

為了解決真實世界評估勞動強度大的問題,團隊還開發(fā)了一個名為DOS-Twins的Real2Sim2Real模擬器。它能為公開的真實世界數(shù)據(jù)集,重建一個高度逼真的模擬環(huán)境。

這種逼真體現(xiàn)在三個維度的一致性上:視覺一致性,通過3D高斯濺射(3DGS)技術(shù)生成照片級的渲染畫面;運動一致性,通過校準(zhǔn)讓模擬機器人的動力學(xué)和運動學(xué)特性與真實硬件匹配;交互一致性,通過高精度3D掃描,確保模擬中夾爪與物體的交互在毫米級別上與現(xiàn)實一致。

意味著可以在模擬環(huán)境中進(jìn)行大量、快速、低成本的評估,而其結(jié)果又能高度對應(yīng)真實世界的表現(xiàn)。

從開發(fā)到評測的生態(tài)閉環(huán)

Dexbotic工具箱,只是原力靈機布局的第一步。

他們與全球最大的AI開源平臺之一Hugging Face合作,推出了RoboChallenge項目。這是全球首個大規(guī)模、多場景、基于真實機器人的具身智能評測平臺。

唐文斌解釋說,目前很多機器人研究都發(fā)生在仿真環(huán)境中,但仿真到現(xiàn)實之間存在巨大的鴻溝。有些方法在仿真里表現(xiàn)完美,一到真實世界就徹底失敗。因此,建立一個基于真實環(huán)境的統(tǒng)一、開放、可復(fù)現(xiàn)的基準(zhǔn)系統(tǒng)至關(guān)重要。

RoboChallenge就是對仿真測試的現(xiàn)實世界補充。

他們開發(fā)了一種名為Remote Robots的機制。用戶的模型可以留在自己的本地服務(wù)器上,不需要上傳,只需通過HTTP API就可以遠(yuǎn)程訪問和控制RoboChallenge平臺上的真實機器人進(jìn)行測試。測試結(jié)果會顯示在一個公開的排行榜上。

Dexbotic與RoboChallenge形成了深度的協(xié)同效應(yīng)。

一個研究者,可以使用Dexbotic工具箱高效地開發(fā)和訓(xùn)練自己的模型,然后在RoboChallenge這個全球性的真實機器人測試平臺上,進(jìn)行公平、透明的性能驗證。

這從基礎(chǔ)設(shè)施層面,構(gòu)建了一個從開發(fā)-訓(xùn)練-評測的完整技術(shù)閉環(huán)。

這種協(xié)同,將從根本上改變具身智能領(lǐng)域的游戲規(guī)則。

它為創(chuàng)業(yè)團隊和中小廠商提供了可媲美大廠的研發(fā)起點,讓創(chuàng)新重心從重復(fù)造輪子回歸到算法突破和場景深化。

它也為企業(yè)和投資機構(gòu)提供了跨模型可比的評估體系,為技術(shù)選型和投資決策提供了客觀透明的依據(jù)。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-06-04 09:25:51

2025-08-13 09:07:00

2025-03-20 10:19:52

2024-11-01 09:45:08

2025-09-28 02:00:00

2025-07-15 16:28:05

2025-04-25 02:30:00

機械臂大模型多模態(tài)

2025-07-10 14:50:46

AI模型訓(xùn)練

2025-07-25 10:19:44

2025-03-10 13:31:28

2025-10-13 09:08:00

2024-11-11 14:00:00

AI模型

2024-09-27 09:48:28

2024-12-02 07:10:00

DeeR-VLALLM多模態(tài)模型

2010-01-25 14:04:17

Android Wid

2025-07-02 08:40:00

智能體AI模型

2025-09-09 09:13:00

AI模型數(shù)據(jù)

2025-02-21 09:37:00

點贊
收藏

51CTO技術(shù)棧公眾號