億級短視頻數(shù)據(jù)突破具身智能Scaling Law!Being-H0提出VLA訓練新范式
如何讓機器人從看懂世界,到理解意圖,再到做出動作,是具身智能領域當下最受關注的技術重點。
但真機數(shù)據(jù)的匱乏,正在使對應的視覺-語言-動作(VLA)模型面臨發(fā)展瓶頸。
盡管業(yè)界已投入大量資源構建數(shù)據(jù)平臺(如馬斯克主導的“數(shù)據(jù)工廠”項目),現(xiàn)有真機數(shù)據(jù)規(guī)模仍較模型規(guī)模定律所需的上億級訓練樣本相差三個數(shù)量級。
△Being-H0:基于人類視頻手部數(shù)據(jù)的大規(guī)模預訓練VLA模型
針對這一關鍵問題,北京大學&BeingBeyond盧宗青團隊提出了創(chuàng)新性解決方案:
該研究團隊利用海量人類操作視頻提取手部運動軌跡,構建了規(guī)模達億級的訓練數(shù)據(jù)集。

其核心貢獻在于提出了“物理指令微調(diào)”(physical instruction tuning)方法框架,實現(xiàn)了從人類手部運動到機器人動作空間的精確映射。
基于這一技術突破,團隊成功訓練出首個基于人類視頻手部數(shù)據(jù)的大規(guī)模預訓練VLA模型——Being-H0,并完成了真實機器人平臺的驗證實驗。
這項研究發(fā)現(xiàn):
- 人的雙手可被視為各種末端執(zhí)行器的標準模版(包括靈巧手、夾爪)
- 通過大規(guī)模人手操作視頻預訓練VLA生成人手動作,能解決具身領域規(guī)模定律(Scaling Law)的“數(shù)據(jù)瓶頸”
- 預訓練VLA能大幅提升機器人操作任務成功率和真機樣本效率
Being-H0:首個利用人類操作軌跡訓練的大規(guī)模VLA模型
Being-H0的基礎建立于如下關鍵假設:
人類手部運動可以被視為最完備的操作執(zhí)行器,而現(xiàn)有機器人末端執(zhí)行器均可視為其特定子集。上至復雜的五指靈巧手,下至結構簡單的二指夾爪(可抽象為手腕-雙指三節(jié)點系統(tǒng)),都能從人類手部運動知識中獲益。
通過預訓練學習人類操作軌跡,可以構建具有廣泛適應性的基座模型。
值得注意的是,這類視頻數(shù)據(jù)在當前的短視頻時代具有極高的易獲取性,且天然避免了仿真環(huán)境數(shù)采帶來的“虛擬-現(xiàn)實”差異問題。
研究團隊借鑒視覺指令微調(diào)(visual instruction tuning)的成功經(jīng)驗,創(chuàng)新性地提出了一個完整的物理指令微調(diào)框架。
△物理指令調(diào)優(yōu)訓練框架
與前者不同,新框架專門針對2D多模態(tài)數(shù)據(jù)與3D機器人動作空間之間的異構性問題進行了設計——這正是現(xiàn)有模型在具身任務中表現(xiàn)不及多模態(tài)評測的主要原因——包含以下三個關鍵部分:
1. 預訓練——從百萬量級人手操作視頻中學習
傳統(tǒng)多模態(tài)大模型在向VLA遷移時面臨的核心瓶頸在于,預訓練階段與下游任務之間存在顯著的數(shù)據(jù)異構性?;谝痪S自然語言訓練的模型雖擅長語言推理,基于二維圖像訓練的模型雖精于視覺語言推斷,但二者均難以建模三維動作空間的語義。為此,該研究通過海量手部操作軌跡數(shù)據(jù)來彌合這一模態(tài)鴻溝,并設計了統(tǒng)一的多模態(tài)自回歸架構,實現(xiàn)了視覺、語言與動作模態(tài)的協(xié)同表征學習與聯(lián)合生成。
Being-H0采用了分部位動作編碼方案: 在預訓練過程中,針對手腕和手指分別設計專用編碼器,采用基于分組的殘差變分量化自編碼器,將動作姿態(tài)重建誤差控制在毫米級,有效解決了動作離散化帶來的精度損失問題。
2. 物理空間對齊——消除不同數(shù)據(jù)源的異構性,進行2D視頻到三維空間的物理對齊
研究引入物理空間對齊技術,通過統(tǒng)一的坐標系轉換方法,消除了多源數(shù)據(jù)在相機參數(shù)、觀測視角等方面的差異性,確保VLA模型能夠有效學習空間與動作表征。
3. 后訓練——從預訓練模型遷移到真機
Being-H0建立了從人類動作到機器人操作的高效轉換通道,確保技能遷移的有效性。
△預訓練和后訓練的架構細節(jié)
上億級規(guī)模UniHand數(shù)據(jù)集
為滿足物理指令調(diào)優(yōu)框架對訓練數(shù)據(jù)的需求,研究團隊系統(tǒng)性地構建了一套完整的數(shù)據(jù)采集與處理流程,包括數(shù)據(jù)收集、清洗和對齊等關鍵環(huán)節(jié)。
基于此流程,團隊構建了規(guī)模達上億級的UniHand數(shù)據(jù)集。
該數(shù)據(jù)集整合了來自11個開源數(shù)據(jù)源的多模態(tài)數(shù)據(jù),涵蓋動作捕捉系統(tǒng)、虛擬現(xiàn)實(VR)設備采集以及常規(guī)RGB視頻三種主要數(shù)據(jù)來源。
△UniHand:規(guī)模超過1.5億的人類手勢動作數(shù)據(jù)集
在任務類型方面,數(shù)據(jù)集主要包含以下三類預訓練任務:
- 基于指令的手勢動作生成;
- 手勢動作語義理解;
- 上下文感知的動作預測。
經(jīng)過系統(tǒng)整合與處理,最終構建的數(shù)據(jù)集包含1.5億條人類手部動作指令樣本。
值得注意的是,即便僅使用其中250萬條樣本進行預訓練,模型在手勢動作預測任務及下游真實機器人任務上均已展現(xiàn)出顯著性能提升。
真實機器人實驗驗證
除常規(guī)預訓練任務評估外,這項研究的一個重要貢獻在于開展了全面的真實機器人實驗以驗證方法有效性。
實驗結果表明,在保持下游任務訓練參數(shù)一致的情況下,基于物理指令調(diào)優(yōu)框架訓練的Being-H0模型顯著超越了其基座模型InternVL3,同時也優(yōu)于同期英偉達NVIDIA開源的VLA大模型GR00T N1.5。

需要特別指出的是,GR00T N1.5在訓練過程中同樣采用了人類視頻數(shù)據(jù)進行隱式動作空間學習,且其訓練規(guī)模遠超Being-H0當前使用的預訓練數(shù)據(jù)量。

這一對比結果有力地證實了本研究數(shù)據(jù)構建策略的有效性:通過顯式構建與下游任務結構高度對齊的預訓練數(shù)據(jù),能夠顯著提升模型從視頻數(shù)據(jù)中學習人類動作知識的效果,進而提高下游任務的成功率。為深入驗證方法的魯棒性,研究團隊進一步對比了Being-H0與未經(jīng)預訓練的基礎模型在不同訓練數(shù)據(jù)規(guī)模下的性能表現(xiàn)。
實驗設置了從25%到100%不等的訓練數(shù)據(jù)采樣比例,結果表明在相同數(shù)據(jù)量條件下,Being-H0模型始終展現(xiàn)出穩(wěn)定的性能優(yōu)勢。
此外,在同樣成功率下,Being-H0所需要的真機數(shù)據(jù)量遠少于其他模型(例如,在Pick-Place-Toy任務中,Being-H0在25%真機數(shù)據(jù)訓練的性能已接近其他模型在100%數(shù)據(jù)上的性能)。
這一系列實驗不僅驗證了物理指令調(diào)優(yōu)框架的有效性,同時也證實了該方法可以顯著降低真機數(shù)據(jù)量。
下列視頻展示了其中一些真機演示的例子(視頻無加速剪輯)。
BeingBeyond團隊
Being-H0由包括智在無界、北京大學以及人民大學的研究團隊共同打造。
作為首個基于人類操作軌跡訓練的大規(guī)模VLA模型,Being-H0成功突破了數(shù)據(jù)封鎖的桎梏,為機器人靈巧操作研究開辟了新范式。
團隊表示,正持續(xù)攻堅具身智能大模型、靈巧操作、全身運動控制等核心技術,致力于讓機器人真正走進千家萬戶。
文章鏈接:https://arxiv.org/pdf/2507.15597
項目官網(wǎng):https://beingbeyond.github.io/Being-H0/








































