VLA統(tǒng)一架構(gòu)新突破:自回歸世界模型引領(lǐng)具身智能
本文來自:王宇琪,中國科學(xué)院自動(dòng)化所博士,研究方向?yàn)槭澜缒P?,自?dòng)駕駛感知與決策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等頂級會(huì)議上發(fā)表過多篇論文。
王鑫龍團(tuán)隊(duì),北京智源研究院,研究方向?yàn)樵嗄B(tài)大模型,Emu 系列工作核心負(fù)責(zé)人。
張兆翔團(tuán)隊(duì),中國科學(xué)院自動(dòng)化研究所,研究方向涵蓋世界模型、視覺生成與重建、自動(dòng)駕駛、具身智能等。
從 Sora 到 Genie2,從語言驅(qū)動(dòng)的視頻生成到世界的交互模擬,世界模型正加速成為連接感知、理解與決策的關(guān)鍵基座。隨著視覺 - 語言 - 動(dòng)作(VLA)模型在具身智能領(lǐng)域的快速發(fā)展,多模態(tài)之間的邊界正被重塑。
然而,現(xiàn)有方法多以語言模態(tài)為中心,往往忽視了視覺信息蘊(yùn)含的豐富時(shí)序動(dòng)態(tài)與因果結(jié)構(gòu)。
為此,北京智源研究院聯(lián)合中國科學(xué)院自動(dòng)化研究所提出 UniVLA —— 一種全新的 VLA 模型架構(gòu),基于全離散、自回歸機(jī)制,原生建模視覺、語言與動(dòng)作信號,并在后訓(xùn)練階段引入世界模型建模,從大規(guī)模視頻中學(xué)習(xí)時(shí)序信息與因果邏輯,有效增強(qiáng)了模型在下游決策任務(wù)的性能和學(xué)習(xí)效率。
UniVLA 在 CALVIN、LIBERO、SimplerEnv 等主流具身智能基準(zhǔn)上全面刷新多項(xiàng) SOTA 紀(jì)錄,并展現(xiàn)出在真機(jī)操控和自動(dòng)駕駛等現(xiàn)實(shí)場景中的廣泛潛力。

- 論文標(biāo)題:Unified Vision-Language-Action Model
- 網(wǎng)站鏈接:https://robertwyq.github.io/univla.github.io/
- 論文鏈接:https://arxiv.org/abs/2506.19850
- 代碼鏈接:https://github.com/baaivision/UniVLA
統(tǒng)一視覺 - 語言 - 動(dòng)作的
全離散自回歸模型
該框架將視覺、語言與動(dòng)作信號統(tǒng)一轉(zhuǎn)化為離散 token,并構(gòu)建視覺 - 動(dòng)作交錯(cuò)的多模態(tài)時(shí)序序列,實(shí)現(xiàn)原生統(tǒng)一建模。在訓(xùn)練范式上,采用自回歸方式進(jìn)行學(xué)習(xí),不僅高效穩(wěn)定,更具大規(guī)模擴(kuò)展的潛力。
得益于這種時(shí)序化的多模態(tài)表示,模型天然支持多種任務(wù)的統(tǒng)一訓(xùn)練,包括視覺理解、文生視頻、動(dòng)作預(yù)測等,具備良好的通用性與數(shù)據(jù)擴(kuò)展能力。

統(tǒng)一的視覺 - 語言 - 動(dòng)作模型架構(gòu)
世界模型助力下游決策
在這套統(tǒng)一框架下,世界模型的后訓(xùn)練顯著提升了下游決策性能,且無需依賴大量動(dòng)作數(shù)據(jù),僅憑海量視頻即可高效學(xué)習(xí)。
對比語言生成圖像的訓(xùn)練范式,時(shí)序動(dòng)態(tài)信息被證明至關(guān)重要;而與純視頻建模相比,多模態(tài)語義對齊同樣不可或缺。這為機(jī)器人從大規(guī)模視頻中學(xué)習(xí)真實(shí)世界知識打開了新路徑,展現(xiàn)出世界模型在多模態(tài)感知與決策融合中的巨大潛力。

刷新多項(xiàng)仿真基準(zhǔn)紀(jì)錄
該方法在當(dāng)前主流的具身仿真基準(zhǔn)上 —— 包括 CALVIN、LIBERO 和 SimplerEnv—— 均展現(xiàn)出強(qiáng)勁的性能優(yōu)勢,全面刷新多項(xiàng)任務(wù)紀(jì)錄。

CALVIN 的長程任務(wù)評測

LIBERO 的泛化評測

SimplerEnv 的泛化測試
解鎖更廣應(yīng)用:
真機(jī)雙臂操控與端到端駕駛

雙臂協(xié)作倒水
探索新的VLA技術(shù)路徑

未來展望
相比于基于視覺語言模型(VLM)拓展而來的 VLA 框架,本文提出了一條全新的技術(shù)路線,展現(xiàn)出更大的潛力與探索空間。
一方面,我們構(gòu)建了一個(gè)視頻版本的 VLA 架構(gòu),使模型能夠有效捕捉視頻中的時(shí)空動(dòng)態(tài)特征,并在推理過程中更充分地利用歷史信息;同時(shí),即便缺乏動(dòng)作標(biāo)簽,模型僅通過大規(guī)模視頻數(shù)據(jù)的訓(xùn)練,依然在下游任務(wù)中表現(xiàn)出顯著優(yōu)勢。
另一方面,我們引入全離散的自回歸訓(xùn)練范式,顯著提升了訓(xùn)練效率,并為大規(guī)模數(shù)據(jù)下的模型擴(kuò)展性提供了堅(jiān)實(shí)基礎(chǔ)。未來,我們將進(jìn)一步探索該框架與多模態(tài)強(qiáng)化學(xué)習(xí)的深度融合,推動(dòng)其在開放世界中的感知、理解與決策能力持續(xù)演進(jìn)。



































