偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

VLA統(tǒng)一架構(gòu)新突破:自回歸世界模型引領(lǐng)具身智能

人工智能 新聞
北京智源研究院聯(lián)合中國科學(xué)院自動(dòng)化研究所提出 UniVLA —— 一種全新的 VLA 模型架構(gòu),基于全離散、自回歸機(jī)制,原生建模視覺、語言與動(dòng)作信號,并在后訓(xùn)練階段引入世界模型建模,從大規(guī)模視頻中學(xué)習(xí)時(shí)序信息與因果邏輯,有效增強(qiáng)了模型在下游決策任務(wù)的性能和學(xué)習(xí)效率。

本文來自:王宇琪,中國科學(xué)院自動(dòng)化所博士,研究方向?yàn)槭澜缒P?,自?dòng)駕駛感知與決策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等頂級會(huì)議上發(fā)表過多篇論文。

王鑫龍團(tuán)隊(duì),北京智源研究院,研究方向?yàn)樵嗄B(tài)大模型,Emu 系列工作核心負(fù)責(zé)人。

張兆翔團(tuán)隊(duì),中國科學(xué)院自動(dòng)化研究所,研究方向涵蓋世界模型、視覺生成與重建、自動(dòng)駕駛、具身智能等。

從 Sora 到 Genie2,從語言驅(qū)動(dòng)的視頻生成到世界的交互模擬,世界模型正加速成為連接感知、理解與決策的關(guān)鍵基座。隨著視覺 - 語言 - 動(dòng)作(VLA)模型在具身智能領(lǐng)域的快速發(fā)展,多模態(tài)之間的邊界正被重塑。

然而,現(xiàn)有方法多以語言模態(tài)為中心,往往忽視了視覺信息蘊(yùn)含的豐富時(shí)序動(dòng)態(tài)與因果結(jié)構(gòu)。

為此,北京智源研究院聯(lián)合中國科學(xué)院自動(dòng)化研究所提出 UniVLA —— 一種全新的 VLA 模型架構(gòu),基于全離散、自回歸機(jī)制,原生建模視覺、語言與動(dòng)作信號,并在后訓(xùn)練階段引入世界模型建模,從大規(guī)模視頻中學(xué)習(xí)時(shí)序信息與因果邏輯,有效增強(qiáng)了模型在下游決策任務(wù)的性能和學(xué)習(xí)效率。

UniVLA 在 CALVIN、LIBERO、SimplerEnv 等主流具身智能基準(zhǔn)上全面刷新多項(xiàng) SOTA 紀(jì)錄,并展現(xiàn)出在真機(jī)操控和自動(dòng)駕駛等現(xiàn)實(shí)場景中的廣泛潛力。

圖片

  • 論文標(biāo)題:Unified Vision-Language-Action Model
  • 網(wǎng)站鏈接:https://robertwyq.github.io/univla.github.io/
  • 論文鏈接:https://arxiv.org/abs/2506.19850
  • 代碼鏈接:https://github.com/baaivision/UniVLA

統(tǒng)一視覺 - 語言 - 動(dòng)作的

全離散自回歸模型

該框架將視覺、語言與動(dòng)作信號統(tǒng)一轉(zhuǎn)化為離散 token,并構(gòu)建視覺 - 動(dòng)作交錯(cuò)的多模態(tài)時(shí)序序列,實(shí)現(xiàn)原生統(tǒng)一建模。在訓(xùn)練范式上,采用自回歸方式進(jìn)行學(xué)習(xí),不僅高效穩(wěn)定,更具大規(guī)模擴(kuò)展的潛力。

得益于這種時(shí)序化的多模態(tài)表示,模型天然支持多種任務(wù)的統(tǒng)一訓(xùn)練,包括視覺理解、文生視頻、動(dòng)作預(yù)測等,具備良好的通用性與數(shù)據(jù)擴(kuò)展能力。

圖片

統(tǒng)一的視覺 - 語言 - 動(dòng)作模型架構(gòu)

世界模型助力下游決策

在這套統(tǒng)一框架下,世界模型的后訓(xùn)練顯著提升了下游決策性能,且無需依賴大量動(dòng)作數(shù)據(jù),僅憑海量視頻即可高效學(xué)習(xí)。

對比語言生成圖像的訓(xùn)練范式,時(shí)序動(dòng)態(tài)信息被證明至關(guān)重要;而與純視頻建模相比,多模態(tài)語義對齊同樣不可或缺。這為機(jī)器人從大規(guī)模視頻中學(xué)習(xí)真實(shí)世界知識打開了新路徑,展現(xiàn)出世界模型在多模態(tài)感知與決策融合中的巨大潛力。

圖片

刷新多項(xiàng)仿真基準(zhǔn)紀(jì)錄

該方法在當(dāng)前主流的具身仿真基準(zhǔn)上 —— 包括 CALVIN、LIBERO 和 SimplerEnv—— 均展現(xiàn)出強(qiáng)勁的性能優(yōu)勢,全面刷新多項(xiàng)任務(wù)紀(jì)錄。

圖片

CALVIN 的長程任務(wù)評測

圖片

LIBERO 的泛化評測

圖片

SimplerEnv 的泛化測試

解鎖更廣應(yīng)用:

真機(jī)雙臂操控與端到端駕駛

雙臂協(xié)作倒水

探索新的VLA技術(shù)路徑

圖片

未來展望

相比于基于視覺語言模型(VLM)拓展而來的 VLA 框架,本文提出了一條全新的技術(shù)路線,展現(xiàn)出更大的潛力與探索空間。

一方面,我們構(gòu)建了一個(gè)視頻版本的 VLA 架構(gòu),使模型能夠有效捕捉視頻中的時(shí)空動(dòng)態(tài)特征,并在推理過程中更充分地利用歷史信息;同時(shí),即便缺乏動(dòng)作標(biāo)簽,模型僅通過大規(guī)模視頻數(shù)據(jù)的訓(xùn)練,依然在下游任務(wù)中表現(xiàn)出顯著優(yōu)勢。

另一方面,我們引入全離散的自回歸訓(xùn)練范式,顯著提升了訓(xùn)練效率,并為大規(guī)模數(shù)據(jù)下的模型擴(kuò)展性提供了堅(jiān)實(shí)基礎(chǔ)。未來,我們將進(jìn)一步探索該框架與多模態(tài)強(qiáng)化學(xué)習(xí)的深度融合,推動(dòng)其在開放世界中的感知、理解與決策能力持續(xù)演進(jìn)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-10-30 08:53:34

2025-07-10 14:55:12

機(jī)器人AI模型

2012-07-02 10:45:38

國產(chǎn)CPU龍芯MIPS

2025-10-28 08:46:00

2025-07-25 09:31:49

2024-09-10 14:00:00

英偉達(dá)架構(gòu)AI

2024-03-07 12:51:08

模型訓(xùn)練

2024-06-04 09:25:51

2025-03-07 10:24:43

2025-03-10 13:31:28

2025-07-08 15:13:31

模型AI智能

2024-09-05 13:11:49

2025-07-25 10:19:44

2023-12-23 23:16:36

機(jī)器人模型

2025-06-26 15:06:47

數(shù)據(jù)訓(xùn)練模型

2025-10-29 16:11:39

AI模型工具

2025-09-09 09:13:00

AI模型數(shù)據(jù)

2022-07-20 22:53:44

CCNNSOTACNN 架構(gòu)

2025-07-02 08:40:00

智能體AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號