偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里新研究:統(tǒng)一了VLA和世界模型

人工智能 新聞
WorldVLA是一個將視覺語言動作模型(VLA)與世界模型相融合的統(tǒng)一框架,由阿里巴巴達(dá)摩院、湖畔實(shí)驗室和浙江大學(xué)共同提出。

如果說視覺讓AI看見世界,動作讓AI改變世界,那么——

WorldVLA正在讓AI理解世界。

顧名思義,WorldVLA是一個將視覺語言動作模型(VLA)與世界模型相融合的統(tǒng)一框架,由阿里巴巴達(dá)摩院、湖畔實(shí)驗室和浙江大學(xué)共同提出。

在該框架下,

  • 世界模型通過結(jié)合對動作與圖像的理解來預(yù)測未來圖像,旨在學(xué)習(xí)環(huán)境的潛在物理規(guī)律,以提升動作生成的準(zhǔn)確性;
  • 動作模型則基于圖像觀測生成后續(xù)動作,不僅有助于視覺理解,還反向促進(jìn)世界模型的視覺生成能力。

實(shí)驗結(jié)果表明,WorldVLA的表現(xiàn)顯著優(yōu)于獨(dú)立的動作模型與世界模型,充分體現(xiàn)了二者之間的相互增強(qiáng)效應(yīng)。

下面具體來看。

統(tǒng)一VLA與世界模型

如今,VLA和世界模型雖在分頭并進(jìn),但其在功能上的局限已成為制約發(fā)展的關(guān)鍵瓶頸:

  • VLA模型:基于預(yù)訓(xùn)練多模態(tài)大語言模型(MLLM)構(gòu)建,雖具備跨機(jī)器人任務(wù)泛化能力,但僅將動作作為輸出,未深度整合為輸入進(jìn)行分析,缺乏對動作的全面理解。
  • 世界模型:能基于當(dāng)前觀測和動作預(yù)測未來視覺狀態(tài),理解視覺信息與行為動態(tài),但無法直接生成動作,在需明確動作規(guī)劃的場景中應(yīng)用受限。

為了解決上述難題,研究團(tuán)隊提出了WorldVLA——一種用于統(tǒng)一動作與圖像理解和生成的自回歸動作世界模型。

團(tuán)隊基于Chameleon模型進(jìn)行初始化,讓W(xué)orldVLA使用三套獨(dú)立的分詞器(tokenizer) 對圖像、文本和動作進(jìn)行編碼。

圖像分詞器采用VQ-GAN模型(一種結(jié)合向量量化與生成對抗網(wǎng)絡(luò)的圖像生成模型),并針對特定圖像區(qū)域(如人臉、顯著物體等)引入了感知損失優(yōu)化。

值得一提的是,該分詞器的壓縮比為16,碼本大小為8192。對于256×256的圖像,會生成256個token;對于512×512的圖像,則生成1024個token。

動作分詞器將連續(xù)的機(jī)器人動作的每個維度離散化為256個區(qū)間,區(qū)間寬度根據(jù)訓(xùn)練數(shù)據(jù)的范圍確定。動作由7個token表示,包括3個相對位置、3個相對角度,以及1個絕對夾爪狀態(tài)。

文本分詞器采用訓(xùn)練好的BPE分詞器,詞表大小為65536,其中包括8192個圖像token和256個動作token。

所有文本、動作和圖像都被離散化為token,并以自回歸方式進(jìn)行訓(xùn)練。

自回歸模型中的標(biāo)準(zhǔn)注意力機(jī)制通常采用因果注意力掩碼(causal attention mask),即當(dāng)前token只能訪問前面的token信息,而無法獲取后續(xù)token的信息,如下圖 (a) 所示。

然而,這種傳統(tǒng)配置在生成動作塊(即多個連續(xù)動作)時存在明顯不足。在默認(rèn)注意力掩碼下,早期動作產(chǎn)生的錯誤會傳遞到后續(xù)動作,從而導(dǎo)致性能下降。

為了解決這一問題,團(tuán)隊提出了一種針對動作生成的替代注意力掩碼,如上圖 (b) 所示。該掩碼確保當(dāng)前動作的生成僅依賴文本和視覺輸入,而屏蔽之前動作的影響。

這種設(shè)計使自回歸框架能夠并行生成多個動作,世界模型部分則仍遵循傳統(tǒng)的因果注意力掩碼,如上圖(c) 所示。

之后,團(tuán)隊通過融合動作模型數(shù)據(jù)與世界模型數(shù)據(jù)對WorldVLA進(jìn)行聯(lián)合訓(xùn)練。

其中,引入世界模型數(shù)據(jù)以增強(qiáng)動作生成能力,主要基于三方面考量:

1、環(huán)境物理理解:世界模型能夠通過當(dāng)前狀態(tài)和執(zhí)行的動作來預(yù)測未來觀測,從而學(xué)習(xí)環(huán)境中的物理規(guī)律,這種認(rèn)知對操作任務(wù)尤為重要。

2、動作評估與規(guī)避風(fēng)險:世界模型能夠模擬并評估候選動作的潛在結(jié)果,有助于規(guī)避可能導(dǎo)致不良狀態(tài)的動作。

3、精確動作解析:世界模型需要對動作輸入進(jìn)行精確解釋,這反過來支持動作模型生成更有效且符合上下文的動作。

此外,動作模型也能增強(qiáng)視覺理解能力,從而進(jìn)一步支持世界模型的視覺生成。

動作模型與世界模型相互助力

基準(zhǔn)測試結(jié)果

由下表可以看出,即使在沒有預(yù)訓(xùn)練的情況下,WorldVLA模型也展現(xiàn)出優(yōu)于離散化OpenVLA模型的性能,這證明了其架構(gòu)設(shè)計的有效性。

此外,模型性能與圖像分辨率呈正相關(guān)。具體而言,512×512像素分辨率相比256×256像素分辨率帶來了顯著提升。

這一現(xiàn)象主要?dú)w因于Chameleon主干模型的預(yù)訓(xùn)練策略,其圖像分詞器與大語言模型組件在512×512分辨率下進(jìn)行了優(yōu)化。

同時,更高的分辨率自然提供了更多的視覺細(xì)節(jié)信息,這對需要高操作精度的機(jī)器人抓取任務(wù)尤為重要。

世界模型助力動作模型

此外,研究還表明引入世界模型能夠顯著提升動作模型的性能。

世界模型的核心功能是基于當(dāng)前狀態(tài)與執(zhí)行動作預(yù)測環(huán)境狀態(tài)變化,這一生成機(jī)制促使模型學(xué)習(xí)系統(tǒng)的底層物理規(guī)律,而掌握這種規(guī)律正是實(shí)現(xiàn)抓取等精細(xì)操作任務(wù)的關(guān)鍵前提。

更深入來看,世界模型賦予系統(tǒng)前瞻推演能力:通過預(yù)判候選動作可能產(chǎn)生的后果,為決策過程提供關(guān)鍵信息,從而優(yōu)化動作選擇策略,提高任務(wù)成功率。

下圖的對比案例直觀展示了這種優(yōu)勢?;€動作模型會直接移動到目標(biāo)點(diǎn)位卻未能成功抓取奶酪或瓶子,而WorldVLA會持續(xù)嘗試抓取,直到確認(rèn)操作成功后才移向目標(biāo)位置。

動作模型助力世界模型

在生成質(zhì)量上,WorldVLA顯著優(yōu)于純世界模型,尤其是在生成較長的視頻序列時表現(xiàn)更為突出。

此外,純世界模型在多個場景中呈現(xiàn)明顯缺陷:無法成功拉開抽屜(a)、移動盤子后導(dǎo)致碗消失(b)、未能將碗平穩(wěn)放置在灶臺上(c)。而動作世界模型在這些場景中均生成了連貫且符合物理規(guī)律的后續(xù)狀態(tài)。

核心作者介紹

論文一作為岑俊,2024年8月以阿里星入職阿里巴巴達(dá)摩院。本科畢業(yè)于浙江大學(xué),碩士和博士均畢業(yè)于香港科技大學(xué),2023年在新加坡南洋理工大學(xué)訪問過半年,曾在微軟亞洲研究院(MSRA)、上海AI Lab、??低暫桶⒗锇桶屯x實(shí)驗室實(shí)習(xí)。

One More Thing

對于VLA與世界模型,小米汽車高級研究總監(jiān)、主任科學(xué)家陳龍也發(fā)表了公開看法:

VLA與WM不需要二選一,二者可以結(jié)合起來相互促進(jìn)的。

一個管“抽象思考”,一個管“物理感知”,VLA+WM的結(jié)合,才是通往具身智能(AGI)的答案。

論文鏈接:https://t.co/ZgHyhqQnyf

Github鏈接:https://t.co/SxDZGuhbL7

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-10 14:50:46

AI模型訓(xùn)練

2024-04-18 12:16:37

MetaAIOpenEQA

2025-07-14 09:14:00

2025-09-30 01:33:00

2025-01-26 11:00:00

2025-07-15 16:28:05

2009-06-30 19:17:57

云計算CEOCTO

2025-08-01 09:10:00

2025-10-29 16:04:51

模型數(shù)據(jù)生成AI

2025-08-05 09:02:00

2024-08-19 08:00:00

LLM模型

2025-07-10 14:55:12

機(jī)器人AI模型

2025-07-25 10:19:44

2025-01-10 10:30:00

大模型統(tǒng)計評估

2025-08-14 18:11:01

自動駕駛3DAI

2025-04-10 09:10:00

模型AI評測

2024-05-09 08:33:33

2023-12-11 21:43:47

2024-12-31 09:10:00

2023-06-14 15:02:18

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號