偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="wrj2z"><acronym id="wrj2z"></acronym></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

VLA-OS：NUS邵林團(tuán)隊探究機(jī)器人VLA做任務(wù)推理的秘密

2025-08-01 09:10:00

人工智能新聞

近期，新加坡國立大學(xué)邵林團(tuán)隊發(fā)表了一項突破性研究 VLA-OS，首次系統(tǒng)性地解構(gòu)和分析了機(jī)器人 VLA 模型進(jìn)行任務(wù)規(guī)劃和推理，進(jìn)行了任務(wù)規(guī)劃表征與模型范式的統(tǒng)一對比。

本文第一作者為新加坡國立大學(xué)博士生高崇凱，其余作者為新加坡國立大學(xué)博士生劉子軒、實習(xí)生池正昊、博士生侯懿文、碩士生張雨軒、實習(xí)生林宇迪，中國科學(xué)技術(shù)大學(xué)本科生黃俊善，清華大學(xué)本科生費昕，碩士生方智睿，南洋理工大學(xué)碩士生江澤宇。本文的通訊作者為新加坡國立大學(xué)助理教授邵林。

為什么機(jī)器人能聽懂指令卻做不對動作？語言大模型指揮機(jī)器人，真的是最優(yōu)解嗎？端到端的范式到底是不是通向 AGI 的唯一道路？這些問題背后，藏著機(jī)器智能的未來密碼。

近期，新加坡國立大學(xué)邵林團(tuán)隊發(fā)表了一項突破性研究 VLA-OS，首次系統(tǒng)性地解構(gòu)和分析了機(jī)器人 VLA 模型進(jìn)行任務(wù)規(guī)劃和推理，進(jìn)行了任務(wù)規(guī)劃表征與模型范式的統(tǒng)一對比。這項工作通過系統(tǒng)、可控、詳細(xì)的實驗對比，不僅為研究者提供了翔實的研究成果，更為下一代通用機(jī)器人 VLA 模型指明了方向。

通過 VLA-OS，你可以獲得什么：

VLA 通用設(shè)計指南；
結(jié)構(gòu)清晰的 VLA 代碼庫，擁有集各家之所長（RoboVLM、OpenVLA-OFT）的先進(jìn)設(shè)計；
標(biāo)注好的多模態(tài)任務(wù)規(guī)劃數(shù)據(jù)集；
規(guī)范的 VLA 訓(xùn)練流程。
VLA 的未來發(fā)展方向啟示。

????論文標(biāo)題：VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models
?? Arxiv：https://arxiv.org/abs/2506.17561
?? 項目主頁：https://nus-lins-lab.github.io/vlaos/
?? 源代碼：https://github.com/HeegerGao/VLA-OS
?? 數(shù)據(jù)集：https://huggingface.co/datasets/Linslab/VLA-OS-Dataset
?? 模型：https://huggingface.co/Linslab/VLA-OS

圖 1 VLA-OS 整體概覽

一、疑云密布：VLA 模型在進(jìn)行任務(wù)規(guī)劃時到底該怎么做？

VLA 模型（Vision-Language-Action Model）近年來展現(xiàn)出令人印象深刻的、解決復(fù)雜任務(wù)的操作能力。端到端的 VLA 模型僅僅使用數(shù)據(jù)驅(qū)動的模仿學(xué)習(xí)就可以實現(xiàn)過去需要進(jìn)行復(fù)雜系統(tǒng)設(shè)計才能完成的任務(wù)，直接從圖像和語言的原始輸入映射到機(jī)器人的動作空間，展現(xiàn)出了強(qiáng)大的 scale up 的潛力。圖 2 展示了一些端到端的 VLA 代表性工作。

圖 2 一些端到端的 VLA 模型（ActionOnly-VLA）

然而，目前可用于訓(xùn)練 VLA 的數(shù)據(jù)集相比起 LLM 和 VLM 來說還非常少。因此研究人員最近開始嘗試在 VLA 中添加任務(wù)推理模塊來幫助 VLA 使用更少的數(shù)據(jù)完成復(fù)雜的任務(wù)。主流的方式包括兩類：

使用一個端到端的模型來同時進(jìn)行任務(wù)規(guī)劃和策略學(xué)習(xí)（Integrated-VLA）。這些模型通常會在模仿學(xué)習(xí)的損失函數(shù)上增加一個用于任務(wù)規(guī)劃的損失函數(shù)，抑或是增加一些額外的任務(wù)規(guī)劃訓(xùn)練表征，來使得基座大模型同時被任務(wù)規(guī)劃和策略學(xué)習(xí)的任務(wù)進(jìn)行訓(xùn)練。例如 EmbodiedCoT 添加了使用自然語言的任務(wù)分解的學(xué)習(xí)過程，而 UniVLA 采用了目標(biāo)圖像推理特征的隱式提取。圖 3 展示了一些代表性工作：

圖 3 Integrated-VLA 的一些工作

使用分層的范式（Hierarchical-VLA），即一個上層模型負(fù)責(zé)任務(wù)規(guī)劃，另一個下層模型負(fù)責(zé)策略學(xué)習(xí)，二者之間沒有梯度回傳。例如，Hi-Robot 使用一個 VLM 輸出任務(wù)分解后的簡單語言規(guī)劃指令，然后用一個 VLA 接收分解好的語言指令進(jìn)行動作。圖 4 展示了一些代表性工作：

圖 4 Hierarchical-VLA 的一些工作

這些模型都展現(xiàn)出了令人印象深刻的實驗結(jié)果。然而，目前的這些工作互相之間區(qū)別很大，而且這些區(qū)別還是多維度的：從采用的 VLM backbone、訓(xùn)練數(shù)據(jù)集、網(wǎng)絡(luò)架構(gòu)、訓(xùn)練方法，到針對任務(wù)規(guī)劃所采用的范式、表征，都千差萬別，導(dǎo)致我們很難判斷真正的性能提升來源，使得研究者陷入「盲人摸象」的困境。

對于研究者來說，分析清楚這些 VLA 范式中到底是哪些部分在起作用、哪些部分還需要被提升是很關(guān)鍵的。只有清楚地知道這些，才能看清楚未來的發(fā)展方向和前進(jìn)道路。

圖 5 VLA 做任務(wù)規(guī)劃的變量太多，難以進(jìn)行深入分析

鑒于這個問題，我們計劃采取控制變量的實驗方法，專注于任務(wù)規(guī)劃的「范式」和「表征」兩大方面，然后統(tǒng)一其他因素，并直指五大核心研究問題：

a. 我們該選用哪種表征來進(jìn)行任務(wù)規(guī)劃？

b. 我們該選用哪種任務(wù)規(guī)劃范式？

c. 任務(wù)規(guī)劃和策略學(xué)習(xí)，哪部分現(xiàn)在還不夠好？

d. 對于采用任務(wù)規(guī)劃的 VLA 模型來說，是否還具備 scaling law？

e. 在 VLA 中采用任務(wù)規(guī)劃后，對性能、泛化性、持續(xù)學(xué)習(xí)能力有什么樣的提升？

圖 6 VLA-OS 將對其他因素進(jìn)行統(tǒng)一，使用控制變量的方法研究范式和表征

二、抽絲剝繭：VLA-OS —— 機(jī)器人模型的「樂高式」實驗平臺

為了實現(xiàn)控制變量的實驗?zāi)繕?biāo)，我們需要針對 VLM backbone、數(shù)據(jù)集、模型架構(gòu)、訓(xùn)練方法進(jìn)行統(tǒng)一。

首先，我們構(gòu)建了架構(gòu)統(tǒng)一、參數(shù)遞增的 VLM 模型家族。市面上目前并沒有尺寸范圍在 0.5B ~ 7B 之間的 VLM。因此，我們需要自己進(jìn)行構(gòu)建。我們選取了預(yù)訓(xùn)練好的 Qwen 2.5 LLM 的 0.5B/1.5B/3B/7B 四個模型作為 LLM 基座，然后為其配上使用 DINO+SigLIP 的混合視覺編碼器，以及一個映射頭。然后，我們使用 LlaVa v1.5 instruct 數(shù)據(jù)集，對整個 VLM 的所有參數(shù)進(jìn)行了預(yù)訓(xùn)練，將 LLM 變成 VLM，用于給后續(xù)實驗使用。

圖 7 VLA-OS 可組合模塊家族

然后，我們針對三個 VLA 的任務(wù)規(guī)劃范式，設(shè)計了可組合的 VLA-OS 模型家族，首次實現(xiàn)三大范式的公平對比。我們設(shè)計了統(tǒng)一的動作頭（action head）和推理頭（planning head），使用統(tǒng)一的 KV Cache 提取方法來將 VLM 中的信息輸入給各個頭。如圖 7 所示。

其中動作頭是一個與 LLM 骨干網(wǎng)絡(luò)具有相同層數(shù)的標(biāo)準(zhǔn) Transformer，在每一層中使用分塊因果注意力（Block-Wise Causal Attention）從 LLM 骨干網(wǎng)絡(luò)的鍵值（KV）中提取輸入信息。規(guī)劃頭中，語言規(guī)劃頭是一個與 LLM 骨干網(wǎng)絡(luò)具有相同層數(shù)的標(biāo)準(zhǔn) Transformer，視覺規(guī)劃頭是一個使用下文定義的坐標(biāo)編碼詞表的 transformer，而目標(biāo)圖像規(guī)劃頭是一個采用類似于 VAR 架構(gòu)的自回歸圖像生成器，也是一個與 LLM 骨干網(wǎng)絡(luò)具有相同層數(shù)的標(biāo)準(zhǔn) Transformer。值得注意的是，我們的代碼結(jié)構(gòu)兼容 HuggingFace 上的 LLM，而不是某一種特定的 LLM backbone。

針對三種 VLA 范式（ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA），我們組合使用 VLA-OS 的標(biāo)準(zhǔn)模塊，構(gòu)建了對應(yīng)的 VLA-OS 模型實現(xiàn)，如圖所示：

圖 8 VLA-OS 研究的三種 VLA 范式和對應(yīng)的網(wǎng)絡(luò)實現(xiàn)

接著，為了構(gòu)建能夠?qū)θ蝿?wù)規(guī)劃進(jìn)行研究的統(tǒng)一、廣泛、多樣的訓(xùn)練數(shù)據(jù)集，我們整理和收集了六類數(shù)據(jù)集，并對它們做了統(tǒng)一的多模態(tài)任務(wù)規(guī)劃表征標(biāo)注。它們包括：

LIBERO：一個桌面級 2D 視覺機(jī)器人仿真操作任務(wù)集合；
The COLOSSEUM：一個桌面級的 3D 視覺機(jī)器人仿真操作任務(wù)集合；
真實世界的可形變物體操作任務(wù)集合；
DexArt：一個靈巧手的仿真操作任務(wù)集合；
FurnitureBench：一個精細(xì)的、長時序任務(wù)的機(jī)器人仿真平臺操作任務(wù)集合；
PerAct2：一個桌面級 3D 視覺雙臂機(jī)器人仿真操作任務(wù)集合。

我們的數(shù)據(jù)集總共包括大約 10,000 條軌跡，在視覺模態(tài)（2D 和 3D）、操作環(huán)境（仿真、現(xiàn)實）、執(zhí)行器種類（夾爪、靈巧手）、物體種類（固體、鉸鏈物體、可形變物體）、機(jī)械臂數(shù)量（單臂、雙臂）等維度上都具有廣泛的覆蓋性。

圖 9 VLA-OS 六大數(shù)據(jù)集

在此基礎(chǔ)上，我們設(shè)計了三種任務(wù)規(guī)劃表征，并針對所有數(shù)據(jù)進(jìn)行了統(tǒng)一標(biāo)注：

語言規(guī)劃。語言規(guī)劃數(shù)據(jù)在每個時間步包含 8 個不同的鍵，包括 Task、Plan、Subtask、Subtask Reason、Move、Move Reason、Gripper Position 和 Object Bounding Boxes。這些鍵包含對場景的理解和任務(wù)的分解。例如，對于「open the top drawer of the cabinet」這個任務(wù)來說，語言規(guī)劃的標(biāo)注為：

TASK: Open the top drawer of the cabinet.
PLAN: 1. Approach the cabinet. 2. Locate the top drawer. 3. Locate and grasp the drawer handle. 4. Open the drawer. 5. Stop.
VISIBLE OBJECTS: akita black bowl [100, 129, 133, 155], plate [17, 131, 56, 158], wooden cabinet [164, 75, 224, 175]
SUBTASK REASONING: The top drawer has been located; the robot now needs to position itself to grasp the handle.
SUBTASK: Locate and grasp the drawer handle.
MOVE REASONING: Moving left aligns the robot's end effector with the drawer handle.
MOVE: move left
GRIPPER POSITION: [167, 102, 166, 102, 165, 102, 164, 102, 162, 102, 161, 102, 160, 102, 158, 102, 156, 102, 154, 102, 153, 102, 151, 102, 149, 102, 147, 102, 145, 102, 143, 102]

視覺規(guī)劃。視覺規(guī)劃包含了三種扎根在圖像上的空間語義信息。我們將整個圖像分為 32x32 個網(wǎng)格，采用位置標(biāo)記 <loc_i> 來表示從左上到右下的第 i 個網(wǎng)格。我們使用這種位置標(biāo)記對所有物體的邊界框、末端執(zhí)行器位置流和目標(biāo)物體可供性這三種表征作為視覺規(guī)劃表示。例如，對于「Put the cream cheese box and the butter in the basket」，視覺規(guī)劃表示的結(jié)果為：

VISUAL OBJECT BBOXES: alphabet soup [<loc_500>, <loc_632>], cream cheese [<loc_353>, <loc_452>], tomato sauce [<loc_461>, <loc_624>], ketchup [<loc_341>, <loc_503>], orange juice [<loc_538>, <loc_767>], milk [<loc_563>, <loc_791>], butter [<loc_684>, <loc_783>], basket [<loc_448>, <loc_775>].
VISUAL EE FLOW: <loc_387>, <loc_387>, <loc_387>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_451>, <loc_451>, <loc_451>, <loc_451>, <loc_451>.
VISUAL AFFORDANCE: <loc_354>, <loc_355>, <loc_356>, <loc_386>, <loc_387>, <loc_388>, <loc_418>, <loc_419>, <loc_420>

目標(biāo)圖像規(guī)劃。目標(biāo)圖像規(guī)劃直接使用第 K 個未來步驟的圖像作為目標(biāo)圖像。

圖 10 VLA-OS 的三種規(guī)劃表征

三、水落石出：視覺表征與分層范式崛起

針對規(guī)劃表征和 VLA 范式，我們通過 6 大測試數(shù)據(jù)集、超百次實驗，得出 14 條有價值的發(fā)現(xiàn)。這些發(fā)現(xiàn)展示出了視覺規(guī)劃表征和目標(biāo)圖像表征相比起語言表征的優(yōu)勢，以及分層 VLA 范式相比起其他范式的未來發(fā)展?jié)摿Α?/span>

發(fā)現(xiàn) 1：VLA 模型結(jié)構(gòu)和訓(xùn)練算法仍然很影響性能，VLA 的 scale up 時刻還未到來。

我們首先針對 VLA-OS 模型進(jìn)行了性能測試。在 LIBERO benchmark 上，我們對比了現(xiàn)有的常見 VLA 模型，涵蓋各種尺寸、是否預(yù)訓(xùn)練、是否做任務(wù)規(guī)劃等等。我們對所有的模型都在相應(yīng)的 LIBERO 數(shù)據(jù)集上進(jìn)行了訓(xùn)練，結(jié)果如下圖所示：

圖 11 VLA-OS 和其他模型的性能對比

我們可以看到，VLA-OS-A 的性能優(yōu)于 train from scratch 的 Diffusion Policy（提升 13.2%），預(yù)訓(xùn)練+微調(diào)后的 OpenVLA 模型（提升 9.1%）、CoT-VLA（提升 4.5%）以及 DiT Policy（提升 3.2%），并與預(yù)訓(xùn)練+微調(diào)后的 π?-FAST（提升 0.1%）表現(xiàn)相當(dāng)。

盡管本模型尚不及當(dāng)前最先進(jìn)（SOTA）的一些方法，但上述結(jié)果已充分表明我們模型的設(shè)計具有良好的性能和競爭力。需特別指出的是，VLA-OS-A 是在無預(yù)訓(xùn)練的條件下從頭開始訓(xùn)練的，并僅使用了參數(shù)規(guī)模為 0.5B 的語言模型作為骨干網(wǎng)絡(luò)。

發(fā)現(xiàn) 2：對于 Integrated-VLA 來說，隱式任務(wù)規(guī)劃比顯式任務(wù)規(guī)劃更好。

我們在 LIBERO-LONG 基準(zhǔn)測試集上開展了語言規(guī)劃、視覺規(guī)劃、圖像前瞻規(guī)劃及其組合方式的實驗。該基準(zhǔn)包含 10 個長時間跨度任務(wù)，每個任務(wù)提供 50 條示教軌跡，旨在評估 Integrated-VLA 模型中隱式規(guī)劃與顯式規(guī)劃變體的性能表現(xiàn)。實驗結(jié)果如下所示。

圖 12 隱式和顯式的 Integrated-VLA 性能對比

隱式規(guī)劃范式通過引入多種輔助任務(wù)規(guī)劃目標(biāo)作為訓(xùn)練過程中的附加損失項，從而在不改變推理階段行為的前提下，相較于 ActionOnly-VLA 實現(xiàn)性能提升。

這表明，將任務(wù)規(guī)劃作為輔助損失引入訓(xùn)練可以有效提高模型性能；然而，顯式規(guī)劃范式性能卻發(fā)生下降，這可能是因為：1）在推理階段，顯式規(guī)劃必須先完成整個規(guī)劃過程，隨后才能生成動作輸出，可能帶來規(guī)劃誤差累積問題。

通常，規(guī)劃 token 的長度遠(yuǎn)遠(yuǎn)超過動作 token（約為 2000 對 8）；2）顯式規(guī)劃的策略損失梯度會同時回傳給 VLM 和任務(wù)規(guī)劃頭，可能導(dǎo)致梯度沖突。

發(fā)現(xiàn) 3：相較于語言規(guī)劃表示，基于視覺的規(guī)劃表示（視覺規(guī)劃和目標(biāo)圖像規(guī)劃）在性能上表現(xiàn)更優(yōu)，且具有更快的推理速度與更低的訓(xùn)練成本。

我們在 LIBERO-LONG 基準(zhǔn)測試集上開展了語言規(guī)劃、視覺規(guī)劃、圖像前瞻規(guī)劃及其多種組合方式的實驗。該基準(zhǔn)包含 10 個長時間跨度任務(wù)，每個任務(wù)提供 50 條示范，旨在系統(tǒng)評估不同類型規(guī)劃表示的性能表現(xiàn)。實驗結(jié)果如下所示。

圖 13 不同規(guī)劃表征的性能對比

發(fā)現(xiàn) 4：在同時采用多種規(guī)劃表示的情況下，Hierarchical-VLA 相較于 Integrated-VLA 范式表現(xiàn)出更優(yōu)的性能。

我們在 LIBERO-LONG 基準(zhǔn)測試集上展示了 Integrated-VLA 與 Hierarchical-VLA 兩種范式在不同規(guī)劃表示下的性能對比結(jié)果。

圖 14 同時使用多種規(guī)劃表征的性能對比

發(fā)現(xiàn) 5：Integrated-VLA 與 Hierarchical-VLA 在二維、三維、仿真及真實環(huán)境等多種任務(wù)中均顯著優(yōu)于 ActionOnly-VLA，且兩者整體性能相近。

我們在六個基準(zhǔn)測試集上展示了所有 VLA 范式的性能表現(xiàn)及其平均成功率?？梢钥闯?，Integrated-VLA 與 Hierarchical-VLA 在所有基準(zhǔn)上均優(yōu)于 ActionOnly-VLA，且兩者之間的性能差距較小，表現(xiàn)整體接近。

圖 15 多種 benchmark 上的各種 VLA 范式性能對比

發(fā)現(xiàn) 6：Integrated-VLA 與 Hierarchical-VLA 在任務(wù)規(guī)劃預(yù)訓(xùn)練中均表現(xiàn)出相似的收益，任務(wù)成功率均有所提升，增幅相近。

發(fā)現(xiàn) 7：Hierarchical-VLA 展現(xiàn)出最強(qiáng)的泛化能力。

我們展示了所有 VLA 范式在 The-Colosseum (ALL-Perturbation) 基準(zhǔn)測試集上的泛化性能，以及 Integrated-VLA 與 Hierarchical-VLA 在 LIBERO-90 上進(jìn)行任務(wù)規(guī)劃預(yù)訓(xùn)練后的性能提升情況，并在 LIBERO-LONG 上進(jìn)行了測試評估。

結(jié)果表明，Hierarchical-VLA 實現(xiàn)了最優(yōu)的泛化性能，而 Integrated-VLA 與 Hierarchical-VLA 均能從任務(wù)規(guī)劃預(yù)訓(xùn)練中獲得相似的性能提升。

圖 16 泛化性能對比

發(fā)現(xiàn) 8：Hierarchical-VLA 在任務(wù)規(guī)劃方面優(yōu)于 Integrated-VLA。

為了明確任務(wù)失敗是源于規(guī)劃模塊還是策略學(xué)習(xí)模塊，我們對 Integrated-VLA（僅評估其任務(wù)規(guī)劃部分）與 Hierarchical-VLA 在 LIBERO-LONG 基準(zhǔn)上進(jìn)行分析性評估，覆蓋三種不同的規(guī)劃表示形式。

具體地，我們手動將每個長時序任務(wù)劃分為若干子任務(wù)，并在評估過程中強(qiáng)制將環(huán)境重置至各子任務(wù)的初始狀態(tài)。我們分別計算每個子任務(wù)起點對應(yīng)的規(guī)劃輸出的平均正確率（0 或 1）以及動作頭的執(zhí)行成功率（0 或 1），從而獲得每個任務(wù)軌跡的任務(wù)分解得分（Task Decomposition Score，DCS）與策略執(zhí)行得分（Policy Following Score，PFS）。需要指出的是，對于 Hierarchical-VLA，我們在測試 PFS 時提供了任務(wù)規(guī)劃的真實結(jié)果（ground truth）。

圖 17 純規(guī)劃性能對比

我們可以觀察到，在不同的規(guī)劃表示下，Hierarchical-VLA 在任務(wù)規(guī)劃方面始終優(yōu)于 Integrated-VLA，表現(xiàn)出更強(qiáng)的規(guī)劃能力。

發(fā)現(xiàn) 9：基于視覺的規(guī)劃表示更易于底層策略的跟隨。

如上所述，我們展示了 Hierarchical-VLA 在不同規(guī)劃表示下的策略執(zhí)行得分（Policy Following Score, PFS），用于衡量底層策略對規(guī)劃結(jié)果的執(zhí)行能力。結(jié)果表明，基于視覺的規(guī)劃表示在策略執(zhí)行過程中具有更高的可跟隨性。

圖 18 下層策略跟隨任務(wù)規(guī)劃性能對比

我們可以觀察到，基于視覺的規(guī)劃表示（包括視覺規(guī)劃與圖像前瞻規(guī)劃）更易于被底層策略所跟隨，表現(xiàn)出更高的策略可執(zhí)行性。

發(fā)現(xiàn) 10：語言規(guī)劃表示頭的自回歸特性是其訓(xùn)練成本較高和推理速度較慢的主要原因。為進(jìn)一步探究不同規(guī)劃表示在訓(xùn)練成本與推理速度上的差異，我們在下圖中展示了 Hierarchical-VLA 中不同規(guī)劃頭的前向傳播過程。

圖 19 不同規(guī)劃頭之間的工作模式對比

由于語言規(guī)劃頭與視覺規(guī)劃頭具備自回歸特性，它們在生成規(guī)劃 token 時需進(jìn)行數(shù)百次前向傳播，導(dǎo)致訓(xùn)練成本較高、推理速度較慢；而圖像前瞻規(guī)劃頭（本工作中采用類似 VAR 的生成器）僅需前向傳播 7 次即可生成完整的規(guī)劃 token，推理開銷大約是語言與視覺規(guī)劃頭的 1/100，顯著更高效。

發(fā)現(xiàn) 11：所有 VLA 范式的性能隨著標(biāo)注動作的示范數(shù)據(jù)量增加而提升，具備良好的數(shù)據(jù)可擴(kuò)展性。

為評估數(shù)據(jù)可擴(kuò)展性，我們在 LIBERO-LONG 數(shù)據(jù)集上進(jìn)行實驗，該數(shù)據(jù)集包含 10 個任務(wù)，共計 500 條示范。我們分別使用 10%、40%、70% 和 100% 的數(shù)據(jù)量對三種 VLA 范式（模型規(guī)模為 S）進(jìn)行訓(xùn)練，并評估其性能隨數(shù)據(jù)規(guī)模變化的趨勢。

圖 20 VLA 的數(shù)據(jù)可擴(kuò)展性

我們可以看到，所有 VLA 范式均具備良好的數(shù)據(jù)可擴(kuò)展性，隨著標(biāo)注動作示范數(shù)據(jù)量的增加，其性能穩(wěn)步提升。

發(fā)現(xiàn) 12：在約 5,000 條示范數(shù)據(jù)的「從零訓(xùn)練」任務(wù)中，LLM 骨干網(wǎng)絡(luò)應(yīng)限制在 0.5B 參數(shù)規(guī)模以內(nèi)，或總模型參數(shù)規(guī)模不超過 1B，才能獲得更優(yōu)的性能表現(xiàn)。

為評估模型可擴(kuò)展性，我們在 LIBERO-90 數(shù)據(jù)集上進(jìn)行了實驗，該數(shù)據(jù)集包含 90 個任務(wù)，共計 4,500 條示范。我們使用全部訓(xùn)練數(shù)據(jù)，選取了不同參數(shù)規(guī)模（0.5B、1.5B、3B 和 7B）的 Qwen-2.5 語言模型作為骨干網(wǎng)絡(luò)進(jìn)行對比實驗，以探索模型規(guī)模對性能的影響。

圖 21 VLA 的模型可擴(kuò)展性

我們可以觀察到，隨著模型規(guī)模的增大，各種 VLA 范式的性能并未隨之提升，反而在模型規(guī)模超過 3B 時出現(xiàn)下降的趨勢。

發(fā)現(xiàn) 13：相比不含任務(wù)規(guī)劃的范式（ActionOnly-VLA），包含任務(wù)規(guī)劃的 VLA 范式（Integrated-VLA 與 Hierarchical-VLA）在前向遷移能力上更強(qiáng)，但遺忘速度也更快。

我們在 LIBERO-LONG 的 10 個任務(wù)上，按照任務(wù)順序?qū)θN VLA 范式進(jìn)行持續(xù)學(xué)習(xí)能力評估。實驗中采用 Sequential Finetuning（SEQL）作為終身學(xué)習(xí)算法，評估指標(biāo)采用 LIBERO 提供的原始度量方式，包括前向遷移（Forward Transfer，F(xiàn)WT）和負(fù)向后向遷移（Negative Backward Transfer，NBT）。

圖 22 不同 VLA 范式的持續(xù)學(xué)習(xí)能力

發(fā)現(xiàn) 14：相較于基于語言的規(guī)劃表示，基于視覺的規(guī)劃表示在持續(xù)學(xué)習(xí)中展現(xiàn)出更優(yōu)的前向遷移能力，且遺忘速度更慢。

我們在 LIBERO-LONG 的 10 個任務(wù)上，依次測試三種規(guī)劃表示在持續(xù)學(xué)習(xí)場景下的表現(xiàn)。實驗統(tǒng)一采用 Sequential Finetuning（SEQL）作為終身學(xué)習(xí)算法，并使用 LIBERO 提供的原始評估指標(biāo)，包括前向遷移（Forward Transfer，F(xiàn)WT）和負(fù)向后向遷移（Negative Backward Transfer，NBT）。

圖 23 不同規(guī)劃表征的持續(xù)學(xué)習(xí)能力

四、月映萬川：機(jī)器人 VLA 模型的「第一性原理」

設(shè)計指南（抄作業(yè)時間?。?/span>

a) 首選視覺表征規(guī)劃和目標(biāo)圖像規(guī)劃，語言規(guī)劃僅作為輔助；

b) 資源充足選分層 VLA（Hierarchical-VLA），資源有限選隱式聯(lián)合（Integrated-VLA）。

c) 對于小于五千條示教軌跡的下游任務(wù)來說，模型規(guī)模控制在 1B 參數(shù)內(nèi)完全夠用。

破解長期謎題

a) 目前 VLA 的結(jié)構(gòu)和算法設(shè)計仍然很重要，還沒有到無腦 scale up 的時刻。

b) 策略學(xué)習(xí)和任務(wù)規(guī)劃目前來說都還需要提升。

c) 任務(wù)規(guī)劃預(yù)訓(xùn)練是有效的。 d) 持續(xù)學(xué)習(xí)的代價：規(guī)劃模型前向遷移能力更強(qiáng)，但遺忘速度更快。

未來四大方向

視覺為何優(yōu)于語言？→ 探索空間表征的神經(jīng)機(jī)制理論上來說，三種規(guī)劃表征針對于目標(biāo)操作任務(wù)所提供的信息均是完備的，那么為什么會有如此大的性能偏差呢？
如何避免規(guī)劃與動作的梯度沖突？→ 設(shè)計解耦訓(xùn)練機(jī)制無論是在隱式 Integrated-VLA 和顯式 Integrated-VLA 的比較，還是在分層 VLA 和 Integrated-VLA 的泛化比較中，都是「損失函數(shù)解耦」的一方獲勝，也即任務(wù)規(guī)劃的損失梯度和策略動作的損失梯度耦合地越少，最終效果越好。
超越 KV 提取 → 開發(fā)更高效的 VLM 信息蒸餾架構(gòu)VLA-OS 目前采用的是類似于的模型結(jié)構(gòu)設(shè)計，也就是提取每一層 LLM 的 KV 來給動作頭和規(guī)劃頭。但是，這使得動作頭和規(guī)劃頭的設(shè)計受限（例如，它們都必須和 LLM 有同樣多的層數(shù)的 Transformer）。是否還有更為高效、限制更少的設(shè)計？
構(gòu)建萬億級規(guī)劃數(shù)據(jù)集 → 推動「規(guī)劃大模型」誕生VLA-OS 的實驗確認(rèn)了無論使用哪種范式，增加任務(wù)規(guī)劃都會對模型性能有提升，而且對規(guī)劃頭進(jìn)行預(yù)訓(xùn)練還會進(jìn)一步提升性能。因此，如何構(gòu)建足夠量的機(jī)器人操作任務(wù)規(guī)劃數(shù)據(jù)集將是很有前景的方向。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="zqn1a"><button id="zqn1a"></button></u><var id="zqn1a"><fieldset id="zqn1a"></fieldset></var>