偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

VLA-OS:NUS邵林團(tuán)隊探究機(jī)器人VLA做任務(wù)推理的秘密

人工智能 新聞
近期,新加坡國立大學(xué)邵林團(tuán)隊發(fā)表了一項突破性研究 VLA-OS,首次系統(tǒng)性地解構(gòu)和分析了機(jī)器人 VLA 模型進(jìn)行任務(wù)規(guī)劃和推理,進(jìn)行了任務(wù)規(guī)劃表征與模型范式的統(tǒng)一對比。

本文第一作者為新加坡國立大學(xué)博士生高崇凱,其余作者為新加坡國立大學(xué)博士生劉子軒、實習(xí)生池正昊、博士生侯懿文、碩士生張雨軒、實習(xí)生林宇迪,中國科學(xué)技術(shù)大學(xué)本科生黃俊善,清華大學(xué)本科生費昕,碩士生方智睿,南洋理工大學(xué)碩士生江澤宇。本文的通訊作者為新加坡國立大學(xué)助理教授邵林。

為什么機(jī)器人能聽懂指令卻做不對動作?語言大模型指揮機(jī)器人,真的是最優(yōu)解嗎?端到端的范式到底是不是通向 AGI 的唯一道路?這些問題背后,藏著機(jī)器智能的未來密碼。

近期,新加坡國立大學(xué)邵林團(tuán)隊發(fā)表了一項突破性研究 VLA-OS,首次系統(tǒng)性地解構(gòu)和分析了機(jī)器人 VLA 模型進(jìn)行任務(wù)規(guī)劃和推理,進(jìn)行了任務(wù)規(guī)劃表征與模型范式的統(tǒng)一對比。這項工作通過系統(tǒng)、可控、詳細(xì)的實驗對比,不僅為研究者提供了翔實的研究成果,更為下一代通用機(jī)器人 VLA 模型指明了方向。

通過 VLA-OS,你可以獲得什么:

  • VLA 通用設(shè)計指南;
  • 結(jié)構(gòu)清晰的 VLA 代碼庫,擁有集各家之所長(RoboVLM、OpenVLA-OFT)的先進(jìn)設(shè)計;
  • 標(biāo)注好的多模態(tài)任務(wù)規(guī)劃數(shù)據(jù)集;
  • 規(guī)范的 VLA 訓(xùn)練流程。
  • VLA 的未來發(fā)展方向啟示。

圖片

  • ????論文標(biāo)題:VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models
  • ?? Arxiv:https://arxiv.org/abs/2506.17561
  • ?? 項目主頁:https://nus-lins-lab.github.io/vlaos/
  • ?? 源代碼:https://github.com/HeegerGao/VLA-OS
  • ?? 數(shù)據(jù)集:https://huggingface.co/datasets/Linslab/VLA-OS-Dataset
  • ?? 模型:https://huggingface.co/Linslab/VLA-OS

圖片

圖 1 VLA-OS 整體概覽

一、疑云密布:VLA 模型在進(jìn)行任務(wù)規(guī)劃時到底該怎么做?

VLA 模型(Vision-Language-Action Model)近年來展現(xiàn)出令人印象深刻的、解決復(fù)雜任務(wù)的操作能力。端到端的 VLA 模型僅僅使用數(shù)據(jù)驅(qū)動的模仿學(xué)習(xí)就可以實現(xiàn)過去需要進(jìn)行復(fù)雜系統(tǒng)設(shè)計才能完成的任務(wù),直接從圖像和語言的原始輸入映射到機(jī)器人的動作空間,展現(xiàn)出了強(qiáng)大的 scale up 的潛力。圖 2 展示了一些端到端的 VLA 代表性工作。

圖片

圖 2 一些端到端的 VLA 模型(ActionOnly-VLA)

然而,目前可用于訓(xùn)練 VLA 的數(shù)據(jù)集相比起 LLM 和 VLM 來說還非常少。因此研究人員最近開始嘗試在 VLA 中添加任務(wù)推理模塊來幫助 VLA 使用更少的數(shù)據(jù)完成復(fù)雜的任務(wù)。主流的方式包括兩類:

  • 使用一個端到端的模型來同時進(jìn)行任務(wù)規(guī)劃和策略學(xué)習(xí)(Integrated-VLA)。 這些模型通常會在模仿學(xué)習(xí)的損失函數(shù)上增加一個用于任務(wù)規(guī)劃的損失函數(shù),抑或是增加一些額外的任務(wù)規(guī)劃訓(xùn)練表征,來使得基座大模型同時被任務(wù)規(guī)劃和策略學(xué)習(xí)的任務(wù)進(jìn)行訓(xùn)練。例如 EmbodiedCoT 添加了使用自然語言的任務(wù)分解的學(xué)習(xí)過程,而 UniVLA 采用了目標(biāo)圖像推理特征的隱式提取。圖 3 展示了一些代表性工作:

圖片

圖 3 Integrated-VLA 的一些工作

  • 使用分層的范式(Hierarchical-VLA), 即一個上層模型負(fù)責(zé)任務(wù)規(guī)劃,另一個下層模型負(fù)責(zé)策略學(xué)習(xí),二者之間沒有梯度回傳。例如,Hi-Robot 使用一個 VLM 輸出任務(wù)分解后的簡單語言規(guī)劃指令,然后用一個 VLA 接收分解好的語言指令進(jìn)行動作。圖 4 展示了一些代表性工作:

圖片

圖 4 Hierarchical-VLA 的一些工作

這些模型都展現(xiàn)出了令人印象深刻的實驗結(jié)果。然而,目前的這些工作互相之間區(qū)別很大,而且這些區(qū)別還是多維度的:從采用的 VLM backbone、訓(xùn)練數(shù)據(jù)集、網(wǎng)絡(luò)架構(gòu)、訓(xùn)練方法,到針對任務(wù)規(guī)劃所采用的范式、表征,都千差萬別,導(dǎo)致我們很難判斷真正的性能提升來源,使得研究者陷入「盲人摸象」的困境。

對于研究者來說,分析清楚這些 VLA 范式中到底是哪些部分在起作用、哪些部分還需要被提升是很關(guān)鍵的。只有清楚地知道這些,才能看清楚未來的發(fā)展方向和前進(jìn)道路。

圖片

圖 5 VLA 做任務(wù)規(guī)劃的變量太多,難以進(jìn)行深入分析

鑒于這個問題,我們計劃采取控制變量的實驗方法,專注于任務(wù)規(guī)劃的「范式」和「表征」兩大方面,然后統(tǒng)一其他因素,并直指五大核心研究問題:

a. 我們該選用哪種表征來進(jìn)行任務(wù)規(guī)劃? 

b. 我們該選用哪種任務(wù)規(guī)劃范式? 

c. 任務(wù)規(guī)劃和策略學(xué)習(xí),哪部分現(xiàn)在還不夠好? 

d. 對于采用任務(wù)規(guī)劃的 VLA 模型來說,是否還具備 scaling law?

e. 在 VLA 中采用任務(wù)規(guī)劃后,對性能、泛化性、持續(xù)學(xué)習(xí)能力有什么樣的提升?

圖片

圖 6 VLA-OS 將對其他因素進(jìn)行統(tǒng)一,使用控制變量的方法研究范式和表征

二、抽絲剝繭:VLA-OS —— 機(jī)器人模型的「樂高式」實驗平臺

為了實現(xiàn)控制變量的實驗?zāi)繕?biāo),我們需要針對 VLM backbone、數(shù)據(jù)集、模型架構(gòu)、訓(xùn)練方法進(jìn)行統(tǒng)一。

首先,我們構(gòu)建了架構(gòu)統(tǒng)一、參數(shù)遞增的 VLM 模型家族。市面上目前并沒有尺寸范圍在 0.5B ~ 7B 之間的 VLM。因此,我們需要自己進(jìn)行構(gòu)建。我們選取了預(yù)訓(xùn)練好的 Qwen 2.5 LLM 的 0.5B/1.5B/3B/7B 四個模型作為 LLM 基座,然后為其配上使用 DINO+SigLIP 的混合視覺編碼器,以及一個映射頭。然后,我們使用 LlaVa v1.5 instruct 數(shù)據(jù)集,對整個 VLM 的所有參數(shù)進(jìn)行了預(yù)訓(xùn)練,將 LLM 變成 VLM,用于給后續(xù)實驗使用。

圖片

圖 7 VLA-OS 可組合模塊家族

然后,我們針對三個 VLA 的任務(wù)規(guī)劃范式,設(shè)計了可組合的 VLA-OS 模型家族,首次實現(xiàn)三大范式的公平對比。我們設(shè)計了統(tǒng)一的動作頭(action head)和推理頭(planning head),使用統(tǒng)一的 KV Cache 提取方法來將 VLM 中的信息輸入給各個頭。如圖 7 所示。

其中動作頭是一個與 LLM 骨干網(wǎng)絡(luò)具有相同層數(shù)的標(biāo)準(zhǔn) Transformer,在每一層中使用分塊因果注意力(Block-Wise Causal Attention)從 LLM 骨干網(wǎng)絡(luò)的鍵值(KV)中提取輸入信息。規(guī)劃頭中,語言規(guī)劃頭是一個與 LLM 骨干網(wǎng)絡(luò)具有相同層數(shù)的標(biāo)準(zhǔn) Transformer,視覺規(guī)劃頭是一個使用下文定義的坐標(biāo)編碼詞表的 transformer,而目標(biāo)圖像規(guī)劃頭是一個采用類似于 VAR 架構(gòu)的自回歸圖像生成器,也是一個與 LLM 骨干網(wǎng)絡(luò)具有相同層數(shù)的標(biāo)準(zhǔn) Transformer。值得注意的是,我們的代碼結(jié)構(gòu)兼容 HuggingFace 上的 LLM,而不是某一種特定的 LLM backbone。

針對三種 VLA 范式(ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA),我們組合使用 VLA-OS 的標(biāo)準(zhǔn)模塊,構(gòu)建了對應(yīng)的 VLA-OS 模型實現(xiàn),如圖所示:

圖片

圖 8 VLA-OS 研究的三種 VLA 范式和對應(yīng)的網(wǎng)絡(luò)實現(xiàn)

接著,為了構(gòu)建能夠?qū)θ蝿?wù)規(guī)劃進(jìn)行研究的統(tǒng)一、廣泛、多樣的訓(xùn)練數(shù)據(jù)集,我們整理和收集了六類數(shù)據(jù)集,并對它們做了統(tǒng)一的多模態(tài)任務(wù)規(guī)劃表征標(biāo)注。它們包括:

  • LIBERO:一個桌面級 2D 視覺機(jī)器人仿真操作任務(wù)集合;
  • The COLOSSEUM:一個桌面級的 3D 視覺機(jī)器人仿真操作任務(wù)集合;
  • 真實世界的可形變物體操作任務(wù)集合;
  • DexArt:一個靈巧手的仿真操作任務(wù)集合;
  • FurnitureBench:一個精細(xì)的、長時序任務(wù)的機(jī)器人仿真平臺操作任務(wù)集合;
  • PerAct2:一個桌面級 3D 視覺雙臂機(jī)器人仿真操作任務(wù)集合。

我們的數(shù)據(jù)集總共包括大約 10,000 條軌跡,在視覺模態(tài)(2D 和 3D)、操作環(huán)境(仿真、現(xiàn)實)、執(zhí)行器種類(夾爪、靈巧手)、物體種類(固體、鉸鏈物體、可形變物體)、機(jī)械臂數(shù)量(單臂、雙臂)等維度上都具有廣泛的覆蓋性。

圖片

圖 9 VLA-OS 六大數(shù)據(jù)集

在此基礎(chǔ)上,我們設(shè)計了三種任務(wù)規(guī)劃表征,并針對所有數(shù)據(jù)進(jìn)行了統(tǒng)一標(biāo)注:

  • 語言規(guī)劃。語言規(guī)劃數(shù)據(jù)在每個時間步包含 8 個不同的鍵,包括 TaskPlan、Subtask、Subtask ReasonMove、Move Reason、Gripper Position 和 Object Bounding Boxes。這些鍵包含對場景的理解和任務(wù)的分解。例如,對于「open the top drawer of the cabinet」這個任務(wù)來說,語言規(guī)劃的標(biāo)注為:
TASK: Open the top drawer of the cabinet.
PLAN: 1. Approach the cabinet. 2. Locate the top drawer. 3. Locate and grasp the drawer handle. 4. Open the drawer. 5. Stop.
VISIBLE OBJECTS: akita black bowl [100, 129, 133, 155], plate [17, 131, 56, 158], wooden cabinet [164, 75, 224, 175]
SUBTASK REASONING: The top drawer has been located; the robot now needs to position itself to grasp the handle.
SUBTASK: Locate and grasp the drawer handle.
MOVE REASONING: Moving left aligns the robot's end effector with the drawer handle.
MOVE: move left
GRIPPER POSITION: [167, 102, 166, 102, 165, 102, 164, 102, 162, 102, 161, 102, 160, 102, 158, 102, 156, 102, 154, 102, 153, 102, 151, 102, 149, 102, 147, 102, 145, 102, 143, 102]
  • 視覺規(guī)劃。視覺規(guī)劃包含了三種扎根在圖像上的空間語義信息。我們將整個圖像分為 32x32 個網(wǎng)格,采用位置標(biāo)記 <loc_i> 來表示從左上到右下的第 i 個網(wǎng)格。我們使用這種位置標(biāo)記對所有物體的邊界框、末端執(zhí)行器位置流和目標(biāo)物體可供性這三種表征作為視覺規(guī)劃表示。例如,對于「Put the cream cheese box and the butter in the basket」,視覺規(guī)劃表示的結(jié)果為:
VISUAL OBJECT BBOXES: alphabet soup [<loc_500>, <loc_632>], cream cheese [<loc_353>, <loc_452>], tomato sauce [<loc_461>, <loc_624>], ketchup [<loc_341>, <loc_503>], orange juice [<loc_538>, <loc_767>], milk [<loc_563>, <loc_791>], butter [<loc_684>, <loc_783>], basket [<loc_448>, <loc_775>].
VISUAL EE FLOW: <loc_387>, <loc_387>, <loc_387>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_419>, <loc_451>, <loc_451>, <loc_451>, <loc_451>, <loc_451>.
VISUAL AFFORDANCE: <loc_354>, <loc_355>, <loc_356>, <loc_386>, <loc_387>, <loc_388>, <loc_418>, <loc_419>, <loc_420>
  • 目標(biāo)圖像規(guī)劃。目標(biāo)圖像規(guī)劃直接使用第 K 個未來步驟的圖像作為目標(biāo)圖像。

圖片

圖 10 VLA-OS 的三種規(guī)劃表征

三、水落石出:視覺表征與分層范式崛起

針對規(guī)劃表征和 VLA 范式,我們通過 6 大測試數(shù)據(jù)集、超百次實驗,得出 14 條有價值的發(fā)現(xiàn)。這些發(fā)現(xiàn)展示出了視覺規(guī)劃表征和目標(biāo)圖像表征相比起語言表征的優(yōu)勢,以及分層 VLA 范式相比起其他范式的未來發(fā)展?jié)摿Α?/span>

發(fā)現(xiàn) 1:VLA 模型結(jié)構(gòu)和訓(xùn)練算法仍然很影響性能,VLA 的 scale up 時刻還未到來。

我們首先針對 VLA-OS 模型進(jìn)行了性能測試。在 LIBERO benchmark 上,我們對比了現(xiàn)有的常見 VLA 模型,涵蓋各種尺寸、是否預(yù)訓(xùn)練、是否做任務(wù)規(guī)劃等等。我們對所有的模型都在相應(yīng)的 LIBERO 數(shù)據(jù)集上進(jìn)行了訓(xùn)練,結(jié)果如下圖所示:

圖片

圖 11 VLA-OS 和其他模型的性能對比

我們可以看到,VLA-OS-A 的性能優(yōu)于 train from scratch 的 Diffusion Policy(提升 13.2%),預(yù)訓(xùn)練+微調(diào)后的 OpenVLA 模型(提升 9.1%)、CoT-VLA(提升 4.5%)以及 DiT Policy(提升 3.2%),并與預(yù)訓(xùn)練+微調(diào)后的 π?-FAST(提升 0.1%)表現(xiàn)相當(dāng)。

盡管本模型尚不及當(dāng)前最先進(jìn)(SOTA)的一些方法,但上述結(jié)果已充分表明我們模型的設(shè)計具有良好的性能和競爭力。需特別指出的是,VLA-OS-A 是在無預(yù)訓(xùn)練的條件下從頭開始訓(xùn)練的,并僅使用了參數(shù)規(guī)模為 0.5B 的語言模型作為骨干網(wǎng)絡(luò)。

發(fā)現(xiàn) 2:對于 Integrated-VLA 來說,隱式任務(wù)規(guī)劃比顯式任務(wù)規(guī)劃更好。

我們在 LIBERO-LONG 基準(zhǔn)測試集上開展了語言規(guī)劃、視覺規(guī)劃、圖像前瞻規(guī)劃及其組合方式的實驗。該基準(zhǔn)包含 10 個長時間跨度任務(wù),每個任務(wù)提供 50 條示教軌跡,旨在評估 Integrated-VLA 模型中隱式規(guī)劃與顯式規(guī)劃變體的性能表現(xiàn)。實驗結(jié)果如下所示。

圖片

圖 12 隱式和顯式的 Integrated-VLA 性能對比

隱式規(guī)劃范式通過引入多種輔助任務(wù)規(guī)劃目標(biāo)作為訓(xùn)練過程中的附加損失項,從而在不改變推理階段行為的前提下,相較于 ActionOnly-VLA 實現(xiàn)性能提升。

這表明,將任務(wù)規(guī)劃作為輔助損失引入訓(xùn)練可以有效提高模型性能;然而,顯式規(guī)劃范式性能卻發(fā)生下降,這可能是因為:1)在推理階段,顯式規(guī)劃必須先完成整個規(guī)劃過程,隨后才能生成動作輸出,可能帶來規(guī)劃誤差累積問題。

通常,規(guī)劃 token 的長度遠(yuǎn)遠(yuǎn)超過動作 token(約為 2000 對 8);2)顯式規(guī)劃的策略損失梯度會同時回傳給 VLM 和任務(wù)規(guī)劃頭,可能導(dǎo)致梯度沖突。

發(fā)現(xiàn) 3:相較于語言規(guī)劃表示,基于視覺的規(guī)劃表示(視覺規(guī)劃和目標(biāo)圖像規(guī)劃)在性能上表現(xiàn)更優(yōu),且具有更快的推理速度與更低的訓(xùn)練成本。

我們在 LIBERO-LONG 基準(zhǔn)測試集上開展了語言規(guī)劃、視覺規(guī)劃、圖像前瞻規(guī)劃及其多種組合方式的實驗。該基準(zhǔn)包含 10 個長時間跨度任務(wù),每個任務(wù)提供 50 條示范,旨在系統(tǒng)評估不同類型規(guī)劃表示的性能表現(xiàn)。實驗結(jié)果如下所示。

圖片

圖 13 不同規(guī)劃表征的性能對比

發(fā)現(xiàn) 4:在同時采用多種規(guī)劃表示的情況下,Hierarchical-VLA 相較于 Integrated-VLA 范式表現(xiàn)出更優(yōu)的性能。

我們在 LIBERO-LONG 基準(zhǔn)測試集上展示了 Integrated-VLA 與 Hierarchical-VLA 兩種范式在不同規(guī)劃表示下的性能對比結(jié)果。

圖片

圖 14 同時使用多種規(guī)劃表征的性能對比

發(fā)現(xiàn) 5:Integrated-VLA 與 Hierarchical-VLA 在二維、三維、仿真及真實環(huán)境等多種任務(wù)中均顯著優(yōu)于 ActionOnly-VLA,且兩者整體性能相近。

我們在六個基準(zhǔn)測試集上展示了所有 VLA 范式的性能表現(xiàn)及其平均成功率??梢钥闯?,Integrated-VLA 與 Hierarchical-VLA 在所有基準(zhǔn)上均優(yōu)于 ActionOnly-VLA,且兩者之間的性能差距較小,表現(xiàn)整體接近。

圖片

圖 15 多種 benchmark 上的各種 VLA 范式性能對比

發(fā)現(xiàn) 6:Integrated-VLA 與 Hierarchical-VLA 在任務(wù)規(guī)劃預(yù)訓(xùn)練中均表現(xiàn)出相似的收益,任務(wù)成功率均有所提升,增幅相近。

發(fā)現(xiàn) 7:Hierarchical-VLA 展現(xiàn)出最強(qiáng)的泛化能力。

我們展示了所有 VLA 范式在 The-Colosseum (ALL-Perturbation) 基準(zhǔn)測試集上的泛化性能,以及 Integrated-VLA 與 Hierarchical-VLA 在 LIBERO-90 上進(jìn)行任務(wù)規(guī)劃預(yù)訓(xùn)練后的性能提升情況,并在 LIBERO-LONG 上進(jìn)行了測試評估。

結(jié)果表明,Hierarchical-VLA 實現(xiàn)了最優(yōu)的泛化性能,而 Integrated-VLA 與 Hierarchical-VLA 均能從任務(wù)規(guī)劃預(yù)訓(xùn)練中獲得相似的性能提升。

圖片

圖 16 泛化性能對比

發(fā)現(xiàn) 8:Hierarchical-VLA 在任務(wù)規(guī)劃方面優(yōu)于 Integrated-VLA。

為了明確任務(wù)失敗是源于規(guī)劃模塊還是策略學(xué)習(xí)模塊,我們對 Integrated-VLA(僅評估其任務(wù)規(guī)劃部分)與 Hierarchical-VLA 在 LIBERO-LONG 基準(zhǔn)上進(jìn)行分析性評估,覆蓋三種不同的規(guī)劃表示形式。

具體地,我們手動將每個長時序任務(wù)劃分為若干子任務(wù),并在評估過程中強(qiáng)制將環(huán)境重置至各子任務(wù)的初始狀態(tài)。我們分別計算每個子任務(wù)起點對應(yīng)的規(guī)劃輸出的平均正確率(0 或 1)以及動作頭的執(zhí)行成功率(0 或 1),從而獲得每個任務(wù)軌跡的任務(wù)分解得分(Task Decomposition Score,DCS)與策略執(zhí)行得分(Policy Following Score,PFS)。需要指出的是,對于 Hierarchical-VLA,我們在測試 PFS 時提供了任務(wù)規(guī)劃的真實結(jié)果(ground truth)。

圖片

圖 17 純規(guī)劃性能對比

我們可以觀察到,在不同的規(guī)劃表示下,Hierarchical-VLA 在任務(wù)規(guī)劃方面始終優(yōu)于 Integrated-VLA,表現(xiàn)出更強(qiáng)的規(guī)劃能力。

發(fā)現(xiàn) 9:基于視覺的規(guī)劃表示更易于底層策略的跟隨。

如上所述,我們展示了 Hierarchical-VLA 在不同規(guī)劃表示下的策略執(zhí)行得分(Policy Following Score, PFS),用于衡量底層策略對規(guī)劃結(jié)果的執(zhí)行能力。結(jié)果表明,基于視覺的規(guī)劃表示在策略執(zhí)行過程中具有更高的可跟隨性。

圖片

圖 18 下層策略跟隨任務(wù)規(guī)劃性能對比

我們可以觀察到,基于視覺的規(guī)劃表示(包括視覺規(guī)劃與圖像前瞻規(guī)劃)更易于被底層策略所跟隨,表現(xiàn)出更高的策略可執(zhí)行性。

發(fā)現(xiàn) 10:語言規(guī)劃表示頭的自回歸特性是其訓(xùn)練成本較高和推理速度較慢的主要原因。為進(jìn)一步探究不同規(guī)劃表示在訓(xùn)練成本與推理速度上的差異,我們在下圖中展示了 Hierarchical-VLA 中不同規(guī)劃頭的前向傳播過程。

圖片

圖 19 不同規(guī)劃頭之間的工作模式對比

由于語言規(guī)劃頭與視覺規(guī)劃頭具備自回歸特性,它們在生成規(guī)劃 token 時需進(jìn)行數(shù)百次前向傳播,導(dǎo)致訓(xùn)練成本較高、推理速度較慢;而圖像前瞻規(guī)劃頭(本工作中采用類似 VAR 的生成器)僅需前向傳播 7 次即可生成完整的規(guī)劃 token,推理開銷大約是語言與視覺規(guī)劃頭的 1/100,顯著更高效。

發(fā)現(xiàn) 11:所有 VLA 范式的性能隨著標(biāo)注動作的示范數(shù)據(jù)量增加而提升,具備良好的數(shù)據(jù)可擴(kuò)展性。

為評估數(shù)據(jù)可擴(kuò)展性,我們在 LIBERO-LONG 數(shù)據(jù)集上進(jìn)行實驗,該數(shù)據(jù)集包含 10 個任務(wù),共計 500 條示范。我們分別使用 10%、40%、70% 和 100% 的數(shù)據(jù)量對三種 VLA 范式(模型規(guī)模為 S)進(jìn)行訓(xùn)練,并評估其性能隨數(shù)據(jù)規(guī)模變化的趨勢。

圖片

圖 20 VLA 的數(shù)據(jù)可擴(kuò)展性

我們可以看到,所有 VLA 范式均具備良好的數(shù)據(jù)可擴(kuò)展性,隨著標(biāo)注動作示范數(shù)據(jù)量的增加,其性能穩(wěn)步提升。

發(fā)現(xiàn) 12:在約 5,000 條示范數(shù)據(jù)的「從零訓(xùn)練」任務(wù)中,LLM 骨干網(wǎng)絡(luò)應(yīng)限制在 0.5B 參數(shù)規(guī)模以內(nèi),或總模型參數(shù)規(guī)模不超過 1B,才能獲得更優(yōu)的性能表現(xiàn)。

為評估模型可擴(kuò)展性,我們在 LIBERO-90 數(shù)據(jù)集上進(jìn)行了實驗,該數(shù)據(jù)集包含 90 個任務(wù),共計 4,500 條示范。我們使用全部訓(xùn)練數(shù)據(jù),選取了不同參數(shù)規(guī)模(0.5B、1.5B、3B 和 7B)的 Qwen-2.5 語言模型作為骨干網(wǎng)絡(luò)進(jìn)行對比實驗,以探索模型規(guī)模對性能的影響。

圖片

圖 21 VLA 的模型可擴(kuò)展性

我們可以觀察到,隨著模型規(guī)模的增大,各種 VLA 范式的性能并未隨之提升,反而在模型規(guī)模超過 3B 時出現(xiàn)下降的趨勢。

發(fā)現(xiàn) 13:相比不含任務(wù)規(guī)劃的范式(ActionOnly-VLA),包含任務(wù)規(guī)劃的 VLA 范式(Integrated-VLA 與 Hierarchical-VLA)在前向遷移能力上更強(qiáng),但遺忘速度也更快。

我們在 LIBERO-LONG 的 10 個任務(wù)上,按照任務(wù)順序?qū)θN VLA 范式進(jìn)行持續(xù)學(xué)習(xí)能力評估。實驗中采用 Sequential Finetuning(SEQL)作為終身學(xué)習(xí)算法,評估指標(biāo)采用 LIBERO 提供的原始度量方式,包括前向遷移(Forward Transfer,F(xiàn)WT)和負(fù)向后向遷移(Negative Backward Transfer,NBT)。

圖片

圖 22 不同 VLA 范式的持續(xù)學(xué)習(xí)能力

發(fā)現(xiàn) 14:相較于基于語言的規(guī)劃表示,基于視覺的規(guī)劃表示在持續(xù)學(xué)習(xí)中展現(xiàn)出更優(yōu)的前向遷移能力,且遺忘速度更慢。

我們在 LIBERO-LONG 的 10 個任務(wù)上,依次測試三種規(guī)劃表示在持續(xù)學(xué)習(xí)場景下的表現(xiàn)。實驗統(tǒng)一采用 Sequential Finetuning(SEQL)作為終身學(xué)習(xí)算法,并使用 LIBERO 提供的原始評估指標(biāo),包括前向遷移(Forward Transfer,F(xiàn)WT)和負(fù)向后向遷移(Negative Backward Transfer,NBT)。

圖片

圖 23 不同規(guī)劃表征的持續(xù)學(xué)習(xí)能力

四、月映萬川:機(jī)器人 VLA 模型的「第一性原理」

設(shè)計指南(抄作業(yè)時間?。?/span>

a) 首選視覺表征規(guī)劃和目標(biāo)圖像規(guī)劃,語言規(guī)劃僅作為輔助;

b) 資源充足選分層 VLA(Hierarchical-VLA),資源有限選隱式聯(lián)合(Integrated-VLA)。

c) 對于小于五千條示教軌跡的下游任務(wù)來說,模型規(guī)模控制在 1B 參數(shù)內(nèi)完全夠用。

破解長期謎題

a) 目前 VLA 的結(jié)構(gòu)和算法設(shè)計仍然很重要,還沒有到無腦 scale up 的時刻。

b) 策略學(xué)習(xí)和任務(wù)規(guī)劃目前來說都還需要提升。

c) 任務(wù)規(guī)劃預(yù)訓(xùn)練是有效的。 d) 持續(xù)學(xué)習(xí)的代價:規(guī)劃模型前向遷移能力更強(qiáng),但遺忘速度更快。

未來四大方向

  • 視覺為何優(yōu)于語言?→ 探索空間表征的神經(jīng)機(jī)制理論上來說,三種規(guī)劃表征針對于目標(biāo)操作任務(wù)所提供的信息均是完備的,那么為什么會有如此大的性能偏差呢?
  • 如何避免規(guī)劃與動作的梯度沖突?→ 設(shè)計解耦訓(xùn)練機(jī)制無論是在隱式 Integrated-VLA 和顯式 Integrated-VLA 的比較,還是在分層 VLA 和 Integrated-VLA 的泛化比較中,都是「損失函數(shù)解耦」的一方獲勝,也即任務(wù)規(guī)劃的損失梯度和策略動作的損失梯度耦合地越少,最終效果越好。
  • 超越 KV 提取 → 開發(fā)更高效的 VLM 信息蒸餾架構(gòu)VLA-OS 目前采用的是類似于的模型結(jié)構(gòu)設(shè)計,也就是提取每一層 LLM 的 KV 來給動作頭和規(guī)劃頭。但是,這使得動作頭和規(guī)劃頭的設(shè)計受限(例如,它們都必須和 LLM 有同樣多的層數(shù)的 Transformer)。是否還有更為高效、限制更少的設(shè)計?
  • 構(gòu)建萬億級規(guī)劃數(shù)據(jù)集 → 推動「規(guī)劃大模型」誕生VLA-OS 的實驗確認(rèn)了無論使用哪種范式,增加任務(wù)規(guī)劃都會對模型性能有提升,而且對規(guī)劃頭進(jìn)行預(yù)訓(xùn)練還會進(jìn)一步提升性能。因此,如何構(gòu)建足夠量的機(jī)器人操作任務(wù)規(guī)劃數(shù)據(jù)集將是很有前景的方向。
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-19 10:26:10

2025-09-03 09:09:00

2025-05-30 08:55:00

機(jī)器人AI訓(xùn)練

2025-07-10 14:55:12

機(jī)器人AI模型

2025-07-08 15:13:31

模型AI智能

2025-10-27 08:54:00

2025-01-02 14:30:00

AI訓(xùn)練模型

2024-12-23 07:25:00

機(jī)器人距離矩陣人工智能

2025-03-10 13:31:28

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2025-07-25 09:42:47

2025-10-30 16:04:35

AI模型機(jī)器人

2025-07-14 09:14:00

2025-06-25 09:04:59

2021-07-19 09:11:05

機(jī)器人人工智能算法

2025-02-21 14:53:40

2025-03-11 09:10:00

2025-02-27 12:12:28

2021-04-21 13:56:32

人工智能機(jī)器學(xué)習(xí)

2025-07-21 14:26:20

模型AI機(jī)器人
點贊
收藏

51CTO技術(shù)棧公眾號