偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

北大-靈初重磅發(fā)布具身VLA全面綜述！一文看清VLA技術(shù)路線與未來趨勢(shì)

2025-07-25 10:19:44

人工智能新聞

北京大學(xué) - 靈初智能聯(lián)合實(shí)驗(yàn)室首次從動(dòng)作詞元化（action tokenization）視角，提出統(tǒng)一理解 VLA 模型的新框架。

如今，GPT-4o、Gemini 2.5 Pro 等多模態(tài)基礎(chǔ)模型在對(duì)話、代碼生成和數(shù)學(xué)推理等任務(wù)中已經(jīng)達(dá)到甚至超越了人類水平。研究者開始探索如何將這種智能從數(shù)字世界延伸至物理空間，以實(shí)現(xiàn)具身智能。這其中最受關(guān)注的前沿方向之一，便是視覺 - 語言 - 動(dòng)作模型（Vision-Language-Action Models，簡(jiǎn)稱 VLA）。此類模型借助基礎(chǔ)模型的通用能力與大規(guī)模學(xué)習(xí)范式，可以處理通用的視覺（Vision）與語言（Language）輸入，并生成實(shí)時(shí)動(dòng)作（Action），極大地賦能了機(jī)器人系統(tǒng)。

近兩年來，VLA 相關(guān)研究爆發(fā)式增長(zhǎng)，技術(shù)路線日新月異 —— 但這也造成了認(rèn)知碎片化與理解上的困難。現(xiàn)有分類方法如 “大腦 - 小腦”、“快慢系統(tǒng)”、“分層 - 端到端” 等，直覺清晰但本質(zhì)仍不明確。領(lǐng)域急需系統(tǒng)化的分析框架，以梳理研究現(xiàn)狀，指明未來方向。

為此，北京大學(xué) - 靈初智能聯(lián)合實(shí)驗(yàn)室首次從動(dòng)作詞元化（action tokenization）視角，提出統(tǒng)一理解 VLA 模型的新框架。綜述系統(tǒng)分析了八種主流 action token，探討了不同動(dòng)作表示背后的能力支撐、數(shù)據(jù)擴(kuò)展策略和適用場(chǎng)景，明確了未來的架構(gòu)趨勢(shì)與關(guān)鍵挑戰(zhàn)。論文由靈初智能 00 后聯(lián)合創(chuàng)始人陳源培與北京大學(xué)人工智能研究院助理教授楊耀東共同擔(dān)任通訊作者。

值得一提的是，在發(fā)布這一重要理論成果的同時(shí)，靈初智能也在加速推進(jìn) VLA 技術(shù)的產(chǎn)業(yè)化落地。其自研的 VLA 模型 Psi R1 已在麻將機(jī)器人等實(shí)際場(chǎng)景中得到驗(yàn)證，7/25 晚 20:00 鎖定抖音直播，靈初智能聯(lián)合創(chuàng)始人陳源培將與搭載 Psi R1 的靈初智能機(jī)器人小靈、智元機(jī)器人聯(lián)合創(chuàng)始人稚暉君和首形科技創(chuàng)始人 U 航展開一場(chǎng)麻將對(duì)戰(zhàn)。

除此之外，還有外賣機(jī)器人、超市打包機(jī)器人等也將在 WAIC 2025（7 月 26-29 日，上海世博展覽館 H3-C604 展位）上進(jìn)行集中展示，為業(yè)界提供從理論到應(yīng)用的完整技術(shù)路徑參考。

圖片

論文標(biāo)題：A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
論文鏈接：https://arxiv.org/abs/2507.01925
倉(cāng)庫(kù)地址：https://github.com/Psi-Robot/Awesome-VLA-Papers

核心觀點(diǎn)總結(jié)

VLA 統(tǒng)一框架與 Action Token 分類：當(dāng)前的 VLA 系統(tǒng)遵循一個(gè)通用框架：視覺與語言輸入經(jīng)過一系列 VLA modules 逐級(jí)處理，生成逐漸具體的 action token，最終轉(zhuǎn)化為動(dòng)作輸出。在該框架中，action token 可分為 language description、code、affordance、trajectory、goal state、latent representation、raw action 和 reasoning 八類。VLA 中的 action token 是 LLM 中 language token 的推廣。
Action Token 發(fā)展趨勢(shì)：VLA 模型的未來不在于依賴單一 action token，而在于多種 token 的協(xié)同。Language motion 表達(dá)能力有限，難以成為主流； language plan 在任務(wù)分解中不可或缺。Code 是另一種高效的規(guī)劃形式，其潛力依賴于構(gòu)建完備的感知與動(dòng)作函數(shù)庫(kù)。Affordance（做什么）與 trajectory（如何做）可互補(bǔ)結(jié)合，并借助 goal state 的目標(biāo)預(yù)測(cè)提升生成精度。Latent representation 雖具潛力，但訓(xùn)練中面臨粒度、語義覆蓋和任務(wù)對(duì)齊等挑戰(zhàn)。Raw action 最適合端到端學(xué)習(xí)，但能力高度依賴數(shù)據(jù)。Reasoning 可作為 “元 token” 增強(qiáng)其他 token 的生成，未來將從基于 language token 的推理發(fā)展為基于 action token 的多模態(tài)推理，并支持任務(wù)適應(yīng)性推理計(jì)算。
新興 Action Token 類型：Action token 類型由基礎(chǔ)模型的能力決定。隨著模型的演進(jìn)和聽覺、觸覺等新模態(tài)的引入，未來可能涌現(xiàn)出更多新的 action token 類型與子類型。
VLA 架構(gòu)趨勢(shì)：未來的 VLA 模型很可能采用分層架構(gòu)：頂層通過 language description 和 code 實(shí)現(xiàn)長(zhǎng)程規(guī)劃與邏輯控制。下層在近期內(nèi)預(yù)計(jì)將使用 goal state 的視頻預(yù)測(cè)、trajectory 的流建模以及 affordance 的三維交互預(yù)測(cè)緊密結(jié)合，形成中間動(dòng)作表示，最終映射為 raw action。長(zhǎng)期來看，下層將演化為完全端到端的方式，直接從子任務(wù)級(jí)輸入預(yù)測(cè) raw action。reasoning 按需貫穿整個(gè) VLA 模型，增強(qiáng) action token 生成。
從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)：引入強(qiáng)化學(xué)習(xí)可幫助 VLA 模型突破模仿學(xué)習(xí)的局限，實(shí)現(xiàn)類人試錯(cuò)與自主探索。實(shí)際部署則需更高效的強(qiáng)化算法，以應(yīng)對(duì)高重置成本和低交互效率。同時(shí)，VLM 可自動(dòng)生成密集獎(jiǎng)勵(lì)，加速訓(xùn)練與應(yīng)用。
從 VLA 模型到 VLA 智能體：VLA 模型應(yīng)向具備記憶、探索、規(guī)劃和反思能力的主動(dòng)型 VLA 智能體演進(jìn)，并由線性結(jié)構(gòu)轉(zhuǎn)向更復(fù)雜的雙向或圖結(jié)構(gòu)架構(gòu)。
模型、數(shù)據(jù)與硬件協(xié)同發(fā)展：具身智能旨在應(yīng)對(duì)物理世界的非結(jié)構(gòu)化與開放性挑戰(zhàn)，亟需模型、數(shù)據(jù)與硬件協(xié)同發(fā)展。然而受限于機(jī)器人平臺(tái)與高質(zhì)量數(shù)據(jù)匱乏，研究多局限于簡(jiǎn)化實(shí)驗(yàn)場(chǎng)景，整體仍處早期階段。實(shí)現(xiàn)通用智能需三者協(xié)同演進(jìn)，協(xié)力前行。
安全與對(duì)齊：當(dāng)前的 VLA 研究主要關(guān)注模型能力，未來必須更加重視安全性與人類對(duì)齊。

VLA 統(tǒng)一框架與 Action Token 視角

VLA 模型指依托至少一個(gè)視覺或語言基礎(chǔ)模型，能夠根據(jù)視覺與語言輸入，生成動(dòng)作輸出的模型。其本質(zhì)目標(biāo)是將基礎(chǔ)模型在數(shù)字世界中的智能延伸到物理世界，實(shí)現(xiàn)具體的、具身的任務(wù)執(zhí)行能力。

VLA 統(tǒng)一框架描述了不同 VLA 模型共同遵循的通用架構(gòu)：即視覺和語言輸入經(jīng)過一系列功能模塊（VLA modules），逐層處理并生成更具體、可執(zhí)行的動(dòng)作信息（action token），最終轉(zhuǎn)化為實(shí)際的動(dòng)作輸出。

VLA module 指 VLA 模型中支持端到端梯度傳播的最大可微子網(wǎng)絡(luò)，或不可微的功能模塊（如 motion planning），承擔(dān)特定的能力（例如場(chǎng)景感知、動(dòng)作規(guī)劃等），并在模型內(nèi)部彼此協(xié)同工作。

Action token 則是不同 VLA modules 之間傳遞的動(dòng)作表示，承載具體動(dòng)作信息?？梢岳斫鉃?VLA 模型生成的 “動(dòng)作語言”，用于明確不同模塊間的溝通內(nèi)容與執(zhí)行目標(biāo)。

舉個(gè)具體的例子，以完成 “端茶倒水” 任務(wù)為例：

首先，一個(gè) VLA module 處理視覺輸入和語言指令，接受指令 “我渴了，請(qǐng)為我倒一杯茶”，識(shí)別場(chǎng)景中的茶壺、茶杯等物品，并規(guī)劃出下一步的子任務(wù)目標(biāo)，比如：“抓起茶壺把手”。這里生成的子任務(wù)描述即為一種 action token（此處為 language plan）。
接著，另一個(gè) VLA module 接收該 action token，進(jìn)一步規(guī)劃具體的抓取路徑與運(yùn)動(dòng)軌跡，并生成更加具體的動(dòng)作描述（例如 trajectory）。
最終，這些更具體的 action tokens 被下游的模塊轉(zhuǎn)化為機(jī)器人可以直接執(zhí)行的動(dòng)作序列（即 raw actions），實(shí)現(xiàn) “端茶倒水” 的實(shí)際行為。

這樣的模塊化結(jié)構(gòu)和 action token 的概念，不僅明確了 VLA 系統(tǒng)的內(nèi)部結(jié)構(gòu)，也為深入分析和理解該類模型提供了統(tǒng)一的視角和框架?；诖耍@篇綜述發(fā)現(xiàn)當(dāng)前的 VLA 模型主要使用了八種 action token，并進(jìn)行了系統(tǒng)的分類梳理與分析。

綜述論文還以時(shí)間軸的形式展示了基礎(chǔ)模型、基于 action token 分類的 VLA 模型，以及相關(guān)數(shù)據(jù)工作的演進(jìn)歷程。其中呈現(xiàn)出的 U 形結(jié)構(gòu)清晰地表明，VLA 模型的快速發(fā)展受到基礎(chǔ)模型與數(shù)據(jù)資源持續(xù)進(jìn)步的雙重驅(qū)動(dòng)。

八種 Action Token 的梳理分析

Language Description（語言描述）

用自然語言的形式描述要完成的動(dòng)作，按照描述顆粒度主要分為子任務(wù)級(jí)別的 language plan（“端起茶杯”）和原子動(dòng)作級(jí)別的 language motion（“手往前伸”）兩種。

該類方法利用 LLM 和 VLM 在理解、推理、分解任務(wù)等方面的能力，使機(jī)器人能夠以更 “類人” 的方式規(guī)劃和執(zhí)行復(fù)雜任務(wù)。

早期工作如 Language Planner、SayCan 等表明，LLM 可直接將高層指令拆解為語義明確的子任務(wù)（language plan），大幅降低人工設(shè)定需求。為了緩解僅使用 LLM 導(dǎo)致的缺乏環(huán)境感知的缺陷，他們引入視覺模塊和動(dòng)態(tài)反饋等顯式的落地機(jī)制，提升了模型對(duì)實(shí)際場(chǎng)景的適應(yīng)和操作能力。后續(xù)研究直接使用 VLM 進(jìn)一步提升多模態(tài)理解和規(guī)劃能力。此外，針對(duì)復(fù)雜和長(zhǎng)時(shí)任務(wù)，部分研究（如 BUMBLE、ReflectVLM）引入了記憶與反思機(jī)制，使系統(tǒng)具備分階段推理與跨場(chǎng)景適應(yīng)能力。最近的 Hi Robot、pi0.5 等則進(jìn)一步消除了下層簡(jiǎn)單策略的能力限制，擴(kuò)展到能執(zhí)行通用 language plan 的策略，實(shí)現(xiàn)了更強(qiáng)的任務(wù)泛化和動(dòng)態(tài)修正能力。在細(xì)粒度 language description 的研究方面，RT-H、NaVILA 等工作將低層動(dòng)作細(xì)化為 language motion，促進(jìn)了跨任務(wù)的數(shù)據(jù)共享和人機(jī)交互。

這一范式展示出諸多優(yōu)勢(shì)。一是與基礎(chǔ)模型高度兼容：語言描述與 LLM/VLM 的原生輸出空間一致，能夠充分發(fā)揮模型的理解、推理和規(guī)劃能力，實(shí)現(xiàn)零樣本（zero-shot）或少樣本（few-shot）泛化，顯著降低任務(wù)定制化成本。二是豐富的訓(xùn)練數(shù)據(jù)支持：借助海量圖文與操作數(shù)據(jù)，語言描述能有效遷移現(xiàn)實(shí)世界知識(shí)，提升模型的泛化性與可擴(kuò)展性。三是更強(qiáng)的長(zhǎng)時(shí)規(guī)劃能力：分層的語言指令有助于模型處理長(zhǎng)鏈路、多階段任務(wù)，支持復(fù)雜任務(wù)的結(jié)構(gòu)化分解和執(zhí)行。四是高度可解釋性與可控性：自然語言表達(dá)易于人類理解和干預(yù)，方便實(shí)現(xiàn)人機(jī)協(xié)同、動(dòng)態(tài)糾錯(cuò)與在線優(yōu)化。

但當(dāng)前也面臨表達(dá)精度不足與推理時(shí)延等挑戰(zhàn)。未來，研究趨勢(shì)是將 language description 用于高層規(guī)劃，底層控制則結(jié)合 affordance、trajectory、goal state 等精細(xì)表示，從而兼顧任務(wù)復(fù)雜性和動(dòng)作精確性，推動(dòng)具身智能系統(tǒng)在復(fù)雜環(huán)境下的實(shí)用落地。

Code（代碼）

用代碼的形式表達(dá)任務(wù)的實(shí)現(xiàn)邏輯，包含循環(huán)、分支等邏輯控制和機(jī)器人感知、控制的 API 調(diào)用。

代碼是人類與計(jì)算機(jī)之間最直接也最高效的交流方式。文章系統(tǒng)梳理了近年來以 code 為 action token 的 VLA 研究進(jìn)展，聚焦其如何從 “能運(yùn)行的控制代碼” 演進(jìn)為 “具備邏輯結(jié)構(gòu)、感知能力與任務(wù)泛化能力的機(jī)器人行為策略”。代碼其核心思想是：將自然語言和視覺輸入轉(zhuǎn)化為結(jié)構(gòu)清晰、具備可讀性與可執(zhí)行性的程序或偽代碼，擺脫對(duì)神經(jīng)網(wǎng)絡(luò)隱式向量的依賴，用明確、透明的代碼來驅(qū)動(dòng)機(jī)器人行為。

code 的主要優(yōu)勢(shì)在于當(dāng)前語言模型在代碼生成方面已展現(xiàn)出極強(qiáng)的能力。生成的程序不僅能夠自然地調(diào)用預(yù)定義的機(jī)器人操作 API，也可以集成感知基礎(chǔ)模型提供的識(shí)別模塊，還能靈活接入如 NumPy、PyTorch 等常用庫(kù)進(jìn)行空間計(jì)算與邏輯控制。這種模塊化、可組合的特性，使得策略能夠快速適配新任務(wù)，具備良好的擴(kuò)展性與可調(diào)試性。同時(shí)，代碼語言天然具備流程控制結(jié)構(gòu)，如條件判斷與循環(huán)語句，從而完成邏輯更復(fù)雜的任務(wù)規(guī)劃。

但與此同時(shí)，code 也面臨現(xiàn)實(shí)挑戰(zhàn)。首先，它對(duì) API 庫(kù)的依賴極高，而 API 本身的覆蓋范圍往往受限。一旦機(jī)器人需要的功能未被定義，或已有接口無法適配當(dāng)前任務(wù)需求，策略即失效。例如，如果現(xiàn)有控制 API 并不支持對(duì) “濕滑地面”“易碎物體” 等復(fù)雜環(huán)境屬性進(jìn)行建模和調(diào)用，那么即使生成的代碼邏輯正確，也無法穩(wěn)健執(zhí)行所需動(dòng)作。其次，代碼結(jié)構(gòu)的固定性也帶來了執(zhí)行層的脆弱性。一方面，語言模型在生成代碼時(shí)可能出現(xiàn)邏輯錯(cuò)誤、結(jié)構(gòu)冗余等問題，影響控制效率；但更嚴(yán)重的是，代碼本身往往默認(rèn)了若干環(huán)境前提條件。一旦實(shí)際場(chǎng)景違背這些假設(shè)（例如物體潮濕、位置偏移或不可見），系統(tǒng)可能觸發(fā)不當(dāng)操作，甚至導(dǎo)致物體損壞或設(shè)備安全風(fēng)險(xiǎn)。

因此，未來研究可以從兩個(gè)維度進(jìn)一步釋放代碼式策略的潛力。一方面，需要構(gòu)建更完善、更語義豐富的機(jī)器人 API 庫(kù)，使語言模型能夠通過調(diào)用接口實(shí)現(xiàn)復(fù)雜任務(wù)的自動(dòng)編排，尤其適用于多步驟、長(zhǎng)時(shí)序的任務(wù)控制。另一方面，引入形式化驗(yàn)證機(jī)制以檢測(cè) API 調(diào)用的一致性與合法性，并配合運(yùn)行時(shí)安全監(jiān)控手段，降低執(zhí)行層風(fēng)險(xiǎn)。同時(shí)，代碼的可讀性也為 “人機(jī)協(xié)同控制” 提供了天然接口 —— 人類可以參與策略微調(diào)、糾錯(cuò)甚至插入控制邏輯，為構(gòu)建可信、可控的具身智能系統(tǒng)提供新的技術(shù)路徑。

Affordance（可操作性）

一種基于空間的表示方式，刻畫物體在當(dāng)前任務(wù)中可以如何被交互使用。常見形式包括關(guān)鍵點(diǎn)（keypoint）、邊界框（bounding box）、分割掩碼（segmentation mask）或可操作圖（affordance map）。

在具身智能系統(tǒng)中，如何將感知結(jié)果轉(zhuǎn)化為可執(zhí)行動(dòng)作，始終是 “語言 - 感知 - 控制” 鏈條中最具挑戰(zhàn)性的環(huán)節(jié)之一。近年來 VLA 興起的一個(gè)關(guān)鍵方向是將 affordance（可操作性）作為結(jié)構(gòu)化的 action token，用于連接高層感知理解與底層控制執(zhí)行。所謂 affordance，指的是物體或區(qū)域 “可以被如何交互” 的結(jié)構(gòu)化表示，例如杯沿可能是 “可抓取的”，抽屜把手可能是 “可拉動(dòng)的”。相較于傳統(tǒng)的坐標(biāo)點(diǎn)或動(dòng)作軌跡表示，affordance 更強(qiáng)調(diào)語義明確、空間對(duì)齊，并具備良好的任務(wù)適應(yīng)性。當(dāng)前的 VLA 研究中，affordance 動(dòng)作表達(dá)的形式包括：關(guān)鍵點(diǎn)、邊界框、分割掩碼以及可操作性圖，每種方式在任務(wù)類型、精度要求與環(huán)境復(fù)雜度之間展現(xiàn)出互補(bǔ)優(yōu)勢(shì)。

不同的表示形式各有側(cè)重：關(guān)鍵點(diǎn)能夠精確指示交互目標(biāo)，如把手或按鈕；邊界框在多類檢測(cè)模型和語言視覺模型支持下可高效實(shí)現(xiàn)實(shí)例定位；分割掩碼為功能性區(qū)域提供像素級(jí)輪廓與幾何細(xì)節(jié)，適用于復(fù)雜表面操作；而可操作性圖則從全局視角提供稠密、概率化的交互區(qū)域分布，適合復(fù)雜場(chǎng)景下的空間推理與動(dòng)作規(guī)劃。

盡管具有結(jié)構(gòu)清晰、跨平臺(tái)遷移性強(qiáng)等優(yōu)勢(shì)，現(xiàn)有 affordance 動(dòng)作表示仍面臨三類核心挑戰(zhàn)：一是空間表達(dá)維度不足，多數(shù)方法仍停留在 2D 或投影 3D 表達(dá)，難以勝任需要完整空間理解的真實(shí)操作任務(wù)；二是動(dòng)態(tài)建模缺失，affordance 通常被視為靜態(tài)屬性，忽略了動(dòng)作執(zhí)行后的狀態(tài)變化，無法處理例如 “打開瓶蓋后變?yōu)榭傻钩觥?的動(dòng)態(tài)演化；三是感知魯棒性有限，在遮擋、模糊等視覺干擾下容易出現(xiàn)誤判，影響下游控制穩(wěn)定性。

針對(duì)這些問題，文章總結(jié)出 affordance 動(dòng)作表示未來的三個(gè)關(guān)鍵發(fā)展方向：

構(gòu)建原生三維表達(dá)形式，基于神經(jīng)輻射場(chǎng)、高斯渲染等方法，實(shí)現(xiàn)對(duì)物體幾何與空間布局的真實(shí)建模；
引入時(shí)序建模機(jī)制，使模型能夠感知并預(yù)測(cè)交互過程中的 affordance 演化，提高對(duì)長(zhǎng)時(shí)序任務(wù)的適應(yīng)能力；
增強(qiáng)策略魯棒性與不確定性感知能力，不僅預(yù)測(cè)交互區(qū)域，還需識(shí)別模型自身置信度，提升決策安全性與可控性。

Trajectory（軌跡）

表示物體、末端執(zhí)行器或場(chǎng)景隨時(shí)間變化的連續(xù)空間狀態(tài)序列，也就是 “從哪里到哪里怎么動(dòng)”。

在 VLA 模型的研究中，一個(gè)核心挑戰(zhàn)是附帶動(dòng)作標(biāo)簽的機(jī)器人數(shù)據(jù)集的稀缺性。近期研究表明，將 “軌跡（Trajectory）” 作為一種動(dòng)作表征，是應(yīng)對(duì)此挑戰(zhàn)的有效范式。該方法通過利用無需動(dòng)作標(biāo)注的通用視頻數(shù)據(jù)，用其中蘊(yùn)含的運(yùn)動(dòng)軌跡來表示動(dòng)作，從而顯著拓寬了模型的訓(xùn)練數(shù)據(jù)來源。

該研究方向的核心在于將機(jī)器人動(dòng)作編碼為運(yùn)動(dòng)軌跡。這些表征主要分為三類：一是點(diǎn)軌跡（Point Trajectory），通過一系列時(shí)序下的離散坐標(biāo)點(diǎn)來為機(jī)器人提供精確的路徑引導(dǎo)；二是視覺軌跡（Visual Trajectory），它將運(yùn)動(dòng)路徑直接渲染于圖像之上，在視覺上下文中直觀地呈現(xiàn)動(dòng)作意圖；三是光流（Optical Flow），作為一種更為稠密的表征，它描述場(chǎng)景中每個(gè)像素的運(yùn)動(dòng)矢量，從而捕捉了整體環(huán)境的動(dòng)態(tài)信息。

基于軌跡的動(dòng)作表征展現(xiàn)出多項(xiàng)關(guān)鍵優(yōu)勢(shì)。首先，正如前文所言，用軌跡作為動(dòng)作表征可以有效地利用大量視頻數(shù)據(jù)，拓寬訓(xùn)練數(shù)據(jù)來源。其次，也是至關(guān)重要的一點(diǎn)，軌跡在任務(wù)泛化上表現(xiàn)出卓越的能力。對(duì)于那些語義目標(biāo)不同但底層運(yùn)動(dòng)模式相似的任務(wù)（例如 “擦拭表面” 與 “滑動(dòng)滑塊”），基于軌跡的策略能夠?qū)崿F(xiàn)更高效的零樣本泛化。再次，與依賴隱空間表征的抽象方法相比，軌跡是一種外顯且具備人類可解釋性的動(dòng)作形式，為模型的訓(xùn)練與調(diào)試提供了極大便利。

盡管前景廣闊，該方法仍面臨若干挑戰(zhàn)。當(dāng)前多數(shù)工作聚焦于二維軌跡，其固有的三維空間信息（尤其是物體姿態(tài)與旋轉(zhuǎn)）的缺失，限制了其在復(fù)雜靈巧操作任務(wù)中的應(yīng)用。同時(shí)，部分依賴大型生成模型的方法存在計(jì)算成本高、推理頻率低的問題，難以滿足機(jī)器人實(shí)時(shí)、平滑控制的需求。此外，純軌跡表征在處理需要復(fù)雜交互邏輯、力控制或基于物體功能理解（affordance）的任務(wù)時(shí)，其語義豐富度尚顯不足。

因此，未來的研究方向?qū)⒅饕劢褂谌齻€(gè)方面：一是探索包含完整六自由度（6-DoF）信息的三維空間軌跡表征；二是開發(fā)輕量化、高效率的軌跡生成與規(guī)劃模型；三是構(gòu)建結(jié)合了軌跡路徑與語義概念的混合式動(dòng)作表征，從而使機(jī)器人能夠應(yīng)對(duì)更廣泛、更復(fù)雜的任務(wù)場(chǎng)景。

Goal State（目標(biāo)狀態(tài)）

對(duì)未來動(dòng)作結(jié)果的視覺預(yù)測(cè)，如一張圖片、點(diǎn)云或視頻片段，直觀地展示執(zhí)行完某個(gè)動(dòng)作序列后應(yīng)該達(dá)到的目標(biāo)樣子，用作規(guī)劃和執(zhí)行的中間目標(biāo)。

讓機(jī)器人 “想清楚” 再行動(dòng)。我們?nèi)祟愒趫?zhí)行任務(wù)前，常會(huì)先在腦中構(gòu)想最終結(jié)果。受此啟發(fā)，VLA 模型也開始采用預(yù)測(cè)的目標(biāo)狀態(tài)，即任務(wù)預(yù)期結(jié)果的視覺呈現(xiàn)，來作為中間的 “行動(dòng)指令”。這就像在給機(jī)器人下達(dá)指令后，先讓它 “想象” 出任務(wù)完成的樣子，再根據(jù)這個(gè) “想象” 來規(guī)劃具體動(dòng)作，從而彌合高層指令與低層執(zhí)行之間的鴻溝。

這種方法通常采用分層架構(gòu)：一個(gè)高層模型根據(jù)指令生成目標(biāo)狀態(tài)的圖像或視頻，隨后低層模型依據(jù)這個(gè)視覺指引來生成最終的動(dòng)作序列。目標(biāo)狀態(tài)主要分為單幀圖像和多幀視頻。單幀圖像描繪任務(wù)完成后的靜態(tài)場(chǎng)景，帶來數(shù)據(jù)可擴(kuò)展性高、能利用無動(dòng)作視頻訓(xùn)練等優(yōu)勢(shì)。而多幀視頻則提供了更豐富的時(shí)間上下文和 “如何做” 的線索，能從大規(guī)模數(shù)據(jù)中生成、提取隱式動(dòng)作信息，并增強(qiáng)模型在不同任務(wù)和機(jī)器人平臺(tái)間的泛化能力。

目標(biāo)狀態(tài)的核心優(yōu)勢(shì)在于其極佳的數(shù)據(jù)可擴(kuò)展性（通過自動(dòng)化數(shù)據(jù)生成）、更廣泛的數(shù)據(jù)源和更強(qiáng)的泛化能力（利用無動(dòng)作視頻和人類執(zhí)行數(shù)據(jù)），以及增強(qiáng)的任務(wù)特異性（提供精確視覺指引），同時(shí)還具備魯棒的可解釋性和直觀的評(píng)估方式。然而，目標(biāo)狀態(tài)也面臨挑戰(zhàn)：生成高質(zhì)量、一致性的目標(biāo)狀態(tài)依然困難，可能出現(xiàn)過度具體或不準(zhǔn)確的情況；此外，生成未來圖像或視頻會(huì)引入較高的推理延遲，影響實(shí)時(shí)控制。盡管如此，隨著圖像和視頻生成技術(shù)的飛速發(fā)展，目標(biāo)狀態(tài)作為 VLA 模型中一個(gè)充滿前景的行動(dòng)指令，正不斷提升機(jī)器人理解和執(zhí)行復(fù)雜任務(wù)的能力。未來的研究將重點(diǎn)關(guān)注提高計(jì)算效率、增強(qiáng)環(huán)境魯棒性，以及優(yōu)化長(zhǎng)程任務(wù)規(guī)劃。

Latent Representation（隱式表示）

通過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練得到的一段隱向量序列，用來編碼一定時(shí)間范圍內(nèi)與動(dòng)作相關(guān)的信息。

如何讓機(jī)器人像人一樣，通過觀察就能快速學(xué)習(xí)各種任務(wù)？近期的 VLA 研究開發(fā)了一種新的訓(xùn)練范式，不再大量依賴昂貴的、為機(jī)器人量身定制的訓(xùn)練數(shù)據(jù)，通過讓 AI 模型觀看多樣的機(jī)器人視頻數(shù)據(jù)集和海量的人類視頻數(shù)據(jù)集（如 Ego4D 等），可以自動(dòng)學(xué)習(xí)并提煉出一套通用的動(dòng)作 “隱式表示（latent representation）”。

這一類方法的核心在于構(gòu)建動(dòng)作的隱式表示，根據(jù)編碼的動(dòng)作信息不同，主要分為以下三類：視覺變化信息，通過分析一段時(shí)間內(nèi)視覺場(chǎng)景的變化（比如機(jī)械臂的移動(dòng)），來推斷其中發(fā)生的動(dòng)作；動(dòng)作塊壓縮信息，將一段完整的機(jī)器人動(dòng)作序列（Action Chunk），直接壓縮成一個(gè)高效、緊湊的 “動(dòng)作 ID”；任務(wù)目標(biāo)信息，將一系列的視覺觀察，編碼成一個(gè)具有高級(jí)語義的 “目標(biāo)” 信息，指導(dǎo)后續(xù)行為。

這一 “潛在動(dòng)作” 方法的價(jià)值是多方面的。首先，它極大地拓寬了數(shù)據(jù)來源，使得幾乎所有機(jī)器人數(shù)據(jù)集和海量人類視頻都能成為機(jī)器人的 “教科書”。其次，它顯著提升了訓(xùn)練效率。例如，文中提到的 UniVLA 模型，采用該方法后，僅用 OpenVLA 所需 4.45% 的預(yù)訓(xùn)練時(shí)間，就達(dá)到了相當(dāng)?shù)男阅?，效率飛躍超過 20 倍。最關(guān)鍵的是，這種方法學(xué)習(xí)到的動(dòng)作是 “身體無關(guān)” 的，意味著從人類視頻中學(xué)到的操作技能，可以被有效遷移到擁有不同形態(tài)的機(jī)器人身上，展現(xiàn)了驚人的泛化能力。此外，潛在動(dòng)作表示還有融合其他模態(tài)動(dòng)作信息的潛力，比如觸覺和聽覺信息。

盡管有上述的種種優(yōu)點(diǎn)，該方法也面臨著挑戰(zhàn)，主要在于其 “黑箱” 特性 —— 由于 “潛在動(dòng)作” 由 AI 自主定義，其內(nèi)部邏輯難以被人類完全理解和干預(yù)，這給調(diào)試和確保安全性帶來了新的挑戰(zhàn)。因此，確保這些潛在的動(dòng)作表示具有良好的性質(zhì)和質(zhì)量變得尤為重要。未來的研究將聚焦于三大方向：如何讓這套 “潛在動(dòng)作” 的粒度更精細(xì)以支持復(fù)雜操作；如何確保其完備性以覆蓋所有可能的任務(wù)場(chǎng)景；以及如何加強(qiáng)其與人類意圖的對(duì)齊，確保機(jī)器人真正 “聽得懂、干得對(duì)”。

Raw Action（原始動(dòng)作）

可以被機(jī)器人直接執(zhí)行的低層級(jí)控制指令，比如關(guān)節(jié)角度變化、末端位姿控制、輪子轉(zhuǎn)速等。

近年來，大語言模型（LLM）所展現(xiàn)出的強(qiáng)大能力引發(fā)了廣泛關(guān)注。正如 Richard Sutton 在《The Bitter Lesson》中所指出的，通向通用智能的長(zhǎng)期路徑并非依賴人類設(shè)計(jì)的領(lǐng)域知識(shí)，而是通過通用方法和擴(kuò)展計(jì)算規(guī)模實(shí)現(xiàn)。LLM 的成功正源于其在預(yù)訓(xùn)練數(shù)據(jù)量和模型參數(shù)規(guī)模上的擴(kuò)展（scaling law）。因此，一個(gè)自然而然的設(shè)想是：是否可以將 LLM 的成功經(jīng)驗(yàn)推廣到 VLA 模型中？

在所有的動(dòng)作 token 表征方式中，raw action 是最直接的形式，它對(duì)應(yīng)具身智能體的底層動(dòng)作空間，例如機(jī)械臂的關(guān)節(jié)角度。這種表征天然具備無損性，既可直接從真實(shí)系統(tǒng)中采集，也可用于生成，省去了額外的動(dòng)作格式映射步驟，因而非常適合 VLA 模型的端到端訓(xùn)練。隨著數(shù)據(jù)規(guī)模和模型參數(shù)的不斷增長(zhǎng)，我們有理由期待 VLA 模型出現(xiàn)類似 LLM 的 scaling law，從而實(shí)現(xiàn)更強(qiáng)的泛化能力。

近年圍繞 raw action token 的 VLA 模型的發(fā)展已初步展現(xiàn)出這一趨勢(shì)。在數(shù)據(jù)層面，多個(gè)大規(guī)模機(jī)器人數(shù)據(jù)集陸續(xù)發(fā)布，如 RT 系列、Open-X Embodiment、DROID、AgiBot World，涵蓋了跨本體、多任務(wù)的多樣性數(shù)據(jù)。模型層面的發(fā)展也呈現(xiàn)出清晰的演進(jìn)路徑：從早期的簡(jiǎn)單多模態(tài)融合架構(gòu)，發(fā)展到基于 Transformer 的自回歸模型，再到近期基于基座 VLM 和擴(kuò)散模型的動(dòng)作塊生成方法（Diffusion-based Action Chunking）。這些模型在參數(shù)規(guī)模和數(shù)據(jù)使用上不斷擴(kuò)展，并借助預(yù)訓(xùn)練的 VLM 提升了泛化能力，同時(shí)擴(kuò)散模型結(jié)合動(dòng)作塊也顯著增強(qiáng)了對(duì)精細(xì)動(dòng)作分布的建模能力與動(dòng)作生成頻率。此外，LLM 中 “預(yù)訓(xùn)練 + 后訓(xùn)練” 的范式也在 VLA 中得到驗(yàn)證。研究表明，經(jīng)過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的 VLA 模型，在后訓(xùn)練階段僅需少量新數(shù)據(jù)即可遷移至下游任務(wù)，大幅降低了微調(diào)與部署成本。

總體而言，基于 raw action 的 VLA 模型具有多方面優(yōu)勢(shì)：其表征無需人為設(shè)計(jì)或映射，最符合《The Bitter Lesson》中倡導(dǎo)的最少人類知識(shí)介入原則；其端到端可擴(kuò)展結(jié)構(gòu)便于借鑒 LLM/VLM 的成功范式；其預(yù)訓(xùn)練能力降低了后訓(xùn)練數(shù)據(jù)需求，使得在現(xiàn)實(shí)環(huán)境中的泛化部署成為可能。

然而，這一方向也面臨若干挑戰(zhàn)。首先，真實(shí)數(shù)據(jù)的獲取成本高昂，當(dāng)前最大規(guī)模的機(jī)器人數(shù)據(jù)集仍處于百萬級(jí)別，遠(yuǎn)低于 LLM 所依賴的十億級(jí)互聯(lián)網(wǎng)語料，實(shí)現(xiàn)類似 scaling law 效應(yīng)尚顯不足。其次，大模型 VLA 的推理速度仍然受限，難以滿足高實(shí)時(shí)性要求的精細(xì)操作任務(wù)。最后，實(shí)現(xiàn)單一模型的跨本體泛化能力仍是一個(gè)未解難題。未來的研究應(yīng)聚焦于如何更高效地獲取高質(zhì)量數(shù)據(jù)、提升推理效率，并突破模型在異構(gòu)機(jī)器人間的遷移能力等核心問題。

Reasoning（推理）

用自然語言表達(dá)的思考過程，解釋 “為什么要做這個(gè)動(dòng)作”，常用來輔助生成更合理的其他 action token。

機(jī)器人操作和自動(dòng)駕駛等復(fù)雜的具身任務(wù)不僅需要長(zhǎng)期規(guī)劃和推理能力，更要求 AI 對(duì)空間、語義有深刻理解，并能在不斷變化的真實(shí)世界環(huán)境中高效運(yùn)行。僅僅依靠擴(kuò)大模型參數(shù)規(guī)模，遠(yuǎn)不足以應(yīng)對(duì)這些固有的復(fù)雜性。因此，為 VLA 模型注入強(qiáng)大的推理能力，已成為當(dāng)前最迫切且有前景的解決方案。

我們所說的 VLA 中的推理，并非抽象概念，而是一個(gè)明確外化的、以自然語言形式呈現(xiàn)的深思熟慮過程。它扮演著關(guān)鍵的中間角色：當(dāng)模型接收到高層指令時(shí)，推理步驟會(huì)引導(dǎo)其生成最終的目標(biāo) action token。這就像讓人工智能擁有了 “思考” 的能力，能夠一步步地權(quán)衡、判斷，并將內(nèi)部決策過程清晰地展現(xiàn)出來。

這種 “思考” 能力最初源于大型語言模型的 “思維鏈” 概念，即通過一系列中間步驟來解決復(fù)雜問題。如今，這一理念已成功拓展到 VLA 領(lǐng)域。早期，研究者常通過結(jié)合大型語言模型與額外視覺模塊來實(shí)現(xiàn)具身推理。但現(xiàn)在，具備多模態(tài)先驗(yàn)知識(shí)的 VLM 已成為主流。VLM 能夠簡(jiǎn)化模型架構(gòu)，并通過專門的微調(diào)或再訓(xùn)練來適應(yīng)具身推理的獨(dú)特需求。一些方法通過自動(dòng)化數(shù)據(jù)合成有效解決了高質(zhì)量大規(guī)模推理數(shù)據(jù)集的獲取難題，甚至將人類日常視頻也納入數(shù)據(jù)合成，拓寬了訓(xùn)練數(shù)據(jù)的來源。此外，一些 VLM 更是通過強(qiáng)化學(xué)習(xí)等方式，專門針對(duì)具身推理進(jìn)行了深度優(yōu)化。在自動(dòng)駕駛這一高風(fēng)險(xiǎn)、高復(fù)雜度的應(yīng)用場(chǎng)景中，這類模型將 “思維鏈” 應(yīng)用于其場(chǎng)景描述、分析和規(guī)劃等關(guān)鍵模塊，充分展現(xiàn)了推理在處理復(fù)雜決策中的核心作用。

將推理融入 VLA 模型，帶來了多重顯著優(yōu)勢(shì)。它能有效彌合高層指令與底層行動(dòng)的鴻溝，通過中間思考步驟提升模型對(duì)復(fù)雜指令的理解和分解能力，從而增強(qiáng)其在面對(duì)新場(chǎng)景和對(duì)象時(shí)的泛化性和對(duì)復(fù)雜任務(wù)的解決能力。此外，推理過程的外化極大地提高了模型的可解釋性，使人類能清晰審查決策、定位錯(cuò)誤并實(shí)時(shí)干預(yù)，從而深化人機(jī)協(xié)作。

然而，推理的應(yīng)用也面臨局限。最突出的是，推理過程往往涉及冗長(zhǎng)序列，導(dǎo)致推理時(shí)間增加和執(zhí)行速度降低，這對(duì)于需要實(shí)時(shí)響應(yīng)的高頻任務(wù)而言是關(guān)鍵瓶頸。同時(shí)，當(dāng)前推理步驟的固定性以及高質(zhì)量、大規(guī)模推理數(shù)據(jù)集構(gòu)建的挑戰(zhàn)，也限制了其靈活性和進(jìn)一步發(fā)展。

VLA 中的數(shù)據(jù)來源

在 VLA 迅速發(fā)展的當(dāng)下，“數(shù)據(jù)” 正成為決定模型能力邊界的關(guān)鍵因素。因此，文章系統(tǒng)梳理了當(dāng)前 VLA 模型所依賴的數(shù)據(jù)資源，并按照 “數(shù)據(jù)金字塔” 的框架，將其劃分為三層：網(wǎng)絡(luò)數(shù)據(jù)與人類視頻、合成與仿真數(shù)據(jù)、真實(shí)機(jī)器人數(shù)據(jù)。這三類數(shù)據(jù)在模態(tài)組合、監(jiān)督粒度和具身相關(guān)性上各具優(yōu)劣，同時(shí)在性能與泛化能力之間形成了清晰的分工。

金字塔的底層由網(wǎng)絡(luò)數(shù)據(jù)與人類視頻構(gòu)成。這類數(shù)據(jù)規(guī)模最大、獲取成本最低，盡管不包含機(jī)器人可執(zhí)行的動(dòng)作標(biāo)簽，但它們?yōu)槟Ｐ徒⑼ㄓ靡曈X語言理解能力提供了基礎(chǔ)。例如，大量圖文對(duì)支持模型學(xué)習(xí)物體、動(dòng)作與場(chǎng)景的語義表征；而第一人稱視角的人類演示視頻（如廚房任務(wù)）則提供了豐富的多模態(tài)信息。雖然這些數(shù)據(jù)缺乏動(dòng)作監(jiān)督與精確標(biāo)注，但其強(qiáng)語義密度使其成為 VLA 預(yù)訓(xùn)練中不可或缺的資源，幫助模型 “看懂世界”“聽懂任務(wù)”，為后續(xù)具身接入與行為學(xué)習(xí)打下語義基礎(chǔ)。此外，這類數(shù)據(jù)還廣泛用于訓(xùn)練 trajectory，latent representation 等 action token。

金字塔的中層由合成與仿真數(shù)據(jù)構(gòu)成。相比昂貴而稀缺的真實(shí)機(jī)器人數(shù)據(jù)，這類數(shù)據(jù)提供了高性價(jià)比且更多樣化的數(shù)據(jù)；相比人類視頻，它包含明確的動(dòng)作標(biāo)簽。主流做法包括兩類：離線數(shù)據(jù)合成與交互式仿真平臺(tái)。離線數(shù)據(jù)合成方法如 MimicGen、DexMimicGen 和 RoboCasa，通過程序化修改、動(dòng)力學(xué)擾動(dòng)等手段，從少量演示中生成覆蓋廣泛任務(wù)與環(huán)境變化的大規(guī)模軌跡數(shù)據(jù)。而交互式仿真平臺(tái)（如 Isaac Lab、Habitat、robosuite 等）則提供了一個(gè)可反復(fù)試驗(yàn)、高度可控的 “具身訓(xùn)練場(chǎng)”。研究者可以通過遙操作、算法規(guī)劃或強(qiáng)化學(xué)習(xí)等方式持續(xù)生成行為數(shù)據(jù)，并通過程序生成器不斷多樣化環(huán)境配置。值得注意的是，越來越多的仿真平臺(tái)開始融合高保真物理引擎與真實(shí) 3D 場(chǎng)景資產(chǎn)，使仿真交互更接近現(xiàn)實(shí)，適用于復(fù)雜任務(wù)的預(yù)訓(xùn)練。

金字塔的頂層是真實(shí)機(jī)器人數(shù)據(jù)，承載了物理世界中最具真實(shí)性的動(dòng)作信息。相比仿真或人類演示，真機(jī)數(shù)據(jù)包含了現(xiàn)實(shí)世界中的動(dòng)態(tài)變化、感知噪聲與物理約束，是將策略 “從仿真走向真實(shí)” 的關(guān)鍵支撐。綜述系統(tǒng)梳理了多個(gè)代表性數(shù)據(jù)集：多機(jī)器人數(shù)據(jù)（如 OXE、RoboMIND），單機(jī)器人數(shù)據(jù)集（如 RT-1、DROID、AgiBot World），以及自動(dòng)駕駛?cè)蝿?wù)中的時(shí)序軌跡（如 Waymo Open Dataset-Motion）。這些數(shù)據(jù)覆蓋了各種場(chǎng)景中不同形態(tài)的機(jī)器人完成不同任務(wù)的真機(jī)軌跡，還在故障軌跡、力矩 / 聲音模態(tài)等方面提供了學(xué)習(xí)樣本，為策略訓(xùn)練帶來了更強(qiáng)的現(xiàn)實(shí)魯棒性與泛化數(shù)據(jù)支撐。

結(jié)語

VLA 模型正迅速成為通往具身智能的核心路徑。這篇綜述首次從 action token 視角系統(tǒng)梳理 VLA 技術(shù)路線，明確八類 token 的設(shè)計(jì)思路、優(yōu)劣權(quán)衡與發(fā)展趨勢(shì)，并指出當(dāng)前研究中的關(guān)鍵挑戰(zhàn)與未來方向。隨著基礎(chǔ)模型能力的持續(xù)躍升、數(shù)據(jù)的不斷擴(kuò)展、研究人員的不斷努力，VLA 研究正在邁向通用智能的下一站。

在即將到來的 2025 世界人工智能大會(huì)（7 月 26-29 日）上，靈初智能將全面展示 VLA 技術(shù)的產(chǎn)業(yè)化成果，其發(fā)布的 Psi R1 模型能夠?qū)崿F(xiàn) 30 分鐘連續(xù)麻將博弈，展現(xiàn)了機(jī)器人在開放環(huán)境下處理復(fù)雜任務(wù)的突破性能力，標(biāo)志著具身智能從簡(jiǎn)單動(dòng)作執(zhí)行向真正的認(rèn)知決策和長(zhǎng)程操作的關(guān)鍵躍遷。這將為業(yè)界提供一個(gè)觀察 VLA 技術(shù)從理論突破走向?qū)嶋H應(yīng)用的重要窗口，共同推動(dòng)具身智能技術(shù)在真實(shí)世界中的廣泛落地。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="bof0n"></abbr>

<var id="bof0n"></var>