偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大-靈初重磅發(fā)布具身VLA全面綜述!一文看清VLA技術(shù)路線與未來趨勢(shì)

人工智能 新聞
北京大學(xué) - 靈初智能聯(lián)合實(shí)驗(yàn)室首次從動(dòng)作詞元化(action tokenization)視角,提出統(tǒng)一理解 VLA 模型的新框架。

如今,GPT-4o、Gemini 2.5 Pro 等多模態(tài)基礎(chǔ)模型在對(duì)話、代碼生成和數(shù)學(xué)推理等任務(wù)中已經(jīng)達(dá)到甚至超越了人類水平。研究者開始探索如何將這種智能從數(shù)字世界延伸至物理空間,以實(shí)現(xiàn)具身智能。這其中最受關(guān)注的前沿方向之一,便是視覺 - 語言 - 動(dòng)作模型(Vision-Language-Action Models,簡(jiǎn)稱 VLA)。此類模型借助基礎(chǔ)模型的通用能力與大規(guī)模學(xué)習(xí)范式,可以處理通用的視覺(Vision)與語言(Language)輸入,并生成實(shí)時(shí)動(dòng)作(Action),極大地賦能了機(jī)器人系統(tǒng)。

近兩年來,VLA 相關(guān)研究爆發(fā)式增長(zhǎng),技術(shù)路線日新月異 —— 但這也造成了認(rèn)知碎片化與理解上的困難。現(xiàn)有分類方法如 “大腦 - 小腦”、“快慢系統(tǒng)”、“分層 - 端到端” 等,直覺清晰但本質(zhì)仍不明確。領(lǐng)域急需系統(tǒng)化的分析框架,以梳理研究現(xiàn)狀,指明未來方向。

為此,北京大學(xué) - 靈初智能聯(lián)合實(shí)驗(yàn)室首次從動(dòng)作詞元化(action tokenization)視角,提出統(tǒng)一理解 VLA 模型的新框架。綜述系統(tǒng)分析了八種主流 action token,探討了不同動(dòng)作表示背后的能力支撐、數(shù)據(jù)擴(kuò)展策略和適用場(chǎng)景,明確了未來的架構(gòu)趨勢(shì)與關(guān)鍵挑戰(zhàn)。論文由靈初智能 00 后聯(lián)合創(chuàng)始人陳源培與北京大學(xué)人工智能研究院助理教授楊耀東共同擔(dān)任通訊作者。

值得一提的是,在發(fā)布這一重要理論成果的同時(shí),靈初智能也在加速推進(jìn) VLA 技術(shù)的產(chǎn)業(yè)化落地。其自研的 VLA 模型 Psi R1 已在麻將機(jī)器人等實(shí)際場(chǎng)景中得到驗(yàn)證,7/25 晚 20:00 鎖定抖音直播,靈初智能聯(lián)合創(chuàng)始人陳源培將與搭載 Psi R1 的靈初智能機(jī)器人小靈、智元機(jī)器人聯(lián)合創(chuàng)始人稚暉君和首形科技創(chuàng)始人 U 航展開一場(chǎng)麻將對(duì)戰(zhàn)。

除此之外,還有外賣機(jī)器人、超市打包機(jī)器人等也將在 WAIC 2025(7 月 26-29 日,上海世博展覽館 H3-C604 展位)上進(jìn)行集中展示,為業(yè)界提供從理論到應(yīng)用的完整技術(shù)路徑參考。

圖片圖片

圖片

  • 論文標(biāo)題:A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
  • 論文鏈接:https://arxiv.org/abs/2507.01925
  • 倉(cāng)庫(kù)地址:https://github.com/Psi-Robot/Awesome-VLA-Papers

核心觀點(diǎn)總結(jié)

  • VLA 統(tǒng)一框架與 Action Token 分類:當(dāng)前的 VLA 系統(tǒng)遵循一個(gè)通用框架:視覺與語言輸入經(jīng)過一系列 VLA modules 逐級(jí)處理,生成逐漸具體的 action token,最終轉(zhuǎn)化為動(dòng)作輸出。在該框架中,action token 可分為 language description、code、affordance、trajectory、goal state、latent representation、raw action 和 reasoning 八類。VLA 中的 action token 是 LLM 中 language token 的推廣。
  • Action Token 發(fā)展趨勢(shì):VLA 模型的未來不在于依賴單一 action token,而在于多種 token 的協(xié)同。Language motion 表達(dá)能力有限,難以成為主流; language plan 在任務(wù)分解中不可或缺。Code 是另一種高效的規(guī)劃形式,其潛力依賴于構(gòu)建完備的感知與動(dòng)作函數(shù)庫(kù)。Affordance(做什么)與 trajectory(如何做)可互補(bǔ)結(jié)合,并借助 goal state 的目標(biāo)預(yù)測(cè)提升生成精度。Latent representation 雖具潛力,但訓(xùn)練中面臨粒度、語義覆蓋和任務(wù)對(duì)齊等挑戰(zhàn)。Raw action 最適合端到端學(xué)習(xí),但能力高度依賴數(shù)據(jù)。Reasoning 可作為 “元 token” 增強(qiáng)其他 token 的生成,未來將從基于 language token 的推理發(fā)展為基于 action token 的多模態(tài)推理,并支持任務(wù)適應(yīng)性推理計(jì)算。
  • 新興 Action Token 類型:Action token 類型由基礎(chǔ)模型的能力決定。隨著模型的演進(jìn)和聽覺、觸覺等新模態(tài)的引入,未來可能涌現(xiàn)出更多新的 action token 類型與子類型。
  • VLA 架構(gòu)趨勢(shì):未來的 VLA 模型很可能采用分層架構(gòu):頂層通過 language description 和 code 實(shí)現(xiàn)長(zhǎng)程規(guī)劃與邏輯控制。下層在近期內(nèi)預(yù)計(jì)將使用 goal state 的視頻預(yù)測(cè)、trajectory 的流建模以及 affordance 的三維交互預(yù)測(cè)緊密結(jié)合,形成中間動(dòng)作表示,最終映射為 raw action。長(zhǎng)期來看,下層將演化為完全端到端的方式,直接從子任務(wù)級(jí)輸入預(yù)測(cè) raw action。reasoning 按需貫穿整個(gè) VLA 模型,增強(qiáng) action token 生成。
  • 從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí):引入強(qiáng)化學(xué)習(xí)可幫助 VLA 模型突破模仿學(xué)習(xí)的局限,實(shí)現(xiàn)類人試錯(cuò)與自主探索。實(shí)際部署則需更高效的強(qiáng)化算法,以應(yīng)對(duì)高重置成本和低交互效率。同時(shí),VLM 可自動(dòng)生成密集獎(jiǎng)勵(lì),加速訓(xùn)練與應(yīng)用。
  • 從 VLA 模型到 VLA 智能體:VLA 模型應(yīng)向具備記憶、探索、規(guī)劃和反思能力的主動(dòng)型 VLA 智能體演進(jìn),并由線性結(jié)構(gòu)轉(zhuǎn)向更復(fù)雜的雙向或圖結(jié)構(gòu)架構(gòu)。
  • 模型、數(shù)據(jù)與硬件協(xié)同發(fā)展:具身智能旨在應(yīng)對(duì)物理世界的非結(jié)構(gòu)化與開放性挑戰(zhàn),亟需模型、數(shù)據(jù)與硬件協(xié)同發(fā)展。然而受限于機(jī)器人平臺(tái)與高質(zhì)量數(shù)據(jù)匱乏,研究多局限于簡(jiǎn)化實(shí)驗(yàn)場(chǎng)景,整體仍處早期階段。實(shí)現(xiàn)通用智能需三者協(xié)同演進(jìn),協(xié)力前行。
  • 安全與對(duì)齊:當(dāng)前的 VLA 研究主要關(guān)注模型能力,未來必須更加重視安全性與人類對(duì)齊。

VLA 統(tǒng)一框架與 Action Token 視角

VLA 模型指依托至少一個(gè)視覺或語言基礎(chǔ)模型,能夠根據(jù)視覺與語言輸入,生成動(dòng)作輸出的模型。其本質(zhì)目標(biāo)是將基礎(chǔ)模型在數(shù)字世界中的智能延伸到物理世界,實(shí)現(xiàn)具體的、具身的任務(wù)執(zhí)行能力。

VLA 統(tǒng)一框架描述了不同 VLA 模型共同遵循的通用架構(gòu):即視覺和語言輸入經(jīng)過一系列功能模塊(VLA modules),逐層處理并生成更具體、可執(zhí)行的動(dòng)作信息(action token),最終轉(zhuǎn)化為實(shí)際的動(dòng)作輸出。

VLA module 指 VLA 模型中支持端到端梯度傳播的最大可微子網(wǎng)絡(luò),或不可微的功能模塊(如 motion planning),承擔(dān)特定的能力(例如場(chǎng)景感知、動(dòng)作規(guī)劃等),并在模型內(nèi)部彼此協(xié)同工作。

Action token 則是不同 VLA modules 之間傳遞的動(dòng)作表示,承載具體動(dòng)作信息??梢岳斫鉃?VLA 模型生成的 “動(dòng)作語言”,用于明確不同模塊間的溝通內(nèi)容與執(zhí)行目標(biāo)。

圖片

舉個(gè)具體的例子,以完成 “端茶倒水” 任務(wù)為例:

  • 首先,一個(gè) VLA module 處理視覺輸入和語言指令,接受指令 “我渴了,請(qǐng)為我倒一杯茶”,識(shí)別場(chǎng)景中的茶壺、茶杯等物品,并規(guī)劃出下一步的子任務(wù)目標(biāo),比如:“抓起茶壺把手”。這里生成的子任務(wù)描述即為一種 action token(此處為 language plan)。
  • 接著,另一個(gè) VLA module 接收該 action token,進(jìn)一步規(guī)劃具體的抓取路徑與運(yùn)動(dòng)軌跡,并生成更加具體的動(dòng)作描述(例如 trajectory)。
  • 最終,這些更具體的 action tokens 被下游的模塊轉(zhuǎn)化為機(jī)器人可以直接執(zhí)行的動(dòng)作序列(即 raw actions),實(shí)現(xiàn) “端茶倒水” 的實(shí)際行為。

這樣的模塊化結(jié)構(gòu)和 action token 的概念,不僅明確了 VLA 系統(tǒng)的內(nèi)部結(jié)構(gòu),也為深入分析和理解該類模型提供了統(tǒng)一的視角和框架?;诖耍@篇綜述發(fā)現(xiàn)當(dāng)前的 VLA 模型主要使用了八種 action token,并進(jìn)行了系統(tǒng)的分類梳理與分析。

圖片

綜述論文還以時(shí)間軸的形式展示了基礎(chǔ)模型、基于 action token 分類的 VLA 模型,以及相關(guān)數(shù)據(jù)工作的演進(jìn)歷程。其中呈現(xiàn)出的 U 形結(jié)構(gòu)清晰地表明,VLA 模型的快速發(fā)展受到基礎(chǔ)模型與數(shù)據(jù)資源持續(xù)進(jìn)步的雙重驅(qū)動(dòng)。

圖片

八種 Action Token 的梳理分析

Language Description(語言描述)

用自然語言的形式描述要完成的動(dòng)作,按照描述顆粒度主要分為子任務(wù)級(jí)別的 language plan(“端起茶杯”)和原子動(dòng)作級(jí)別的 language motion(“手往前伸”)兩種。

該類方法利用 LLM 和 VLM 在理解、推理、分解任務(wù)等方面的能力,使機(jī)器人能夠以更 “類人” 的方式規(guī)劃和執(zhí)行復(fù)雜任務(wù)。

早期工作如 Language Planner、SayCan 等表明,LLM 可直接將高層指令拆解為語義明確的子任務(wù)(language plan),大幅降低人工設(shè)定需求。為了緩解僅使用 LLM 導(dǎo)致的缺乏環(huán)境感知的缺陷,他們引入視覺模塊和動(dòng)態(tài)反饋等顯式的落地機(jī)制,提升了模型對(duì)實(shí)際場(chǎng)景的適應(yīng)和操作能力。后續(xù)研究直接使用 VLM 進(jìn)一步提升多模態(tài)理解和規(guī)劃能力。此外,針對(duì)復(fù)雜和長(zhǎng)時(shí)任務(wù),部分研究(如 BUMBLE、ReflectVLM)引入了記憶與反思機(jī)制,使系統(tǒng)具備分階段推理與跨場(chǎng)景適應(yīng)能力。最近的 Hi Robot、pi0.5 等則進(jìn)一步消除了下層簡(jiǎn)單策略的能力限制,擴(kuò)展到能執(zhí)行通用 language plan 的策略,實(shí)現(xiàn)了更強(qiáng)的任務(wù)泛化和動(dòng)態(tài)修正能力。在細(xì)粒度 language description 的研究方面,RT-H、NaVILA 等工作將低層動(dòng)作細(xì)化為 language motion,促進(jìn)了跨任務(wù)的數(shù)據(jù)共享和人機(jī)交互。

這一范式展示出諸多優(yōu)勢(shì)。一是與基礎(chǔ)模型高度兼容:語言描述與 LLM/VLM 的原生輸出空間一致,能夠充分發(fā)揮模型的理解、推理和規(guī)劃能力,實(shí)現(xiàn)零樣本(zero-shot)或少樣本(few-shot)泛化,顯著降低任務(wù)定制化成本。二是豐富的訓(xùn)練數(shù)據(jù)支持:借助海量圖文與操作數(shù)據(jù),語言描述能有效遷移現(xiàn)實(shí)世界知識(shí),提升模型的泛化性與可擴(kuò)展性。三是更強(qiáng)的長(zhǎng)時(shí)規(guī)劃能力:分層的語言指令有助于模型處理長(zhǎng)鏈路、多階段任務(wù),支持復(fù)雜任務(wù)的結(jié)構(gòu)化分解和執(zhí)行。四是高度可解釋性與可控性:自然語言表達(dá)易于人類理解和干預(yù),方便實(shí)現(xiàn)人機(jī)協(xié)同、動(dòng)態(tài)糾錯(cuò)與在線優(yōu)化。

但當(dāng)前也面臨表達(dá)精度不足與推理時(shí)延等挑戰(zhàn)。未來,研究趨勢(shì)是將 language description 用于高層規(guī)劃,底層控制則結(jié)合 affordance、trajectory、goal state 等精細(xì)表示,從而兼顧任務(wù)復(fù)雜性和動(dòng)作精確性,推動(dòng)具身智能系統(tǒng)在復(fù)雜環(huán)境下的實(shí)用落地。

Code(代碼)

用代碼的形式表達(dá)任務(wù)的實(shí)現(xiàn)邏輯,包含循環(huán)、分支等邏輯控制和機(jī)器人感知、控制的 API 調(diào)用。

代碼是人類與計(jì)算機(jī)之間最直接也最高效的交流方式。文章系統(tǒng)梳理了近年來以 code 為 action token 的 VLA 研究進(jìn)展,聚焦其如何從 “能運(yùn)行的控制代碼” 演進(jìn)為 “具備邏輯結(jié)構(gòu)、感知能力與任務(wù)泛化能力的機(jī)器人行為策略”。代碼其核心思想是:將自然語言和視覺輸入轉(zhuǎn)化為結(jié)構(gòu)清晰、具備可讀性與可執(zhí)行性的程序或偽代碼,擺脫對(duì)神經(jīng)網(wǎng)絡(luò)隱式向量的依賴,用明確、透明的代碼來驅(qū)動(dòng)機(jī)器人行為。

code 的主要優(yōu)勢(shì)在于當(dāng)前語言模型在代碼生成方面已展現(xiàn)出極強(qiáng)的能力。生成的程序不僅能夠自然地調(diào)用預(yù)定義的機(jī)器人操作 API,也可以集成感知基礎(chǔ)模型提供的識(shí)別模塊,還能靈活接入如 NumPy、PyTorch 等常用庫(kù)進(jìn)行空間計(jì)算與邏輯控制。這種模塊化、可組合的特性,使得策略能夠快速適配新任務(wù),具備良好的擴(kuò)展性與可調(diào)試性。同時(shí),代碼語言天然具備流程控制結(jié)構(gòu),如條件判斷與循環(huán)語句,從而完成邏輯更復(fù)雜的任務(wù)規(guī)劃。

但與此同時(shí),code 也面臨現(xiàn)實(shí)挑戰(zhàn)。首先,它對(duì) API 庫(kù)的依賴極高,而 API 本身的覆蓋范圍往往受限。一旦機(jī)器人需要的功能未被定義,或已有接口無法適配當(dāng)前任務(wù)需求,策略即失效。例如,如果現(xiàn)有控制 API 并不支持對(duì) “濕滑地面”“易碎物體” 等復(fù)雜環(huán)境屬性進(jìn)行建模和調(diào)用,那么即使生成的代碼邏輯正確,也無法穩(wěn)健執(zhí)行所需動(dòng)作。其次,代碼結(jié)構(gòu)的固定性也帶來了執(zhí)行層的脆弱性。一方面,語言模型在生成代碼時(shí)可能出現(xiàn)邏輯錯(cuò)誤、結(jié)構(gòu)冗余等問題,影響控制效率;但更嚴(yán)重的是,代碼本身往往默認(rèn)了若干環(huán)境前提條件。一旦實(shí)際場(chǎng)景違背這些假設(shè)(例如物體潮濕、位置偏移或不可見),系統(tǒng)可能觸發(fā)不當(dāng)操作,甚至導(dǎo)致物體損壞或設(shè)備安全風(fēng)險(xiǎn)。

因此,未來研究可以從兩個(gè)維度進(jìn)一步釋放代碼式策略的潛力。一方面,需要構(gòu)建更完善、更語義豐富的機(jī)器人 API 庫(kù),使語言模型能夠通過調(diào)用接口實(shí)現(xiàn)復(fù)雜任務(wù)的自動(dòng)編排,尤其適用于多步驟、長(zhǎng)時(shí)序的任務(wù)控制。另一方面,引入形式化驗(yàn)證機(jī)制以檢測(cè) API 調(diào)用的一致性與合法性,并配合運(yùn)行時(shí)安全監(jiān)控手段,降低執(zhí)行層風(fēng)險(xiǎn)。同時(shí),代碼的可讀性也為 “人機(jī)協(xié)同控制” 提供了天然接口 —— 人類可以參與策略微調(diào)、糾錯(cuò)甚至插入控制邏輯,為構(gòu)建可信、可控的具身智能系統(tǒng)提供新的技術(shù)路徑。

Affordance(可操作性)

一種基于空間的表示方式,刻畫物體在當(dāng)前任務(wù)中可以如何被交互使用。常見形式包括關(guān)鍵點(diǎn)(keypoint)、邊界框(bounding box)、分割掩碼(segmentation mask)或可操作圖(affordance map)。

在具身智能系統(tǒng)中,如何將感知結(jié)果轉(zhuǎn)化為可執(zhí)行動(dòng)作,始終是 “語言 - 感知 - 控制” 鏈條中最具挑戰(zhàn)性的環(huán)節(jié)之一。近年來 VLA 興起的一個(gè)關(guān)鍵方向是將 affordance(可操作性)作為結(jié)構(gòu)化的 action token,用于連接高層感知理解與底層控制執(zhí)行。所謂 affordance,指的是物體或區(qū)域 “可以被如何交互” 的結(jié)構(gòu)化表示,例如杯沿可能是 “可抓取的”,抽屜把手可能是 “可拉動(dòng)的”。相較于傳統(tǒng)的坐標(biāo)點(diǎn)或動(dòng)作軌跡表示,affordance 更強(qiáng)調(diào)語義明確、空間對(duì)齊,并具備良好的任務(wù)適應(yīng)性。當(dāng)前的 VLA 研究中,affordance 動(dòng)作表達(dá)的形式包括:關(guān)鍵點(diǎn)、邊界框、分割掩碼以及可操作性圖,每種方式在任務(wù)類型、精度要求與環(huán)境復(fù)雜度之間展現(xiàn)出互補(bǔ)優(yōu)勢(shì)。

不同的表示形式各有側(cè)重:關(guān)鍵點(diǎn)能夠精確指示交互目標(biāo),如把手或按鈕;邊界框在多類檢測(cè)模型和語言視覺模型支持下可高效實(shí)現(xiàn)實(shí)例定位;分割掩碼為功能性區(qū)域提供像素級(jí)輪廓與幾何細(xì)節(jié),適用于復(fù)雜表面操作;而可操作性圖則從全局視角提供稠密、概率化的交互區(qū)域分布,適合復(fù)雜場(chǎng)景下的空間推理與動(dòng)作規(guī)劃。

盡管具有結(jié)構(gòu)清晰、跨平臺(tái)遷移性強(qiáng)等優(yōu)勢(shì),現(xiàn)有 affordance 動(dòng)作表示仍面臨三類核心挑戰(zhàn):一是空間表達(dá)維度不足,多數(shù)方法仍停留在 2D 或投影 3D 表達(dá),難以勝任需要完整空間理解的真實(shí)操作任務(wù);二是動(dòng)態(tài)建模缺失,affordance 通常被視為靜態(tài)屬性,忽略了動(dòng)作執(zhí)行后的狀態(tài)變化,無法處理例如 “打開瓶蓋后變?yōu)榭傻钩觥?的動(dòng)態(tài)演化;三是感知魯棒性有限,在遮擋、模糊等視覺干擾下容易出現(xiàn)誤判,影響下游控制穩(wěn)定性。

針對(duì)這些問題,文章總結(jié)出 affordance 動(dòng)作表示未來的三個(gè)關(guān)鍵發(fā)展方向:

  • 構(gòu)建原生三維表達(dá)形式,基于神經(jīng)輻射場(chǎng)、高斯渲染等方法,實(shí)現(xiàn)對(duì)物體幾何與空間布局的真實(shí)建模;
  • 引入時(shí)序建模機(jī)制,使模型能夠感知并預(yù)測(cè)交互過程中的 affordance 演化,提高對(duì)長(zhǎng)時(shí)序任務(wù)的適應(yīng)能力; 
  • 增強(qiáng)策略魯棒性與不確定性感知能力,不僅預(yù)測(cè)交互區(qū)域,還需識(shí)別模型自身置信度,提升決策安全性與可控性。

Trajectory(軌跡)

表示物體、末端執(zhí)行器或場(chǎng)景隨時(shí)間變化的連續(xù)空間狀態(tài)序列,也就是 “從哪里到哪里怎么動(dòng)”。

在 VLA 模型的研究中,一個(gè)核心挑戰(zhàn)是附帶動(dòng)作標(biāo)簽的機(jī)器人數(shù)據(jù)集的稀缺性。近期研究表明,將 “軌跡(Trajectory)” 作為一種動(dòng)作表征,是應(yīng)對(duì)此挑戰(zhàn)的有效范式。該方法通過利用無需動(dòng)作標(biāo)注的通用視頻數(shù)據(jù),用其中蘊(yùn)含的運(yùn)動(dòng)軌跡來表示動(dòng)作,從而顯著拓寬了模型的訓(xùn)練數(shù)據(jù)來源。

該研究方向的核心在于將機(jī)器人動(dòng)作編碼為運(yùn)動(dòng)軌跡。這些表征主要分為三類:一是點(diǎn)軌跡(Point Trajectory),通過一系列時(shí)序下的離散坐標(biāo)點(diǎn)來為機(jī)器人提供精確的路徑引導(dǎo);二是視覺軌跡(Visual Trajectory),它將運(yùn)動(dòng)路徑直接渲染于圖像之上,在視覺上下文中直觀地呈現(xiàn)動(dòng)作意圖;三是光流(Optical Flow),作為一種更為稠密的表征,它描述場(chǎng)景中每個(gè)像素的運(yùn)動(dòng)矢量,從而捕捉了整體環(huán)境的動(dòng)態(tài)信息。

基于軌跡的動(dòng)作表征展現(xiàn)出多項(xiàng)關(guān)鍵優(yōu)勢(shì)。首先,正如前文所言,用軌跡作為動(dòng)作表征可以有效地利用大量視頻數(shù)據(jù),拓寬訓(xùn)練數(shù)據(jù)來源。其次,也是至關(guān)重要的一點(diǎn),軌跡在任務(wù)泛化上表現(xiàn)出卓越的能力。對(duì)于那些語義目標(biāo)不同但底層運(yùn)動(dòng)模式相似的任務(wù)(例如 “擦拭表面” 與 “滑動(dòng)滑塊”),基于軌跡的策略能夠?qū)崿F(xiàn)更高效的零樣本泛化。再次,與依賴隱空間表征的抽象方法相比,軌跡是一種外顯且具備人類可解釋性的動(dòng)作形式,為模型的訓(xùn)練與調(diào)試提供了極大便利。

盡管前景廣闊,該方法仍面臨若干挑戰(zhàn)。當(dāng)前多數(shù)工作聚焦于二維軌跡,其固有的三維空間信息(尤其是物體姿態(tài)與旋轉(zhuǎn))的缺失,限制了其在復(fù)雜靈巧操作任務(wù)中的應(yīng)用。同時(shí),部分依賴大型生成模型的方法存在計(jì)算成本高、推理頻率低的問題,難以滿足機(jī)器人實(shí)時(shí)、平滑控制的需求。此外,純軌跡表征在處理需要復(fù)雜交互邏輯、力控制或基于物體功能理解(affordance)的任務(wù)時(shí),其語義豐富度尚顯不足。

因此,未來的研究方向?qū)⒅饕劢褂谌齻€(gè)方面:一是探索包含完整六自由度(6-DoF)信息的三維空間軌跡表征;二是開發(fā)輕量化、高效率的軌跡生成與規(guī)劃模型;三是構(gòu)建結(jié)合了軌跡路徑與語義概念的混合式動(dòng)作表征,從而使機(jī)器人能夠應(yīng)對(duì)更廣泛、更復(fù)雜的任務(wù)場(chǎng)景。

Goal State(目標(biāo)狀態(tài))

對(duì)未來動(dòng)作結(jié)果的視覺預(yù)測(cè),如一張圖片、點(diǎn)云或視頻片段,直觀地展示執(zhí)行完某個(gè)動(dòng)作序列后應(yīng)該達(dá)到的目標(biāo)樣子,用作規(guī)劃和執(zhí)行的中間目標(biāo)。

讓機(jī)器人 “想清楚” 再行動(dòng)。我們?nèi)祟愒趫?zhí)行任務(wù)前,常會(huì)先在腦中構(gòu)想最終結(jié)果。受此啟發(fā),VLA 模型也開始采用預(yù)測(cè)的目標(biāo)狀態(tài),即任務(wù)預(yù)期結(jié)果的視覺呈現(xiàn),來作為中間的 “行動(dòng)指令”。這就像在給機(jī)器人下達(dá)指令后,先讓它 “想象” 出任務(wù)完成的樣子,再根據(jù)這個(gè) “想象” 來規(guī)劃具體動(dòng)作,從而彌合高層指令與低層執(zhí)行之間的鴻溝。

這種方法通常采用分層架構(gòu):一個(gè)高層模型根據(jù)指令生成目標(biāo)狀態(tài)的圖像或視頻,隨后低層模型依據(jù)這個(gè)視覺指引來生成最終的動(dòng)作序列。目標(biāo)狀態(tài)主要分為單幀圖像和多幀視頻。單幀圖像描繪任務(wù)完成后的靜態(tài)場(chǎng)景,帶來數(shù)據(jù)可擴(kuò)展性高、能利用無動(dòng)作視頻訓(xùn)練等優(yōu)勢(shì)。而多幀視頻則提供了更豐富的時(shí)間上下文和 “如何做” 的線索,能從大規(guī)模數(shù)據(jù)中生成、提取隱式動(dòng)作信息,并增強(qiáng)模型在不同任務(wù)和機(jī)器人平臺(tái)間的泛化能力。

目標(biāo)狀態(tài)的核心優(yōu)勢(shì)在于其極佳的數(shù)據(jù)可擴(kuò)展性(通過自動(dòng)化數(shù)據(jù)生成)、更廣泛的數(shù)據(jù)源和更強(qiáng)的泛化能力(利用無動(dòng)作視頻和人類執(zhí)行數(shù)據(jù)),以及增強(qiáng)的任務(wù)特異性(提供精確視覺指引),同時(shí)還具備魯棒的可解釋性和直觀的評(píng)估方式。然而,目標(biāo)狀態(tài)也面臨挑戰(zhàn):生成高質(zhì)量、一致性的目標(biāo)狀態(tài)依然困難,可能出現(xiàn)過度具體或不準(zhǔn)確的情況;此外,生成未來圖像或視頻會(huì)引入較高的推理延遲,影響實(shí)時(shí)控制。盡管如此,隨著圖像和視頻生成技術(shù)的飛速發(fā)展,目標(biāo)狀態(tài)作為 VLA 模型中一個(gè)充滿前景的行動(dòng)指令,正不斷提升機(jī)器人理解和執(zhí)行復(fù)雜任務(wù)的能力。未來的研究將重點(diǎn)關(guān)注提高計(jì)算效率、增強(qiáng)環(huán)境魯棒性,以及優(yōu)化長(zhǎng)程任務(wù)規(guī)劃。

Latent Representation(隱式表示)

通過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練得到的一段隱向量序列,用來編碼一定時(shí)間范圍內(nèi)與動(dòng)作相關(guān)的信息。

如何讓機(jī)器人像人一樣,通過觀察就能快速學(xué)習(xí)各種任務(wù)?近期的 VLA 研究開發(fā)了一種新的訓(xùn)練范式,不再大量依賴昂貴的、為機(jī)器人量身定制的訓(xùn)練數(shù)據(jù),通過讓 AI 模型觀看多樣的機(jī)器人視頻數(shù)據(jù)集和海量的人類視頻數(shù)據(jù)集(如 Ego4D 等),可以自動(dòng)學(xué)習(xí)并提煉出一套通用的動(dòng)作 “隱式表示(latent representation)”。

這一類方法的核心在于構(gòu)建動(dòng)作的隱式表示,根據(jù)編碼的動(dòng)作信息不同,主要分為以下三類:視覺變化信息,通過分析一段時(shí)間內(nèi)視覺場(chǎng)景的變化(比如機(jī)械臂的移動(dòng)),來推斷其中發(fā)生的動(dòng)作;動(dòng)作塊壓縮信息,將一段完整的機(jī)器人動(dòng)作序列(Action Chunk),直接壓縮成一個(gè)高效、緊湊的 “動(dòng)作 ID”;任務(wù)目標(biāo)信息,將一系列的視覺觀察,編碼成一個(gè)具有高級(jí)語義的 “目標(biāo)” 信息,指導(dǎo)后續(xù)行為。

這一 “潛在動(dòng)作” 方法的價(jià)值是多方面的。首先,它極大地拓寬了數(shù)據(jù)來源,使得幾乎所有機(jī)器人數(shù)據(jù)集和海量人類視頻都能成為機(jī)器人的 “教科書”。其次,它顯著提升了訓(xùn)練效率。例如,文中提到的 UniVLA 模型,采用該方法后,僅用 OpenVLA 所需 4.45% 的預(yù)訓(xùn)練時(shí)間,就達(dá)到了相當(dāng)?shù)男阅?,效率飛躍超過 20 倍。最關(guān)鍵的是,這種方法學(xué)習(xí)到的動(dòng)作是 “身體無關(guān)” 的,意味著從人類視頻中學(xué)到的操作技能,可以被有效遷移到擁有不同形態(tài)的機(jī)器人身上,展現(xiàn)了驚人的泛化能力。此外,潛在動(dòng)作表示還有融合其他模態(tài)動(dòng)作信息的潛力,比如觸覺和聽覺信息。

盡管有上述的種種優(yōu)點(diǎn),該方法也面臨著挑戰(zhàn),主要在于其 “黑箱” 特性 —— 由于 “潛在動(dòng)作” 由 AI 自主定義,其內(nèi)部邏輯難以被人類完全理解和干預(yù),這給調(diào)試和確保安全性帶來了新的挑戰(zhàn)。因此,確保這些潛在的動(dòng)作表示具有良好的性質(zhì)和質(zhì)量變得尤為重要。未來的研究將聚焦于三大方向:如何讓這套 “潛在動(dòng)作” 的粒度更精細(xì)以支持復(fù)雜操作;如何確保其完備性以覆蓋所有可能的任務(wù)場(chǎng)景;以及如何加強(qiáng)其與人類意圖的對(duì)齊,確保機(jī)器人真正 “聽得懂、干得對(duì)”。

Raw Action(原始動(dòng)作)

可以被機(jī)器人直接執(zhí)行的低層級(jí)控制指令,比如關(guān)節(jié)角度變化、末端位姿控制、輪子轉(zhuǎn)速等。

近年來,大語言模型(LLM)所展現(xiàn)出的強(qiáng)大能力引發(fā)了廣泛關(guān)注。正如 Richard Sutton 在《The Bitter Lesson》中所指出的,通向通用智能的長(zhǎng)期路徑并非依賴人類設(shè)計(jì)的領(lǐng)域知識(shí),而是通過通用方法和擴(kuò)展計(jì)算規(guī)模實(shí)現(xiàn)。LLM 的成功正源于其在預(yù)訓(xùn)練數(shù)據(jù)量和模型參數(shù)規(guī)模上的擴(kuò)展(scaling law)。因此,一個(gè)自然而然的設(shè)想是:是否可以將 LLM 的成功經(jīng)驗(yàn)推廣到 VLA 模型中?

在所有的動(dòng)作 token 表征方式中,raw action 是最直接的形式,它對(duì)應(yīng)具身智能體的底層動(dòng)作空間,例如機(jī)械臂的關(guān)節(jié)角度。這種表征天然具備無損性,既可直接從真實(shí)系統(tǒng)中采集,也可用于生成,省去了額外的動(dòng)作格式映射步驟,因而非常適合 VLA 模型的端到端訓(xùn)練。隨著數(shù)據(jù)規(guī)模和模型參數(shù)的不斷增長(zhǎng),我們有理由期待 VLA 模型出現(xiàn)類似 LLM 的 scaling law,從而實(shí)現(xiàn)更強(qiáng)的泛化能力。

近年圍繞 raw action token 的 VLA 模型的發(fā)展已初步展現(xiàn)出這一趨勢(shì)。在數(shù)據(jù)層面,多個(gè)大規(guī)模機(jī)器人數(shù)據(jù)集陸續(xù)發(fā)布,如 RT 系列、Open-X Embodiment、DROID、AgiBot World,涵蓋了跨本體、多任務(wù)的多樣性數(shù)據(jù)。模型層面的發(fā)展也呈現(xiàn)出清晰的演進(jìn)路徑:從早期的簡(jiǎn)單多模態(tài)融合架構(gòu),發(fā)展到基于 Transformer 的自回歸模型,再到近期基于基座 VLM 和擴(kuò)散模型的動(dòng)作塊生成方法(Diffusion-based Action Chunking)。這些模型在參數(shù)規(guī)模和數(shù)據(jù)使用上不斷擴(kuò)展,并借助預(yù)訓(xùn)練的 VLM 提升了泛化能力,同時(shí)擴(kuò)散模型結(jié)合動(dòng)作塊也顯著增強(qiáng)了對(duì)精細(xì)動(dòng)作分布的建模能力與動(dòng)作生成頻率。此外,LLM 中 “預(yù)訓(xùn)練 + 后訓(xùn)練” 的范式也在 VLA 中得到驗(yàn)證。研究表明,經(jīng)過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的 VLA 模型,在后訓(xùn)練階段僅需少量新數(shù)據(jù)即可遷移至下游任務(wù),大幅降低了微調(diào)與部署成本。

總體而言,基于 raw action 的 VLA 模型具有多方面優(yōu)勢(shì):其表征無需人為設(shè)計(jì)或映射,最符合《The Bitter Lesson》中倡導(dǎo)的最少人類知識(shí)介入原則;其端到端可擴(kuò)展結(jié)構(gòu)便于借鑒 LLM/VLM 的成功范式;其預(yù)訓(xùn)練能力降低了后訓(xùn)練數(shù)據(jù)需求,使得在現(xiàn)實(shí)環(huán)境中的泛化部署成為可能。

然而,這一方向也面臨若干挑戰(zhàn)。首先,真實(shí)數(shù)據(jù)的獲取成本高昂,當(dāng)前最大規(guī)模的機(jī)器人數(shù)據(jù)集仍處于百萬級(jí)別,遠(yuǎn)低于 LLM 所依賴的十億級(jí)互聯(lián)網(wǎng)語料,實(shí)現(xiàn)類似 scaling law 效應(yīng)尚顯不足。其次,大模型 VLA 的推理速度仍然受限,難以滿足高實(shí)時(shí)性要求的精細(xì)操作任務(wù)。最后,實(shí)現(xiàn)單一模型的跨本體泛化能力仍是一個(gè)未解難題。未來的研究應(yīng)聚焦于如何更高效地獲取高質(zhì)量數(shù)據(jù)、提升推理效率,并突破模型在異構(gòu)機(jī)器人間的遷移能力等核心問題。

Reasoning(推理)

用自然語言表達(dá)的思考過程,解釋 “為什么要做這個(gè)動(dòng)作”,常用來輔助生成更合理的其他 action token。

機(jī)器人操作和自動(dòng)駕駛等復(fù)雜的具身任務(wù)不僅需要長(zhǎng)期規(guī)劃和推理能力,更要求 AI 對(duì)空間、語義有深刻理解,并能在不斷變化的真實(shí)世界環(huán)境中高效運(yùn)行。僅僅依靠擴(kuò)大模型參數(shù)規(guī)模,遠(yuǎn)不足以應(yīng)對(duì)這些固有的復(fù)雜性。因此,為 VLA 模型注入強(qiáng)大的推理能力,已成為當(dāng)前最迫切且有前景的解決方案。

我們所說的 VLA 中的推理,并非抽象概念,而是一個(gè)明確外化的、以自然語言形式呈現(xiàn)的深思熟慮過程。它扮演著關(guān)鍵的中間角色:當(dāng)模型接收到高層指令時(shí),推理步驟會(huì)引導(dǎo)其生成最終的目標(biāo) action token。這就像讓人工智能擁有了 “思考” 的能力,能夠一步步地權(quán)衡、判斷,并將內(nèi)部決策過程清晰地展現(xiàn)出來。

這種 “思考” 能力最初源于大型語言模型的 “思維鏈” 概念,即通過一系列中間步驟來解決復(fù)雜問題。如今,這一理念已成功拓展到 VLA 領(lǐng)域。早期,研究者常通過結(jié)合大型語言模型與額外視覺模塊來實(shí)現(xiàn)具身推理。但現(xiàn)在,具備多模態(tài)先驗(yàn)知識(shí)的 VLM 已成為主流。VLM 能夠簡(jiǎn)化模型架構(gòu),并通過專門的微調(diào)或再訓(xùn)練來適應(yīng)具身推理的獨(dú)特需求。一些方法通過自動(dòng)化數(shù)據(jù)合成有效解決了高質(zhì)量大規(guī)模推理數(shù)據(jù)集的獲取難題,甚至將人類日常視頻也納入數(shù)據(jù)合成,拓寬了訓(xùn)練數(shù)據(jù)的來源。此外,一些 VLM 更是通過強(qiáng)化學(xué)習(xí)等方式,專門針對(duì)具身推理進(jìn)行了深度優(yōu)化。在自動(dòng)駕駛這一高風(fēng)險(xiǎn)、高復(fù)雜度的應(yīng)用場(chǎng)景中,這類模型將 “思維鏈” 應(yīng)用于其場(chǎng)景描述、分析和規(guī)劃等關(guān)鍵模塊,充分展現(xiàn)了推理在處理復(fù)雜決策中的核心作用。

將推理融入 VLA 模型,帶來了多重顯著優(yōu)勢(shì)。它能有效彌合高層指令與底層行動(dòng)的鴻溝,通過中間思考步驟提升模型對(duì)復(fù)雜指令的理解和分解能力,從而增強(qiáng)其在面對(duì)新場(chǎng)景和對(duì)象時(shí)的泛化性和對(duì)復(fù)雜任務(wù)的解決能力。此外,推理過程的外化極大地提高了模型的可解釋性,使人類能清晰審查決策、定位錯(cuò)誤并實(shí)時(shí)干預(yù),從而深化人機(jī)協(xié)作。

然而,推理的應(yīng)用也面臨局限。最突出的是,推理過程往往涉及冗長(zhǎng)序列,導(dǎo)致推理時(shí)間增加和執(zhí)行速度降低,這對(duì)于需要實(shí)時(shí)響應(yīng)的高頻任務(wù)而言是關(guān)鍵瓶頸。同時(shí),當(dāng)前推理步驟的固定性以及高質(zhì)量、大規(guī)模推理數(shù)據(jù)集構(gòu)建的挑戰(zhàn),也限制了其靈活性和進(jìn)一步發(fā)展。

VLA 中的數(shù)據(jù)來源

在 VLA 迅速發(fā)展的當(dāng)下,“數(shù)據(jù)” 正成為決定模型能力邊界的關(guān)鍵因素。因此,文章系統(tǒng)梳理了當(dāng)前 VLA 模型所依賴的數(shù)據(jù)資源,并按照 “數(shù)據(jù)金字塔” 的框架,將其劃分為三層:網(wǎng)絡(luò)數(shù)據(jù)與人類視頻、合成與仿真數(shù)據(jù)、真實(shí)機(jī)器人數(shù)據(jù)。這三類數(shù)據(jù)在模態(tài)組合、監(jiān)督粒度和具身相關(guān)性上各具優(yōu)劣,同時(shí)在性能與泛化能力之間形成了清晰的分工。

金字塔的底層由網(wǎng)絡(luò)數(shù)據(jù)與人類視頻構(gòu)成。這類數(shù)據(jù)規(guī)模最大、獲取成本最低,盡管不包含機(jī)器人可執(zhí)行的動(dòng)作標(biāo)簽,但它們?yōu)槟P徒⑼ㄓ靡曈X語言理解能力提供了基礎(chǔ)。例如,大量圖文對(duì)支持模型學(xué)習(xí)物體、動(dòng)作與場(chǎng)景的語義表征;而第一人稱視角的人類演示視頻(如廚房任務(wù))則提供了豐富的多模態(tài)信息。雖然這些數(shù)據(jù)缺乏動(dòng)作監(jiān)督與精確標(biāo)注,但其強(qiáng)語義密度使其成為 VLA 預(yù)訓(xùn)練中不可或缺的資源,幫助模型 “看懂世界”“聽懂任務(wù)”,為后續(xù)具身接入與行為學(xué)習(xí)打下語義基礎(chǔ)。此外,這類數(shù)據(jù)還廣泛用于訓(xùn)練 trajectory,latent representation 等 action token。

金字塔的中層由合成與仿真數(shù)據(jù)構(gòu)成。相比昂貴而稀缺的真實(shí)機(jī)器人數(shù)據(jù),這類數(shù)據(jù)提供了高性價(jià)比且更多樣化的數(shù)據(jù);相比人類視頻,它包含明確的動(dòng)作標(biāo)簽。主流做法包括兩類:離線數(shù)據(jù)合成與交互式仿真平臺(tái)。離線數(shù)據(jù)合成方法如 MimicGen、DexMimicGen 和 RoboCasa,通過程序化修改、動(dòng)力學(xué)擾動(dòng)等手段,從少量演示中生成覆蓋廣泛任務(wù)與環(huán)境變化的大規(guī)模軌跡數(shù)據(jù)。而交互式仿真平臺(tái)(如 Isaac Lab、Habitat、robosuite 等)則提供了一個(gè)可反復(fù)試驗(yàn)、高度可控的 “具身訓(xùn)練場(chǎng)”。研究者可以通過遙操作、算法規(guī)劃或強(qiáng)化學(xué)習(xí)等方式持續(xù)生成行為數(shù)據(jù),并通過程序生成器不斷多樣化環(huán)境配置。值得注意的是,越來越多的仿真平臺(tái)開始融合高保真物理引擎與真實(shí) 3D 場(chǎng)景資產(chǎn),使仿真交互更接近現(xiàn)實(shí),適用于復(fù)雜任務(wù)的預(yù)訓(xùn)練。

金字塔的頂層是真實(shí)機(jī)器人數(shù)據(jù),承載了物理世界中最具真實(shí)性的動(dòng)作信息。相比仿真或人類演示,真機(jī)數(shù)據(jù)包含了現(xiàn)實(shí)世界中的動(dòng)態(tài)變化、感知噪聲與物理約束,是將策略 “從仿真走向真實(shí)” 的關(guān)鍵支撐。綜述系統(tǒng)梳理了多個(gè)代表性數(shù)據(jù)集:多機(jī)器人數(shù)據(jù)(如 OXE、RoboMIND),單機(jī)器人數(shù)據(jù)集(如 RT-1、DROID、AgiBot World),以及自動(dòng)駕駛?cè)蝿?wù)中的時(shí)序軌跡(如 Waymo Open Dataset-Motion)。這些數(shù)據(jù)覆蓋了各種場(chǎng)景中不同形態(tài)的機(jī)器人完成不同任務(wù)的真機(jī)軌跡,還在故障軌跡、力矩 / 聲音模態(tài)等方面提供了學(xué)習(xí)樣本,為策略訓(xùn)練帶來了更強(qiáng)的現(xiàn)實(shí)魯棒性與泛化數(shù)據(jù)支撐。

結(jié)語

VLA 模型正迅速成為通往具身智能的核心路徑。這篇綜述首次從 action token 視角系統(tǒng)梳理 VLA 技術(shù)路線,明確八類 token 的設(shè)計(jì)思路、優(yōu)劣權(quán)衡與發(fā)展趨勢(shì),并指出當(dāng)前研究中的關(guān)鍵挑戰(zhàn)與未來方向。隨著基礎(chǔ)模型能力的持續(xù)躍升、數(shù)據(jù)的不斷擴(kuò)展、研究人員的不斷努力,VLA 研究正在邁向通用智能的下一站。

在即將到來的 2025 世界人工智能大會(huì)(7 月 26-29 日)上,靈初智能將全面展示 VLA 技術(shù)的產(chǎn)業(yè)化成果,其發(fā)布的 Psi R1 模型能夠?qū)崿F(xiàn) 30 分鐘連續(xù)麻將博弈,展現(xiàn)了機(jī)器人在開放環(huán)境下處理復(fù)雜任務(wù)的突破性能力,標(biāo)志著具身智能從簡(jiǎn)單動(dòng)作執(zhí)行向真正的認(rèn)知決策和長(zhǎng)程操作的關(guān)鍵躍遷。這將為業(yè)界提供一個(gè)觀察 VLA 技術(shù)從理論突破走向?qū)嶋H應(yīng)用的重要窗口,共同推動(dòng)具身智能技術(shù)在真實(shí)世界中的廣泛落地。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-09 09:13:00

AI模型數(shù)據(jù)

2025-07-10 14:55:12

機(jī)器人AI模型

2025-10-29 16:04:51

模型數(shù)據(jù)生成AI

2025-07-10 14:50:46

AI模型訓(xùn)練

2025-10-29 16:11:39

AI模型工具

2025-03-10 13:31:28

2023-10-24 11:44:21

2025-10-13 09:08:00

2024-06-04 09:25:51

2025-07-14 08:47:00

AI視覺模型

2025-07-25 09:31:49

2025-07-08 15:13:31

模型AI智能

2023-09-18 08:50:51

智能模型

2025-09-28 02:00:00

2025-10-23 09:13:56

2024-12-02 07:10:00

DeeR-VLALLM多模態(tài)模型

2024-05-22 09:45:49

2021-04-29 16:11:14

以太坊共識(shí)鏈驗(yàn)證者

2018-07-30 13:34:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)