最火VLA,看這一篇綜述就夠了
ICLR 2026爆火領域VLA(Vision-Language-Action,視覺-語言-動作)全面綜述來了!
如果你還不了解VLA是什么,以及這個讓機器人學者集體興奮的領域進展如何,看這一篇就夠了。

文章作者Moritz Reuss是2025年Apple AI/ML學者獎得主,曾在RSS、ICLR、NeurIPS等頂級會議多次發(fā)表研究成果。這篇綜述既是一線研究者的實戰(zhàn)總結,也是洞察趨勢的前沿觀察。
文章一出,評論區(qū)好評不斷,甚至頂級獵頭Mark Wallace直接拋出了橄欖枝。

這個VLA,究竟有多火?
據(jù)統(tǒng)計,VLA模型相關投稿量,從去年的個位數(shù)飆升至164篇,足足增長了18倍。
這股熱潮背后,讓機器人“聽懂人話、看懂世界、動手干活”,正成為AI領域極具吸引力的前沿陣地。
然而,在這片繁榮之下,一個問題也隨之浮現(xiàn):當我們談論VLA的進步時,我們到底在談論什么?
明確VLA的概念
在深入探討技術趨勢前,我們必須先明確一個基本概念:什么樣的模型,才有資格被稱為VLA?
學術界對此尚無統(tǒng)一定義,但研究員Moritz Reuss在他的綜述中提出了一個標準:
一個模型必須使用經(jīng)過大規(guī)模、互聯(lián)網(wǎng)級別的視覺-語言數(shù)據(jù)預訓練過的骨干(pre-trained backbone),才能被稱為VLA。
這一定義強調模型能力的來源:VLA必須具備通過圖文預訓練習得的語言理解、視覺泛化和任務遷移能力。
代表模型如Google的PaLI-X,或開源項目Llava、Florence-2等。
而如果一個模型只是簡單地將獨立的視覺編碼器和文本編碼器拼在一起,那它更應該被稱為“多模態(tài)策略”(Multimodal Policies)。
與之相關,還有一個概念值得一提:大型行為模型(Large Behavior Models, LBMs)。這是豐田研究院提出的術語,指在“大規(guī)模、多任務的機器人演示數(shù)據(jù)”上訓練出的策略。
可以這樣理解:
- VLA強調的是“基因”,即必須繼承自一個強大的VLM(視覺語言模型)
- LBM強調的是“養(yǎng)料”,即必須用海量的機器人操作數(shù)據(jù)進行訓練
一個在大量機器人數(shù)據(jù)上微調的VLA,同時也是一個LBM。
但一個LBM,不一定是一個VLA。搞清楚這個邊界,才有助于我們理解不同技術路線的側重。
透過ICLR 2026看VLA八大趨勢
趨勢一:VLA的高效架構新范式
如果說今年VLA架構有什么新風向,當屬離散擴散模型(Discrete Diffusion)。

傳統(tǒng)的自回歸模型一個字一個字寫,必須生成完上一個動作單元,才能生成下一個。
而離散擴散模型則可以并行化地一次性生成整個動作序列。這帶來了幾個好處:
- 高效生成:減少前向傳播次數(shù),提高推理效率
- 思維動作融合:可并行生成動作與推理過程(如子目標、關鍵物體位置),即具身思維鏈(Embodied Chain-of-Thought, ECoT)
關于這個趨勢,本次ICLR上涌現(xiàn)了《DISCRETE DIFFUSION VLA》《dVLA》等多篇論文,在LIBERO評測中取得了近乎飽和的表現(xiàn)。
趨勢二:具身思維鏈(ECoT)讓機器人先想后做
讓機器人更聰明,光靠模仿是不夠的,它還得學會“思考”。具身思維鏈(Embodied Chain-of-Thought, ECoT)正是這一思路的集中體現(xiàn)。
其核心思想是:在生成動作前,先生成一系列中間推理步驟,使機器人具備更強的計劃與解釋能力。
這些步驟可以是:
- 文本規(guī)劃:“我需要先找到紅色杯子”
- 視覺感知:定位關鍵目標
- 軌跡構圖:設計移動路徑
這種先想后做的模式不僅更具可解釋性,也顯著提升復雜場景中的泛化能力。
但ECoT對高質量標注數(shù)據(jù)依賴較大,而這類數(shù)據(jù)仍較稀缺。
本次ICLR中,如《ACTIONS AS LANGUAGE》《EMBODIED-R1》等論文,通過推理-動作解耦和多階段訓練流程,在SIMPLER等評測中表現(xiàn)突出。
趨勢三:動作分詞器(Action Tokenizer)讓動作可語言化
VLA的一個核心難點是:如何將連續(xù)、高頻的機器人動作轉換為VLM能理解的離散“詞匯”(Token)?
這正是動作分詞器(Action Tokenizer)的作用所在。它是連接VLM“大腦”與機器人“身體”的橋梁。

今年的新進展包括:
- FASTer Tokenizer:結合殘差矢量量化(RVQ),在壓縮率與動作連續(xù)性間取得平衡
- OmniSAT:借助B樣條曲線(B-Splines)對動作建模,實現(xiàn)更緊湊表達
在LIBERO和SIMPLER中,這些方法提升了精度與穩(wěn)定性,為語言模型驅動的機器人控制奠定基礎。
趨勢四:強化學習(RL)打通最后一公里
模仿學習雖可快速習得基礎操作,但極端場景下表現(xiàn)仍有限。因此,強化學習(RL)重新登場,作為VLA策略的微調利器。
今年的代表技術包括:
- 殘差RL(Residual RL):在凍結VLA策略上疊加一個輕量“殘差策略”,實現(xiàn)關鍵時刻干預與優(yōu)化
- 階段感知RL(Stage-aware RL):將復雜任務拆分成語義階段,進行分階段獎勵與策略訓練
代表作如《SELF-IMPROVING… VIA RESIDUAL RL》《PROGRESSIVE STAGE-AWARE…》在LIBERO和SIMPLER上分別取得了99%和98%的成功率。
趨勢五:效率優(yōu)化(Efficiency)讓VLA走向平民化
VLA模型龐大、成本高昂,令許多中小實驗室望而卻步。因此效率優(yōu)化成為研究重點。
典型代表有這兩大方向:
- 推理效率:如HyperVLA采用超網(wǎng)絡機制,動態(tài)生成輕量策略網(wǎng)絡
- 顯存占用:如AutoQVLA采用智能量化,壓縮模型體積同時保持性能
這些方法大幅降低了硬件門檻,讓更多研究者能夠參與VLA研究。
趨勢六:視頻預測賦予VLA物理直覺
視頻生成模型天然理解時序動態(tài)和物理規(guī)律,這對于機器人控制是極強的先驗知識。

這個方向主要有兩種思路:
- 在VLM基礎上增加未來幀預測任務
- 從視頻生成大模型(如NVIDIA的Cosmos)出發(fā),微調使其具備動作生成能力
例如《COSMOS POLICY》就成功將一個視頻基礎模型微調用于機器人控制,并在真實世界中與Pi-0.5等前沿模型進行了對比。
這些工作表明,賦予VLA“想象”未來的能力,能有效提升其對物理世界的理解。
趨勢七:更真實的評測基準
正如后文會提到的,現(xiàn)有評測集已近飽和。為此,社區(qū)正在積極開發(fā)新的評測方式。

- 《ROBOTARENA ∞》 提出了一個真實到仿真 (Real-to-Sim) 的評測框架,可以自動構建和評估環(huán)境
- 《RoboCasa365》 提供了一個包含365種任務、超2000個廚房場景的大規(guī)模仿真環(huán)境
- 《WorldGym》 甚至提出一個顛覆性的想法:直接用一個生成式的世界模型作為評測環(huán)境
這些新基準致力于打破對現(xiàn)有測試集的過擬合,推動VLA研究走向更有意義的泛化能力。
趨勢八:跨體態(tài)學習是必經(jīng)之路
如何讓一個模型同時驅動不同結構(Action Space)的機器人?這是通往通用機器人的核心挑戰(zhàn)。

- 《X-VLA》 使用軟提示(soft-prompting)為不同機器人學習特定的“適配器”
- 《XR-1》 提出統(tǒng)一視覺-運動編碼(UVMC),用一套共享的“詞典”來表示不同機器人的視覺動態(tài)和動作
- 《HIMOE-VLA》 則使用了層級式混合專家(Hierarchical MoE)架構,讓模型能更好地適應新“身體”
這些架構上的創(chuàng)新,是構建能夠適應不同硬件的通用機器人策略的關鍵一步。
現(xiàn)狀問題:不要迷信高分,評測正在失真
研究員Reuss在文中指出:主流仿真評測(如LIBERO、CALVIN)存在“性能天花板”問題。
很多模型得分雖高,卻難以轉化為現(xiàn)實能力,原因如下:
- 數(shù)據(jù)鴻溝:頭部公司掌握海量高質量真實數(shù)據(jù),是開源數(shù)據(jù)難以比擬的
- 評測維度差異:工業(yè)界更看重開放環(huán)境、泛化能力、失敗恢復
- 資源與迭代:大規(guī)模集群與工程支持帶來快速優(yōu)化能力
開源模型在仿真環(huán)境中得分甚至高于Google的Pi-0.5,但在真實世界中,仍難匹敵這些前沿產品。
未來兩大關鍵問題:仍被忽視的數(shù)據(jù)與學習方式
文章的最后,Reuss還指出兩個VLA研究中尚未受到足夠重視的問題:
- 數(shù)據(jù)質量:與其關注數(shù)據(jù)量,不如關注數(shù)據(jù)中的噪聲、歧義、次優(yōu)行為,這些都可能限制模型上限
- 上下文學習(In-context Learning):這一在LLM中常見的機制,能否遷移到機器人領域,或許是通用VLA的突破口
作者介紹
這篇綜述的作者Moritz Reuss,是德國卡爾斯魯厄理工學院(KIT)的四年級博士生,長期致力于從人類演示、視覺與語言中構建通用機器人AI系統(tǒng)。

他也是將擴散模型引入機器人策略研究的先行者,而這恰好是本次綜述中提到的熱門趨勢之一。
作為2025年Apple AI/ML學者獎獲得者,他的研究成果已多次發(fā)表于RSS、ICLR、NeurIPS等頂會。可以說,這份綜述來自科研一線的“圈內人”。
最后,VLA的這么多技術方向,你最看好哪一個?是更快的離散擴散,還是更聰明的思維鏈?或者你認為數(shù)據(jù)才是唯一的密碼?
歡迎在評論區(qū)分享你的看法。
參考鏈接:





























