開(kāi)放世界任務(wù)成功率82%!美的攻克機(jī)器人泛化控制難題
還在擔(dān)心機(jī)器人只能機(jī)械執(zhí)行、不會(huì)靈活應(yīng)變?
美的AI研究院和華東師范大學(xué)聯(lián)合提出ChatVLA-2——一個(gè)具有開(kāi)放世界具身推理能力的視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)模型。
它引入動(dòng)態(tài)混合專(zhuān)家架構(gòu),并結(jié)合雙階段訓(xùn)練流程,不僅最大程度保留了視覺(jué)-語(yǔ)言模型(VLM)的多模態(tài)認(rèn)知和推理能力,還能將推理結(jié)果真正轉(zhuǎn)化為可執(zhí)行的動(dòng)作。

在真機(jī)實(shí)驗(yàn)中,研究團(tuán)隊(duì)設(shè)計(jì)了兩項(xiàng)任務(wù),重點(diǎn)考察模型繼承的核心能力:
- 通過(guò)數(shù)學(xué)匹配游戲評(píng)估其數(shù)學(xué)推理能力,對(duì)新算式的識(shí)別與推理;
- 通過(guò)玩具擺放任務(wù)測(cè)試其空間推理能力,對(duì)新物體和指令的理解與執(zhí)行。

結(jié)果顯示,ChatVLA-2面對(duì)新算式和新物體,在數(shù)學(xué)推理、空間理解和泛化操作能力上遠(yuǎn)超現(xiàn)有方法,開(kāi)放世界任務(wù)成功率高達(dá)82%。
模型結(jié)構(gòu):專(zhuān)家協(xié)作,推理注入
混合專(zhuān)家模型
ChatVLA的研究表明,多模態(tài)理解與機(jī)器人操作任務(wù)往往會(huì)在參數(shù)空間中相互競(jìng)爭(zhēng)。
為此,研究引入了混合專(zhuān)家模型架構(gòu)(MoE),動(dòng)態(tài)選擇專(zhuān)家模塊,希望部分專(zhuān)家專(zhuān)注于特定任務(wù)特征,另一些專(zhuān)家捕捉在多任務(wù)間共享的互利特征。這種自適應(yīng)策略也確保了計(jì)算資源的高效分配。
推理跟隨增強(qiáng)模塊
為了讓機(jī)器人動(dòng)作能精準(zhǔn)跟隨復(fù)雜、甚至前所未見(jiàn)的域外推理指令,ChatVLA-2在模型的深層用推理令牌替換了原有的觀測(cè)嵌入,生成調(diào)控動(dòng)作生成的縮放與偏移參數(shù),深度注入到模型決策過(guò)程中。

訓(xùn)練策略:先知后行,知行合一
僅僅擁有強(qiáng)大的模型骨架,還不足以打造真正通用的視覺(jué)-語(yǔ)言-動(dòng)作模型。
如果在訓(xùn)練中直接混合開(kāi)放世界圖文數(shù)據(jù)與具身機(jī)器人動(dòng)作數(shù)據(jù),往往會(huì)導(dǎo)致動(dòng)作學(xué)習(xí)過(guò)程難以控制,從而影響最終性能。
為此,團(tuán)隊(duì)創(chuàng)新性地提出了雙階段訓(xùn)練策略。

第一階段:激活開(kāi)放世界理解與推理
為了實(shí)現(xiàn)這一目標(biāo),將圖文數(shù)據(jù)與機(jī)器人數(shù)據(jù)協(xié)同訓(xùn)練(co-training)被證明至關(guān)重要。
團(tuán)隊(duì)使用了多個(gè)開(kāi)放場(chǎng)景主流圖文數(shù)據(jù)集,并專(zhuān)門(mén)構(gòu)建了機(jī)器人場(chǎng)景圖文。訓(xùn)練數(shù)據(jù)的選擇有意規(guī)避了對(duì)特定技能的傾向(如字符識(shí)別、數(shù)學(xué)推理)。
第二階段:精進(jìn)模型的推理跟隨能力
開(kāi)放世界的復(fù)雜任務(wù)常常需要模型進(jìn)行超出訓(xùn)練數(shù)據(jù)范圍的“超綱”推理。因此,確保模型動(dòng)作能精準(zhǔn)跟隨并執(zhí)行這些推理結(jié)果,是實(shí)現(xiàn)泛化控制的關(guān)鍵挑戰(zhàn)。
基于此,模型在第二階段凍結(jié)第一階段中訓(xùn)練完的視覺(jué)語(yǔ)言模型,鎖定其習(xí)得的知識(shí)與推理能力,只訓(xùn)練動(dòng)作專(zhuān)家。
該策略能顯著強(qiáng)化模型對(duì)前所未見(jiàn)推理場(chǎng)景的理解與響應(yīng)能力,并讓模型的“思考”過(guò)程與最終的“行動(dòng)”輸出緊密結(jié)合,從而大幅提升動(dòng)作執(zhí)行的精準(zhǔn)度和任務(wù)完成的泛化性。
實(shí)驗(yàn)與效果
為全面驗(yàn)證ChatVLA-2,研究團(tuán)隊(duì)進(jìn)行了大量真機(jī)實(shí)驗(yàn)。他們特別設(shè)計(jì)了兩種實(shí)驗(yàn)場(chǎng)景:數(shù)學(xué)匹配游戲和玩具放置任務(wù)。
通過(guò)這些實(shí)驗(yàn),重點(diǎn)考察了模型在數(shù)學(xué)推理、空間推理、字符識(shí)別(OCR)以及物體識(shí)別和定位方面的綜合能力,其中任務(wù)涉及的開(kāi)放世界場(chǎng)景并未出現(xiàn)在訓(xùn)練數(shù)據(jù)中。

數(shù)學(xué)推理能力:在數(shù)學(xué)匹配游戲中,研究團(tuán)隊(duì)采用了三類(lèi)指標(biāo)來(lái)評(píng)估模型在域內(nèi)和開(kāi)放世界下的操控、推理與理解能力,包括任務(wù)成功率、手寫(xiě)數(shù)字與符號(hào)識(shí)別得分、以及數(shù)學(xué)推理得分。
開(kāi)放世界評(píng)估中,測(cè)試的數(shù)學(xué)等式未在訓(xùn)練數(shù)據(jù)中出現(xiàn),手寫(xiě)數(shù)字也存在不同書(shū)寫(xiě)風(fēng)格。

相比其他模型在陌生場(chǎng)景中幾乎無(wú)法完成任務(wù),ChatVLA-2 在未見(jiàn)過(guò)的數(shù)學(xué)表達(dá)上,依然取得了3.58的OCR得分、1.73的數(shù)學(xué)推理得分,并達(dá)成82.7%的操控成功率。
空間推理能力:在玩具放置任務(wù)中,研究團(tuán)隊(duì)同樣采用三類(lèi)指標(biāo):任務(wù)成功率、目標(biāo)物體與參考物體識(shí)別率、邊框準(zhǔn)確識(shí)別得分。
開(kāi)放世界評(píng)估中,目標(biāo)和參考物體在訓(xùn)練中從未出現(xiàn),模型需在此場(chǎng)景下識(shí)別所有物體,定位參考物體,理解空間關(guān)系,并完成擺放。

在陌生場(chǎng)景中,ChatVLA-2面對(duì)從未見(jiàn)過(guò)的物體和空間關(guān)系取得了0.94的目標(biāo)識(shí)別得分,并以81.4%的操控成功率領(lǐng)先同類(lèi)方法,充分證明了其在開(kāi)放世界推理與機(jī)器人執(zhí)行上的卓越實(shí)力。
從保留視覺(jué)-語(yǔ)言模型的認(rèn)知能力,到實(shí)現(xiàn)推理結(jié)果向動(dòng)作的轉(zhuǎn)化,ChatVLA-2提供了一種探索通用機(jī)器人控制的新思路,并為后續(xù)在復(fù)雜場(chǎng)景與多模態(tài)交互中的研究提供了參考方向。
論文鏈接:https://arxiv.org/abs/2505.21906
項(xiàng)目主頁(yè):https://chatvla-2.github.io/


































