機(jī)器人連續(xù)疊衣120分鐘!僅用0.9B參數(shù)實(shí)現(xiàn)五大SOTA|清華AIR & 上海AI Lab開源
機(jī)器人也是卷瘋了!
不僅能疊衣服,而且一干就是倆小時(shí),且全程無任何輔助。

清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)與上海人工智能實(shí)驗(yàn)室聯(lián)合發(fā)布通用跨本體具身基座模型X-VLA,通過創(chuàng)新的Soft-Prompt機(jī)制、高效的框架設(shè)計(jì)與定制化訓(xùn)練范式,顯著提升預(yù)訓(xùn)練效率與模型性能。

更關(guān)鍵的是,X-VLA是首個(gè)實(shí)現(xiàn)120min無輔助自主疊衣任務(wù)的全開源模型(公開數(shù)據(jù)、代碼與參數(shù)),以僅0.9B的參數(shù)量在五大權(quán)威仿真基準(zhǔn)上全面刷新性能紀(jì)錄。

核心方法

為克服不同機(jī)器人平臺在自由度、相機(jī)觀測視角等本體參數(shù)上的差異,研究引入了可學(xué)習(xí)的Soft-Prompt。
該機(jī)制動(dòng)態(tài)地將具身本體的硬件配置信息編碼為一種連續(xù)表征,使模型在預(yù)訓(xùn)練中能夠解耦任務(wù)策略與具體執(zhí)行器,從而顯著增強(qiáng)模型對異構(gòu)機(jī)器人平臺的適應(yīng)能力,并提升混合數(shù)據(jù)訓(xùn)練的穩(wěn)定性與效率。
針對機(jī)器人任務(wù)中多源視覺輸入的異質(zhì)性,研究團(tuán)隊(duì)提出了分治編碼方案。
任務(wù)相關(guān)的主視角圖像由高性能視覺-語言模型編碼,以提取高層語義特征;而主要提供低層次空間反饋的輔助視角,則通過輕量化的網(wǎng)絡(luò)進(jìn)行局部特征提取。
該策略在保證信息完整性的前提下,優(yōu)化了計(jì)算資源的分配,提升了模型的信息處理通量。
模型主干采用標(biāo)準(zhǔn)Transformer架構(gòu),以確保良好的擴(kuò)展性與通用性。動(dòng)作生成模塊摒棄了傳統(tǒng)的確定性輸出策略,轉(zhuǎn)而采用先進(jìn)的flow-matching,以概率生成的方式建模機(jī)器人動(dòng)作序列。
該方法顯著增強(qiáng)了動(dòng)作軌跡的平滑性與對不確定環(huán)境的魯棒性,為長時(shí)序任務(wù)的成功執(zhí)行奠定了堅(jiān)實(shí)基礎(chǔ)。

在預(yù)訓(xùn)練階段,研究采用大規(guī)模高質(zhì)量異構(gòu)數(shù)據(jù),主要特點(diǎn)如下所示:
平衡化數(shù)據(jù)采樣:定制數(shù)據(jù)采樣策略,確保異構(gòu)數(shù)據(jù)集的均衡訓(xùn)練,避免模型偏斜。
多模態(tài)數(shù)據(jù)清洗與時(shí)空對齊流水線:團(tuán)隊(duì)對原始機(jī)器人操作數(shù)據(jù)實(shí)施了嚴(yán)格預(yù)處理,包括:將不同空間下的動(dòng)作數(shù)據(jù)統(tǒng)一映射至標(biāo)準(zhǔn)任務(wù)空間;對高頻率采集的數(shù)據(jù)進(jìn)行時(shí)序?qū)用娴膶R與重采樣。
此流程極大提升了狀態(tài)-動(dòng)作序列在時(shí)間上的一致性邏輯與整體質(zhì)量。
以語義-動(dòng)作對齊為導(dǎo)向的數(shù)據(jù)遴選標(biāo)準(zhǔn):團(tuán)隊(duì)確立了嚴(yán)格的數(shù)據(jù)質(zhì)量門檻,核心是篩選視覺幀清晰、語言指令描述精準(zhǔn)且與后續(xù)動(dòng)作序列高度關(guān)聯(lián)的數(shù)據(jù)樣本。
此舉從源頭上確保了模型學(xué)習(xí)到的是有明確因果關(guān)系的“行為知識”,而非淺層的虛假關(guān)聯(lián)。

在后訓(xùn)練階段,研究主要在兩個(gè)方面進(jìn)行了調(diào)整。
分層分組的自適應(yīng)學(xué)習(xí)率調(diào)整
鑒于模型中不同組件(如預(yù)訓(xùn)練凍結(jié)的VLM、新引入的Soft-Prompt、主干Transformer等)的參數(shù)規(guī)模與收斂特性各異,團(tuán)隊(duì)為其施加了分組別、差異化的學(xué)習(xí)率調(diào)度策略。
該設(shè)計(jì)既保護(hù)了預(yù)訓(xùn)練獲得的基礎(chǔ)知識,又允許關(guān)鍵適配層快速調(diào)整,從而在保證訓(xùn)練穩(wěn)定性的同時(shí),大幅優(yōu)化了收斂效率。
面向異構(gòu)模塊的漸進(jìn)式 warm-up 策略
對于模型中新引入的可學(xué)習(xí)參數(shù)(如Soft-Prompt),團(tuán)隊(duì)在訓(xùn)練初始階段采用線性遞增的學(xué)習(xí)率熱身機(jī)制,使其參數(shù)空間得以平穩(wěn)初始化,再逐步融入全局優(yōu)化過程。
該策略有效避免了訓(xùn)練初期因梯度劇變導(dǎo)致的不穩(wěn)定性,尤其適用于異構(gòu)模塊的協(xié)同訓(xùn)練。
實(shí)驗(yàn)結(jié)果
高效預(yù)訓(xùn)練:可擴(kuò)展的架構(gòu)優(yōu)勢
可擴(kuò)展的架構(gòu)優(yōu)勢X-VLA的預(yù)訓(xùn)練縮放定律(Scaling Laws)曲線呈現(xiàn)出優(yōu)異的線性增長趨勢。這表明,隨著模型參數(shù)以及訓(xùn)練數(shù)據(jù)規(guī)模的同步擴(kuò)大,其在測試集的開環(huán)測試性能呈現(xiàn)穩(wěn)定、可預(yù)測的提升。
這一現(xiàn)象驗(yàn)證了所提出的Soft-Prompt機(jī)制與簡潔Transformer架構(gòu)的強(qiáng)大可擴(kuò)展性,為構(gòu)建更大規(guī)模的具身智能基座模型奠定了堅(jiān)實(shí)基礎(chǔ)。

數(shù)據(jù)與算法的協(xié)同優(yōu)化
得益于高質(zhì)量的預(yù)訓(xùn)練基座,X-VLA在后訓(xùn)練(微調(diào))階段展現(xiàn)出極高的數(shù)據(jù)效率與穩(wěn)定性。針對不同的下游任務(wù)(如自主疊衣),只需使用中小規(guī)模的場景專屬數(shù)據(jù)進(jìn)行微調(diào),模型便能快速適應(yīng)并達(dá)到SOTA性能。
這源于預(yù)訓(xùn)練階段學(xué)習(xí)到的通用視覺-語言-動(dòng)作表征,以及后訓(xùn)練中采用的定制化學(xué)習(xí)率策略與慢啟動(dòng)機(jī)制,它們共同確保了知識從通用域到特定任務(wù)的高效、穩(wěn)定遷移。
X-VLA除了在包括LIBERO、SIMPLER等在內(nèi)的權(quán)威仿真環(huán)境中取得SOTA表現(xiàn)外,在真實(shí)的機(jī)器人平臺上,該模型也在大量簡單抓取和桌面操作任務(wù)中展現(xiàn)了強(qiáng)大性能,并成功完成了無限時(shí)長的自主疊衣任務(wù),展示了其應(yīng)對復(fù)雜長程任務(wù)的卓越能力。

項(xiàng)目主頁:https://thu-air-dream.github.io/X-VLA/代碼:https://github.com/2toinf/X-VLA.git論文鏈接: https://arxiv.org/pdf/2510.10274
































