機(jī)器人連續(xù)疊衣120分鐘！僅用0.9B參數(shù)實(shí)現(xiàn)五大SOTA｜清華AIR & 上海AI Lab開源

2025-10-20 08:45:00

清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）與上海人工智能實(shí)驗(yàn)室聯(lián)合發(fā)布通用跨本體具身基座模型X-VLA。

機(jī)器人也是卷瘋了！

不僅能疊衣服，而且一干就是倆小時(shí)，且全程無任何輔助。

清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）與上海人工智能實(shí)驗(yàn)室聯(lián)合發(fā)布通用跨本體具身基座模型X-VLA，通過創(chuàng)新的Soft-Prompt機(jī)制、高效的框架設(shè)計(jì)與定制化訓(xùn)練范式，顯著提升預(yù)訓(xùn)練效率與模型性能。

更關(guān)鍵的是，X-VLA是首個(gè)實(shí)現(xiàn)120min無輔助自主疊衣任務(wù)的全開源模型（公開數(shù)據(jù)、代碼與參數(shù)），以僅0.9B的參數(shù)量在五大權(quán)威仿真基準(zhǔn)上全面刷新性能紀(jì)錄。

核心方法

為克服不同機(jī)器人平臺在自由度、相機(jī)觀測視角等本體參數(shù)上的差異，研究引入了可學(xué)習(xí)的Soft-Prompt。

該機(jī)制動(dòng)態(tài)地將具身本體的硬件配置信息編碼為一種連續(xù)表征，使模型在預(yù)訓(xùn)練中能夠解耦任務(wù)策略與具體執(zhí)行器，從而顯著增強(qiáng)模型對異構(gòu)機(jī)器人平臺的適應(yīng)能力，并提升混合數(shù)據(jù)訓(xùn)練的穩(wěn)定性與效率。

針對機(jī)器人任務(wù)中多源視覺輸入的異質(zhì)性，研究團(tuán)隊(duì)提出了分治編碼方案。

任務(wù)相關(guān)的主視角圖像由高性能視覺-語言模型編碼，以提取高層語義特征；而主要提供低層次空間反饋的輔助視角，則通過輕量化的網(wǎng)絡(luò)進(jìn)行局部特征提取。

該策略在保證信息完整性的前提下，優(yōu)化了計(jì)算資源的分配，提升了模型的信息處理通量。

模型主干采用標(biāo)準(zhǔn)Transformer架構(gòu)，以確保良好的擴(kuò)展性與通用性。動(dòng)作生成模塊摒棄了傳統(tǒng)的確定性輸出策略，轉(zhuǎn)而采用先進(jìn)的flow-matching，以概率生成的方式建模機(jī)器人動(dòng)作序列。

該方法顯著增強(qiáng)了動(dòng)作軌跡的平滑性與對不確定環(huán)境的魯棒性，為長時(shí)序任務(wù)的成功執(zhí)行奠定了堅(jiān)實(shí)基礎(chǔ)。

在預(yù)訓(xùn)練階段，研究采用大規(guī)模高質(zhì)量異構(gòu)數(shù)據(jù)，主要特點(diǎn)如下所示：

平衡化數(shù)據(jù)采樣：定制數(shù)據(jù)采樣策略，確保異構(gòu)數(shù)據(jù)集的均衡訓(xùn)練，避免模型偏斜。

多模態(tài)數(shù)據(jù)清洗與時(shí)空對齊流水線：團(tuán)隊(duì)對原始機(jī)器人操作數(shù)據(jù)實(shí)施了嚴(yán)格預(yù)處理，包括：將不同空間下的動(dòng)作數(shù)據(jù)統(tǒng)一映射至標(biāo)準(zhǔn)任務(wù)空間；對高頻率采集的數(shù)據(jù)進(jìn)行時(shí)序?qū)用娴膶R與重采樣。

此流程極大提升了狀態(tài)-動(dòng)作序列在時(shí)間上的一致性邏輯與整體質(zhì)量。

以語義-動(dòng)作對齊為導(dǎo)向的數(shù)據(jù)遴選標(biāo)準(zhǔn)：團(tuán)隊(duì)確立了嚴(yán)格的數(shù)據(jù)質(zhì)量門檻，核心是篩選視覺幀清晰、語言指令描述精準(zhǔn)且與后續(xù)動(dòng)作序列高度關(guān)聯(lián)的數(shù)據(jù)樣本。

此舉從源頭上確保了模型學(xué)習(xí)到的是有明確因果關(guān)系的“行為知識”，而非淺層的虛假關(guān)聯(lián)。

在后訓(xùn)練階段，研究主要在兩個(gè)方面進(jìn)行了調(diào)整。

分層分組的自適應(yīng)學(xué)習(xí)率調(diào)整

鑒于模型中不同組件（如預(yù)訓(xùn)練凍結(jié)的VLM、新引入的Soft-Prompt、主干Transformer等）的參數(shù)規(guī)模與收斂特性各異，團(tuán)隊(duì)為其施加了分組別、差異化的學(xué)習(xí)率調(diào)度策略。

該設(shè)計(jì)既保護(hù)了預(yù)訓(xùn)練獲得的基礎(chǔ)知識，又允許關(guān)鍵適配層快速調(diào)整，從而在保證訓(xùn)練穩(wěn)定性的同時(shí)，大幅優(yōu)化了收斂效率。

面向異構(gòu)模塊的漸進(jìn)式 warm-up 策略

對于模型中新引入的可學(xué)習(xí)參數(shù)（如Soft-Prompt），團(tuán)隊(duì)在訓(xùn)練初始階段采用線性遞增的學(xué)習(xí)率熱身機(jī)制，使其參數(shù)空間得以平穩(wěn)初始化，再逐步融入全局優(yōu)化過程。

該策略有效避免了訓(xùn)練初期因梯度劇變導(dǎo)致的不穩(wěn)定性，尤其適用于異構(gòu)模塊的協(xié)同訓(xùn)練。

實(shí)驗(yàn)結(jié)果

高效預(yù)訓(xùn)練：可擴(kuò)展的架構(gòu)優(yōu)勢

可擴(kuò)展的架構(gòu)優(yōu)勢X-VLA的預(yù)訓(xùn)練縮放定律（Scaling Laws）曲線呈現(xiàn)出優(yōu)異的線性增長趨勢。這表明，隨著模型參數(shù)以及訓(xùn)練數(shù)據(jù)規(guī)模的同步擴(kuò)大，其在測試集的開環(huán)測試性能呈現(xiàn)穩(wěn)定、可預(yù)測的提升。

這一現(xiàn)象驗(yàn)證了所提出的Soft-Prompt機(jī)制與簡潔Transformer架構(gòu)的強(qiáng)大可擴(kuò)展性，為構(gòu)建更大規(guī)模的具身智能基座模型奠定了堅(jiān)實(shí)基礎(chǔ)。

數(shù)據(jù)與算法的協(xié)同優(yōu)化

得益于高質(zhì)量的預(yù)訓(xùn)練基座，X-VLA在后訓(xùn)練（微調(diào)）階段展現(xiàn)出極高的數(shù)據(jù)效率與穩(wěn)定性。針對不同的下游任務(wù)（如自主疊衣），只需使用中小規(guī)模的場景專屬數(shù)據(jù)進(jìn)行微調(diào)，模型便能快速適應(yīng)并達(dá)到SOTA性能。

這源于預(yù)訓(xùn)練階段學(xué)習(xí)到的通用視覺-語言-動(dòng)作表征，以及后訓(xùn)練中采用的定制化學(xué)習(xí)率策略與慢啟動(dòng)機(jī)制，它們共同確保了知識從通用域到特定任務(wù)的高效、穩(wěn)定遷移。

X-VLA除了在包括LIBERO、SIMPLER等在內(nèi)的權(quán)威仿真環(huán)境中取得SOTA表現(xiàn)外，在真實(shí)的機(jī)器人平臺上，該模型也在大量簡單抓取和桌面操作任務(wù)中展現(xiàn)了強(qiáng)大性能，并成功完成了無限時(shí)長的自主疊衣任務(wù)，展示了其應(yīng)對復(fù)雜長程任務(wù)的卓越能力。

項(xiàng)目主頁：https://thu-air-dream.github.io/X-VLA/代碼：https://github.com/2toinf/X-VLA.git論文鏈接： https://arxiv.org/pdf/2510.10274

責(zé)任編輯：張燕妮來源：量子位

機(jī)器人訓(xùn)練開源

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

機(jī)器人連續(xù)疊衣120分鐘！僅用0.9B參數(shù)實(shí)現(xiàn)五大SOTA｜清華AIR & 上海AI Lab開源

核心方法

實(shí)驗(yàn)結(jié)果

高效預(yù)訓(xùn)練：可擴(kuò)展的架構(gòu)優(yōu)勢

數(shù)據(jù)與算法的協(xié)同優(yōu)化

機(jī)器人連續(xù)疊衣120分鐘！僅用0.9B參數(shù)實(shí)現(xiàn)五大SOTA｜清華AIR & 上海AI Lab開源