模仿學(xué)習(xí)新范式，Chain-of-Action：軌跡自回歸實(shí)現(xiàn)動(dòng)作推理

2025-07-16 10:42:32

Chain-of-Action 提出了一種新穎的模仿學(xué)習(xí)范式，其核心是軌跡自回歸建模。

論文標(biāo)題：Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

主頁鏈接：https://chain-of-action.github.io/

文章鏈接：https://arxiv.org/pdf/2506.09990

代碼鏈接：https://github.com/ByteDance-Seed/Chain-of-Action

模仿學(xué)習(xí)的困境

具身智能（Embodied AI）作為人工智能領(lǐng)域的前沿方向，旨在賦予機(jī)器人或智能體在物理世界中感知、決策和行動(dòng)的能力。近年來，盡管視覺 - 語言 - 動(dòng)作模型（Vision Language Action, VLA）已經(jīng)取得了諸多進(jìn)展，但具身智能領(lǐng)域尚未迎來「GPT 時(shí)刻」。越來越多的研究人員開始相信，僅僅增加模型規(guī)模和數(shù)據(jù)量似乎不足以創(chuàng)造出通用操作模型，如果我們想要充分釋放現(xiàn)有數(shù)據(jù)的潛力，就需要找到更有效的機(jī)器人操作建模方法。

來自字節(jié)跳動(dòng) Seed & 阿德萊德大學(xué)的研究者追根溯源，對模仿學(xué)習(xí)的基本范式進(jìn)行了反思，發(fā)現(xiàn)現(xiàn)有建模思路或許存在缺陷：經(jīng)典方法如 ACT、Diffusion Policy（DP）都遵循「前向預(yù)測」（forward-prediction）范式。而然這種方式不可避免地存在較大的復(fù)合誤差（compounding error）。

在該范式下，策略通常被優(yōu)化為基于當(dāng)前觀察預(yù)測短期的下一步動(dòng)作，而非確保最終能夠成功完成整個(gè)任務(wù)。雖然引入了動(dòng)作分塊（action chunking）等策略來緩解復(fù)合誤差，但無法解決其固有的「短視性」問題。

基于該局限，研究者提出了「動(dòng)作鏈」（Chain-of-Action, CoA）—— 一種基于軌跡自回歸的機(jī)器人操作策略。與經(jīng)典范式區(qū)分，CoA 并不直接由觀察映射到執(zhí)行動(dòng)作，而是由從最終位置反向自回歸的生成軌跡點(diǎn)，推理出可執(zhí)行的動(dòng)作。研究團(tuán)隊(duì)初步發(fā)現(xiàn)，僅僅通過修改建模方式，CoA 在與 ACT 保持相同的基本結(jié)構(gòu)下，空間泛化能力顯著提升。這種建模方式為具身操作策略的建模提供了新的思路。

動(dòng)作鏈：基于軌跡自回歸建模的

機(jī)器人操作策略

核心思想：受到思維鏈（Chain-of-Thought）的啟發(fā)，CoA 并不直接由觀察映射到執(zhí)行動(dòng)作，而是在動(dòng)作層面進(jìn)行迭代式的推理。具體來說，CoA 逆向的生成針對目標(biāo)任務(wù)的完整軌跡，這個(gè)生成過程統(tǒng)一在一個(gè)自回歸網(wǎng)絡(luò)下。自回歸過程從「關(guān)鍵幀動(dòng)作」（keyframe action）開始，迭代地生成一連串完整的動(dòng)作軌跡，直至當(dāng)前的機(jī)器人夾爪的位置。

全局到局部一致性：這種「從后往前」的生成方式，為整個(gè)動(dòng)作序列提供了的「全局 - 局部」（global-to-local）結(jié)構(gòu)性約束。因?yàn)槊總€(gè)后續(xù)生成的動(dòng)作都以代表最終目標(biāo)的「關(guān)鍵幀」為條件，所以最后執(zhí)行的動(dòng)作將會(huì)被最終目標(biāo)所「錨定」，空間泛化能力顯著得到增強(qiáng)。

統(tǒng)一的自回歸框架：CoA 將關(guān)鍵幀的識別和軌跡的生成統(tǒng)一在單一的自回歸模型中，實(shí)現(xiàn)了端到端的訓(xùn)練和高效的閉環(huán)執(zhí)行，并保持了可擴(kuò)展（scalable）的潛力。

關(guān)鍵設(shè)計(jì)

為了實(shí)現(xiàn)軌跡自回歸的想法，CoA 引入了四個(gè)關(guān)鍵設(shè)計(jì)：

連續(xù)動(dòng)作表征（Continuous Action Representation）：離散化的動(dòng)作表征會(huì)引入量化誤差，為保證軌跡的精細(xì)度，CoA 采用了連續(xù)的動(dòng)作表征并引入了「潛在一致性損失」（Latent consistency loss）。

動(dòng)態(tài)停止機(jī)制（Dynamic Stopping）：在連續(xù)動(dòng)作空間中，沒有傳統(tǒng)的中止符（EOS token）來指示序列的結(jié)束。因此，CoA 設(shè)計(jì)了一種基于距離的動(dòng)態(tài)停止機(jī)制，實(shí)現(xiàn)可變長度（variable length）的軌跡預(yù)測。

反向時(shí)間集成（Reverse Temporal Ensemble）：傳統(tǒng)的時(shí)序集成策略基于前向時(shí)間假設(shè)，不適用于 CoA 的反向生成模式。CoA 通過反向時(shí)序集成，進(jìn)一步提高預(yù)測的穩(wěn)定性。

多詞元預(yù)測（Multi-token Prediction, MTP）：動(dòng)作局部依賴關(guān)系的建?？勺鳛?「全局 - 局部」一致性的補(bǔ)充。此設(shè)計(jì)僅在訓(xùn)練階段作為正則化手段使用，在推理時(shí)移除，保證了效率。

實(shí)驗(yàn)驗(yàn)證

模擬環(huán)境測試

大幅超越基線：在涵蓋 60 個(gè)任務(wù)的 RLBench 大規(guī)模擬基準(zhǔn)測試中，CoA 的平均成功率達(dá)到了 55.2%，顯著優(yōu)于 ACT（38.9%）和 DP（32.6%）。相較于 ACT，CoA 在 81.7% 的任務(wù)中取得了更高的成功率，平均提升了 16.3%。相較于 DP，CoA 在 80.0% 的任務(wù)上表現(xiàn)更優(yōu)，平均提升為 23.2%。

相關(guān)性分析：所有方法的成功率都隨著物體空間分布方差的增大而下降，但 CoA 的下降趨勢更為平緩，且其性能優(yōu)勢在高方差（更困難）的任務(wù)中更為明顯。

空間泛化能力分析：研究者對泛化性進(jìn)行了更細(xì)致的觀察。以按按鈕任務(wù)為案例，分別測試了「內(nèi)插」（in-distribution）和「外推」（out-of-distribution）情況下各個(gè)模型的表現(xiàn)，結(jié)果顯示，CoA 在外推場景下成功率約為內(nèi)插情況下的一半，但對于 ACT 和 DP，外推任務(wù)幾乎不能完成，這一定程度揭示了兩種建模范式在空間泛化表現(xiàn)上的根本差異。

真實(shí)世界實(shí)驗(yàn)

研究者在一臺(tái) Fetch 機(jī)器人上，圍繞 8 項(xiàng)廚房任務(wù)進(jìn)行了部署和測試。觀察來自單個(gè) RGB 攝像頭，策略以 10Hz 的頻率運(yùn)行，每個(gè)任務(wù)測試 10 次。實(shí)驗(yàn)結(jié)果顯示 CoA 取得了 61.3% 的平均成功率，ACT 成功率為 46.3%，DP 的成功率 36.3%。這驗(yàn)證了 CoA 建模范式在真實(shí)世界中的可用性。

結(jié)論與展望

Chain-of-Action 提出了一種新穎的模仿學(xué)習(xí)范式，其核心是軌跡自回歸建模。通過從一個(gè)代表任務(wù)目標(biāo)的「關(guān)鍵幀」開始，逆向生成動(dòng)作序列，該方法為軌跡施加了一個(gè)強(qiáng)大的「全局 - 局部」結(jié)構(gòu)約束，從而有效解決累計(jì)誤差問題，提升機(jī)器人操作泛化性。全面的實(shí)驗(yàn)結(jié)果證明，在沒有更多數(shù)據(jù)和增大模型規(guī)模的情況下，其在空間泛化能力相比傳統(tǒng)范式取得顯著提升。這說明一個(gè)合理的建模范式可以有效的釋放現(xiàn)有數(shù)據(jù)的潛力。CoA 有望為未來一代的 VLA 模型提供新的建模思路。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型訓(xùn)練

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p