無需再訓練即可增強性能!港大團隊提出GPC框架,實現(xiàn)機器人「策略組合」
本文一作曹嘉航,香港大學在讀博士生,前北京人形機器人創(chuàng)新中心實習生;共同一作黃翊澤,上海交通大學在讀本科生;通訊導師 Andrew F. Luo,香港大學助理教授。
在機器人學習領域,提升基于生成式模型的控制策略(Policy)的性能通常意味著投入巨額成本進行額外的數(shù)據(jù)采集和模型訓練,這極大地限制了機器人能力的快速迭代與升級。面對模型性能的瓶頸,如何在不增加訓練負擔的情況下,進一步挖掘并增強現(xiàn)有策略的潛力?
香港大學團隊開創(chuàng)性地提出了 GPC(General Policy Composition,通用策略組合)框架,為這一挑戰(zhàn)提供了全新的免訓練解決方案。該框架通過在測試時(test-time)對多個預訓練模型進行 “策略組合”,能夠創(chuàng)造出一個性能超越任何單一父策略的 “組合策略”。
GPC 作為一個 “即插即用” 的通用框架,能夠靈活融合不同架構(如 Diffusion-based Policy、Flow-based Policy)、不同模態(tài)(如視覺-動作模型 VA、視覺-語言-動作模型 VLA)的機器人策略,打破了傳統(tǒng)性能提升方式對數(shù)據(jù)和算力的依賴。

- 論文標題:Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition
- 論文地址: https://arxiv.org/pdf/2510.01068
- 項目地址:https://sagecao1125.github.io/GPC-Site/
- 代碼地址:https://github.com/SageCao1125/GPC
提高策略性能
GPC 免訓練范式登場
盡管基于擴散模型(Diffusion-based models)的機器人策略已取得顯著進展,但其性能的提升始終受限于模型容量和數(shù)據(jù)規(guī)模。傳統(tǒng)的后訓練優(yōu)化方法,如監(jiān)督微調(supervised fine-tuning)需要昂貴的數(shù)據(jù)收集,而強化學習(reinforcement learning)則面臨復雜的獎勵工程和大量的在線交互挑戰(zhàn)。這些限制使得提升現(xiàn)有先進模型的性能變得既昂貴又耗時。
GPC 框架提出了一種提升策略性能的新范式。它不再依賴于 “更多訓練”,而是巧妙地 “組合現(xiàn)有策略”。
GPC 的核心思想是在機器人執(zhí)行任務的瞬間,通過凸組合(convex combination)的方式,將多個預訓練策略的 “決策分數(shù)(distributional scores)” 進行動態(tài)融合。這種方式不僅簡單高效,更重要的是,它建立在堅實的理論基礎之上。
創(chuàng)新理論基石:證明 “1+1>2” 的組合潛力
這一理論基石主要包括兩個核心發(fā)現(xiàn)。
功能層面的提升(Functional-Level Improvement):研究團隊證明,對多個預訓練策略的決策分數(shù)(distributional scores)進行凸組合(convex combination),能夠生成一個在單步上具有更低誤差的組合分數(shù),它比任何一個單一策略的分數(shù)都要更精確。

系統(tǒng)層面的穩(wěn)定性(System-Level Stability):通過建立一個 Gr?nwall 型界限,研究證明了單步的誤差改善能夠沿著整個軌跡傳播,從而確保了組合策略在整個生成軌跡上也具有系統(tǒng)性的性能提升和更低的軌跡采樣誤差。

正是基于這一堅實的數(shù)學和系統(tǒng)穩(wěn)定性證明,GPC 框架得以成立,為機器人能力的增強提供了全新的、有理論支撐的免訓練路徑。

通用 “策略組合器”
免訓練實現(xiàn) “即插即用”
通用策略組合(GPC)框架的核心優(yōu)勢在于其 “即插即用”(plug-and-play)的通用性,它以免訓練的方式,輕松整合了各種機器人策略,打破了模型架構和模態(tài)的界限。
GPC 作為一種全新的范式,不再依賴于額外的模型訓練,而是通過在測試時(test-time)將多個預訓練策略的 “決策分數(shù)” 進行動態(tài)融合來實現(xiàn)性能增強。

異構策略的靈活架構組合
GPC 的通用性建立在其獨特的分數(shù)組合機制上,使其能夠跨越策略架構和輸入模態(tài)進行靈活組合:
- 跨架構兼容:GPC 能夠將基于擴散模型(Diffusion-based Policy)的策略或者基于流匹配(Flow-based Policy)的策略進行組合。這是因為無論策略是基于哪種生成式模型訓練的,它們都能在底層被統(tǒng)一為分數(shù)函數(shù)(score function)的表示。
- 跨模態(tài) / 跨任務融合:GPC 靈活整合了不同輸入條件下的策略。無論是視覺 - 動作(VA)模型、視覺-語言-動作(VLA)模型,還是處理不同視覺模態(tài)(如 RGB 圖像和點云)的策略,GPC 都能將它們的優(yōu)勢匯聚到一個更強大的組合策略中。
統(tǒng)一的分數(shù)凸組合機制
這種機制通過凸組合的方式,有效地平衡了來自不同條件的信息,使合成的決策分數(shù)保持在個體策略的可行凸包內(nèi),從而避免了策略執(zhí)行中的極端或不穩(wěn)定行為,生成更穩(wěn)定、更連貫的動作軌跡。
GPC 與 Superposition(疊加原理)的擴展
除了核心的凸組合方式外,GPC 框架還自然地連接了疊加原理(Superposition),提供了更強大的組合操作符。
- Logical OR(邏輯或):對應于從混合分布中采樣。它通過使用 softmax 函數(shù)來加權,從而確定每個策略分數(shù)在采樣時間步中的相對貢獻。
- Logical AND(邏輯與):對應于分布的交集,旨在強制各策略之間達成一致性。它通過求解一個線性系統(tǒng)來計算權重,確保在采樣過程中不同策略保持一致。
這些擴展的組合操作符(Logical OR 和 Logical AND)為 GPC 提供了放大策略性能的潛力,能夠通過更強的約束或混合機制來進一步提升控制效果。
權重搜索
為不同任務 “量身定制” 最優(yōu)策略
GPC 框架的權重搜索機制,能為每一次策略組合找到最優(yōu)的權重配置,從而為不同的任務和場景 “量身定制” 出最強的 “組合策略”。這一機制建立在嚴謹?shù)睦碚摲治鲋希C明了最優(yōu)權重的存在性,而廣泛的實驗則揭示了權重分配的關鍵作用。

通過在測試時(test-time) 對組合權重進行搜索,GPC 能夠靈活地適應各種任務場景,持續(xù)地實現(xiàn)性能提升。以下是實驗中總結出的三大核心發(fā)現(xiàn):
- 發(fā)現(xiàn) 1:捕捉更廣闊的通用分布 當被組合的兩個策略都具有中等(例如,高于 30%)的準確率時,GPC 在適當?shù)臋嘀嘏渲孟拢ǔD軐崿F(xiàn)比單一基線策略更高的準確率。這種性能的提升,反映了組合后的分數(shù)分布捕捉到了更廣義的分布,減少了對特定條件下的單一決策的依賴。
- 發(fā)現(xiàn) 2:避免弱策略的負面影響 實驗表明,當其中一個策略的準確率顯著較低時,GPC 難以超越表現(xiàn)最好的那個基線策略的峰值性能。這提示了來自低準確率模態(tài)的分數(shù)可能會顯著干擾聯(lián)合分布,從而降低整體組合策略的表現(xiàn)。
- 發(fā)現(xiàn) 3:強策略主導最優(yōu)結果 GPC 性能的提升總是伴隨著表現(xiàn)較好的基線策略獲得更大權重時被最大化。這一發(fā)現(xiàn)強調了為強分布分配更高權重的必要性,它能有效地將組合策略的決策導向更可靠的“共識區(qū)域”,從而最大化 GPC 的有效性。
這些發(fā)現(xiàn)共同強調了 GPC 在利用不同條件策略優(yōu)勢方面的通用性,以及適當調整權重以適應每個策略性能的重要性。
實驗驗證
從仿真到真實世界
經(jīng)過嚴格測試,GPC 在仿真與真實環(huán)境中均展現(xiàn)出超越單一基線方法的性能.
仿真環(huán)境測試:在 Robomimic、PushT 和 RoboTwin 等多個主流仿真測試平臺上,GPC 的應用帶來了顯著的性能提升。與單一基線模型相比,GPC 策略在 Robomimic 和 PushT 任務上實現(xiàn)了最高 7.55% 的平均成功率提升,在復雜的 RoboTwin 雙臂協(xié)作任務上提升了 7%。這表明 GPC 不同任務執(zhí)行的有效性上表現(xiàn)出色,為實際應用節(jié)省了大量的時間和資源。


真實世界:我們采用 PiPER 機器人進行了真機實驗。如 Table 5 所示,在 4 個實際任務中,GPC 在每個任務對比單一基線成功率擁有 5-10% 的提升,展示了在真實環(huán)境中 GPC 框架的提升策略性能的能力。
下面展示了清理桌面的真機視頻:
DP 失敗 ?

DP3 失敗 ?

GPC 成功 ?

想了解更多關于 GPC 的詳細信息,可訪問項目主頁:
https://sagecao1125.github.io/GPC-Site/

































