偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無需再訓練即可增強性能!港大團隊提出GPC框架,實現(xiàn)機器人「策略組合」

人工智能 新聞
香港大學團隊開創(chuàng)性地提出了?GPC(General Policy Composition,通用策略組合)框架,為這一挑戰(zhàn)提供了全新的免訓練解決方案。

本文一作曹嘉航,香港大學在讀博士生,前北京人形機器人創(chuàng)新中心實習生;共同一作黃翊澤,上海交通大學在讀本科生;通訊導師 Andrew F. Luo,香港大學助理教授。

在機器人學習領域,提升基于生成式模型的控制策略(Policy)的性能通常意味著投入巨額成本進行額外的數(shù)據(jù)采集和模型訓練,這極大地限制了機器人能力的快速迭代與升級。面對模型性能的瓶頸,如何在不增加訓練負擔的情況下,進一步挖掘并增強現(xiàn)有策略的潛力?

香港大學團隊開創(chuàng)性地提出了 GPC(General Policy Composition,通用策略組合)框架,為這一挑戰(zhàn)提供了全新的免訓練解決方案。該框架通過在測試時(test-time)對多個預訓練模型進行 “策略組合”,能夠創(chuàng)造出一個性能超越任何單一父策略的 “組合策略”。

GPC 作為一個 “即插即用” 的通用框架,能夠靈活融合不同架構(如 Diffusion-based Policy、Flow-based Policy)、不同模態(tài)(如視覺-動作模型 VA、視覺-語言-動作模型 VLA)的機器人策略,打破了傳統(tǒng)性能提升方式對數(shù)據(jù)和算力的依賴。

  • 論文標題:Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition
  • 論文地址:  https://arxiv.org/pdf/2510.01068
  • 項目地址:https://sagecao1125.github.io/GPC-Site/
  • 代碼地址:https://github.com/SageCao1125/GPC

提高策略性能

GPC 免訓練范式登場

盡管基于擴散模型(Diffusion-based models)的機器人策略已取得顯著進展,但其性能的提升始終受限于模型容量和數(shù)據(jù)規(guī)模。傳統(tǒng)的后訓練優(yōu)化方法,如監(jiān)督微調(supervised fine-tuning)需要昂貴的數(shù)據(jù)收集,而強化學習(reinforcement learning)則面臨復雜的獎勵工程和大量的在線交互挑戰(zhàn)。這些限制使得提升現(xiàn)有先進模型的性能變得既昂貴又耗時。

GPC 框架提出了一種提升策略性能的新范式。它不再依賴于 “更多訓練”,而是巧妙地 “組合現(xiàn)有策略”。

GPC 的核心思想是在機器人執(zhí)行任務的瞬間,通過凸組合(convex combination)的方式,將多個預訓練策略的 “決策分數(shù)(distributional scores)” 進行動態(tài)融合。這種方式不僅簡單高效,更重要的是,它建立在堅實的理論基礎之上。

創(chuàng)新理論基石:證明 “1+1>2” 的組合潛力

這一理論基石主要包括兩個核心發(fā)現(xiàn)。

功能層面的提升(Functional-Level Improvement):研究團隊證明,對多個預訓練策略的決策分數(shù)(distributional scores)進行凸組合(convex combination),能夠生成一個在單步上具有更低誤差的組合分數(shù),它比任何一個單一策略的分數(shù)都要更精確。

系統(tǒng)層面的穩(wěn)定性(System-Level Stability):通過建立一個 Gr?nwall 型界限,研究證明了單步的誤差改善能夠沿著整個軌跡傳播,從而確保了組合策略在整個生成軌跡上也具有系統(tǒng)性的性能提升和更低的軌跡采樣誤差。

正是基于這一堅實的數(shù)學和系統(tǒng)穩(wěn)定性證明,GPC 框架得以成立,為機器人能力的增強提供了全新的、有理論支撐的免訓練路徑。

通用 “策略組合器”

免訓練實現(xiàn) “即插即用”

通用策略組合(GPC)框架的核心優(yōu)勢在于其 “即插即用”(plug-and-play)的通用性,它以免訓練的方式,輕松整合了各種機器人策略,打破了模型架構和模態(tài)的界限。

GPC 作為一種全新的范式,不再依賴于額外的模型訓練,而是通過在測試時(test-time)將多個預訓練策略的 “決策分數(shù)” 進行動態(tài)融合來實現(xiàn)性能增強。

異構策略的靈活架構組合

GPC 的通用性建立在其獨特的分數(shù)組合機制上,使其能夠跨越策略架構和輸入模態(tài)進行靈活組合:

  • 跨架構兼容:GPC 能夠將基于擴散模型(Diffusion-based Policy)的策略或者基于流匹配(Flow-based Policy)的策略進行組合。這是因為無論策略是基于哪種生成式模型訓練的,它們都能在底層被統(tǒng)一為分數(shù)函數(shù)(score function)的表示。
  • 跨模態(tài) / 跨任務融合:GPC 靈活整合了不同輸入條件下的策略。無論是視覺 - 動作(VA)模型、視覺-語言-動作(VLA)模型,還是處理不同視覺模態(tài)(如 RGB 圖像和點云)的策略,GPC 都能將它們的優(yōu)勢匯聚到一個更強大的組合策略中。

統(tǒng)一的分數(shù)凸組合機制

這種機制通過凸組合的方式,有效地平衡了來自不同條件的信息,使合成的決策分數(shù)保持在個體策略的可行凸包內(nèi),從而避免了策略執(zhí)行中的極端或不穩(wěn)定行為,生成更穩(wěn)定、更連貫的動作軌跡。

GPC 與 Superposition(疊加原理)的擴展

除了核心的凸組合方式外,GPC 框架還自然地連接了疊加原理(Superposition),提供了更強大的組合操作符。

  • Logical OR(邏輯或):對應于從混合分布中采樣。它通過使用 softmax 函數(shù)來加權,從而確定每個策略分數(shù)在采樣時間步中的相對貢獻。
  • Logical AND(邏輯與):對應于分布的交集,旨在強制各策略之間達成一致性。它通過求解一個線性系統(tǒng)來計算權重,確保在采樣過程中不同策略保持一致。

這些擴展的組合操作符(Logical OR 和 Logical AND)為 GPC 提供了放大策略性能的潛力,能夠通過更強的約束或混合機制來進一步提升控制效果。

權重搜索

為不同任務 “量身定制” 最優(yōu)策略

GPC 框架的權重搜索機制,能為每一次策略組合找到最優(yōu)的權重配置,從而為不同的任務和場景 “量身定制” 出最強的 “組合策略”。這一機制建立在嚴謹?shù)睦碚摲治鲋希C明了最優(yōu)權重的存在性,而廣泛的實驗則揭示了權重分配的關鍵作用。

通過在測試時(test-time) 對組合權重進行搜索,GPC 能夠靈活地適應各種任務場景,持續(xù)地實現(xiàn)性能提升。以下是實驗中總結出的三大核心發(fā)現(xiàn):

  • 發(fā)現(xiàn) 1:捕捉更廣闊的通用分布 當被組合的兩個策略都具有中等(例如,高于 30%)的準確率時,GPC 在適當?shù)臋嘀嘏渲孟拢ǔD軐崿F(xiàn)比單一基線策略更高的準確率。這種性能的提升,反映了組合后的分數(shù)分布捕捉到了更廣義的分布,減少了對特定條件下的單一決策的依賴。
  • 發(fā)現(xiàn) 2:避免弱策略的負面影響 實驗表明,當其中一個策略的準確率顯著較低時,GPC 難以超越表現(xiàn)最好的那個基線策略的峰值性能。這提示了來自低準確率模態(tài)的分數(shù)可能會顯著干擾聯(lián)合分布,從而降低整體組合策略的表現(xiàn)。
  • 發(fā)現(xiàn) 3:強策略主導最優(yōu)結果 GPC 性能的提升總是伴隨著表現(xiàn)較好的基線策略獲得更大權重時被最大化。這一發(fā)現(xiàn)強調了為強分布分配更高權重的必要性,它能有效地將組合策略的決策導向更可靠的“共識區(qū)域”,從而最大化 GPC 的有效性。

這些發(fā)現(xiàn)共同強調了 GPC 在利用不同條件策略優(yōu)勢方面的通用性,以及適當調整權重以適應每個策略性能的重要性。

實驗驗證

從仿真到真實世界

經(jīng)過嚴格測試,GPC 在仿真與真實環(huán)境中均展現(xiàn)出超越單一基線方法的性能.

仿真環(huán)境測試:在 Robomimic、PushT 和 RoboTwin 等多個主流仿真測試平臺上,GPC 的應用帶來了顯著的性能提升。與單一基線模型相比,GPC 策略在 Robomimic 和 PushT 任務上實現(xiàn)了最高 7.55% 的平均成功率提升,在復雜的 RoboTwin 雙臂協(xié)作任務上提升了 7%。這表明 GPC 不同任務執(zhí)行的有效性上表現(xiàn)出色,為實際應用節(jié)省了大量的時間和資源。

真實世界:我們采用 PiPER 機器人進行了真機實驗。如 Table 5 所示,在 4 個實際任務中,GPC 在每個任務對比單一基線成功率擁有 5-10% 的提升,展示了在真實環(huán)境中 GPC 框架的提升策略性能的能力。

下面展示了清理桌面的真機視頻:

DP 失敗 ?

DP3 失敗 ?

GPC 成功 ?

想了解更多關于 GPC 的詳細信息,可訪問項目主頁:

https://sagecao1125.github.io/GPC-Site/

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-23 20:35:15

機器人

2024-11-22 14:24:24

機器人AI

2024-02-07 12:13:03

AI模型

2025-08-28 09:00:00

機器人訓練算法

2024-08-19 14:05:00

2025-04-15 09:15:00

AI機器人訓練

2025-03-19 10:26:10

2022-12-29 18:07:25

DDD電話機器人

2022-06-20 06:27:58

Meta人工智能AI模型

2021-07-19 09:11:05

機器人人工智能算法

2024-10-06 12:32:42

2021-11-15 10:00:22

模型人工智能NLP

2024-10-29 15:20:00

強化學習模型

2023-08-21 12:00:03

2D研究

2019-08-27 11:15:20

機器人人工智能編程

2025-05-30 08:55:00

機器人AI訓練

2017-03-28 17:18:20

2025-07-25 14:59:51

機器人訓練技術

2020-04-09 09:56:55

機器人導航框架

2023-12-13 11:35:36

人工智能AI機器學習
點贊
收藏

51CTO技術棧公眾號