偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<optgroup id="q1bt6"></optgroup>

<strong id="q1bt6"></strong>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

無需再訓練即可增強性能！港大團隊提出GPC框架，實現(xiàn)機器人「策略組合」

2025-10-20 09:07:00

人工智能新聞

香港大學團隊開創(chuàng)性地提出了?GPC（General Policy Composition，通用策略組合）框架，為這一挑戰(zhàn)提供了全新的免訓練解決方案。

本文一作曹嘉航，香港大學在讀博士生，前北京人形機器人創(chuàng)新中心實習生；共同一作黃翊澤，上海交通大學在讀本科生；通訊導師 Andrew F. Luo，香港大學助理教授。

在機器人學習領域，提升基于生成式模型的控制策略（Policy）的性能通常意味著投入巨額成本進行額外的數(shù)據(jù)采集和模型訓練，這極大地限制了機器人能力的快速迭代與升級。面對模型性能的瓶頸，如何在不增加訓練負擔的情況下，進一步挖掘并增強現(xiàn)有策略的潛力？

香港大學團隊開創(chuàng)性地提出了 GPC（General Policy Composition，通用策略組合）框架，為這一挑戰(zhàn)提供了全新的免訓練解決方案。該框架通過在測試時（test-time）對多個預訓練模型進行 “策略組合”，能夠創(chuàng)造出一個性能超越任何單一父策略的 “組合策略”。

GPC 作為一個 “即插即用” 的通用框架，能夠靈活融合不同架構（如 Diffusion-based Policy、Flow-based Policy）、不同模態(tài)（如視覺-動作模型 VA、視覺-語言-動作模型 VLA）的機器人策略，打破了傳統(tǒng)性能提升方式對數(shù)據(jù)和算力的依賴。

論文標題：Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition
論文地址: https://arxiv.org/pdf/2510.01068
項目地址：https://sagecao1125.github.io/GPC-Site/
代碼地址：https://github.com/SageCao1125/GPC

提高策略性能

GPC 免訓練范式登場

盡管基于擴散模型（Diffusion-based models）的機器人策略已取得顯著進展，但其性能的提升始終受限于模型容量和數(shù)據(jù)規(guī)模。傳統(tǒng)的后訓練優(yōu)化方法，如監(jiān)督微調（supervised fine-tuning）需要昂貴的數(shù)據(jù)收集，而強化學習（reinforcement learning）則面臨復雜的獎勵工程和大量的在線交互挑戰(zhàn)。這些限制使得提升現(xiàn)有先進模型的性能變得既昂貴又耗時。

GPC 框架提出了一種提升策略性能的新范式。它不再依賴于 “更多訓練”，而是巧妙地 “組合現(xiàn)有策略”。

GPC 的核心思想是在機器人執(zhí)行任務的瞬間，通過凸組合（convex combination）的方式，將多個預訓練策略的 “決策分數(shù)（distributional scores）” 進行動態(tài)融合。這種方式不僅簡單高效，更重要的是，它建立在堅實的理論基礎之上。

創(chuàng)新理論基石：證明 “1+1>2” 的組合潛力

這一理論基石主要包括兩個核心發(fā)現(xiàn)。

功能層面的提升（Functional-Level Improvement）：研究團隊證明，對多個預訓練策略的決策分數(shù)（distributional scores）進行凸組合（convex combination），能夠生成一個在單步上具有更低誤差的組合分數(shù)，它比任何一個單一策略的分數(shù)都要更精確。

系統(tǒng)層面的穩(wěn)定性（System-Level Stability）：通過建立一個 Gr?nwall 型界限，研究證明了單步的誤差改善能夠沿著整個軌跡傳播，從而確保了組合策略在整個生成軌跡上也具有系統(tǒng)性的性能提升和更低的軌跡采樣誤差。

正是基于這一堅實的數(shù)學和系統(tǒng)穩(wěn)定性證明，GPC 框架得以成立，為機器人能力的增強提供了全新的、有理論支撐的免訓練路徑。

通用 “策略組合器”

免訓練實現(xiàn) “即插即用”

通用策略組合（GPC）框架的核心優(yōu)勢在于其 “即插即用”（plug-and-play）的通用性，它以免訓練的方式，輕松整合了各種機器人策略，打破了模型架構和模態(tài)的界限。

GPC 作為一種全新的范式，不再依賴于額外的模型訓練，而是通過在測試時（test-time）將多個預訓練策略的 “決策分數(shù)” 進行動態(tài)融合來實現(xiàn)性能增強。

異構策略的靈活架構組合

GPC 的通用性建立在其獨特的分數(shù)組合機制上，使其能夠跨越策略架構和輸入模態(tài)進行靈活組合：

跨架構兼容：GPC 能夠將基于擴散模型（Diffusion-based Policy）的策略或者基于流匹配（Flow-based Policy）的策略進行組合。這是因為無論策略是基于哪種生成式模型訓練的，它們都能在底層被統(tǒng)一為分數(shù)函數(shù)（score function）的表示。
跨模態(tài) / 跨任務融合：GPC 靈活整合了不同輸入條件下的策略。無論是視覺 - 動作（VA）模型、視覺-語言-動作（VLA）模型，還是處理不同視覺模態(tài)（如 RGB 圖像和點云）的策略，GPC 都能將它們的優(yōu)勢匯聚到一個更強大的組合策略中。

統(tǒng)一的分數(shù)凸組合機制

這種機制通過凸組合的方式，有效地平衡了來自不同條件的信息，使合成的決策分數(shù)保持在個體策略的可行凸包內(nèi)，從而避免了策略執(zhí)行中的極端或不穩(wěn)定行為，生成更穩(wěn)定、更連貫的動作軌跡。

GPC 與 Superposition（疊加原理）的擴展

除了核心的凸組合方式外，GPC 框架還自然地連接了疊加原理（Superposition），提供了更強大的組合操作符。

Logical OR（邏輯或）：對應于從混合分布中采樣。它通過使用 softmax 函數(shù)來加權，從而確定每個策略分數(shù)在采樣時間步中的相對貢獻。
Logical AND（邏輯與）：對應于分布的交集，旨在強制各策略之間達成一致性。它通過求解一個線性系統(tǒng)來計算權重，確保在采樣過程中不同策略保持一致。

這些擴展的組合操作符（Logical OR 和 Logical AND）為 GPC 提供了放大策略性能的潛力，能夠通過更強的約束或混合機制來進一步提升控制效果。

權重搜索

為不同任務 “量身定制” 最優(yōu)策略

GPC 框架的權重搜索機制，能為每一次策略組合找到最優(yōu)的權重配置，從而為不同的任務和場景 “量身定制” 出最強的 “組合策略”。這一機制建立在嚴謹?shù)睦碚摲治鲋希C明了最優(yōu)權重的存在性，而廣泛的實驗則揭示了權重分配的關鍵作用。

通過在測試時（test-time) 對組合權重進行搜索，GPC 能夠靈活地適應各種任務場景，持續(xù)地實現(xiàn)性能提升。以下是實驗中總結出的三大核心發(fā)現(xiàn)：

發(fā)現(xiàn) 1：捕捉更廣闊的通用分布當被組合的兩個策略都具有中等（例如，高于 30%）的準確率時，GPC 在適當?shù)臋嘀嘏渲孟拢ǔＤ軐崿F(xiàn)比單一基線策略更高的準確率。這種性能的提升，反映了組合后的分數(shù)分布捕捉到了更廣義的分布，減少了對特定條件下的單一決策的依賴。
發(fā)現(xiàn) 2：避免弱策略的負面影響實驗表明，當其中一個策略的準確率顯著較低時，GPC 難以超越表現(xiàn)最好的那個基線策略的峰值性能。這提示了來自低準確率模態(tài)的分數(shù)可能會顯著干擾聯(lián)合分布，從而降低整體組合策略的表現(xiàn)。
發(fā)現(xiàn) 3：強策略主導最優(yōu)結果 GPC 性能的提升總是伴隨著表現(xiàn)較好的基線策略獲得更大權重時被最大化。這一發(fā)現(xiàn)強調了為強分布分配更高權重的必要性，它能有效地將組合策略的決策導向更可靠的“共識區(qū)域”，從而最大化 GPC 的有效性。

這些發(fā)現(xiàn)共同強調了 GPC 在利用不同條件策略優(yōu)勢方面的通用性，以及適當調整權重以適應每個策略性能的重要性。

實驗驗證

從仿真到真實世界

經(jīng)過嚴格測試，GPC 在仿真與真實環(huán)境中均展現(xiàn)出超越單一基線方法的性能.

仿真環(huán)境測試：在 Robomimic、PushT 和 RoboTwin 等多個主流仿真測試平臺上，GPC 的應用帶來了顯著的性能提升。與單一基線模型相比，GPC 策略在 Robomimic 和 PushT 任務上實現(xiàn)了最高 7.55% 的平均成功率提升，在復雜的 RoboTwin 雙臂協(xié)作任務上提升了 7%。這表明 GPC 不同任務執(zhí)行的有效性上表現(xiàn)出色，為實際應用節(jié)省了大量的時間和資源。

真實世界：我們采用 PiPER 機器人進行了真機實驗。如 Table 5 所示，在 4 個實際任務中，GPC 在每個任務對比單一基線成功率擁有 5-10% 的提升，展示了在真實環(huán)境中 GPC 框架的提升策略性能的能力。

下面展示了清理桌面的真機視頻：

DP 失敗 ?

DP3 失敗 ?

GPC 成功 ?

想了解更多關于 GPC 的詳細信息，可訪問項目主頁：

https://sagecao1125.github.io/GPC-Site/

責任編輯：張燕妮來源：機器之心

AI 訓練機器人

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="jwc8j"></style>