偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

機器人不只會抓和放!北京大學X銀河通用「世界-動作模型」賦能全面泛化的非抓握技能

人工智能 新聞
北京大學與銀河通用提出了自適應(yīng)性【世界 - 動作】模型 Dynamics-adaptive World Action Model (DyWA)(/di?.v?/),協(xié)同學習系統(tǒng)的動力學和機器人的精細操作策略。該項研究已被 ICCV 2025 接收。

本文的作者團隊來自北京大學和銀河通用機器人公司。第一作者為北京大學計算機學院前沿計算研究中心博士生呂江燃,主要研究方向為具身智能,聚焦于世界模型和機器人的靈巧操作,論文發(fā)表于 ICCV,TPAMI,RSS,CoRL,RAL 等機器人頂會頂刊。本文的通訊作者為北京大學計算機學院教授王亦洲和北京大學助理教授、銀河通用創(chuàng)始人及CTO 王鶴。

盡管當前的機器人視覺語言操作模型(VLA)展現(xiàn)出一定的泛化能力,但其操作模式仍以準靜態(tài)的抓取與放置(pick-and-place)為主。相比之下,人類在操作物體時常常采用推動、翻轉(zhuǎn)等更加靈活的方式。若機器人僅掌握抓取,將難以應(yīng)對現(xiàn)實環(huán)境中的復雜任務(wù)。例如,抓起一張薄薄的銀行卡,通常需要先將其推到桌邊;而抓取一個寬大的盒子,則往往需要先將其翻轉(zhuǎn)立起(如圖 1 所示):

圖片

這些技能都屬于一個重要的領(lǐng)域:非抓握操作(Non-prehensile Manipulation)。非抓握操作泛指不通過夾取、抓握等方式進行物體操控的行為,廣泛應(yīng)用于處理薄片、大型物體、復雜幾何或密集場景下的操作任務(wù)。然而現(xiàn)實環(huán)境的物理屬性比較復雜,操作對象的幾何形狀,質(zhì)量,桌面的摩擦力等都會成為制約非抓握操作的因素。為了實現(xiàn)對上述環(huán)境因素全面泛化的非抓握操作技能,北京大學與銀河通用提出了自適應(yīng)性【世界 - 動作】模型 Dynamics-adaptive World Action Model (DyWA)(/di?.v?/),協(xié)同學習系統(tǒng)的動力學和機器人的精細操作策略。該項研究已被 ICCV 2025 接收。

圖片

  • 論文鏈接:https://arxiv.org/abs/2503.16806
  • 論文標題:DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation
  • 項目主頁:https://pku-epic.github.io/DyWA/
  • 代碼倉庫: https://github.com/jiangranlv/DyWA

非抓握操作的兩大難點

復雜的接觸建模

與抓取相比,非抓握操作涉及連續(xù)接觸、多變的摩擦力等復雜物理交互。 機器人推一個物體時,摩擦力的微小變化可能導致運動軌跡完全不同:換一塊桌布,物體就變得 “推不動” 或 “滑太快”;同一個杯子,空的和裝滿水時,移動行為完全不同;對于質(zhì)量分布不均的物體,會出現(xiàn) “旋轉(zhuǎn) - 滑動” 的非線性行為。

傳統(tǒng)的物理建?;騼?yōu)化方法(如 Trajectory Optimization)雖然可以部分求解這些問題,但依賴精確的物體質(zhì)量、摩擦系數(shù)、幾何模型,這些屬性難以在真實世界獲得。目前的學習方法如 CORN、HACMan 等,主要側(cè)重于僅根據(jù)幾何信息推理動作,例如 “向左推物體會往左移動”,但它們?nèi)狈Νh(huán)境中潛在動力學屬性(如摩擦、質(zhì)量、彈性等)的建模與適應(yīng)能力,導致在面對真實物理擾動時表現(xiàn)急劇下降。

現(xiàn)實感知受限:信息缺失 + 噪聲干擾

要實現(xiàn)高質(zhì)量的非抓取操作,機器人必須知道物體在哪里、姿態(tài)如何、表面幾何如何接觸。這對感知系統(tǒng)提出了極高的要求。

但在現(xiàn)實中,常見傳感器面臨單視角點云嚴重遮擋,多視角設(shè)置昂貴且繁瑣,不適合部署在真實環(huán)境或移動平臺上;而已有方法常常假設(shè)多視角輸入、額外的位姿追蹤模塊,但在現(xiàn)實中難以部署。

DyWA 的核心方法

1. 世界 - 動作模型:聯(lián)合建模動作與未來狀態(tài),讓策略具備 “想象力”

DyWA 采用標準的 teacher-student 框架,將利用全知信息訓練的強化學習教師策略在線蒸餾給一個僅接收點云輸入的學生模型。與傳統(tǒng)方法僅學習動作輸出不同,DyWA 同時預(yù)測動作將帶來的未來狀態(tài),相當于讓機器人 “想象” 動作執(zhí)行后的效果。在訓練過程中,模型因此能夠隱式建模物理世界的動力學過程,從而顯著提升學習效率與泛化能力。該模型被稱為 “World Action Model”。實驗結(jié)果表明,這種聯(lián)合建模方式可帶來更優(yōu)的策略優(yōu)化效果和更強的魯棒性。

2. 動力學自適應(yīng)機制:從歷史中 “讀懂” 摩擦、質(zhì)量等隱含因素

在真實環(huán)境中,機器人往往無法直接獲知桌面的摩擦系數(shù)或物體的質(zhì)量分布。DyWA 引入了一種類似 RMA(Rapid Motor Adaptation)思想的動態(tài)適應(yīng)模塊,通過分析歷史觀測和動作序列,推理出環(huán)境中隱含的物理屬性,例如表面是否光滑、物體是否沉重或質(zhì)量分布是否均勻。同時,歷史信息還包含更完整的幾何線索,彌補了單幀觀測中的缺失。

該動力學表示通過 FiLM 機制調(diào)控世界模型的中間特征,使策略在執(zhí)行過程中能夠動態(tài)調(diào)整 “用力” 或 “穩(wěn)住” 的程度,實現(xiàn)自適應(yīng)的物理交互。

3. 單視角輸入 + 大規(guī)模域隨機化仿真訓練 + 零樣本遷移

考慮到現(xiàn)實部署的可行性,DyWA 設(shè)計上僅依賴單個深度相機獲取的點云作為輸入,不依賴多攝像頭系統(tǒng),也無需外部位姿追蹤模塊。經(jīng)過對物理參數(shù)(摩擦系數(shù),物體質(zhì)心分布等)規(guī)模域隨機化訓練后,模型能夠?qū)崿F(xiàn)從仿真到真實機器人的零樣本遷移,達成端到端的泛化操控能力。

圖片

DyWA 的全面泛化能力

在仿真中,本文搭建了一個全面的 benchmark 用以評估目前 learning-based 方法的表現(xiàn)??梢钥吹剑谝阎矬w狀態(tài)(三視角點云),未知物體狀態(tài)(三視角點云)和未知物體狀態(tài)(單視角點云)三種設(shè)置下,DyWA 都顯著優(yōu)于基線方法,實現(xiàn)了 80 + 成功率的精準操作。

圖片

仿真實驗結(jié)果

圖片

真機實驗結(jié)果

DyWA 可以零樣本遷移到真實世界并展現(xiàn)全面泛化性:

1. 不僅對物體幾何形狀泛化,更對物體質(zhì)量分布泛化: DyWA 能將桌面上任意形狀的未在訓練中見到的物體推到目標 6D 位姿,成功率接近 70。無論是底重頭輕的咖啡壺,或是搖晃著的半滿水瓶,DyWA 都能實現(xiàn)穩(wěn)健操作

圖片

6 倍速播放

圖片

原速播放

2. 適應(yīng)各種摩擦面:無論是高摩擦的瑜伽墊,還是低摩擦易打滑的塑料板,DyWA 都能自適應(yīng)控制力度,維持操作的魯棒性。

圖片

6 倍速播放

3. 強大的閉環(huán)自適應(yīng)能力:面對光滑的瓶子,DyWA 能在失敗幾次后適應(yīng)并成功翻轉(zhuǎn)瓶子

圖片

 6 倍速播放

另外,DyWA 可與抓取策略及視覺語言大模型(VLM)協(xié)同工作。如圖 1 所示的例子,在用戶通過自然語言指定目標位置后,DyWA 首先將物體推至便于抓取的姿態(tài),再由抓取策略完成任務(wù),從而顯著提升復雜場景下的整體成功率。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2009-08-17 11:02:25

2025-04-25 09:17:00

2013-04-02 11:23:17

Hadoop優(yōu)酷

2015-11-23 17:37:54

51社保

2022-10-21 17:30:26

機器人

2025-09-05 10:09:47

2025-08-18 09:07:00

2012-11-28 16:05:47

應(yīng)用交付負載均衡AD

2012-02-03 11:13:49

北京大學浪潮高性能計算

2023-12-14 13:30:00

AI模型

2012-08-04 08:16:39

戴爾

2025-03-19 10:26:10

2025-07-25 10:19:44

2016-04-14 16:21:38

2025-07-14 08:47:00

AI視覺模型

2021-05-21 11:11:40

機器人醫(yī)療技術(shù)

2025-07-24 08:40:00

點贊
收藏

51CTO技術(shù)棧公眾號