偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

具身世界模型新突破,地平線 & 極佳提出幾何一致視頻世界模型增強機器人策略學習

人工智能 新聞
近日,地平線、極佳科技與中國科學院自動化研究所等單位提出 RoboTransfer,基于擴散模型的視頻生成框架,可以用于擴充機器人策略模型的訓練數(shù)據(jù)。

近年來,隨著人工智能從感知智能向決策智能演進,世界模型 (World Models)逐漸成為機器人領域的重要研究方向。世界模型旨在讓智能體對環(huán)境進行建模并預測未來狀態(tài),從而實現(xiàn)更高效的規(guī)劃與決策。

與此同時,具身數(shù)據(jù)也迎來了爆發(fā)式關注。因為目前具身算法高度依賴于大規(guī)模的真實機器人演示數(shù)據(jù),而這些數(shù)據(jù)的采集過程往往成本高昂、耗時費力,嚴重限制了其可擴展性和泛化能力。盡管仿真平臺提供了一種相對低成本的數(shù)據(jù)生成方式,但由于仿真環(huán)境與真實世界之間存在顯著的視覺和動力學差異(即 sim-to-real gap),導致在仿真中訓練的策略難以直接遷移到真實機器人上,從而限制了其實際應用效果。因此如何高效獲取、生成和利用高質量的具身數(shù)據(jù),已成為當前機器人學習領域的核心挑戰(zhàn)之一。

近日,地平線、極佳科技與中國科學院自動化研究所等單位提出 RoboTransfer,基于擴散模型的視頻生成框架,可以用于擴充機器人策略模型的訓練數(shù)據(jù)。得益于合成數(shù)據(jù)的多樣性,下游策略模型能夠在新場景下取得 251% 的顯著提升,大幅提升策略模型的泛化性,為具身智能的通用性與泛化性奠定了堅實的基礎。

圖片

  • 論文題目:RoboTransfer:Geometry-Consistent Video Diffusionfor Robotic Visual Policy Transfer
  • 論文鏈接:https://arxiv.org/pdf/2505.23171
  • 項目主頁:https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿學習(Imitation Learning)已成為機器人操作領域的重要方法之一。通過讓機器人 “模仿” 專家示教的行為,可以在復雜任務中快速構建有效的策略模型。然而,這類方法通常依賴大量高質量的真實機器人演示數(shù)據(jù),而數(shù)據(jù)采集過程成本高、周期長,嚴重制約了其擴展性和泛化能力。

為了解決上述問題,本項工作提出了 RoboTransfer ,一種基于擴散模型(diffusion model)的視頻生成框架,旨在實現(xiàn)高質量的機器人操作場景數(shù)據(jù)合成。不同于傳統(tǒng)的仿真方法或現(xiàn)有生成模型,RoboTransfer 融合了多視角幾何信息,并對場景中的關鍵組成成分(如背景、物體屬性等)實現(xiàn)了顯式控制。具體而言,RoboTransfer 通過引入跨視角特征交互機制以及全局深度圖與法向圖作為條件輸入,確保生成視頻在多個視角下的幾何一致性。此外,該框架支持細粒度的編輯控制,例如更換背景、替換目標物體等,從而能夠靈活地生成多樣化、結構合理的視覺數(shù)據(jù)。

實驗結果表明,RoboTransfer 能夠生成具有高幾何一致性和視覺質量的多視角視頻序列。此外,使用 RoboTransfer 合成數(shù)據(jù)訓練的機器人視覺策略模型,在標準測試任務中表現(xiàn)出顯著提升的性能:在更換前景物體的場景下取得了 33.3% 的成功率相對提升,在更具挑戰(zhàn)性的場景下(同時更換前景背景)更是達到了 251% 的顯著提升。

圖片

RoboTransfer 的整體框圖如下,為了在視頻生成過程中保證多視角之間的一致性,RoboTransfer 引入了多視角一致性建模機制,使得生成過程能夠聯(lián)合不同視角的信息進行推理,從而提升生成結果的空間連貫性與視覺合理性。

此外,在控制條件的設計方面,RoboTransfer 通過將控制信號解耦為幾何信息與外觀(紋理)信息兩個部分,實現(xiàn)了對生成內容的細粒度控制。具體來說,在幾何控制方面,采用深度圖(depth map)和表面法向圖(surface normal map)等具有強結構約束的表示方式,來引導生成視頻中物體的三維空間結構,確保在不同視角下生成內容的幾何一致性。而在外觀控制方面,模型利用參考背景圖像和目標物體的參考圖像作為輸入條件,這些圖像經(jīng)過編碼后能夠有效保留原始場景的色彩、紋理以及上下文信息,從而在生成過程中維持物體外觀的細節(jié)還原能力。

圖片

在實驗部分,RoboTransfer 證明可以通過 real-to-real,以及 sim-to-real 兩種方式實現(xiàn)數(shù)據(jù)增廣,并訓練下游的策略模型提升其性能。

  • real-to-real 數(shù)據(jù)增廣
    基于真機采集的真實視頻數(shù)據(jù),可從中提取結構化信息作為控制條件,通過調整背景桌面與前景物體的控制參數(shù),實現(xiàn)新場景數(shù)據(jù)的合成。如下圖所示,左側為真實采集的數(shù)據(jù)及其對應的結構化信息,右側為合成結果,實驗表明 RoboTransfer 能夠靈活地實現(xiàn)背景桌布的替換。

改變前景:下圖所示第一行為真機采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為前景物體的控制條件,第五行為合成數(shù)據(jù),第六行為背景桌布控制條件。以下實驗結果表明 RoboTransfer 可以實現(xiàn)對前景物體外表編輯的功能,豐富生成數(shù)據(jù)的多樣性,提升策略模型的訓練質量。

  • sim-to-real 數(shù)據(jù)增廣
    RoboTransfer 不僅可以改變真機數(shù)據(jù)的前景和背景,還可以實現(xiàn)對仿真數(shù)據(jù)的重新渲染。利用仿真數(shù)據(jù)中的結構化信息以及真實場景的物體和背景作為控制條件,RoboTransfer 可以將仿真數(shù)據(jù)的轉化為逼真的真實數(shù)據(jù),極大地降低 sim-to-real 之間的 gap,為通用機器人的訓練提供了一個新的范式。以下是兩個不同的仿真場景重新渲染的實驗結果,左側是疊碗,右側是放置杯子,其中第一行為仿真采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為合成數(shù)據(jù),第五行為背景參考圖。

  • 對比實驗結果與其他 SOTA 方法的對比可以發(fā)現(xiàn),RoboTransfer 在時序一致性以及多視角之間的一致性上都要顯著優(yōu)于其他方法。

定量實驗的實驗結果如下表所示,實驗表明對于生成數(shù)據(jù)的前背景增廣可以顯著提升策略模型在新場景下的成功率,其中對于前背景完全改變的新場景,前背景的數(shù)據(jù)增廣能夠讓策略模型獲得 251% 的性能提升。

圖片

表 1 數(shù)據(jù)增廣對于策略模型在不同 setting 下的提升

總體來說,該方法構建了數(shù)據(jù)處理流程,可以生成包含幾何和外觀控制條件的三元組數(shù)據(jù),以訓練基于擴散模型的機器人數(shù)據(jù)合成框架 RoboTransfer。實驗和評估結果顯示,RoboTransfer 能夠生成具有多視角一致、幾何一致的數(shù)據(jù),并且可以根據(jù)參考圖像修改前景和背景紋理。生成的數(shù)據(jù)用于訓練機器人操作策略,從而顯著提升了策略模型的泛化能力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-02 09:12:34

2024-10-28 13:30:00

2024-09-10 10:07:19

2023-07-25 21:19:14

地平線機器人RDK

2023-07-29 13:43:26

機器人模型

2025-03-19 10:26:10

2022-06-15 10:48:51

邊緣計算人工智能地平線

2024-10-23 15:13:35

2024-03-25 08:00:00

3DAI

2024-10-16 16:20:00

AI機器人

2016-01-20 15:07:37

光合資本

2024-04-28 14:54:09

機器人代碼

2024-09-18 13:30:00

2024-06-04 14:16:00

機器人AI

2025-01-09 12:39:27

2025-05-12 09:10:00

視頻生成模型

2025-03-24 09:50:00

大模型自動駕駛AI

2025-06-13 00:03:00

點贊
收藏

51CTO技術棧公眾號