偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓機器人在“想象”中學習世界的模型來了!PI聯(lián)創(chuàng)課題組&清華陳建宇團隊聯(lián)合出品

人工智能 新聞
隨著視頻擴散模型對物理規(guī)律建模的進一步精準,未來的CTRL-WORLD有望成為機器人“通用訓練平臺”,推動人形機器人更快走向開放世界。

這兩天,Physical Intelligence(PI)聯(lián)合創(chuàng)始人Chelsea Finn在??上,對斯坦福課題組一項最新世界模型工作kuakua連續(xù)點贊。

生成看起來不錯的視頻很容易,難的是構建一個真正對機器人有用的通用模型——它需要緊密跟隨動作,還要足夠準確以避免頻繁幻覺。

這項研究,正是她在斯坦福帶領的課題組與清華大學陳建宇團隊聯(lián)合提出的可控生成世界模型Ctrl-World。

這是一個能讓機器人在“想象空間”中完成任務預演、策略評估與自我迭代的突破性方案。

核心數(shù)據(jù)顯示,該模型使用零真機數(shù)據(jù),大幅提升策略在某些在下游任務的指令跟隨能力,成功率從38.7%提升至83.4%,平均改進幅度達44.7%。

其相關論文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已發(fā)布于arXiv平臺。

注:Ctrl-World專為通用機器人策略的策略在環(huán)軌跡推演而設計。它生成聯(lián)合多視角預測(包括腕部視角),通過幀級條件控制實現(xiàn)細粒度動作控制,并通過姿態(tài)條件記憶檢索維持連貫的長時程動態(tài)。這些組件實現(xiàn)了:(1)在想象中進行精準的策略評估,并與真實世界軌跡推演對齊(2)通過合成軌跡實現(xiàn)針對性的策略改進。

研究背景:機器人訓練的“真實世界困境”與世界模型的破局價值

當前,視覺-語言-動作(VLA)模型雖在多種操作任務與場景中展現(xiàn)出卓越性能,但在開放世界場景中仍面臨兩大核心難題,這也是團隊研發(fā)CTRL-WORLD的核心動因:

難題一,策略評估成本高,真實測試燒錢又低效。

驗證機器人策略性能需在不同場景、任務中反復試錯。

以“抓取物體”任務為例,研究者需準備大小、材質、形狀各異的物體,搭配不同光照、桌面紋理的環(huán)境,讓機器人重復成百上千次操作。

不僅如此,測試中還可能出現(xiàn)機械臂碰撞(故障率約5%-8%)、物體損壞(損耗成本單輪測試超千元)等問題,單策略評估周期常達數(shù)天。更關鍵的是,抽樣測試無法覆蓋所有潛在場景,難以全面暴露策略缺陷。

難題二,策略迭代同樣難,真實場景數(shù)據(jù)永遠不夠用。

即便在含95k軌跡、564個場景的DROID數(shù)據(jù)集上訓練的主流模型π?.?,面對“抓取左上角物體”“折疊帶花紋毛巾”等陌生指令或“手套、訂書機”等未見過的物體時,成功率僅38.7%。

傳統(tǒng)改進方式依賴人類專家標注新數(shù)據(jù),但標注速度遠趕不上場景更新速度——標注100條高質量折疊毛巾軌跡需資深工程師20小時,成本超萬元,且無法覆蓋所有異形物體與指令變體。

開放世界尚存在棘手問題,另一邊,傳統(tǒng)世界模型目前也還面臨三大痛點——

為解決真實世界依賴,學界曾嘗試用世界模型(即虛擬模擬器)讓機器人在想象中訓練。

但研究團隊在論文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》中指出,現(xiàn)有世界模型多數(shù)方法聚焦于被動視頻預測場景,無法與先進通用策略進行主動交互。

具體來說,存在三大關鍵局限,阻礙其支持策略在環(huán)(policy-in-the-loop)推演:

  • 單視角導致幻覺多數(shù)模型僅模擬單一第三人稱視角,導致“部分可觀測性問題”——例如機械臂抓取物體時,模型看不到腕部與物體的接觸狀態(tài),可能出現(xiàn)“物體無物理接觸卻瞬移到夾爪中”的幻覺;
  • 動作控制不精細傳統(tǒng)模型多依賴文本或初始圖像條件,無法綁定高頻、細微的動作信號,例如機械臂“Z軸移動6厘米”與“Z軸移動4厘米”的差異無法被準確反映,導致虛擬預演與真實動作脫節(jié);
  • 長時一致性差隨著預測時間延長,微小誤差會不斷累積,導致“時序漂移”——論文實驗顯示,傳統(tǒng)模型在10秒預演后,物體位置與真實物理規(guī)律的偏差,失去參考價值。

為此,清華大學陳建宇與斯坦福大學Chelsea Finn兩大團隊聯(lián)合提出CTRL-WORLD,旨在構建一個“能精準模擬、可長期穩(wěn)定、與真實對齊”的機器人虛擬訓練空間,讓機器人通過“想象”訓練。

三大創(chuàng)新技術,讓CTRL-WORLD突破傳統(tǒng)世界模型局限

Ctrl-World通過三項針對性設計,解決了傳統(tǒng)世界模型的痛點,實現(xiàn)“高保真、可控制、長連貫”的虛擬預演。

論文強調,這三大創(chuàng)新共同將“被動視頻生成模型”轉化為“可與VLA策略閉環(huán)交互的模擬器”。

Ctrl-World基于預訓練視頻擴散模型初始化,并通過以下方式適配為一個可控且時間一致的世界模型:

  • 多視角輸入與聯(lián)合預測
  • 幀級動作條件控制
  • 姿態(tài)條件記憶檢索

第一,多視角聯(lián)合預測:解決“視野盲區(qū)”,降低幻覺率

一般來說,以往模型靠單視圖預測,存在部分觀測問題與幻覺。

Ctrl-World結合第三人稱與腕部視圖聯(lián)合預測,生成的未來軌跡精準且貼合真實情況。

傳統(tǒng)世界模型僅模擬單一第三方視角,本質是“信息不全”。

而CTRL-WORLD創(chuàng)新性地聯(lián)合生成第三方全局視角+腕部第一視角:

  • 第三方視角提供環(huán)境全局信息(如物體在桌面的整體布局),腕部視角捕捉接觸細節(jié)(如機械爪與毛巾的摩擦、與抽屜的碰撞位置);
  • 模型通過空間Transformer將多視角圖像token拼接(單幀含3個192×320圖像,編碼為24×40latent特征),實現(xiàn)跨視角空間關系對齊。

論文實驗驗證了這一設計的價值:

在涉及機械臂與物體接觸的精細操作任務中(如抓取小型物體),腕部視角可精準捕捉夾爪與物體的接觸狀態(tài)(如捏合力度、接觸位置),顯著減少“無物理接觸卻完成抓取的幻覺”。

定量數(shù)據(jù)顯示,該設計使物體交互幻覺率降低;在多視角評估中,Ctrl-World的峰值信噪比(PSNR)達23.56,遠超傳統(tǒng)單視角模型WPE(20.33)和IRASim(21.36),結構相似性(SSIM)0.828也顯著高于基線(WPE0.772、IRASim0.774),證明虛擬畫面與真實場景的高度契合

第二,幀級動作控制:綁定動作與視覺因果,實現(xiàn)厘米級精準操控

要讓虛擬預演“可控”,必須建立“動作-視覺”的強因果關系。

Ctrl-World的解決方案是“幀級動作綁定”:

  • 將機器人輸出的動作序列(如關節(jié)速度)轉化為笛卡爾空間中的機械臂姿態(tài)參數(shù);
  • 通過幀級交叉注意力模塊,讓每一幀的視覺預測都與對應的姿態(tài)參數(shù)嚴格對齊——就像“分鏡腳本”對應每一幕劇情,確?!皠幼鰽必然導致視覺結果B”。

注:上圖展示的是Ctrl-World的可控性及其消融實驗。不同的動作序列可以在Ctrl-World中以厘米級的精度產(chǎn)生不同的展開結果。移除記憶會導致預測模糊(藍色),而移除幀級姿勢條件會降低控制精度(紫色)。注意力可視化(左側)在預測(t=4)秒幀時,對具有相同姿勢的(t=0)秒幀顯示出強烈的注意力,說明了記憶檢索的有效性。為了清晰起見,每個動作塊都用自然語言表達(例如,“Z軸-6厘米”)。由于空間限制,僅可視化了中間幀的腕部視角。

論文中給出了直觀案例:

當機械臂執(zhí)行不同的空間位移或姿態(tài)調整動作時(如沿特定軸的厘米級移動、夾爪開合),Ctrl-World能生成與動作嚴格對應的預演軌跡,即使是細微的動作差異(如幾厘米的位移變化),也能被準確區(qū)分和模擬。

定量ablation實驗顯示,若移除“幀級動作條件”,模型的PSNR會從23.56降至21.20,LPIPS(感知相似度,數(shù)值越低越好)從0.091升至0.109,證明該設計是精準控制的核心

第三,姿態(tài)條件記憶檢索:給長時模擬“裝穩(wěn)定器”,20秒長時預演不漂移

長時預演的“時序漂移”,本質是模型“忘記歷史狀態(tài)”。

Ctrl-World引入“姿態(tài)條件記憶檢索機制”,通過兩個關鍵步驟解決:

  • 稀疏記憶采樣:從歷史軌跡中以固定步長(如1-2秒)采樣k幀(論文中k=7),避免上下文過長導致的計算負擔;
  • 姿態(tài)錨定檢索:將采樣幀的機械臂姿態(tài)信息嵌入視覺token,在預測新幀時,模型會自動檢索“與當前姿態(tài)相似的歷史幀”,以歷史狀態(tài)校準當前預測,避免漂移。

注:上圖展示的是Ctrl-World的一致性。由于腕部攝像頭的視野在單一軌跡中會發(fā)生顯著變化,利用多視角信息和記憶檢索對于生成一致的腕部視角預測至關重要。綠色框中突出顯示的預測是從其他攝像頭視角推斷出來的,而紅色框中的預測則是從記憶中檢索得到的。

論文實驗顯示,該機制能讓Ctrl-World穩(wěn)定生成20秒以上的連貫軌跡,時序一致性指標FVD(視頻幀距離,數(shù)值越低越好)僅97.4,遠低于WPE(156.4)和IRASim(138.1)。

ablation實驗證明,若移除記憶模塊,模型的FVD會從97.4升至105.5,PSNR從23.56降至23.06,驗證了記憶機制對長時一致性的關鍵作用。

實驗驗證:從“虛擬評估”到“策略提升”的全流程實效

團隊在DROID機器人平臺(含Panda機械臂、1個腕部相機+2個第三方相機)上開展三輪實驗測試,從生成質量、評估準確性、策略優(yōu)化三個維度全面驗證CTRL-WORLD的性能:

生成質量:多指標碾壓傳統(tǒng)模型

在10秒長軌跡生成測試中(256個隨機剪輯,15步/秒動作輸入),CTRL-WORLD在核心指標上全面領先基線模型(WPE、IRASim):

  • PSNR:23.56(WPE為20.33,IRASim為21.36),虛擬畫面與真實場景的像素相似度提升15%-16%;
  • SSIM:0.828(WPE為0.772,IRASim為0.774),物體形狀、位置關系的結構一致性顯著增強;
  • LPIPS:0.091(WPE為0.131,IRASim為0.117),從人類視覺感知看,虛擬與真實畫面幾乎難以區(qū)分;
  • FVD:97.4(WPE為156.4,IRASim為138.1),時序連貫性提升29%-38%。

更關鍵的是,面對訓練中未見過的相機布局(如新增頂部視角),CTRL-WORLD能零樣本適配,生成連貫多視角軌跡,證明其場景泛化能力。

策略評估:虛擬打分與真實表現(xiàn)高度對齊

論文結果顯示:

虛擬預演的“指令跟隨率”與真實世界的相關系數(shù)達0.87(擬合公式y(tǒng)=0.87x-0.04)。

虛擬“任務成功率”與真實世界的相關系數(shù)達0.81(y=0.81x-0.11)。

這意味著,研究者無需啟動真實機器人,僅通過Ctrl-World的虛擬預演,就能準確判斷策略的真實性能,將策略評估周期從“周級”縮短至“小時級”。

策略優(yōu)化:400條虛擬軌跡實現(xiàn)44.7%性能飛躍

Ctrl-World的終極價值在于用虛擬數(shù)據(jù)改進真實策略。

團隊以π?.?為基礎策略,按以下步驟進行優(yōu)化(對應論文Algorithm1):

  1. 虛擬探索:在Ctrl-World中,通過“指令重述”(如將“放手套進盒子”改為“拿起布料放入盒子”)和“初始狀態(tài)隨機重置”,生成400條陌生任務的預演軌跡;
  2. 篩選高質量數(shù)據(jù):由人類標注員篩選出25-50條“成功軌跡”(如準確折疊指定方向的毛巾、抓取異形物體);
  3. 監(jiān)督微調:用這些虛擬成功軌跡微調π?.?策略。

論文給出的細分任務改進數(shù)據(jù)極具說服力:

  • 空間理解任務:識別“左上角物體”、“右下角物體”等指令的成功率,從平均28.75%升至87.5%;
  • 形狀理解任務:區(qū)分“大/小紅塊”、“大/小綠塊”的成功率,從43.74%升至91.25%;
  • 毛巾折疊(指定方向):按“左右折疊”、“右左折疊”等指令執(zhí)行的成功率,從57.5%升至80%;
  • 新物體任務:抓取“手套”、“訂書機”等未見過物體的成功率,從25%升至75%。

綜合所有陌生場景,π?.?的任務成功率從38.7%飆升至83.4%,平均提升44.7%——更關鍵的是,整個過程未消耗任何真實物理資源,成本僅為傳統(tǒng)專家數(shù)據(jù)方法的1/20。

研究與未來:讓“想象”更貼近真實物理規(guī)律

盡管成果顯著,團隊也坦言CTRL-WORLD仍有改進空間:

首先,復雜物理場景適配不足。

在“液體傾倒”“高速碰撞”等任務中,虛擬模擬與真實物理規(guī)律的偏差,主要因模型對重力、摩擦力的建模精度不足。

其次,初始觀測敏感性高。

若第一幀畫面模糊(如光照過暗),后續(xù)推演誤差會快速累積。

未來,團隊計劃從兩方面突破——

一方面將視頻生成與強化學習結合,讓機器人在虛擬世界自主探索最優(yōu)策略;

另一方面擴大訓練數(shù)據(jù)集(當前基于DROID),加入“廚房油污環(huán)境”、“戶外光照變化”等復雜場景數(shù)據(jù),提升模型對極端環(huán)境的適配能力。

總的來說,此前機器人學習依賴“真實交互-數(shù)據(jù)收集-模型訓練”的循環(huán),本質是用物理資源換性能;而CTRL-WORLD構建了“虛擬預演-評估-優(yōu)化-真實部署”的新閉環(huán),讓機器人能通過“想象”高效迭代。

該成果的價值不僅限于實驗室。

對工業(yè)場景而言,它可降低機械臂調試成本(單條生產(chǎn)線調試周期從1周縮至1天)。

對家庭服務機器人而言,它能快速適配“操作異形水杯”“整理不規(guī)則衣物”等個性化任務。

隨著視頻擴散模型對物理規(guī)律建模的進一步精準,未來的CTRL-WORLD有望成為機器人“通用訓練平臺”,推動人形機器人更快走向開放世界。

論文地址:https://arxiv.org/pdf/2510.10125

GitHub鏈接:https://github.com/Robert-gyj/Ctrl-World

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-02 10:40:00

AI模型

2024-02-29 12:23:54

AI數(shù)據(jù)

2024-08-12 09:05:00

AI訓練

2025-10-28 09:13:58

2025-06-06 09:07:00

2024-08-02 14:50:00

數(shù)據(jù)AI

2019-08-05 14:34:59

機器人團隊算法

2021-10-15 10:07:04

機器人人工智能算法

2023-09-21 10:29:01

AI模型

2024-08-15 15:20:00

模型生成

2025-03-19 10:26:10

2025-05-07 13:48:48

AIGC生成機器人

2023-01-16 14:55:00

強化學習

2015-09-29 10:13:34

物聯(lián)網(wǎng)機器人

2023-07-29 13:43:26

機器人模型

2025-09-16 12:53:54

2023-10-07 10:05:28

機器人工業(yè)4.0

2023-11-03 13:07:00

AI模型

2020-07-07 15:50:17

區(qū)塊鏈互聯(lián)網(wǎng)人工智能
點贊
收藏

51CTO技術棧公眾號