偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CoRL 2025 | 港大InfoBodied AI團(tuán)隊(duì)首發(fā)具身表征新范式,構(gòu)建任務(wù)自適應(yīng)的感知框架

人工智能 新聞
在這項(xiàng)工作中,我們提出了 HyperTASR —— 一個(gè)基于超網(wǎng)絡(luò)的任務(wù)感知場(chǎng)景表征框架。

本文的共同第一作者為香港大學(xué) InfoBodied AI 實(shí)驗(yàn)室的博士生孫力和吳杰楓,合作者為劉瑞哲,陳楓。通訊作者為香港大學(xué)數(shù)據(jù)科學(xué)研究院及電機(jī)電子工程系助理教授楊言超。InfoBodied AI 實(shí)驗(yàn)室近年來(lái)在 CVPR,ICML,Neurips,ICLR 等頂會(huì)上有多項(xiàng)代表性成果發(fā)表,與國(guó)內(nèi)外知名高校,科研機(jī)構(gòu)廣泛開(kāi)展合作。

  • 標(biāo)題:HyperTASR: Hypernetwork-Driven Task-Aware Scene Representations for Robust Manipulation
  • 作者:Li Sun, Jiefeng Wu, Feng Chen, Ruizhe Liu, Yanchao Yang
  • 機(jī)構(gòu):The University of Hong Kong
  • 原文鏈接: https://arxiv.org/abs/2508.18802

出發(fā)點(diǎn)與研究背景

在具身智能中,策略學(xué)習(xí)通常需要依賴場(chǎng)景表征(scene representation)。然而,大多數(shù)現(xiàn)有多任務(wù)操作方法中的表征提取過(guò)程都是任務(wù)無(wú)關(guān)的(task-agnostic):

無(wú)論具身智能體要 “關(guān)抽屜” 還是 “堆積木”,系統(tǒng)提取的特征的方式始終相同(利用同樣的神經(jīng)網(wǎng)絡(luò)參數(shù))。

想象一下,一個(gè)機(jī)器人在廚房里,既要能精準(zhǔn)抓取易碎的雞蛋,又要能搬運(yùn)重型鍋具。傳統(tǒng)方法讓機(jī)器人用同一套 "眼光" 觀察不同的任務(wù)場(chǎng)景,這會(huì)使得場(chǎng)景表征中包含大量與任務(wù)無(wú)關(guān)的信息,給策略網(wǎng)絡(luò)的學(xué)習(xí)帶來(lái)極大的負(fù)擔(dān)。這正是當(dāng)前具身智能面臨的核心挑戰(zhàn)之一。

這樣的表征提取方式與人類的視覺(jué)感知差異很大 —— 認(rèn)知科學(xué)的研究表明,人類會(huì)根據(jù)任務(wù)目標(biāo)和執(zhí)行階段動(dòng)態(tài)調(diào)整注意力,把有限的感知資源集中在最相關(guān)的物體或區(qū)域上。例如:找水杯時(shí)先關(guān)注桌面大范圍區(qū)域;拿杯柄時(shí)又轉(zhuǎn)向局部幾何細(xì)節(jié)。

那么,具身智能體是否也可以學(xué)會(huì) “具備任務(wù)感知能力的場(chǎng)景表征” 呢?

圖片

創(chuàng)新點(diǎn)與貢獻(xiàn)

1. 提出任務(wù)感知場(chǎng)景表示框架

我們提出了 HyperTASR,這是一個(gè)用于提取任務(wù)感知場(chǎng)景表征的全新框架,它使具身智能體能夠通過(guò)在整個(gè)執(zhí)行過(guò)程中關(guān)注與任務(wù)最相關(guān)的環(huán)境特征來(lái)模擬類似人類的自適應(yīng)感知。

2. 創(chuàng)新的超網(wǎng)絡(luò)表示變換機(jī)制

我們引入了一種基于超網(wǎng)絡(luò)的表示轉(zhuǎn)換,它可以根據(jù)任務(wù)規(guī)范和進(jìn)展?fàn)顟B(tài)動(dòng)態(tài)生成適應(yīng)參數(shù),同時(shí)保持與現(xiàn)有策略學(xué)習(xí)框架的架構(gòu)兼容性。

3. 兼容多種策略學(xué)習(xí)架構(gòu)

無(wú)需大幅修改現(xiàn)有框架,即可嵌入到 從零訓(xùn)練的 GNFactor 和 基于預(yù)訓(xùn)練的 3D Diffuser Actor,顯著提升性能。

4. 仿真與真機(jī)環(huán)境驗(yàn)證

在 RLBench 和真機(jī)實(shí)驗(yàn)中均取得了顯著提升,驗(yàn)證了 HyperTASR 在不同表征下的有效性(2D/3D 表征,從零訓(xùn)練 / 預(yù)訓(xùn)練表征),并建立了單視角 manipulation 的新 SOTA。

HyperTASR 概述

在這項(xiàng)工作中,我們提出了 HyperTASR —— 一個(gè)基于超網(wǎng)絡(luò)的任務(wù)感知場(chǎng)景表征框架。它的核心思想是:具身智能體在執(zhí)行不同任務(wù)、處于不同階段時(shí),應(yīng)該動(dòng)態(tài)調(diào)整感知重點(diǎn),而不是一直用一套固定的特征去看世界。

  • 動(dòng)態(tài)調(diào)節(jié):根據(jù)任務(wù)目標(biāo)和執(zhí)行階段,實(shí)時(shí)生成表示變換參數(shù),讓特征隨任務(wù)進(jìn)展而不斷適配。
  • 架構(gòu)兼容:作為一個(gè)獨(dú)立的模塊,可以無(wú)縫嵌入現(xiàn)有的策略學(xué)習(xí)框架(如 GNFactor、3D Diffuser Actor)。
  • 計(jì)算分離:通過(guò)超網(wǎng)絡(luò)建立 “任務(wù)上下文梯度流(task-contextual gradient)” 與 “狀態(tài)相關(guān)梯度流(state- dependent gradient)” 的分離,大幅提升學(xué)習(xí)效率與表征質(zhì)量。

換句話說(shuō),HyperTASR 讓具身智能體在執(zhí)行任務(wù)時(shí),像人類一樣 “看得更專注、更聰明”。

任務(wù)感知的場(chǎng)景表示 (Task-Aware Scene Representation)

圖片

傳統(tǒng)的具身智能體操作任務(wù)(Manipulation)學(xué)習(xí)框架通常是這樣的:

1. 從觀測(cè) 圖片 提取一個(gè)固定的場(chǎng)景表征 圖片

2. 在動(dòng)作預(yù)測(cè)階段,再利用任務(wù)信息圖片,共同預(yù)測(cè)執(zhí)行的動(dòng)作:

圖片

這種做法的局限在于:表征提取器始終是任務(wù)無(wú)關(guān)的。不管是 “關(guān)抽屜” 還是 “堆積木”,它提取的特征都一樣。結(jié)果就是:大量無(wú)關(guān)信息被帶入策略學(xué)習(xí),既降低了策略學(xué)習(xí)的效率,也增加了不同任務(wù)上泛化的難度。

受到人類視覺(jué)的啟發(fā),我們提出在表征階段就引入任務(wù)信息:

圖片

這樣,場(chǎng)景表示能夠隨任務(wù)目標(biāo)與執(zhí)行階段動(dòng)態(tài)變化,帶來(lái)三個(gè)好處:

  • 更專注:只保留與當(dāng)前任務(wù)相關(guān)的特征
  • 更高效:過(guò)濾掉無(wú)關(guān)信息
  • 更自然:和人類逐步完成任務(wù)時(shí)的視覺(jué)注意模式一致

超網(wǎng)絡(luò)驅(qū)動(dòng)的任務(wù)條件化表示 (Hypernetwork-Driven Task-Conditional Representation)

HyperTASR 的詳細(xì)結(jié)構(gòu)如 Figure 2 所示。為了實(shí)現(xiàn)任務(wù)感知,我們?cè)诒碚魈崛∑骱蠹尤肓艘粋€(gè) 輕量級(jí)的自編碼器:

圖片

其中:

  • 圖片:編碼器,圖片:編碼器參數(shù)
  • 圖片:解碼器
  • 圖片:原始表征,圖片:任務(wù)感知表征

引入自編碼器的一大優(yōu)勢(shì)在于,自編碼器適用于不同的場(chǎng)景表征形式(2D/3D 表征都有對(duì)應(yīng)的自編碼器),另外自編碼器可以維持原來(lái)場(chǎng)景表征的形式,無(wú)須調(diào)整后續(xù)策略網(wǎng)絡(luò)的結(jié)構(gòu)。

關(guān)鍵在于:圖片不是固定的,而是由超網(wǎng)絡(luò)根據(jù)任務(wù)與執(zhí)行狀態(tài)動(dòng)態(tài)調(diào)節(jié)的:

圖片

這里:

  • 圖片任務(wù)目標(biāo)(如 “擰上綠色瓶子”)
  • 圖片任務(wù)進(jìn)展編碼(task progression)
  • 圖片由超網(wǎng)絡(luò) 圖片 生成的動(dòng)態(tài)參數(shù)

這樣,場(chǎng)景表征不僅會(huì)隨任務(wù)不同而變化,也會(huì)在任務(wù)的執(zhí)行過(guò)程中不斷動(dòng)態(tài)遷移。

這種設(shè)計(jì)的優(yōu)勢(shì):

1. 梯度分離:任務(wù)上下文與狀態(tài)相關(guān)信息在梯度傳播中分離,增強(qiáng)可解釋性和學(xué)習(xí)效率

2. 動(dòng)態(tài)變換:不是簡(jiǎn)單加權(quán),而是真正改變表征函數(shù),使得表征更加靈活

實(shí)驗(yàn)驗(yàn)證

HyperTASR 的另一個(gè)優(yōu)勢(shì)是模塊化、易集成。這種 “即插即用” 的設(shè)計(jì)讓 HyperTASR 可以同時(shí)增強(qiáng) 從零訓(xùn)練和預(yù)訓(xùn)練 backbone 兩類方法。我們分別把它嵌入到兩類主流框架中進(jìn)行驗(yàn)證:

1.GNFactor(從零訓(xùn)練):使用 3D volume 表征

2.3D Diffuser Actor(基于預(yù)訓(xùn)練):使用 2D backbone 提取特征再投影到 3D 點(diǎn)云

我們只使用了行為克隆損失(Behavior Cloning Loss)作為我們網(wǎng)絡(luò)的訓(xùn)練損失。

圖片

仿真實(shí)驗(yàn)

在仿真環(huán)境 RLBench 中的 10 個(gè)任務(wù)上進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如 Table 1 所示:

  • 集成到 GNFactor 后,在無(wú)需特征蒸餾模塊的情況下(訓(xùn)練無(wú)需額外的監(jiān)督信息),成功率超過(guò)基線方法 27%;
  • 集成到 3D Diffuser Actor 后,首次讓單視角操作成功率突破 80%,刷新紀(jì)錄。

在此基礎(chǔ)上,我們進(jìn)一步通過(guò)網(wǎng)絡(luò)的梯度進(jìn)行了注意力可視化:

圖片

從 Figure 3 中我們可以觀察到:

  • 傳統(tǒng)方法的注意力往往分散在背景和無(wú)關(guān)物體;
  • HyperTASR 的注意力始終集中在任務(wù)相關(guān)的物體上,并隨著任務(wù)進(jìn)度動(dòng)態(tài)變化。

另外,我們進(jìn)行了消融實(shí)驗(yàn),證明了 HyperTASR 設(shè)計(jì)中,引入任務(wù)進(jìn)展的合理性,以及證明了使用超網(wǎng)絡(luò)相比于直接利用 Transformer 將任務(wù)信息融合到場(chǎng)景表征里,能夠獲得更大的性能提升。

真機(jī)實(shí)驗(yàn)

我們采用 Aloha 進(jìn)行了真機(jī) manipulation 實(shí)驗(yàn)。如 Table 2 所示,在 6 個(gè)實(shí)際任務(wù)中,HyperTASR 在僅每個(gè)任務(wù) 15 條示教樣本的有限條件下達(dá)到了 51.1%,展示了在真實(shí)環(huán)境操作中的強(qiáng)泛化能力。

圖片

一些真機(jī)實(shí)驗(yàn)對(duì)比結(jié)果如下:

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-07 10:24:43

2025-03-31 09:10:00

開(kāi)源模型智能體

2025-08-13 09:07:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-25 09:02:05

2024-09-10 09:53:30

2025-01-21 08:00:00

自適應(yīng)框架框架開(kāi)發(fā)

2023-12-08 13:17:00

數(shù)據(jù)模型

2024-12-03 09:49:07

2025-10-28 08:46:00

2018-09-28 10:20:59

虛擬現(xiàn)實(shí)感知

2024-11-14 10:40:00

智能體模型

2025-07-15 08:45:00

2025-10-15 07:00:00

AIIT行業(yè)CIO

2025-10-17 14:08:34

2024-05-27 12:05:23

2025-05-30 10:51:58

2024-12-11 12:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)