偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

10萬(wàn)+,超大規(guī)模人手交互視頻數(shù)據(jù)集!面向可泛化機(jī)器人操作

人工智能 新聞
香港中文大學(xué)(深圳)的研究團(tuán)隊(duì)發(fā)布TASTE-Rob數(shù)據(jù)集,含100856個(gè)精準(zhǔn)匹配語(yǔ)言指令的交互視頻,助力機(jī)器人通過模仿學(xué)習(xí)提升操作泛化能力 。團(tuán)隊(duì)還開發(fā)三階段視頻生成流程,優(yōu)化手部姿態(tài),顯著提升視頻真實(shí)感和機(jī)器人操作準(zhǔn)確度。

隨著具身智能的不斷發(fā)展,機(jī)器人操作也逐漸融入到人們的日常生活中,可輔助完成物體抓取、倒水、表面清潔和整理等任務(wù)。

通過模仿學(xué)習(xí),如今的機(jī)器人能夠模仿視頻演示中的動(dòng)作,完成對(duì)應(yīng)的任務(wù)。但要求操作環(huán)境與視頻演示中的環(huán)境幾乎完全相同,這限制了其在新場(chǎng)景中的泛化能力,比如:當(dāng)被操作物體的位置或被操作物體本身發(fā)生變化時(shí),機(jī)器人便無法準(zhǔn)確地完成任務(wù)。

為解決機(jī)器人操作泛化能力不足的問題,近期研究將模仿學(xué)習(xí)與視頻生成等生成模型結(jié)合,通過生成機(jī)器人-物體交互的演示視頻來提升泛化能力。

但是,由于機(jī)器人數(shù)據(jù)難以采集,無法收集到大量的高質(zhì)量數(shù)據(jù),這類方法所提供的泛化能力仍然有限。

鑒于人手操作視頻數(shù)據(jù)量龐大且采集難度低,一種更具擴(kuò)展性的方案是生成「人手-物體」交互的演示視頻,以實(shí)現(xiàn)更優(yōu)的泛化效果。

此外,當(dāng)前先進(jìn)的策略模型已能夠有效彌合人手與機(jī)器人操作之間的差異,通過模仿人手交互動(dòng)作控制機(jī)器人執(zhí)行任務(wù),并展現(xiàn)出良好的應(yīng)用潛力,進(jìn)一步驗(yàn)證了該方案的可行性。

不過,由于缺乏高質(zhì)量的人手-物體交互視頻及其詳細(xì)任務(wù)指令,當(dāng)前通用視頻生成模型在生成特定任務(wù)和環(huán)境下的交互視頻時(shí),仍然面臨挑戰(zhàn)。

為攻克現(xiàn)有挑戰(zhàn),香港中文大學(xué)(深圳)的研究團(tuán)隊(duì)推出了首個(gè)面向任務(wù)的大規(guī)模人手-物交互數(shù)據(jù)集TASTE-Rob,涵蓋了100,856個(gè)匹配精準(zhǔn)語(yǔ)言指令的第一視角交互視頻。

圖片


論文地址:https://arxiv.org/abs/2503.11423

項(xiàng)目主頁(yè):https://taste-rob.github.io/

GitHub地址:https://github.com/GAP-LAB-CUHK-SZ/TASTE-Rob

區(qū)別于Ego4D,TASTE-Rob通過固定機(jī)位,獨(dú)立拍攝單次的完整交互過程,確保了環(huán)境穩(wěn)定、指令與視頻精準(zhǔn)對(duì)應(yīng)等特性,為模仿學(xué)習(xí)等領(lǐng)域提供了高質(zhì)量數(shù)據(jù)。

研究團(tuán)隊(duì)提出三階段視頻生成流程:先基于指令和環(huán)境圖像生成初步演示視頻,再借助運(yùn)動(dòng)擴(kuò)散模型優(yōu)化手部姿態(tài)序列以解決抓取姿態(tài)不穩(wěn)定的問題,最后再根據(jù)優(yōu)化后的姿態(tài)重新生成視頻,顯著提升了手物交互真實(shí)感。

實(shí)驗(yàn)證實(shí),該數(shù)據(jù)集與三階段流程的結(jié)合,在視頻生成質(zhì)量和機(jī)器人操作準(zhǔn)確度上均大幅超越現(xiàn)有生成模型。

圖片

數(shù)據(jù)集屬性

TASTE-Rob包含了100,856組視頻及其對(duì)應(yīng)的詳細(xì)語(yǔ)言任務(wù)指令。為滿足人手-物交互視頻生成需求,TASTE-Rob旨在實(shí)現(xiàn)以下目標(biāo):1)所有視頻采用固定機(jī)位拍攝,每個(gè)視頻僅記錄一段與任務(wù)指令高度匹配的動(dòng)作;2)覆蓋多樣化的環(huán)境和任務(wù)類型;3)包含各類人手-物交互場(chǎng)景下的豐富手部姿態(tài)。

圖1展示了數(shù)據(jù)集覆蓋的環(huán)境包括廚房、臥室、餐桌、辦公桌等場(chǎng)景;以及數(shù)據(jù)采集過程中,采集者需與各類常用物品進(jìn)行交互,執(zhí)行拿取、放置、推挪、傾倒等操作。


圖片

圖1:TASTE-Rob場(chǎng)景及動(dòng)作類型統(tǒng)計(jì)

圖2展示了數(shù)據(jù)集中手部抓握姿態(tài)的分布,主要關(guān)注拇指、食指和中指的指間夾角與彎曲度。由于被抓取物體和執(zhí)行動(dòng)作類型的多樣性,數(shù)據(jù)集覆蓋了豐富的抓握姿態(tài)。


圖片

圖2:TASTE-Rob手部抓握姿態(tài)統(tǒng)計(jì)

TASTE-Rob與現(xiàn)有HOI數(shù)據(jù)集的對(duì)比

表1展示了TASTE-Rob數(shù)據(jù)集與現(xiàn)有的第一視角人手-物交互(HOI)視頻數(shù)據(jù)集的對(duì)比情況,主要的區(qū)別體現(xiàn)在以下幾點(diǎn):

圖片

表1:TASTE-Rob與現(xiàn)有HOI數(shù)據(jù)集的對(duì)比

1. 相機(jī)視角及動(dòng)作-指令匹配程度:考慮到模仿學(xué)習(xí)中的視頻演示一般從固定的攝像機(jī)視角進(jìn)行錄制,并且僅包含一個(gè)與任務(wù)指令相匹配的單一動(dòng)作,因此TASTE-Rob中用了同樣的設(shè)置條件;

2. 語(yǔ)言指令的詳細(xì)程度:為了進(jìn)一步提升對(duì)語(yǔ)言指令的理解程度,TASTE-Rob在指令中融入了豐富多樣的物體限定詞,從而生成有效且準(zhǔn)確的演示視頻;

3. 數(shù)據(jù)量及數(shù)據(jù)質(zhì)量:TASTE-Rob擁有最多的視頻片段數(shù)量和1080p的視頻分辨率。

三階段視頻生成流程

當(dāng)給定一張環(huán)境圖像和一個(gè)任務(wù)指令描述,所生成的人手-物交互視頻需滿足:

1. 準(zhǔn)確的任務(wù)理解:能正確理解要操作的物體以及操作方式;

2. 可行的手物交互:在整個(gè)操作過程中保持一致的手部抓握姿勢(shì)。

如圖3的第一階段所示,在TASTE-Rob數(shù)據(jù)集上微調(diào)的視頻生成模型所生成的視頻雖然能準(zhǔn)確理解任務(wù),但在保持一致抓握姿勢(shì)方面表現(xiàn)一般。

為了滿足這兩個(gè)要求,該研究團(tuán)隊(duì)在第二階段從生成視頻中提取手部姿態(tài)序列,并使用訓(xùn)練得到的運(yùn)動(dòng)擴(kuò)散模型對(duì)其進(jìn)行優(yōu)化,并在第三階段基于優(yōu)化后的手部姿態(tài)序列,生成同時(shí)滿足上述兩個(gè)要求的高真實(shí)度人手-物交互視頻。

圖片

圖3:三階段視頻生成流程

TASTE-Rob的意義

TASTE-Rob數(shù)據(jù)集能帶來什么?

研究團(tuán)隊(duì)探索了TASTE-Rob對(duì)視頻生成質(zhì)量的幫助:對(duì)比了在TASTE-Rob數(shù)據(jù)集上微調(diào)(Coarse-TASTE-Rob)與在Ego4D數(shù)據(jù)集上微調(diào)(Ego4D-Gen)的視頻生成性能,兩者間唯一的區(qū)別在于所使用的訓(xùn)練數(shù)據(jù)集不同。

如表2和圖4所示,TASTE-Rob數(shù)據(jù)集帶來了更優(yōu)的生成質(zhì)量。


圖片

表2:在Ego4D/TASTE-Rob上微調(diào)視頻生成模型的數(shù)值結(jié)果


圖片

圖4:在Ego4D/TASTE-Rob上微調(diào)視頻生成模型的可視化結(jié)果

三階段視頻生成流程能帶來什么?

研究團(tuán)隊(duì)從三個(gè)評(píng)估維度上探索了三階段視頻生成流程對(duì)視頻生成質(zhì)量的幫助:如表3的視頻生成指標(biāo)和圖5所示,視頻生成的宏觀表現(xiàn)上,該流程能夠生成更高質(zhì)量的手物交互視頻。

視頻生成的細(xì)節(jié)表現(xiàn)上,表3中的抓握姿態(tài)一致性指標(biāo)和圖5的結(jié)果進(jìn)一步驗(yàn)證了,該流程有效解決了抓握姿態(tài)不穩(wěn)定的問題,成功幫助機(jī)器人實(shí)現(xiàn)更準(zhǔn)確的操作。

此外,在機(jī)器人的模仿學(xué)習(xí)效果上,如圖6和表3中的成功率指標(biāo)所示,該流程有助于策略模型更準(zhǔn)確地完成任務(wù),顯著提升了任務(wù)成功率。


圖片

表3:使用/不使用三階段視頻生成流程的數(shù)值結(jié)果


圖片

圖5:使用/不使用三階段視頻生成流程在真實(shí)場(chǎng)景測(cè)試集的可視化結(jié)果


圖片

圖6:使用/不使用三階段視頻生成流程在機(jī)器人仿真平臺(tái)測(cè)試集的可視化結(jié)果

總的來說,TASTE-Rob將會(huì)為整個(gè)具身智能社區(qū)帶來很多諸多可能性與挑戰(zhàn),更多數(shù)據(jù)集與實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2016-12-14 11:44:25

阿里Docker大數(shù)據(jù)

2020-07-23 14:03:09

數(shù)據(jù)中心數(shù)據(jù)網(wǎng)絡(luò)

2022-12-30 14:14:51

數(shù)據(jù)中心服務(wù)器

2020-12-11 19:52:06

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-02-14 11:24:36

2021-03-16 10:28:41

數(shù)據(jù)中心IT云計(jì)算

2020-10-30 11:09:30

Pandas數(shù)據(jù)代碼

2025-02-26 08:30:00

2011-12-16 09:54:17

網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)架構(gòu)系統(tǒng)架構(gòu)系統(tǒng)

2021-03-24 11:13:12

數(shù)據(jù)中心云計(jì)算物聯(lián)網(wǎng)

2024-10-21 17:40:22

2017-09-22 10:31:17

超大規(guī)模微型數(shù)據(jù)中心

2017-09-25 16:48:12

數(shù)據(jù)中心超大規(guī)模微型

2020-09-25 09:52:48

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-04-30 07:00:00

公共云云策略云計(jì)算

2023-01-11 21:11:37

RabbitMQRocketMQ消息中間件

2020-02-10 08:00:38

AI 數(shù)據(jù)人工智能

2016-01-15 09:59:12

機(jī)器學(xué)習(xí)數(shù)據(jù)集

2019-06-20 13:37:20

存儲(chǔ)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)