首個(gè)面向柔性衣物靈巧操作的仿真平臺(tái)來了,北大、伯克利聯(lián)合發(fā)布
本論文共同第一作者為王昱然、吳睿海、陳越,導(dǎo)師為北京大學(xué)董豪老師。課題組致力于統(tǒng)一的物體表征操作研究,以實(shí)現(xiàn)具有可解釋性和泛化能力的物體操作策略。
在機(jī)器人操作領(lǐng)域,柔性物體,尤其是衣物的操控始終是一個(gè)值得關(guān)注的難題。與剛體或鉸接物體相比,衣服具有近乎無限的狀態(tài)空間,以及復(fù)雜的動(dòng)力學(xué)特性,這使得現(xiàn)有方法在應(yīng)對(duì)衣物操作時(shí)表現(xiàn)欠佳。
董豪課題組已在柔性物體操作領(lǐng)域進(jìn)行了諸多探索,其中:(1)GarmentLab作為首個(gè)全面的衣物和柔體操作環(huán)境與基準(zhǔn)平臺(tái),提供了關(guān)于柔體、流體、可變形物體的各種仿真和針對(duì)二指夾抓取的大量操作任務(wù);(2)GarmentPile重點(diǎn)關(guān)注堆疊柔性物體的相關(guān)操作,通過功能可供性(Affordance)使機(jī)器人能夠針對(duì)不同堆疊狀態(tài)下的衣服泛化并高效完成調(diào)整和操作。
然而,基于靈巧手(尤其是雙臂協(xié)同)的柔性衣物操作仍未被充分探索,當(dāng)前,機(jī)器人在柔性衣物靈巧操作中面臨三大核心挑戰(zhàn):
數(shù)據(jù)難題:靈巧手的高維動(dòng)作空間與衣物的復(fù)雜狀態(tài),使得策略學(xué)習(xí)對(duì)數(shù)據(jù)依賴極大,且不同任務(wù)對(duì)抓取姿態(tài)的要求差異明顯,導(dǎo)致現(xiàn)有仿真環(huán)境中往往需要大量人工遙操作或?qū)<也呗赃M(jìn)行示范,效率極低。
仿真環(huán)境的局限性:真實(shí)的衣物操作往往涉及與衣架、人體等剛性或鉸接物體的交互,而現(xiàn)有仿真器在物理準(zhǔn)確性與真實(shí)感方面存在不足,難以支持高質(zhì)量的靈巧操作研究。
算法泛化能力弱:現(xiàn)有的強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)主流方法往往依賴復(fù)雜的獎(jiǎng)勵(lì)設(shè)計(jì)或大量示教數(shù)據(jù),難以推廣至形狀、狀態(tài)高度變化的全新衣物實(shí)例,實(shí)用性受限。
為應(yīng)對(duì)上述挑戰(zhàn),北京大學(xué)聯(lián)合加州大學(xué)伯克利分校研究團(tuán)隊(duì)提出了全新仿真平臺(tái) DexGarmentLab,這是首個(gè)專為靈巧(特別是雙手)衣物操作設(shè)計(jì)的高保真仿真環(huán)境。DexGarmentLab 基于 Isaac Sim 4.5.0 搭建,具有以下三個(gè)顯著優(yōu)勢(shì):
(1)多樣化、高真實(shí)性的仿真場(chǎng)景
涵蓋來自 ClothesNet 數(shù)據(jù)庫(kù)的 8 大類共計(jì)超 2500 件的柔性衣物;配套 15 個(gè)高質(zhì)量靈巧手(尤其針對(duì)雙臂)衣物操作任務(wù)場(chǎng)景;柔性衣物仿真具備真實(shí)物理屬性,顯著縮小 “仿真到現(xiàn)實(shí)” 的差距。
(2)自動(dòng)化數(shù)據(jù)采集管線
提出利用衣物結(jié)構(gòu)對(duì)應(yīng)關(guān)系,僅基于單次專家示范,自動(dòng)生成多樣化的操作軌跡,大幅減少人工成本。
(3)泛化能力強(qiáng)的策略框架 HALO
提出分層策略 HALO(Hierarchical gArment-manipuLation pOlicy),結(jié)合功能可供性(affordance)與擴(kuò)散方法(diffusion),自動(dòng)生成可泛化的操作軌跡,在面對(duì)形狀與狀態(tài)變化巨大的衣物時(shí),表現(xiàn)出優(yōu)于現(xiàn)有模仿學(xué)習(xí)方法的穩(wěn)定泛化能力。
大量實(shí)驗(yàn)驗(yàn)證表明,DexGarmentLab 搭配 HALO 策略,不僅在模擬環(huán)境中具備高效學(xué)習(xí)與泛化能力,在現(xiàn)實(shí)應(yīng)用中也表現(xiàn)出顯著優(yōu)勢(shì),向真正實(shí)用的衣物靈巧操作又邁進(jìn)了一大步。
- 論文標(biāo)題:DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy
- 論文主頁:https://wayrise.github.io/DexGarmentLab/
- Github 鏈接:https://github.com/wayrise/DexGarmentLab
DexGarmentLab 介紹
(一)DexGarmentLab 仿真環(huán)境
先前的柔性物體仿真工作存在諸多問題,很難恰當(dāng)?shù)啬M柔性衣物在日常生活中非常常見的折疊和交互行為。為此,我們引入了 adhesion,friction,particle-adhesion-scale, particle-friction-scale 等參數(shù)來增強(qiáng)柔性衣物物理仿真的真實(shí)性。
得益于 friction 和 adhesion,靈巧手能夠依靠物理作用力直接抓取并提起衣物,而無需額外的 attach block 輔助 (attach block 在 GarmentLab 中被用于二指夾抓取,但是這種方式不適合靈巧手抓取)。
particle-adhesion-scale 和 particle-friction-scale 有助于穩(wěn)定粒子系統(tǒng),防止粒子之間發(fā)生過多的自碰撞,從而使得衣物能夠保持相對(duì)穩(wěn)定的折疊狀態(tài),避免變得凌亂。
我們共提出了涵蓋 8 個(gè)衣物類別的 15 項(xiàng)衣物操作任務(wù),涵蓋了衣物自交互(如攤開、折疊)和衣物與環(huán)境交互(如懸掛、穿戴、收納)兩大類任務(wù)場(chǎng)景。在衣物自身交互任務(wù)中,關(guān)鍵變量包括衣物的位置、朝向與形狀;而在衣物與環(huán)境交互任務(wù)中,還需考慮環(huán)境交互物體的位置(如衣架、掛鉤、人體等),以全面模擬現(xiàn)實(shí)中的操作情境。
(二)自動(dòng)數(shù)據(jù)收集
自動(dòng)數(shù)據(jù)采集流水線介紹:
(1)單次專家示范:針對(duì)每個(gè)任務(wù),首先通過一次專家示范提取關(guān)鍵信息,包括手部抓取姿態(tài)、任務(wù)執(zhí)行順序,以及衣物上的抓取點(diǎn);
(2)利用 Garment Affordance Model (GAM):通過功能可供性模型(GAM),將專家示范中的抓取點(diǎn)映射到形變各異的新衣物上,自動(dòng)識(shí)別目標(biāo)抓取位置;
(3)自動(dòng)執(zhí)行任務(wù)序列:基于推理得到的抓取點(diǎn)和手部姿態(tài),自動(dòng)執(zhí)行任務(wù)序列,實(shí)現(xiàn)高效、可擴(kuò)展的數(shù)據(jù)采集流程。
注意:軌跡會(huì)根據(jù)衣物結(jié)構(gòu)和場(chǎng)景配置進(jìn)行自適應(yīng)調(diào)整,也就是說,不同衣物和場(chǎng)景會(huì)生成不同的操作軌跡(如提升高度、放置位置等),確保操作行為更加貼合實(shí)際,同時(shí)也增加了任務(wù)操作難度。
我們?cè)陧?xiàng)目主頁中可視化了各種任務(wù)場(chǎng)景的配置及各種任務(wù)的示例視頻,在此我們挑選了九個(gè)典型任務(wù)進(jìn)行全流程的展示。
Fling_Dress(整理裙子)
Fold_Tops(折疊上衣)
Hang_Coat(懸掛外套)
Hang_Trousers(晾曬褲子)
Store_Tops(收納上衣)
Wear_BaseballCap(戴棒球帽)
Wear_BowlHat(戴帽子)
Wear_Scarf(戴圍巾)
Wear_Glove(戴手套)
(三)泛化策略: HALO
我們采用分層架構(gòu)實(shí)現(xiàn)了具有泛化能力的策略框架 HALO,在衣物操作任務(wù)中相比現(xiàn)有模仿學(xué)習(xí)算法展現(xiàn)出更優(yōu)的泛化表現(xiàn)。該策略分為兩個(gè)階段:
階段 Ⅰ:可操作點(diǎn)生成
利用 Garment Affordance Model (GAM) 生成具備泛化能力的可操作點(diǎn),幫助機(jī)器人精準(zhǔn)定位并移動(dòng)至目標(biāo)區(qū)域。
階段 Ⅱ:結(jié)構(gòu)感知擴(kuò)散策略(SADP)
我們引入 Structure-Aware Diffusion Policy (SADP),將衣物點(diǎn)云(輔以左右手的可操作點(diǎn) Affordance 作為綁定特征)、交互物體點(diǎn)云、環(huán)境點(diǎn)云以及機(jī)器人當(dāng)前關(guān)節(jié)狀態(tài)作為條件輸入,生成機(jī)器人的聯(lián)合動(dòng)作控制信號(hào)。輸出包含每只手 24 自由度、每條手臂 6 自由度,總計(jì) 60 自由度的控制指令。
我們的分層策略在仿真和真實(shí)世界中均展現(xiàn)出非常強(qiáng)的泛化能力和非常穩(wěn)定的執(zhí)行能力。在仿真任務(wù)里,我們測(cè)試了除 Wear_Glove 外的全部 14 個(gè)任務(wù);在真實(shí)世界里,我們?cè)谒膫€(gè)典型任務(wù)上對(duì)所提出的方法進(jìn)行了評(píng)估:折疊上衣(Fold Tops)、懸掛上衣(Hang Tops)、佩戴圍巾(Wear Scarf)和佩戴帽子(Wear Hat),每個(gè)任務(wù)在測(cè)試時(shí)均選取了每類 3 件不同衣物,每件衣物設(shè)置 5 種初始變形狀態(tài)。
如下表所示,從仿真實(shí)驗(yàn)和真機(jī)實(shí)驗(yàn)的任務(wù)執(zhí)行量化結(jié)果來看,HALO 均優(yōu)于各種 beseline 與 ablation。
仿真實(shí)驗(yàn)結(jié)果
真機(jī)實(shí)驗(yàn)結(jié)果
四個(gè)任務(wù)中,F(xiàn)old_Tops 是衣物自交互任務(wù),Hang_Tops、Wear_Scarf、Wear_Hat 是衣物與環(huán)境交互任務(wù)。在測(cè)試過程中,衣物樣本在形狀、長(zhǎng)度、變形程度等方面均存在較大差異,同時(shí)衣物與交互物體的位置也各不相同。
盡管存在上述變化,HALO 中的 GAM 模塊依然能夠準(zhǔn)確定位抓取區(qū)域,而 SADP 模塊則根據(jù)衣物和交互物體的狀態(tài)生成自適應(yīng)操作軌跡,確保操作動(dòng)作既穩(wěn)定又具備良好的泛化能力。
總結(jié)
DexGarmentLab 為柔性衣物操作提供了先導(dǎo)的仿真環(huán)境、高效的數(shù)據(jù)采集方式以及泛化的操作策略,基于 DexGarmentLab 可以拓展一系列的柔性衣物工作,包括二指夾交互任務(wù)、靈巧手交互任務(wù)、移動(dòng)操作任務(wù)、堆疊衣物交互任務(wù)等。期待更多基于 DexGarmentLab 的工作可以探索并實(shí)現(xiàn)更加廣泛的柔性物體操作應(yīng)用,助力具身智能邁向通用的家居場(chǎng)景!