單條演示即可抓取一切:北大團隊突破通用抓取,適配所有靈巧手本體
在靈巧手通用抓取的研究中,由于動作空間維度高、任務具有長程探索特征且涉及多樣化物體,傳統(tǒng)強化學習(RL)面臨探索效率低、獎勵函數(shù)及訓練過程設計復雜等挑戰(zhàn)。
基于此,北京大學及BeingBeyond團隊提出DemoGrasp框架——
一種簡單且高效的通用靈巧手抓取學習方法。

該方法以一次成功的抓取演示軌跡為起點,通過對軌跡中的機器人動作進行編輯,以適應不同物體與姿態(tài):改變腕部位姿用于確定“抓取位置”,調(diào)整手指關節(jié)角度用于確定“抓取方式”。
這一核心創(chuàng)新——將連續(xù)決策的多步MDP(馬爾可夫決策過程)重構(gòu)為基于軌跡編輯的“單步MDP”——有效提升了強化學習在抓取任務上的學習效率和遷移到真機的性能。

核心設計:單條演示 + 單步 RL
從“多步探索”到“全局編輯”
傳統(tǒng)RL的困境:高維動作空間的復雜探索
- 動作空間:每一步都需要輸出高自由度機器人所有關節(jié)的指令。
- 獎勵設計:需要設計極其復雜的密集獎勵函數(shù),引導機器人避開碰撞、接觸物體、成功抓取、平滑運動等。
- 課程學習:需要設計復雜的多階段學習流程,幫助RL探索
DemoGrasp 的核心創(chuàng)新在于用 “單條成功演示軌跡” 替代 “從零開始的探索”,將高維抓取任務轉(zhuǎn)化為 “演示編輯任務”,再通過單步 RL 優(yōu)化編輯參數(shù),最終結(jié)合視覺模仿學習實現(xiàn)虛實遷移。

單條演示和軌跡編輯
一條抓取特定物體的成功軌跡包含了抓取任務通用的模式(如 “靠近物體→閉合手指→抬起手腕”),只需調(diào)整軌跡中的手腕和手指抓取方式,即可適配沒見過的新物體。
DemoGrasp只需要對一個物體(比如一個方塊)采集一條成功抓取演示軌跡,即可通過物體中心的軌跡編輯做出新物體、新位置的抓取行為:
- 手腕位姿編輯:在物體坐標系下,對原始軌跡中的每一個手腕位點施加一個統(tǒng)一的變換 T∈SE(3) ,通過靈活地調(diào)整手腕抓取方向和位置,適應不同大小、形狀、合適抓取點的物體。
- 手指關節(jié)編輯:對手指的抓取關節(jié)角施加一個增量 Δq_G,通過與演示軌跡的等比例插值,產(chǎn)生一條靈巧手從初始張開姿態(tài)平滑到達新的抓取姿態(tài)的動作軌跡。
單步強化學習
在仿真環(huán)境中,DemoGrasp利用IsaacGym創(chuàng)建了數(shù)千個并行世界,每個世界里都有不同的物體和擺放場景。
學習過程:每一個仿真世界中,策略網(wǎng)絡根據(jù)初始的觀測(末端位姿和物體點云、位姿) 輸出一組手腕和手指編輯參數(shù),執(zhí)行編輯后的軌跡,根據(jù)執(zhí)行過程是否“抓取成功”和“發(fā)生碰撞”獲得獎勵。
通過海量試錯和在線強化學習,策略學會根據(jù)不同形狀物體的觀測輸出合適的編輯參數(shù)。
訓練效率:在這個緊湊動作空間的單步MDP問題上,DemoGrasp使用單張RTX 4090顯卡訓練24小時即可收斂到>90%的成功率。
視覺蒸餾,虛實遷移
仿真中的強化學習策略依賴精確的物體點云和位姿,這在現(xiàn)實中難以獲取。DemoGrasp通過視覺模仿學習,將策略蒸餾成與真機對齊的RGB策略,實現(xiàn)從仿真到真機的直接遷移。
- 數(shù)據(jù)收集:在仿真中運行強化學習策略,記錄下上萬條成功軌跡:包括渲染的相機RGB圖像、每一時刻的機器人本體感知和關節(jié)角動作。
- 模型訓練:采用流匹配(Flow-Matching)生成模型的方法,學習從圖像觀測和機器人本體感知預測動作。為縮小仿真到真機的視覺圖像差異,訓練還使用了預訓練的ViT提取圖像特征,并在仿真數(shù)據(jù)收集時充分地進行域隨機化(隨機化光照、背景、物體顏色紋理、相機參數(shù)等)。
- 多模態(tài)適配:DemoGrasp適配單目/雙目、RGB/深度相機等多種相機觀測。實驗表明,雙目RGB相機組合的效果最佳,能夠更好地減少遮擋、利用紋理和輪廓等信息成功抓取小而薄的物體。
實驗結(jié)果:仿真和真機雙優(yōu),全面提升靈巧抓取的泛化性和擴展性
DexGraspNet是靈巧抓取領域的權(quán)威數(shù)據(jù)集(3.4K 物體)。
DemoGrasp在該數(shù)據(jù)集上使用Shadow Hand抓取,性能顯著優(yōu)于現(xiàn)有方法:視覺策略成功率達到92%,訓練集到測試集的泛化差距僅1%,且適應大范圍的物體初始位置隨機化(50cm×50cm)、具備更強的空間泛化能力。

跨本體擴展:適配任意靈巧手和機械臂本體

DemoGrasp無需調(diào)整任何訓練超參數(shù),成功適配6種不同形態(tài)的機器人(五指、四指靈巧手,三指夾爪和平行夾爪),在175個物體上訓練后,在多個未見過的物體數(shù)據(jù)集上達到84.6%的平均成功率。
高性能的虛實遷移
在真實機器人測試中,使用Franka機械臂和因時靈巧手,DemoGrasp成功抓取了110個未見過的物體。
在常規(guī)大小的物體分類上,DemoGrasp成功率均達到90%以上;
對于扁平物體(手機殼、剪刀等)和小物體(瓶蓋、小黃鴨等)的困難抓取任務,策略能夠準確地抓取物體、避免碰撞,成功率達到70%。

DemoGrasp框架支持對真實場景更加復雜的抓取任務的擴展能力,支持 在雜亂多物體擺放的場景下實現(xiàn)用語言指令引導抓取,且達到84%的真機單次抓取成功率。對于光照、背景和物體擺放的大幅變化,策略的成功率沒有明顯下降。

DemoGrasp是融合少量人類演示實現(xiàn)高效機器人強化學習的新起點,將在未來支持功能性抓取、工具使用、雙手操作等更多靈巧手任務。
訓練時策略的閉環(huán)能力是當前方法的一個局限,后續(xù)研究將通過更加細粒度的演示軌跡拆分,增加強化學習策略的實時調(diào)整、錯誤恢復能力。
此外,DemoGrasp可以結(jié)合多模態(tài)大模型,實現(xiàn)開放場景下的自主抓取智能體。
































