NeurIPS 25 | 中大&UC Merced等開(kāi)源RAPID Hand,重新定義多指靈巧手?jǐn)?shù)據(jù)采集
在最近的一篇 NeurIPS 25 中稿論文中,來(lái)自中山大學(xué)、加州大學(xué) Merced 分校、中科院自動(dòng)化研究所、誠(chéng)橙動(dòng)力的研究者聯(lián)合提出了一個(gè)全新開(kāi)源的高自由度靈巧手平臺(tái) — RAPID Hand (Robust, Affordable, Perception-Integrated, Dexterous Hand)。

- 論文標(biāo)題:RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy
- 論文地址:https://www.arxiv.org/abs/2506.07490
- 項(xiàng)目主頁(yè):https://rapid-hand.github.io/
- Github 地址:https://github.com/SYSU-RoboticsLab/RAPID-Hand
研究背景
靈巧操作能力是通用機(jī)器人實(shí)現(xiàn)多任務(wù)泛化的核心能力之一。無(wú)論是日常的家庭整理、物品歸置,還是輔助類服務(wù)任務(wù),若缺乏靈巧的操作能力,機(jī)器人便難以真正完成復(fù)雜交互。
近年來(lái),隨著多模態(tài)大模型(VLMs)在機(jī)器人控制中的逐步應(yīng)用,研究者們開(kāi)始將高質(zhì)量的操作演示與預(yù)訓(xùn)練模型結(jié)合,用于具身推理與通用操作策略學(xué)習(xí),在模型架構(gòu)和數(shù)據(jù)構(gòu)造策略上取得了初步進(jìn)展。



圖 1 遙操作手內(nèi)物體平動(dòng)對(duì)比: Allegro(上) 容易掉落,LEAP(中) 幾乎無(wú)明顯運(yùn)動(dòng),而 RAPID(下) 實(shí)現(xiàn)了更自然的指間橫向移動(dòng)。
然而,硬件瓶頸仍是機(jī)器人「動(dòng)手」的關(guān)鍵障礙。首先,受限于末端執(zhí)行器的可獲得性,大多數(shù)平臺(tái)仍依賴于雙指夾爪,難以完成手內(nèi)操作、工具使用等細(xì)粒度操作任務(wù)。其次,當(dāng)前多指硬件平臺(tái)在強(qiáng)調(diào)機(jī)械結(jié)構(gòu)性能的同時(shí),常常忽略感知系統(tǒng)的同步性與穩(wěn)定性,導(dǎo)致數(shù)據(jù)丟幀、感知不同步等問(wèn)題普遍存在。例如已有研究 [1] 顯示,多模態(tài)傳感器集成時(shí)常伴隨 4.4% 的掉幀率與高達(dá) 15–100ms 的模態(tài)延遲。這些問(wèn)題直接限制了操作技能的多樣性,也阻礙了高質(zhì)量、可復(fù)現(xiàn)的真實(shí)演示數(shù)據(jù)的采集。

圖 2 RAPID Hand 具有 20 自由度(DoF)的類人結(jié)構(gòu),集成了腕部視覺(jué)、指尖觸覺(jué)和本體感覺(jué)等多模態(tài)感知能力,支持毫秒級(jí)的時(shí)空同步與精準(zhǔn)的空間對(duì)齊,并提供高自由度的遙操作接口,旨在以低成本、高質(zhì)量的數(shù)據(jù),助力通用機(jī)器人靈巧操作的研究。
研究動(dòng)機(jī):多指操作能否穩(wěn)定、高效采集?
高質(zhì)量的真實(shí)機(jī)器人演示數(shù)據(jù)對(duì)于訓(xùn)練通用操作策略至關(guān)重要,但要實(shí)現(xiàn)穩(wěn)定可靠的數(shù)據(jù)采集,仍缺乏一套緊湊、經(jīng)濟(jì)且具備高自由度的多指靈巧手系統(tǒng)。
挑戰(zhàn)主要來(lái)自兩個(gè)方面:一是驅(qū)動(dòng)與傳動(dòng)結(jié)構(gòu)的復(fù)雜性。電機(jī)布局不僅要兼顧低成本和高輸出力,還需在指尖靈活性、結(jié)構(gòu)緊湊性與類人關(guān)節(jié)運(yùn)動(dòng)學(xué)之間取得平衡,否則極易導(dǎo)致結(jié)構(gòu)臃腫或不自然的關(guān)節(jié)運(yùn)動(dòng);二是多模態(tài)感知在運(yùn)動(dòng)過(guò)程中容易出現(xiàn)斷連與丟包,傳感器間的延遲差異與不同步問(wèn)題也會(huì)影響感知數(shù)據(jù)的一致性與完整性。
基于此,研究者們提出一個(gè)關(guān)鍵問(wèn)題:能否構(gòu)建一個(gè)軟硬件高度集成、結(jié)構(gòu)清晰的靈巧手操作平臺(tái),為穩(wěn)定、高質(zhì)量的數(shù)據(jù)采集提供可靠支撐?本研究正是圍繞這一挑戰(zhàn)展開(kāi),研究者們從硬件與軟件兩個(gè)層面協(xié)同設(shè)計(jì),構(gòu)建了 RAPID Hand 平臺(tái),力求在感知集成、結(jié)構(gòu)設(shè)計(jì)與控制接口之間形成一致、穩(wěn)定的閉環(huán)支持。

圖 3 手指尺寸與運(yùn)動(dòng)學(xué)對(duì)比:對(duì) RAPID、LEAP 和 Allegro 三種靈巧手的手指尺寸和運(yùn)動(dòng)學(xué)特性比較。
手部本體設(shè)計(jì)
在硬件結(jié)構(gòu)方面,RAPID Hand 采用緊湊的 20 自由度手部本體設(shè)計(jì),并引入統(tǒng)一的多指節(jié)驅(qū)動(dòng)與傳動(dòng)方案。通過(guò)對(duì)電機(jī)布局的系統(tǒng)優(yōu)化(如圖 4 所示),手指厚度被控制在 20 毫米,兼顧結(jié)構(gòu)緊湊與驅(qū)動(dòng)性能。具體而言,該方案在遠(yuǎn)端關(guān)節(jié)(DIP 與 PIP)采用直接驅(qū)動(dòng),近端關(guān)節(jié)(MCP)則引入并聯(lián)機(jī)構(gòu),實(shí)現(xiàn)高效、獨(dú)立的多指節(jié)控制。

圖 4 RAPID Hand 所采用的統(tǒng)一多指節(jié)驅(qū)動(dòng)方案。除拇指外,各手指的 DIP 和 PIP 關(guān)節(jié),以及拇指的 DIP 和 MCP 關(guān)節(jié),均由安裝于指節(jié)的電機(jī)直接驅(qū)動(dòng);而除拇指外各手指的 MCP 關(guān)節(jié)與拇指的 CMC 關(guān)節(jié)則通過(guò)并聯(lián)機(jī)構(gòu)驅(qū)動(dòng),從而實(shí)現(xiàn)全手 20 自由度的獨(dú)立控制。
此外,研究者們提出了一種硬件級(jí)的全手感知同步框架,可穩(wěn)定集成腕部視覺(jué)、指尖觸覺(jué)與本體感覺(jué)三類傳感信息,實(shí)現(xiàn)高精度的時(shí)序?qū)R(如圖 5 所示)。

圖 5 硬件級(jí)全手感知集成框架示意圖。展示了視覺(jué)、觸覺(jué)和本體感覺(jué)傳感器的布局,以及電子元件與走線排布。
學(xué)習(xí)靈巧操作技能
在軟件系統(tǒng)方面,研究者們開(kāi)發(fā)了一套高自由度的遙操作接口,可高效采集多樣化的接觸豐富的操作任務(wù)演示。最終,RAPID Hand 被構(gòu)建為軟硬協(xié)同優(yōu)化的平臺(tái):緊湊的 20 自由度手部結(jié)構(gòu)、穩(wěn)定的全手感知集成框架與高自由度遙操作接口三者協(xié)同設(shè)計(jì),實(shí)現(xiàn)了從數(shù)據(jù)采集到策略部署的閉環(huán)鏈條,確保硬件耐用、感知穩(wěn)定,并支持靈巧操作任務(wù)中高效、高質(zhì)量的演示數(shù)據(jù)采集。

基于該靈巧操作平臺(tái),研究者們?cè)谌齻€(gè)具有挑戰(zhàn)性的手內(nèi)操作任務(wù)上訓(xùn)練一個(gè)擴(kuò)散模型,以驗(yàn)證 RAPID Hand 的性能。在實(shí)驗(yàn)中,基于 RAPID Hand 訓(xùn)練的策略在操作表現(xiàn)與穩(wěn)定性方面均優(yōu)于已有方法。據(jù)我們所知,RAPID Hand 在手部結(jié)構(gòu)設(shè)計(jì)與多模態(tài)感知集成兩方面均優(yōu)于現(xiàn)有代表性靈巧手(LEAP、 Allegro),同時(shí)具備低成本、高可獲得性的優(yōu)勢(shì)。


圖 6 手內(nèi)平動(dòng)與滾動(dòng)任務(wù)對(duì)比。上中兩圖展示了 RAPID Hand 在無(wú)需加速播放的情況下自主完成物體的手內(nèi)滾動(dòng)和平移操作;下圖為先前方法 [2] 的效果。與其固定機(jī)械臂末端、依賴桌面支撐等簡(jiǎn)化設(shè)置不同,RAPID Hand 在放寬這些限制條件下,仍實(shí)現(xiàn)了穩(wěn)定的自主操作。


圖 7 多指翻找任務(wù)對(duì)比。上圖展示了 RAPID Hand 在無(wú)需加速播放的情況下自主完成類似人類翻找抽屜的多指翻找任務(wù)。相比之下,RAPID 所訓(xùn)練的策略在操作表現(xiàn)上顯著優(yōu)于同期僅依賴單指掃動(dòng)并使用 ArUco 標(biāo)記進(jìn)行感知的方法 [3]。























