偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NeurIPS 2025 Spotlight | 只需一條演示,DexFlyWheel框架讓機(jī)器人學(xué)會(huì)「自我造數(shù)據(jù)」

人工智能 新聞
近期,北京大學(xué)、哈爾濱工業(yè)大學(xué)聯(lián)合 PsiBot 靈初智能提出首個(gè)自我增強(qiáng)的靈巧操作數(shù)據(jù)生成框架 ——DexFlyWheel。該框架僅需單條演示即可啟動(dòng)任務(wù),自動(dòng)生成多樣化的靈巧操作數(shù)據(jù),旨在緩解靈巧手領(lǐng)域長期存在的數(shù)據(jù)稀缺問題。

當(dāng)我們談?wù)摍C(jī)器人靈巧操作時(shí),數(shù)據(jù)稀缺始終是懸浮在頭頂?shù)倪_(dá)摩克利斯之劍。

在大模型、自動(dòng)駕駛領(lǐng)域紛紛依靠海量數(shù)據(jù) “涌現(xiàn)” 出強(qiáng)大能力的今天,機(jī)器人靈巧操作依然困在數(shù)據(jù)瓶頸。

近期,北京大學(xué)、哈爾濱工業(yè)大學(xué)聯(lián)合 PsiBot 靈初智能提出首個(gè)自我增強(qiáng)的靈巧操作數(shù)據(jù)生成框架 ——DexFlyWheel。該框架僅需單條演示即可啟動(dòng)任務(wù),自動(dòng)生成多樣化的靈巧操作數(shù)據(jù),旨在緩解靈巧手領(lǐng)域長期存在的數(shù)據(jù)稀缺問題。目前已被 NeurIPS 2025 接受為 Spotlight(入選率約 3.2%)。

  • 論文題目:DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation
  • 論文鏈接:https://arxiv.org/abs/2509.23829
  • 項(xiàng)目主頁:https://DexFlyWheel.github.io

研究背景:

為什么靈巧手?jǐn)?shù)據(jù)生成如此困難?

在具身智能快速發(fā)展的今天,覆蓋多樣化場(chǎng)景和任務(wù)的機(jī)器人數(shù)據(jù)集不斷出現(xiàn)。但是面向五指靈巧手的操作數(shù)據(jù)集仍然缺乏。這背后有幾個(gè)關(guān)鍵原因:

1. 傳統(tǒng)方法失效。 二指夾爪的生成方案在靈巧手上基本無法推廣。啟發(fā)式規(guī)劃難以應(yīng)對(duì)高維動(dòng)作優(yōu)化,LLM 雖然能提供語義引導(dǎo),卻難以生成精細(xì)的五指控制軌跡。

2. 高成本的人工示教?;谶b操作設(shè)備可以有效收集靈巧手?jǐn)?shù)據(jù),但是需大量人力、時(shí)間與資源。可擴(kuò)展性低,難以形成多樣化、規(guī)?;臄?shù)據(jù)集。

3. 純強(qiáng)化學(xué)習(xí)效率低。完全依靠強(qiáng)化學(xué)習(xí)雖然可以訓(xùn)練出成功的策略并迭代成功軌跡,但往往出現(xiàn)手部動(dòng)作不自然、機(jī)械臂抖動(dòng)等問題,再加上探索效率低,難以高效產(chǎn)生高質(zhì)量軌跡。

4. 僅限于抓取任務(wù)。目前已有一些靈巧手?jǐn)?shù)據(jù)集被提出,但大多僅針對(duì)抓取任務(wù)進(jìn)行特定設(shè)計(jì),任務(wù)類型單一,難以遷移至其他精細(xì)操作場(chǎng)景,限制了靈巧手技能的泛化與發(fā)展。

5. 軌跡回放方法數(shù)據(jù)多樣性有限?;谲壽E回放與編輯的方法是目前最常用的靈巧手?jǐn)?shù)據(jù)生成方法,但它只能在預(yù)定義場(chǎng)景下做空間變換,無法探索新策略。導(dǎo)致了數(shù)據(jù)多樣性低,難以支撐靈巧操作策略的泛化。

總體來看,無論是依賴人類示教、軌跡回放,還是單純依靠強(qiáng)化學(xué)習(xí),現(xiàn)有方法在成本、生成效率和數(shù)據(jù)多樣性方面都存在明顯局限,很難同時(shí)兼顧。

面對(duì)這一挑戰(zhàn),團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:

在靈巧手操作不同物體時(shí),軌跡通常只需做細(xì)微調(diào)整。物體差別越小,調(diào)整越細(xì)微。

這啟發(fā)團(tuán)隊(duì)提出一個(gè)新思路:成功的演示數(shù)據(jù)不應(yīng)是數(shù)據(jù)生成的 “終點(diǎn)”,而可以成為更多場(chǎng)景下數(shù)據(jù)生成的 “起點(diǎn)”。 換句話說,一條高質(zhì)量軌跡完全可以被利用,衍生出大量新的訓(xùn)練數(shù)據(jù)。

更高層次地,智能系統(tǒng)往往遵循 “能力 — 數(shù)據(jù) — 能力” 的迭代提升規(guī)律,從而推動(dòng)自我演進(jìn)。

這讓團(tuán)隊(duì)進(jìn)一步思考:靈巧手?jǐn)?shù)據(jù)生成是否也可以形成類似的自我提升循環(huán),讓系統(tǒng)持續(xù)擴(kuò)展、生成多樣化的數(shù)據(jù)?

這就是 DexFlyWheel 背后的初衷:不再依賴大規(guī)模數(shù)據(jù)投入,而是為靈巧手構(gòu)建一個(gè)只需少量軌跡啟動(dòng),即可持續(xù)進(jìn)化和自我提升的高效數(shù)據(jù)生成系統(tǒng)。

DexFlyWheel 技術(shù)解析:自我提升的靈巧手?jǐn)?shù)據(jù)生成飛輪

團(tuán)隊(duì)提出了一種兼具成本、高效性與可擴(kuò)展性的方案,叫做 DexFlyWheel。它有兩個(gè)核心思路:

1. 利用模仿學(xué)習(xí) + 殘差強(qiáng)化學(xué)習(xí),重新定義演示的作用

團(tuán)隊(duì)基于關(guān)鍵發(fā)現(xiàn) —— 操作不同物體時(shí)軌跡往往只需細(xì)微調(diào)整,設(shè)計(jì)了 “模仿學(xué)習(xí) + 殘差強(qiáng)化學(xué)習(xí)” 方法來將演示遷移到新場(chǎng)景。一方面,模仿學(xué)習(xí)保證軌跡保持人類演示的自然性;另一方面,殘差強(qiáng)化學(xué)習(xí)對(duì)軌跡進(jìn)行精細(xì)微調(diào),使其適應(yīng)新環(huán)境。最終,通過組合策略,能夠高效生成多樣化且類人的軌跡數(shù)據(jù)。

2. 構(gòu)建數(shù)據(jù)與模型的閉環(huán)飛輪

DexFlyWheel 構(gòu)建了數(shù)據(jù)與模型的自我提升循環(huán),讓模型在循環(huán)中自我提升,實(shí)現(xiàn)數(shù)據(jù)和策略性能的協(xié)同增長。

通過這兩者的結(jié)合,DexFlyWheel 實(shí)現(xiàn)了高效且可擴(kuò)展的數(shù)據(jù)生成,不僅顯著提升了數(shù)據(jù)的多樣性與規(guī)模,還將對(duì)原始演示的依賴降至每任務(wù)僅需 1 條,極大降低了成本。

DexFlyWheel 框架如下圖,分為兩個(gè)階段:

1. 預(yù)熱階段:通過 VR 采集 1 條種子演示,經(jīng)數(shù)據(jù)增強(qiáng)得到初始數(shù)據(jù)集。

2. 自我提升的數(shù)據(jù)飛輪階段:

  • 基礎(chǔ)策略訓(xùn)練:利用擴(kuò)散策略從數(shù)據(jù)中學(xué)習(xí)人類先驗(yàn),保持行為的類人性。
  • 殘差策略訓(xùn)練:用殘差強(qiáng)化學(xué)習(xí)對(duì)策略進(jìn)行微調(diào),增強(qiáng)其泛化到新場(chǎng)景的能力。
  • 軌跡生成:基于組合策略,在仿真中的多樣化場(chǎng)景下不斷生成新的成功軌跡。
  • 數(shù)據(jù)增強(qiáng):對(duì)軌跡進(jìn)行多維度增強(qiáng),產(chǎn)出更豐富的數(shù)據(jù)集,用于下一輪迭代。

DexFlyWheel 就這樣把一條演示 “放大”,讓數(shù)據(jù)和策略在循環(huán)中不斷自我提升。隨著迭代推進(jìn),數(shù)據(jù)多樣性快速增長,形成 “越用越強(qiáng)、越轉(zhuǎn)越快” 的飛輪效應(yīng)。

實(shí)驗(yàn)結(jié)果:

DexFlyWheel 生成效率更高、數(shù)據(jù)更多樣,策略更強(qiáng)泛化

實(shí)驗(yàn)任務(wù)

  • 四個(gè)靈巧手任務(wù):?jiǎn)问肿ト?、單手傾倒、雙手提起、雙手交接。
  • 每個(gè)任務(wù)僅需一條演示啟動(dòng) DexFlyWheel。

主要實(shí)驗(yàn)指標(biāo)與結(jié)果

1. 數(shù)據(jù)多樣性顯著提升

  • 數(shù)據(jù)規(guī)模:從 1 條演示擴(kuò)展至 500 條生成軌跡。
  • 數(shù)據(jù)多樣性:場(chǎng)景數(shù)量提升 214 倍,物體種類從 1 個(gè)擴(kuò)展到平均 20 個(gè)。

2. 策略泛化能力顯著提升

在包含物體、環(huán)境、空間布局三重變化的挑戰(zhàn)性測(cè)試集上,成功率從初始的 16.5% 提升至 81.9%。

3. 全面超越基線方法

  • 數(shù)據(jù)生成成功率:在多樣且有挑戰(zhàn)性的場(chǎng)景下,DexFlyWheel 數(shù)據(jù)生成成功率達(dá)到 89.8%,明顯高于基于軌跡回放的基線方法 (63.0%)。
  • 數(shù)據(jù)生成效率:生成 500 條多樣化軌跡僅需 2.4 小時(shí),相比人類演示和基于軌跡回放的基線方法,分別加快 1.83 倍 和 5.21 倍。
  • 訓(xùn)練策略性能:在多樣且具有挑戰(zhàn)性的測(cè)試集上,策略成功率達(dá)到 81.9%,超過基線 DexMicmicGen (31.4%) 和人類示教 (9.4%)。
  •  綜合表現(xiàn):在數(shù)據(jù)生成成功率、生成效率以及策略性能上,均顯著優(yōu)于基于人類示教和軌跡編輯的方法。

Demo 展示:輕松操控多樣物體,

從容完成高難任務(wù),絲滑展現(xiàn)類人操作

1. 對(duì)比 baselines:我們的方法可以操作不同形狀的物體,并且適應(yīng)高難度任務(wù)雙手交接,同時(shí)動(dòng)作更加類人。

2. 仿真數(shù)據(jù)多樣性:DexFlyWheel 數(shù)據(jù)不卷規(guī)模卷數(shù)據(jù)質(zhì)量,通過 1 條演示啟動(dòng)生成了多樣化場(chǎng)景下的數(shù)據(jù),幫助提升靈巧策略泛化性。

3. 真機(jī)遷移:DexFlyWheel 進(jìn)一步通過數(shù)字孿生技術(shù)將訓(xùn)練策略部署至真實(shí)雙靈巧手機(jī)器人系統(tǒng)。在 “雙手提起” 與 “雙手交接” 任務(wù)中,分別取得 78.3% 與 63.3% 的成功率,驗(yàn)證了仿真數(shù)據(jù)生成在現(xiàn)實(shí)機(jī)器人部署可行性。

結(jié)語:數(shù)據(jù)飛輪——推動(dòng)靈巧手走向現(xiàn)實(shí)與泛化

DexFlyWheel 針對(duì)靈巧手領(lǐng)域長期存在的數(shù)據(jù)稀缺問題,提供了一種自我提升的數(shù)據(jù)生成范式:

用模仿學(xué)習(xí)與殘差強(qiáng)化學(xué)習(xí)構(gòu)建了一個(gè)自我提升的數(shù)據(jù)飛輪。背后的思想是:解決數(shù)據(jù)難題的關(guān)鍵,并不在于一味收集更多數(shù)據(jù),而在于讓數(shù)據(jù)與系統(tǒng)相互迭代,讓數(shù)據(jù)能夠自己 “長大”。

與現(xiàn)有方法相比,DexFlyWheel 顯著降低了數(shù)據(jù)收集成本,大幅提升了生成效率,并極大豐富了靈巧手?jǐn)?shù)據(jù)的多樣性。這一進(jìn)展讓靈巧手離現(xiàn)實(shí)應(yīng)用與通用機(jī)器人更近了一步。

局限與展望

當(dāng)然,DexFlyWheel 還不是完美的,未來工作正進(jìn)一步完善這兩方面:

  • 獎(jiǎng)勵(lì)自動(dòng)化:如何高效引入基于 LLM 的獎(jiǎng)勵(lì)設(shè)計(jì)系統(tǒng),減少對(duì)人工設(shè)計(jì)獎(jiǎng)勵(lì)的依賴。
  • 結(jié)合觸覺模態(tài):當(dāng)前缺乏觸覺感知,限制了在高精度任務(wù)中的表現(xiàn);未來將引入觸覺感知,進(jìn)一步突破任務(wù)難度上限。

團(tuán)隊(duì)相信,靈巧手是未來通用機(jī)器人的必備執(zhí)行末端,而持續(xù)生成高質(zhì)量靈巧手?jǐn)?shù)據(jù)的能力,則是推動(dòng)靈巧手真正走向現(xiàn)實(shí)和泛化的重要一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-10-28 13:16:07

四足機(jī)器人機(jī)器人人工智能

2025-09-08 09:12:00

2018-07-06 08:58:53

機(jī)器人人工智能系統(tǒng)

2017-03-27 09:59:25

機(jī)器人自創(chuàng)語言交流

2019-12-24 09:31:55

機(jī)器人人工智能編程

2025-09-15 14:50:03

AI機(jī)器人開發(fā)

2023-07-29 13:14:40

谷歌人工智能

2022-08-27 15:10:36

Ameca機(jī)器人模仿

2021-01-04 09:18:36

機(jī)器人人工智能系統(tǒng)

2025-06-11 14:45:26

機(jī)器人訓(xùn)練數(shù)據(jù)

2023-04-04 18:28:55

機(jī)器人流體力API

2020-09-02 10:36:52

機(jī)器人人工智能系統(tǒng)

2023-10-22 20:14:08

人工智能GPT-4

2022-06-07 14:35:53

機(jī)器人人工智能

2025-07-25 09:42:47

2025-10-16 08:57:00

AI模型訓(xùn)練

2025-10-24 13:00:19

2025-02-21 09:06:28

2025-04-21 16:33:52

機(jī)器人機(jī)器人學(xué)生人工智能

2025-07-22 12:42:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)