偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

面對雜亂場景,靈巧手也能從容應(yīng)對!NUS邵林團(tuán)隊發(fā)布DexSinGrasp基于強(qiáng)化學(xué)習(xí)實現(xiàn)物體分離與抓取統(tǒng)一策略

人工智能 新聞
研究團(tuán)隊所提出的 DexSinGrasp 是一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一框架,通過整合物體分離與抓取任務(wù),實現(xiàn)了靈巧手在雜亂環(huán)境中的高效操作。

本文的作者均來自新加坡國立大學(xué) LinS Lab。本文的共同第一作者為新加坡國立大學(xué)實習(xí)生許立昕和博士生劉子軒,主要研究方向為機(jī)器人學(xué)習(xí)和靈巧操縱,其余作者分別為碩士生桂哲瑋、實習(xí)生郭京翔、江澤宇以及博士生徐志軒、高崇凱。本文的通訊作者為新加坡國立大學(xué)助理教授邵林。

在物流倉庫、生產(chǎn)線或家庭場景中,機(jī)器人常常需要在大量雜亂擺放的物體中高效地抓取目標(biāo)。

在這些場景中,如果使用機(jī)械夾爪,由于其自由度有限、靈活性不足,需要多次對場景進(jìn)行操作;而高自由度的靈巧手雖然具有潛在優(yōu)勢,但因控制復(fù)雜和訓(xùn)練難度大,在密集遮擋與復(fù)雜排列場景下往往表現(xiàn)不佳。

現(xiàn)有方法常采用先分離、后抓取的策略,存在策略切換不夠靈活,執(zhí)行效率低下的問題。

為解決這一挑戰(zhàn),來自新加坡國立大學(xué)的邵林團(tuán)隊提出了 DexSinGrasp——一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一策略,通過整合物體分離與抓取任務(wù),令靈巧手在雜亂環(huán)境中能夠自適應(yīng)調(diào)整分離與抓取策略,顯著提高抓取成功率和操作效率。該項研究已投稿至 IROS 2025。

為了讓機(jī)器人在多變的雜亂環(huán)境中高效分離物體并抓取目標(biāo),DexSinGrasp 提出了「統(tǒng)一策略」的設(shè)計。該方法通過強(qiáng)化學(xué)習(xí)構(gòu)建了一體化的策略框架,實現(xiàn)了「分離—抓取」動作的無縫銜接。該項研究的主要貢獻(xiàn)有:

  • 統(tǒng)一強(qiáng)化學(xué)習(xí)策略:提出一種統(tǒng)一的強(qiáng)化學(xué)習(xí)策略,實現(xiàn)靈巧手在雜亂環(huán)境中對物體的有效分離和抓取。
  • 課程學(xué)習(xí)與策略蒸餾:融入雜亂環(huán)境課程學(xué)習(xí)以提升不同場景下的策略性能,并通過策略蒸餾獲得適用于實際部署的視覺抓取策略。
  • 多難度抓取任務(wù)設(shè)計:設(shè)計一系列不同難度與排列的雜亂抓取任務(wù),通過大量實驗驗證所提方法的高效性與有效性。

圖片

方法

統(tǒng)一強(qiáng)化學(xué)習(xí)策略

DexSinGrasp 的核心在于構(gòu)建一個統(tǒng)一的策略框架,引入分離獎勵項,將「分離障礙」、「抓取目標(biāo)」整合為一個連續(xù)的動作決策過程,充分利用了分離與抓取融合的優(yōu)勢,避免傳統(tǒng)多階段方法中各模塊間效率低下和動作銜接不暢的問題。為此,我們設(shè)計了一個分段式獎勵函數(shù),其關(guān)鍵組成包括:

圖片


  • 接近獎勵:獎勵項圖片引導(dǎo)手掌和手指在初始階段向目標(biāo)物體靠近,從而確保機(jī)器人迅速定位目標(biāo)。
  • 抬升與目標(biāo)對齊獎勵:在目標(biāo)接觸后,獎勵項圖片鼓勵機(jī)器人將物體抬升至預(yù)設(shè)位置,實現(xiàn)準(zhǔn)確對齊。
  • 分離獎勵:通過獎勵項圖片,使機(jī)器人在抓取過程中主動推動、滑動或輕推周圍障礙物,從而為抓取創(chuàng)造足夠空間。

獎勵函數(shù)依據(jù)手掌與手指到目標(biāo)物體的距離圖片來自動轉(zhuǎn)換,從「接近」階段逐步過渡到「抓取」階段,使整個過程更加平滑和高效。該統(tǒng)一策略不僅提升了訓(xùn)練樣本的利用效率,還使機(jī)器人能根據(jù)實時場景動態(tài)選擇微調(diào)指尖、輕推障礙或直接抓取,從而在雜亂環(huán)境下實現(xiàn)穩(wěn)定的抓取操作。

雜亂環(huán)境課程學(xué)習(xí)

在高度雜亂的場景中直接訓(xùn)練機(jī)器人往往容易陷入局部最優(yōu),導(dǎo)致成功率低下。為此,我們引入了「雜亂環(huán)境課程學(xué)習(xí)」的機(jī)制,具體包括:

  • 任務(wù)分級設(shè)計:從最簡單的單目標(biāo)抓取任務(wù)開始,逐步引入障礙物。我們設(shè)計了不同難度的任務(wù),例如:
  • 密集排列任務(wù):用 D-4、D-6、D-8 表示,不同數(shù)字代表環(huán)境中障礙物數(shù)量的遞增;
  • 隨機(jī)排列任務(wù):用 R-4、R-6、R-8 表示,以驗證策略在非規(guī)則分布場景下的泛化能力。
  • 循序漸進(jìn)訓(xùn)練:先在障礙物較少且排列較規(guī)則的環(huán)境中訓(xùn)練出初步策略,然后逐步過渡到障礙物數(shù)量更多、排列更隨機(jī)的復(fù)雜場景。這樣的訓(xùn)練策略能顯著提高策略的穩(wěn)定性和泛化性能,確保機(jī)器人在極端密集的環(huán)境下也能有效分離并抓取目標(biāo)。

圖片

教師—學(xué)生策略蒸餾

在仿真環(huán)境中,我們能夠利用精確的物體位置、力反饋等特權(quán)信息訓(xùn)練出高性能的教師策略。但在真實場景中,這些信息難以獲取,為此我們設(shè)計了教師—學(xué)生策略蒸餾方案:

  • 教師策略:利用仿真中豐富的特權(quán)信息訓(xùn)練出性能優(yōu)異的策略,能夠精細(xì)地控制物體的分離和抓取動作。
  • 數(shù)據(jù)采集與行為克?。?/span>通過教師策略生成大量示范數(shù)據(jù)(包括視覺觀測、點云數(shù)據(jù)以及動作指令),并采用行為克隆的方法訓(xùn)練出只依賴攝像頭采集的點云和機(jī)器人自感知數(shù)據(jù)的學(xué)生策略。這樣,在真實環(huán)境中,機(jī)器人無需額外傳感器信息也能保持高成功率,完成從仿真到實機(jī)的平滑遷移。

實驗結(jié)果

為了測試 DexSinGrasp 策略在分離抓取時的有效性和泛化性,以及雜亂環(huán)境課程學(xué)習(xí)的有效性,設(shè)計了三組實驗進(jìn)行測試,并與兩種基線比較。

基線 1 僅訓(xùn)練了一個抓取策略,沒有鼓勵對周圍物體進(jìn)行分離?;€ 2 將分離和抓取策略分開且分階段進(jìn)行。

評價指標(biāo)為抓取成功率(SR)和平均步數(shù)(AS)。抓取成功率越高,說明策略的有效性越高,平均步數(shù)越少,說明策略的效率越高。

實驗 1

對教師策略和學(xué)生策略在不同數(shù)量障礙的緊密排列進(jìn)行測試,證明了 DexSinGrasp 的有效性和高效率。圖示是教師策略在密集擺放模式下障礙物數(shù)量為 4、6、8 時的仿真演示。

圖片

圖片

實驗 2

對教師策略和學(xué)生策略在不同數(shù)量障礙的隨機(jī)排列進(jìn)行測試,結(jié)果證明了 DexSinGrasp 在隨機(jī)物體擺放下也可以實現(xiàn)成功分離抓取,對不同的場景有一定泛化性。圖示是教師策略在隨機(jī)擺放模式下障礙物數(shù)量為 4、6、8 時的仿真演示。

圖片

圖片

實驗 3

對雜亂環(huán)境課程學(xué)習(xí)的方式進(jìn)行測試。我們嘗試了無課程學(xué)習(xí)、先隨機(jī)排列再緊密排列的課程學(xué)習(xí),以及先緊密排列再隨機(jī)排列的課程學(xué)習(xí)的訓(xùn)練模式。

圖片

我們發(fā)現(xiàn),無課程學(xué)習(xí)訓(xùn)練的各個策略中,隨機(jī)排列的任務(wù)表現(xiàn)不佳;先隨機(jī)排列再緊密排列的課程學(xué)習(xí)獲得的各個策略中,緊密排列的任務(wù)表現(xiàn)不佳;而先緊密排列再隨機(jī)排列的課程學(xué)習(xí)在不同的任務(wù)上均取得了不錯的成功率,證實了所提出的課程學(xué)習(xí)機(jī)制在不同場景下的有效性。

此外,研究團(tuán)隊還在實機(jī)平臺上進(jìn)行了驗證。使用 uFactory xArm6 搭載 LEAP 手,并配備兩臺 Realsense RGB-D 攝像頭以進(jìn)行實時點云數(shù)據(jù)融合與濾波處理。圖示為實機(jī)實驗中對密集與隨機(jī)擺放的 4、6、8 個物體場景下成功分離與抓取的演示。實驗表明,經(jīng)過教師—學(xué)生策略蒸餾后的視覺策略在實際操作中也能有效完成雜亂環(huán)境的有效分離與抓取。

總結(jié)

研究團(tuán)隊所提出的 DexSinGrasp 是一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一框架,通過整合物體分離與抓取任務(wù),實現(xiàn)了靈巧手在雜亂環(huán)境中的高效操作。

該方法突破以往直接抓取或多階段分割的策略,利用推移、滑動等動作在抓取過程中直接調(diào)整障礙物布局,結(jié)合環(huán)境復(fù)雜度遞進(jìn)式的雜亂環(huán)境課程學(xué)習(xí)與教師—學(xué)生策略蒸餾技術(shù),有效提升視覺策略的泛化能力與仿真到現(xiàn)實的遷移效果。

實驗表明,該方法在多種測試場景中展現(xiàn)出優(yōu)于傳統(tǒng)方法的抓取成功率和操作效率。未來研究將拓展至動態(tài)復(fù)雜場景下的多形態(tài)物體操作,增強(qiáng)抗干擾能力,進(jìn)一步提高系統(tǒng)在非結(jié)構(gòu)化環(huán)境中的泛化性與適應(yīng)性。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-23 07:25:00

機(jī)器人距離矩陣人工智能

2011-11-14 15:38:41

2024-10-06 16:50:00

AI訓(xùn)練

2023-11-27 13:49:00

高并發(fā)應(yīng)用

2014-04-04 17:29:03

戴爾

2009-11-16 15:44:21

惠普企業(yè)市場

2011-05-13 14:29:35

2011-05-13 14:35:04

2014-09-05 09:26:21

2023-06-25 11:30:47

可視化

2022-03-17 08:54:59

軟件系統(tǒng)重構(gòu)

2011-10-10 14:13:52

Tivoli云計算IBM

2011-12-30 10:32:37

云計算大數(shù)據(jù)

2011-04-06 14:15:31

俠諾十二五網(wǎng)絡(luò)

2014-07-04 17:01:28

戴爾

2013-09-13 17:32:30

華為BYODBYOD華為

2025-05-15 09:04:00

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2013-06-14 09:33:43

點贊
收藏

51CTO技術(shù)棧公眾號