Google X開源抓取機(jī)械臂,無需人工標(biāo)注就能一眼找到目標(biāo)零件
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
機(jī)械臂常見,但你見過這么聰明的嗎?
從工作臺(tái)上一眼找到合適的螺母、穩(wěn)穩(wěn)拿住。
再送到目標(biāo)螺桿上,整個(gè)動(dòng)作一氣呵成:
即使是相似度極高的兩個(gè)部件,也能準(zhǔn)確區(qū)分并“揪”出正確的那個(gè):
要知道,平時(shí)我們自己做實(shí)驗(yàn)、或是拼裝沒見過的機(jī)械零件時(shí),面對(duì)各個(gè)相似的零件都可能拿錯(cuò),更何況機(jī)器人。
(想象一下拼裝樂高零件的痛苦)
但這只機(jī)械臂沒有使用過任何人工標(biāo)注,就能從模擬器立刻遷移到真實(shí)世界,同時(shí)泛化到機(jī)器人沒見過的新物體上,準(zhǔn)確率能達(dá)到87.8%。
這就是谷歌X最近開源的類別級(jí)機(jī)械臂CaTGrasp。
論文一作為華人博士Bowen Wen,現(xiàn)就讀于羅格斯大學(xué)計(jì)算機(jī)系,本科畢業(yè)于西安交通大學(xué)。
目前,這項(xiàng)研究已經(jīng)登上機(jī)器人領(lǐng)域頂會(huì)ICRA 2022。
讓機(jī)械臂自己總結(jié)抓取經(jīng)驗(yàn)
這項(xiàng)研究的提出,主要是想要解決普通工業(yè)場(chǎng)景中,對(duì)不同機(jī)械零件進(jìn)行分類的問題。
實(shí)際情況下,機(jī)械臂難免會(huì)遇到自己不認(rèn)識(shí)的新零件,如果只依靠數(shù)據(jù)集、不會(huì)舉一反三可不太行。
為了不依賴數(shù)據(jù)集和人工標(biāo)注,研究人員想到了在模擬器內(nèi)進(jìn)行訓(xùn)練的辦法。
通過在模擬器內(nèi)不斷訓(xùn)練試錯(cuò),機(jī)械臂就能自己總結(jié)出一套經(jīng)驗(yàn),并將它歸結(jié)成熱力圖表征。
在這里,研究團(tuán)隊(duì)提出了一種新的表示方法:Non-Uniform Normalized Object Coordinate Space (NUNOCS)。
統(tǒng)一的NUNOCS表征能夠讓同一類物體的信息整合到一起。
給定一個(gè)物體模型,這種方法能讓所有的點(diǎn)沿著每個(gè)維度都?xì)w一化。
歸一化讓不同維度之間的特征在數(shù)值具有一定比較性,從而可以對(duì)不同物體分類。
最終NUNOCS能夠?qū)⒉煌矬w按照類別劃分,并能夠給出一個(gè)代表模板。
在這個(gè)過程中,它是把距離所有其他模型的倒角距離最小的物體,設(shè)定為模板。
(倒角距離:是一種對(duì)于圖像的距離變換,對(duì)于一個(gè)有特征點(diǎn)和非特征點(diǎn)的二值圖像,此距離變換就是求解每一個(gè)點(diǎn)到最近特征點(diǎn)的距離)
這些模板將成為之后整合熱力圖表征、存儲(chǔ)抓取姿態(tài)分部的密碼本。
給出點(diǎn)云輸入后,NUNOCS Net就能預(yù)測(cè)點(diǎn)云在NUNOCS空間中的位置,這一網(wǎng)絡(luò)基于pointnet設(shè)計(jì)。
(點(diǎn)云:逆向工程中通過測(cè)量?jī)x器得到的產(chǎn)品外觀表面的點(diǎn)數(shù)據(jù)合集)
根據(jù)確定點(diǎn)云和預(yù)測(cè)到的點(diǎn)云,二者最終可以求解得到類別級(jí)的6D轉(zhuǎn)換和3D的維度變換,從而得到更為準(zhǔn)確的密集點(diǎn)云對(duì)匹配。
比如下圖中,相同顏色表示相互匹配,NUNOCS方法優(yōu)于此前的NOCS方法。
在掌握了抓取秘籍后,還要保證每次抓取都能穩(wěn)定釋放“功力”。
因此,研究人員對(duì)每個(gè)抓取姿態(tài)進(jìn)行50次隨機(jī)的微小擾動(dòng),并記下了成功的次數(shù),得到連續(xù)的概率分布。
然后根據(jù)上一步整理好的不同模型模板,將抓取姿態(tài)也進(jìn)行分類整合。
測(cè)試時(shí),一旦遇到了沒接觸過的情況,就可以將之前歸結(jié)好的抓取姿態(tài)分布遷移到新穎的物體空間里,從而得到更為全面的抓取姿態(tài)采樣。
抓取姿態(tài)和模擬器中得到的概率分布,可以分別作為輸入和標(biāo)簽,用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
最后,通過自監(jiān)督訓(xùn)練學(xué)習(xí),在進(jìn)行過足夠多的抓取姿態(tài)模擬后,機(jī)械爪和物體的接觸經(jīng)驗(yàn)累計(jì)就能得到如下這樣的熱力圖。
而且過程中所有模塊都能從合成數(shù)據(jù)集上訓(xùn)練,之后能直接遷移到真實(shí)世界的場(chǎng)景中。
從實(shí)驗(yàn)結(jié)果來看,模擬情況下這一方法的平均成功率有93.1%,抓取次數(shù)大概為600次。
實(shí)際情況下的成功率為87.8%。
團(tuán)隊(duì)介紹
本項(xiàng)研究的一作為羅格斯大學(xué)計(jì)算機(jī)專業(yè)博士生Bowen Wen,目前正在GoogleX實(shí)習(xí)。
他師從Kostas Bekris教授,研究方向包括機(jī)器人感知,計(jì)算機(jī)視覺。
此前他還在Facebook Reality、Amazon Lab 126和商湯實(shí)習(xí)過。
本科畢業(yè)于西安交通大學(xué),碩士畢業(yè)于俄亥俄州立大學(xué)。
目前該項(xiàng)目的所有模擬器環(huán)境、數(shù)據(jù)集生成、訓(xùn)練和實(shí)驗(yàn)均已開源。
GitHub地址:
??https://github.com/wenbowen123/catgrasp
論文地址:
??https://arxiv.org/abs/2109.09163