用Vision Pro實時訓(xùn)練機器狗!MIT博士生開源項目火了
Vision Pro又現(xiàn)火爆新玩法,這回還和具身智能聯(lián)動了~
就像這樣,MIT小哥利用Vision Pro的手部追蹤功能,成功實現(xiàn)了對機器狗的實時控制。
不僅開門這樣的動作能精準(zhǔn)get:
也幾乎沒什么延時。
Demo一出,不僅網(wǎng)友們大贊鵝妹子嚶,各路具身智能研究人員也嗨了。
比如這位準(zhǔn)清華叉院博士生:
還有人大膽預(yù)測:這就是我們與下一代機器互動的方式。
項目如何實現(xiàn),作者小哥樸英孝(Younghyo Park)已經(jīng)在GitHub上開源。相關(guān)App可以直接在Vision Pro的App Store上下載。
用Vision Pro訓(xùn)練機器狗
具體來看看作者小哥開發(fā)的App——Tracking Steamer。
顧名思義,這個應(yīng)用程序旨在利用Vision Pro追蹤人類動作,并將這些動作數(shù)據(jù)實時傳輸?shù)酵籛iFi下的其他機器人設(shè)備上。
動作追蹤的部分,主要依靠蘋果的ARKit庫來實現(xiàn)。
其中頭部追蹤調(diào)用的是queryDeviceAnchor。用戶可以通過長按數(shù)字表冠來重置頭部框架到當(dāng)前位置。
手腕和手指追蹤則通過HandTrackingProvider實現(xiàn)。它能夠追蹤左右手腕相對于地面框架的位置和方向,以及每只手25個手指關(guān)節(jié)相對于手腕框架的姿態(tài)。
網(wǎng)絡(luò)通信方面,這個App使用gRPC作為網(wǎng)絡(luò)通信協(xié)議來流式傳輸數(shù)據(jù)。這使得數(shù)據(jù)能被更多設(shè)備訂閱,包括Linux、Mac和Windows設(shè)備。
另外,為了方便數(shù)據(jù)傳輸,作者小哥還準(zhǔn)備了一個Python API,讓開發(fā)者能夠通過編程方式訂閱和接收從Vision Pro流式傳輸?shù)淖粉檾?shù)據(jù)。
API返回的數(shù)據(jù)是字典形式,包含頭部、手腕、手指的SE(3)姿態(tài)信息,即三維位置和方向。開發(fā)者可以直接在Python中處理這些數(shù)據(jù),用于對機器人的進(jìn)一步分析和控制。
就像不少專業(yè)人士所指出的那樣,別看機器狗的動作還是由人類控制,事實上,相比于“操控”本身,結(jié)合模仿學(xué)習(xí)算法,人類在這個過程中,更像是機器人的教練。
而Vision Pro通過追蹤用戶的動作,提供了一種直觀、簡單的交互方式,使得非專業(yè)人員也能夠為機器人提供精準(zhǔn)的訓(xùn)練數(shù)據(jù)。
作者本人也在論文中寫道:
在不久的將來,人們可能會像日常戴眼鏡一樣佩戴Vision Pro這樣的設(shè)備,想象一下我們可以從這個過程中收集多少數(shù)據(jù)!
這是一個充滿前景的數(shù)據(jù)源,機器人可以從中學(xué)習(xí)到,人類是如何與現(xiàn)實世界交互的。
最后,提醒一下,如果你想上手試一試這個開源項目,那么除了必備一臺Vision Pro之外,還需要準(zhǔn)備:
- 蘋果開發(fā)者賬戶
- Vision Pro開發(fā)者配件(Developer Strap,售價299美元)
- 安裝了Xcode的Mac電腦
嗯,看樣子還是得先讓蘋果賺一筆了(doge)。
項目鏈接:https://github.com/Improbable-AI/VisionProTeleop?tab=readme-ov-file