AlphaGo作者領(lǐng)銜,8個機械臂協(xié)同干活0碰撞,DeepMind新作登Science子刊
一群機械臂手忙腳亂地自己干活,彼此配合、互不碰撞。
科幻大片場景真的走入現(xiàn)實了。優(yōu)雅,實在是優(yōu)雅。

△視頻中為4個機械臂,在仿真環(huán)境下4個安裝在桌子上,另外4個安裝在天花板上。
這就是發(fā)表在Science子刊Science Robotics上,由DeepMind、Intrinsic AI和UCL等研究機構(gòu)共同提出的最新成果——RoboBallet(機器芭蕾)。

RoboBallet創(chuàng)新性地將圖神經(jīng)網(wǎng)絡(luò)(GNN)用于強化學(xué)習(xí),作為其策略網(wǎng)絡(luò)和狀態(tài)-動作價值估計,以解決多機器人(機械臂)協(xié)作運動規(guī)劃中的復(fù)雜問題。
這一方法最多可以同時控制8個機械臂,協(xié)調(diào)多達56個自由度的配置空間,并處理多達40個共享任務(wù), 每一步規(guī)劃僅需0.3毫秒,且任務(wù)分配和調(diào)度完全不受約束。
值得一提的是,這篇論文的通訊作者——Matthew Lai,可謂是谷歌DeepMind的資深研究員。自2016年加入谷歌DeepMind以來,他曾參與過AlphaGo、AlphaZero等明星項目。

利用圖神經(jīng)網(wǎng)絡(luò)與強化學(xué)習(xí)
總的來說,RoboBallet的核心是把圖神經(jīng)網(wǎng)絡(luò)與強化學(xué)習(xí)結(jié)合起來,采用圖神經(jīng)網(wǎng)絡(luò)(GNN)作為策略網(wǎng)絡(luò)和狀態(tài)-動作價值估計,解決了大規(guī)模多機器人任務(wù)分配、調(diào)度和運動規(guī)劃的聯(lián)合問題,實現(xiàn)了在計算上高效、可擴展且能零樣本泛化的高質(zhì)量軌跡規(guī)劃。
具體來說,在現(xiàn)代自動化制造中,核心挑戰(zhàn)在于如何讓多個機器人在共享的、充滿障礙物的空間中無碰撞地高效協(xié)作,以完成大量任務(wù)(如焊接、裝配等)。
這涉及到三個高度復(fù)雜的子問題:
- 任務(wù)分配(Task Allocation):決定哪個機器人執(zhí)行哪個任務(wù),以最小化總執(zhí)行時間。
 - 任務(wù)調(diào)度(Task Scheduling):決定任務(wù)的執(zhí)行順序。
 - 運動規(guī)劃(Motion Planning):在關(guān)節(jié)空間中尋找一條無碰撞路徑,使機器人末端執(zhí)行器移動到目標姿態(tài)。
 
這三個子問題一組合,復(fù)雜度急劇增加,傳統(tǒng)算法在真實場景中往往難以計算可行解,工業(yè)界目前主要依賴耗時且勞動密集的人工規(guī)劃。
因此,為了應(yīng)對這種高維復(fù)雜性,RoboBallet就被用來在隨機生成的環(huán)境中進行任務(wù)和運動規(guī)劃,其能夠為與訓(xùn)練期間所見環(huán)境不同的環(huán)境(具有任意障礙物幾何形狀、任務(wù)姿態(tài)和機器人位置)規(guī)劃多臂抓取軌跡。
為了實現(xiàn)這一點,RoboBallet在數(shù)據(jù)表示層面,創(chuàng)新性地將整個場景建模為圖結(jié)構(gòu)。

其中,圖中的節(jié)點代表場景中的核心實體,包括機器人、任務(wù)和障礙物,而邊(Edge)則表示這些實體之間的關(guān)系(例如,相對姿態(tài))。
機器人節(jié)點之間存在雙向邊,以支持相互協(xié)調(diào)和避碰。而任務(wù)節(jié)點和障礙物節(jié)點到機器人節(jié)點則存在單向邊,用于向機器人傳遞規(guī)劃所需的環(huán)境信息(如圖c)
接下來,RoboBallet使用圖神經(jīng)網(wǎng)絡(luò)(GNN)作為策略網(wǎng)絡(luò),通過權(quán)重共享來處理不斷變化的圖大小。其以觀測圖作為輸入,并在每個時間步為所有機器人生成指令關(guān)節(jié)速度。這使得機械臂能夠在只接收原始狀態(tài)作為輸入的情況下,進行關(guān)系和組合推理。
而在具體的策略學(xué)習(xí)和評估階段,RoboBallet通過微調(diào)TD3(Twin-Delayed Deep Deterministic Policy Gradient)算法來訓(xùn)練策略網(wǎng)絡(luò),使模型能夠生成多機械臂軌跡,同時解決任務(wù)分配、調(diào)度和運動規(guī)劃等子問題,使得昂貴的在線計算轉(zhuǎn)移到了離線訓(xùn)練階段。
(注:在此任務(wù)中,機械臂因成功解決任務(wù)和避免碰撞而獲得獎勵)
同時,為了解決稀疏獎勵的問題,RoboBallet還采用了Hindsight Experience Replay方法,使模型能夠在沒有人工設(shè)計的獎勵函數(shù)的情況下高效學(xué)習(xí)。
在具體的部署方面,RoboBallet使用Franka Panda的七自由度機械臂、在隨機障礙物和任務(wù)的模擬環(huán)境進行訓(xùn)練。

為了驗證性能,研究團隊在一個包含4(8)個機器人、40個任務(wù)和30個障礙物的模擬工作單元中進行測試,并與RRT-Connect方法進行比較。值得一提的是,這一切都只需在一塊 GPU(圖形處理單元)上完成,無論是真實的還是模擬的多臂工作單元。
實驗表明,RoboBallet在多個關(guān)鍵指標上表現(xiàn)出色:
在訓(xùn)練時間的擴展性方面,即使任務(wù)數(shù)量增加四倍,RoboBallet收斂所需的訓(xùn)練步數(shù)也只是略有增加。

在規(guī)劃速度方面。實驗表明,在推理階段,即便是包含8個機器人和40個任務(wù)的最大場景,每個規(guī)劃步在NVIDIA A100上只需約0.3毫秒,能夠?qū)崿F(xiàn)10 Hz時間步下超過300倍的實時規(guī)劃速度。
在單個Intel Cascade Lake CPU核心上,每個步長大約需要30毫秒,在10Hz時間步下仍比實時快約3倍。每個規(guī)劃步驟包括對整個場景進行一次推理和一次碰撞檢測。
在多智能體協(xié)同方面,隨著機器人數(shù)量從4個增加到8個 ,平均執(zhí)行時間減少了約60%。

而在泛化性方面,模型在隨機生成的環(huán)境中訓(xùn)練后,無需額外訓(xùn)練即可零樣本遷移(zero-shot)到具有不同機器人位置、障礙物幾何形狀和任務(wù)姿態(tài)的新環(huán)境中。
最后,RoboBallet 的高速和可擴展性使其能夠應(yīng)用于工作單元布局優(yōu)化(將任務(wù)執(zhí)行時間縮短了33%)、容錯規(guī)劃和基于在線感知的重新規(guī)劃等新能力。
















 
 
 

















 
 
 
 