DeepMind為何缺席GPT盛宴?原來在教小機器人踢足球
在很多學者看來,具身智能是通往 AGI 的一個非常有前途的方向,而 ChatGPT 的成功也離不開以強化學習為基礎的 RLHF 技術。DeepMind vs. OpenAI,究竟誰能率先實現(xiàn) AGI,答案似乎還未揭曉。
我們知道,創(chuàng)建通用的具身智能(即以敏捷、靈巧的方式在物理世界采取行動并像動物或人類一樣進行理解的智能體)是 AI 研究者和機器人專家的長期目標之一。從時間上來看,創(chuàng)建具有復雜運動能力的智能具身智能體可以追溯到很多年前,無論是在模擬還是真實世界中。
近年來進展速度大大加快,其中基于學習的方法發(fā)揮了重大作用。例如深度強化學習已被證明能夠解決模擬角色的復雜運動控制問題,包括復雜、感知驅動的全身控制或多智能體行為。同時,深度強化學習越來越多地應用于物理機器人。尤其是廣泛使用的高質量四足機器人,它們已經成為了通過學習生成一系列穩(wěn)健運動行為的演示目標。
不過,靜態(tài)環(huán)境中的運動只是動物與人類部署其身體與世界交互的眾多方式的一部分,這種運動形態(tài)已在很多研究全身控制和運動操縱的工作中得到驗證,尤其是四足機器人。相關運動示例包括攀爬、運球或接球等足球技巧,以及使用腿進行簡單操作。
其中對于足球運動來說,它展示了人類感覺運動智能的很多特征。足球的復雜性要求各種高敏捷和動態(tài)動作,包括跑動、轉身、回避、踢球、傳球、跌倒爬起等。這些動作需要以多種方式進行組合。球員則需要對球、隊友和對方球員做出預測,并根據(jù)比賽環(huán)境調整動作。這種挑戰(zhàn)的多樣性已在機器人和 AI 社區(qū)中得到認可,并誕生了機器人世界杯 RoboCup。
不過應看到,踢好足球所需要的敏捷、靈活和迅速反應以及這些要素之間的平滑過渡對于手動設計機器人來說挑戰(zhàn)很大且耗費時間。近日,DeepMind(現(xiàn)已與谷歌大腦團隊合并為 Google DeepMind)的新論文探討了利用深度強化學習為雙足機器人學習敏捷的足球技巧。
論文地址:https://arxiv.org/pdf/2304.13653.pdf
項目主頁:https://sites.google.com/view/op3-soccer
在這篇論文中,研究者研究了動態(tài)多智能體環(huán)境中小型類人機器人的全身控制和對象交互。他們考慮了整個足球問題的一個子集,訓練了一個具有 20 個可控關節(jié)的低成本微型類人機器人來玩 1 v1 足球比賽,并觀察本體感覺和比賽狀態(tài)特征。通過內置的控制器,機器人緩慢笨拙地移動。不過,研究者使用深度強化學習將智能體以自然流暢方式組合起來的動態(tài)敏捷的上下文自適應運動技巧(如走、跑、轉身以及踢球和跌倒爬起)合成為了復雜的長期行為。
在實驗中,智能體學會了預測球的運動、定位、阻攻以及利用反彈球等。智能體在多智能體環(huán)境中出現(xiàn)這些行為得益于技能復用、端到端訓練和簡單獎勵的組合。研究者在模擬中訓練智能體并將它們遷移到物理機器人中,證明了即使對于低成本機器人而言,模擬到真實的遷移也是可能的。
用數(shù)據(jù)說話,機器人的行走速度提升了 156%,起身的時間減少了 63%,踢球的速度也比基線提升了 24%。
在進入技術解讀之前,我們先看一些機器人在 1v1 足球比賽中的精彩瞬間。比如射門:
罰點球:
轉向、盤帶和踢球,一氣呵成
阻攻:
實驗設置
想要讓機器人學會踢足球,首先需要一些基本設置。
環(huán)境方面,DeepMind 首先在自定義的足球環(huán)境中模擬訓練智能體,然后將策略遷移到相應的真實環(huán)境中,如圖 1 所示。環(huán)境包括一個長 5 米、寬 4 米的足球場,以及兩個球門,每個球門的開口寬度均為 0.8 米。在模擬和真實環(huán)境中,球場都以坡道為界,從而確保球在界內。真正的球場上鋪有橡膠地磚,以減少摔倒損壞機器人的風險并增加地面摩擦力。
環(huán)境設置好后,接著就是硬件和動作捕捉的設置。DeepMind 采用 Robotis OP3 機器人,它身高 51 厘米,重 3.5 kg,由 20 個伺服電機驅動。該機器人沒有 GPU 或其他專用加速器,因此所有神經網絡計算都在 CPU 上運行。機器人的頭部是羅技 C920 網絡攝像頭,它可以選擇以每秒 30 幀的速度提供 RGB 視頻流。
方法
DeepMind 的目標是訓練可以行走、踢球、起身、防守、懂得如何得分的智能體,然后再將這些功能遷移到真正的機器人身上。DeepMind 將訓練分成兩個階段來進行,如圖 3 所示。
- 在第一階段,DeepMind 針對兩種特定技能訓練教師策略,這兩種技能包括智能體從地面上站起來和進球得分。
- 在第二階段,第一階段的教師策略被用來規(guī)范智能體,同時智能體學會有效地對抗越來越強大的對手。
訓練
首先是教師訓練。教師需要接受盡可能多的進球訓練。當智能體摔倒、出界、進入禁區(qū) (圖 1 中用紅色標記) 或對手得分時,這一回合(Episodes)終止。在每一回合的開始,對智能體、另一方和球在球場上的隨機位置和方向進行初始化。雙方都初始化為默認站姿。對手使用未經訓練的策略進行初始化,因此,智能體在這個階段學會避開對手,但不會發(fā)生進一步復雜的互動。此外,每個訓練階段的獎勵及其權重如表 2 所示。
接著智能體與越來越強大的對手競爭,同時將其行為規(guī)范到教師策略。這樣一來智能體能夠掌握一系列足球技能:行走、踢球、起身、得分和防守。當智能體出界或在球門禁區(qū)內時,它會在每個時間步受到固定的懲罰。
智能體訓練好后,接下來就是將訓練好的踢球策略零樣本遷移到真實機器人。為了提高零樣本遷移成功率,DeepMind 通過簡單的系統(tǒng)識別減少了模擬智能體與真實機器人的差距,通過訓練期間的領域隨機化和擾動提高了策略的魯棒性,以及包括塑造獎勵策略以獲得不太可能損害機器人的行為。
實驗
1v1 比賽:足球智能體可以處理多種緊急行為,包括靈活的運動技能,例如從地面起身、快速從跌倒中恢復、奔跑和轉身。游戲過程中,智能體以流暢的方式在所有這些技能之間轉換。
下表 3 為定量分析結果。從結果可以看出強化學習策略比專門的人工設計的技能表現(xiàn)更好,智能體的行走速度快了 156%,起身時間少了 63%。
下圖為智能體的行走軌跡,相比之下,由學習策略產生的智能體軌跡結構更加豐富:
為了評估學習策略的可靠性,DeepMind 設計了點球和起跳射門定位球,并在模擬環(huán)境和真實環(huán)境中實現(xiàn)。初始配置如圖 7 所示。
在真實環(huán)境中,機器人在罰點球任務中 10 次中了 7 次 (70%),在起射任務中 10 次中了 8 次 (80%)。而在模擬實驗中,智能體在這兩項任務中的得分更加一致,這表明智能體的訓練策略遷移到真實環(huán)境(包括真實機器人、球、地板表面等),性能略有下降,行為差異有所增加,但機器人仍然能夠可靠地起身、踢球和得分。結果如圖 7 和表 3 所示。