GPT-4教會機器手轉筆、玩魔方!RL社區(qū)震驚:LLM設計獎勵竟能超越人類?
GPT-4,竟然教會機器人轉筆了!
圖片
英偉達、賓大、加州理工、德州奧斯汀等機構的專家提出一個開放式Agent——Eureka,它是一個開放式Agent,為超人類水平的機器人靈巧性設計了獎勵功能。
圖片
論文鏈接:https://arxiv.org/pdf/2310.12931.pdf
項目鏈接:https://eureka-research.github.io/
代碼鏈接:https://github.com/eureka-research/Eureka
作者之一的英偉達高級科學家Jim Fan對此點評道:這簡直就像物理模擬器API空間中的旅行者空間探測器!
圖片
以往,LLM和機器人結合的應用案例,往往是讓大模型幫助機器人規(guī)劃高級任務。比如,讓LLM告訴機器人,把大象裝進冰箱需要3步,打開冰箱,把大象放進去,再關上冰箱門。
然而控制機器人完成打開冰箱,放置大象,和關上冰箱門這3個具體的低級動作,機器人需要依靠其他的方式來控制完成。
圖片
但是英偉達等機構的研究人員開發(fā)出的Eureka系統(tǒng),可以讓GPT-4直接教機器人完成基本的動作。
具體來說,它是一個GPT-4加持的獎勵設計算法,充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學習的能力,產生的獎勵可以用于通過強化學習來讓機器人獲得復雜的具體技能。
圖片
在沒有任何特定于任務的提示或預定義的獎勵模板的情況下,Eureka生成的獎勵函數的質量,已經能夠超過人類專家設計的獎勵!
從此,LLM+機器人又有了新玩法。
同往常一樣,代碼是開源的。
圖片
全體RL社區(qū),起立!
AI學者驚呼:全體RL社區(qū)都應該對Eureka論文感到敬畏和震驚。
圖片
如果按他們的方法一遍一遍重復,RL會在不同的任務中取得超越人類的成功,并且完全不需要人工干預!
幾年前,RL似乎讓業(yè)界有野心實現(xiàn)AGI,但后來發(fā)生的事情,讓RL被降級為蛋糕上的櫻桃,而LLM一直是那塊缺失的拼圖。
如今,基于自我改進的正反饋循環(huán)很可能即將到來,進而讓我們擁有超越人類的訓練數據和能力。
Jim Fan還表示,Eureka可以應用機器人之外的許多場景,比如動畫和游戲。
圖片
動畫即是控制虛擬世界中的角色,這是勞動密集型的工作:工作室讓藝術家用手畫每一幀,或者讓演員做MoCap。即便如此,動作也是靜態(tài)數據,無法對動態(tài)變化的環(huán)境做出反應。
而Eureka是通用的,提供了一種快速擴展物理逼真和響應式動畫的方法。它可以成為藝術家的copilot,通過自然語言界面創(chuàng)造新的靈巧技能。而且,游戲甚至可以通過使用臨時獎勵功能微調控制器,來動態(tài)生成行為。
圖片
《艾爾登法環(huán)》的Boss戰(zhàn)中,女神瑪蓮妮亞標志性的「水鳥亂舞」動作不知道需要多少天的手工工作
在編碼和電機控制之間,架起橋梁
Eureka在高級推理(編碼)和低級電機控制之間,架起了一座橋梁,彌合了差距。
它是一種「混合梯度架構」:一個黑盒、純推理的LLM指導一個白盒、可學習的神經網絡。
外循環(huán)運行 GPT-4 以優(yōu)化獎勵函數(無梯度),而內循環(huán)運行強化學習以訓練機器人控制器(基于梯度)。
圖片
研究者之所以能擴大Eureka的規(guī)模,這要歸功于IsaacGym,這是一款GPU加速的物理模擬器,可將現(xiàn)實速度提高1000倍。
在10個機器人執(zhí)行的29項基準任務中,Eureka在83%的任務中獲得的獎勵超過了人類編寫的專家獎勵,平均提高幅度達52%。
Eureka獎勵和策略
研究人員展示了Eureka設計的獎勵以及使用這些獎勵為每個環(huán)境訓練的策略:
在兩個開源基準測試:Isaac Gym (Isaac) 和Bidexterous Manipulation (Dexterity)中,Eureka針對10個機器人和29個獨立任務設計了獎勵。
圖片
最讓人驚訝的是,Eureka竟然學會了轉筆!要知道,即使是CGI藝術家,也很難把它逐幀制作成動畫。
圖片
網格中心的視頻展示的是筆的旋轉軸垂直于手掌,將筆平行與手掌進行旋轉(經典的轉筆動作)。此外,研究人員還訓練了圍繞不同軸轉筆的其他幾種變體。
并且,Eureka還實現(xiàn)了一種新形式的上下文RLHF,它能將人類操作員的自然語言反饋納入其中,以引導和調整獎勵功能。
而且,機器人工程師設計復雜的運動行為時,這種RLHF還可以提供強大的co-pilot功能。
在機器人學習中,大語言模型一直擅長的是生成高級計劃和中級動作,比如拾取和放置(VIMA、RT-1 等),但在復雜的高頻運動控制上,LLM就有所欠缺了。
而Eureka時刻通過編碼實現(xiàn)了獎勵功能,這是LLM學習靈巧技能的關鍵入口。
Eureka的構成組件
Eureka通過在上下文中發(fā)展獎勵功能,實現(xiàn)了人類水平的獎勵設計。
它有3個關鍵組成部分。
圖片
- 模擬器環(huán)境代碼作為上下文,快速啟動初始「種子」獎勵函數。
- GPU上的大規(guī)模并行RL,可以快速評估大量候選獎勵。
- 獎勵反射可在上下文中產生有針對性的獎勵突變。
將原始環(huán)境用作LLM上下文
首先,通過使用原始的IsaacGym環(huán)境代碼作為上下文,Eureka已經可以生成可用的獎勵程序,而無需任何特定任務的提示工程。
這就使得Eureka成為一個開放式的通用獎勵設計師,在第一次嘗試時就可以輕松地為所有的環(huán)境生成獎勵函數。
圖片
其次,Eureka 會在每個進化步驟中生成許多候選獎勵,然后使用完整的RL訓練循環(huán)對其進行評估。
通常,這個過程非常緩慢,可能需要幾天甚至幾周。
而有了英偉達的GPU原生機器人訓練平臺IsaacGym (https://developer.nvidia.com/isaac-gym),這一規(guī)模可以迅速擴大,將模擬時間提高了1000倍。
現(xiàn)在,RL內循環(huán)可以在幾分鐘內完成!
Eureka獎勵反思(Reward Reflection)
Eureka依賴于獎勵反思,這是對RL訓練的自動文本總結。
因為GPT-4在上下文代碼修復上的卓越能力,使得Eureka能夠執(zhí)行有針對性的獎勵突變。
圖片
實驗
研究人員在一系列不同的機器人實施例和任務上對 Eureka 進行了全面評估,測試其生成獎勵函數、解決新任務以及整合各種形式的人類輸入的能力。
研究人員的環(huán)境由10 個不同的機器人和使用IsaacGym模擬器執(zhí)行的29個任務組成。
首先,研究人員包括來自 IsaacGym (Isaac) 的 9 個原始環(huán)境,涵蓋從四足、雙足、四旋翼、協(xié)作機器人手臂到靈巧手的各種機器人形態(tài)。
除了囊括了機器人外形尺寸之外,研究人員還通過納入Dexterity基準測試中的所有 20 項任務來確保評估的深度。
Dexterity包含20項復雜的雙手動任務,需要一雙影子手來解決各種復雜的具體操作技能,從物體交接到將杯子旋轉180度。
評估結果
圖片
Eureka可以生成超人類水平的獎勵函數
在29項任務中,Eureka生成的獎勵在83%的任務上表現(xiàn)優(yōu)于人類專家編寫的獎勵,平均標準化提升為52%。
特別是,Eureka在高維Dexterity環(huán)境中實現(xiàn)了更大的收益。
圖片
Eureka進化獎勵搜索可以隨著時間的推移實現(xiàn)持續(xù)的獎勵改進
Eureka通過將大規(guī)模獎勵搜索與詳細獎勵反思反饋相結合,逐步產生更好的獎勵,最終超過人類水平。
Eureka生成的原創(chuàng)性獎勵
圖片
研究人員通過計算所有Isaac任務上的Eureka和人類獎勵之間的相關性來評估Eureka獎勵的新穎性。
如上圖所示,Eureka主要生成弱相關的獎勵函數,其表現(xiàn)優(yōu)于人類的獎勵函數。
此外,研究人員觀察到任務越難,Eureka獎勵的相關性就越小。在某些情況下,Eureka獎勵甚至與人類獎勵呈負相關,但表現(xiàn)卻明顯優(yōu)于人類獎勵。
通過課程學習來教會靈巧轉筆
圖片
轉筆任務需要影子手不斷旋轉筆,以實現(xiàn)一些預定義的旋轉模式,完成盡可能多的循環(huán)。
圖片
研究人員通過以下方式解決此任務:
(1)指示 Eureka 生成獎勵函數,用于將筆重新定向到隨機目標配置,然后
(2)使用 Eureka 獎勵微調此預訓練策略以達到所需的筆序列-旋轉配置。
如圖所示,Eureka微調很快就適應了策略,成功地連續(xù)旋轉了許多個周期。相比之下,預訓練或從頭開始學習的策略連單個周期都無法完成。
圖片
5次查詢,教會人形機器人穩(wěn)定地跑步!
Eureka能否根據人類反饋進行調整呢?
目前為止,Eureka可以通過環(huán)境反饋全自動運行。
為了捕捉人類的細微偏好,Eureka還可以使用自然語言反饋來共同引導獎勵設計。
這就產生了一種新穎的無梯度情境下的RLHF。
圖片
帶有人類反饋的Eureka只用了5次查詢,就教會了人形機器人如何穩(wěn)定地跑步!
圖片
而在沒有RLHF前,人形機器人是這樣跑步的。
圖片
參考資料: