偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4教會機器手轉筆、玩魔方!RL社區(qū)震驚:LLM設計獎勵竟能超越人類?

人工智能
來自英偉達等機構的研究者,竟然讓GPT-4教會機器人轉筆、玩魔方?通過編碼大語言模型,可以完成超越人類水平的獎勵設計,整個RL社區(qū)都震驚了。

GPT-4,竟然教會機器人轉筆了!

圖片圖片

英偉達、賓大、加州理工、德州奧斯汀等機構的專家提出一個開放式Agent——Eureka,它是一個開放式Agent,為超人類水平的機器人靈巧性設計了獎勵功能。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

項目鏈接:https://eureka-research.github.io/

代碼鏈接:https://github.com/eureka-research/Eureka

作者之一的英偉達高級科學家Jim Fan對此點評道:這簡直就像物理模擬器API空間中的旅行者空間探測器!

圖片圖片

以往,LLM和機器人結合的應用案例,往往是讓大模型幫助機器人規(guī)劃高級任務。比如,讓LLM告訴機器人,把大象裝進冰箱需要3步,打開冰箱,把大象放進去,再關上冰箱門。

然而控制機器人完成打開冰箱,放置大象,和關上冰箱門這3個具體的低級動作,機器人需要依靠其他的方式來控制完成。

圖片圖片

但是英偉達等機構的研究人員開發(fā)出的Eureka系統(tǒng),可以讓GPT-4直接教機器人完成基本的動作。

具體來說,它是一個GPT-4加持的獎勵設計算法,充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學習的能力,產生的獎勵可以用于通過強化學習來讓機器人獲得復雜的具體技能。

圖片圖片

在沒有任何特定于任務的提示或預定義的獎勵模板的情況下,Eureka生成的獎勵函數的質量,已經能夠超過人類專家設計的獎勵!

從此,LLM+機器人又有了新玩法。

同往常一樣,代碼是開源的。

圖片圖片

全體RL社區(qū),起立!

AI學者驚呼:全體RL社區(qū)都應該對Eureka論文感到敬畏和震驚。

圖片圖片

如果按他們的方法一遍一遍重復,RL會在不同的任務中取得超越人類的成功,并且完全不需要人工干預!

幾年前,RL似乎讓業(yè)界有野心實現(xiàn)AGI,但后來發(fā)生的事情,讓RL被降級為蛋糕上的櫻桃,而LLM一直是那塊缺失的拼圖。

如今,基于自我改進的正反饋循環(huán)很可能即將到來,進而讓我們擁有超越人類的訓練數據和能力。

Jim Fan還表示,Eureka可以應用機器人之外的許多場景,比如動畫和游戲。

圖片圖片

動畫即是控制虛擬世界中的角色,這是勞動密集型的工作:工作室讓藝術家用手畫每一幀,或者讓演員做MoCap。即便如此,動作也是靜態(tài)數據,無法對動態(tài)變化的環(huán)境做出反應。


而Eureka是通用的,提供了一種快速擴展物理逼真和響應式動畫的方法。它可以成為藝術家的copilot,通過自然語言界面創(chuàng)造新的靈巧技能。而且,游戲甚至可以通過使用臨時獎勵功能微調控制器,來動態(tài)生成行為。

圖片圖片

《艾爾登法環(huán)》的Boss戰(zhàn)中,女神瑪蓮妮亞標志性的「水鳥亂舞」動作不知道需要多少天的手工工作

在編碼和電機控制之間,架起橋梁

Eureka在高級推理(編碼)和低級電機控制之間,架起了一座橋梁,彌合了差距。

它是一種「混合梯度架構」:一個黑盒、純推理的LLM指導一個白盒、可學習的神經網絡。

外循環(huán)運行 GPT-4 以優(yōu)化獎勵函數(無梯度),而內循環(huán)運行強化學習以訓練機器人控制器(基于梯度)。

圖片圖片

研究者之所以能擴大Eureka的規(guī)模,這要歸功于IsaacGym,這是一款GPU加速的物理模擬器,可將現(xiàn)實速度提高1000倍。

在10個機器人執(zhí)行的29項基準任務中,Eureka在83%的任務中獲得的獎勵超過了人類編寫的專家獎勵,平均提高幅度達52%。

Eureka獎勵和策略

研究人員展示了Eureka設計的獎勵以及使用這些獎勵為每個環(huán)境訓練的策略:

在兩個開源基準測試:Isaac Gym (Isaac) 和Bidexterous Manipulation (Dexterity)中,Eureka針對10個機器人和29個獨立任務設計了獎勵。

圖片圖片

最讓人驚訝的是,Eureka竟然學會了轉筆!要知道,即使是CGI藝術家,也很難把它逐幀制作成動畫。

圖片圖片

網格中心的視頻展示的是筆的旋轉軸垂直于手掌,將筆平行與手掌進行旋轉(經典的轉筆動作)。此外,研究人員還訓練了圍繞不同軸轉筆的其他幾種變體。

并且,Eureka還實現(xiàn)了一種新形式的上下文RLHF,它能將人類操作員的自然語言反饋納入其中,以引導和調整獎勵功能。

而且,機器人工程師設計復雜的運動行為時,這種RLHF還可以提供強大的co-pilot功能。

在機器人學習中,大語言模型一直擅長的是生成高級計劃和中級動作,比如拾取和放置(VIMA、RT-1 等),但在復雜的高頻運動控制上,LLM就有所欠缺了。

而Eureka時刻通過編碼實現(xiàn)了獎勵功能,這是LLM學習靈巧技能的關鍵入口。

Eureka的構成組件

Eureka通過在上下文中發(fā)展獎勵功能,實現(xiàn)了人類水平的獎勵設計。

它有3個關鍵組成部分。

圖片圖片

  1. 模擬器環(huán)境代碼作為上下文,快速啟動初始「種子」獎勵函數。
  2. GPU上的大規(guī)模并行RL,可以快速評估大量候選獎勵。
  3. 獎勵反射可在上下文中產生有針對性的獎勵突變。

將原始環(huán)境用作LLM上下文

首先,通過使用原始的IsaacGym環(huán)境代碼作為上下文,Eureka已經可以生成可用的獎勵程序,而無需任何特定任務的提示工程。

這就使得Eureka成為一個開放式的通用獎勵設計師,在第一次嘗試時就可以輕松地為所有的環(huán)境生成獎勵函數。

圖片圖片

其次,Eureka 會在每個進化步驟中生成許多候選獎勵,然后使用完整的RL訓練循環(huán)對其進行評估。

通常,這個過程非常緩慢,可能需要幾天甚至幾周。

而有了英偉達的GPU原生機器人訓練平臺IsaacGym (https://developer.nvidia.com/isaac-gym),這一規(guī)模可以迅速擴大,將模擬時間提高了1000倍。

現(xiàn)在,RL內循環(huán)可以在幾分鐘內完成!

Eureka獎勵反思(Reward Reflection)

Eureka依賴于獎勵反思,這是對RL訓練的自動文本總結。

因為GPT-4在上下文代碼修復上的卓越能力,使得Eureka能夠執(zhí)行有針對性的獎勵突變。

圖片圖片

實驗

研究人員在一系列不同的機器人實施例和任務上對 Eureka 進行了全面評估,測試其生成獎勵函數、解決新任務以及整合各種形式的人類輸入的能力。

研究人員的環(huán)境由10 個不同的機器人和使用IsaacGym模擬器執(zhí)行的29個任務組成。

首先,研究人員包括來自 IsaacGym (Isaac) 的 9 個原始環(huán)境,涵蓋從四足、雙足、四旋翼、協(xié)作機器人手臂到靈巧手的各種機器人形態(tài)。

除了囊括了機器人外形尺寸之外,研究人員還通過納入Dexterity基準測試中的所有 20 項任務來確保評估的深度。

Dexterity包含20項復雜的雙手動任務,需要一雙影子手來解決各種復雜的具體操作技能,從物體交接到將杯子旋轉180度。

評估結果

圖片圖片

Eureka可以生成超人類水平的獎勵函數

在29項任務中,Eureka生成的獎勵在83%的任務上表現(xiàn)優(yōu)于人類專家編寫的獎勵,平均標準化提升為52%。

特別是,Eureka在高維Dexterity環(huán)境中實現(xiàn)了更大的收益。

圖片圖片

Eureka進化獎勵搜索可以隨著時間的推移實現(xiàn)持續(xù)的獎勵改進

Eureka通過將大規(guī)模獎勵搜索與詳細獎勵反思反饋相結合,逐步產生更好的獎勵,最終超過人類水平。

Eureka生成的原創(chuàng)性獎勵

圖片圖片

研究人員通過計算所有Isaac任務上的Eureka和人類獎勵之間的相關性來評估Eureka獎勵的新穎性。

如上圖所示,Eureka主要生成弱相關的獎勵函數,其表現(xiàn)優(yōu)于人類的獎勵函數。

此外,研究人員觀察到任務越難,Eureka獎勵的相關性就越小。在某些情況下,Eureka獎勵甚至與人類獎勵呈負相關,但表現(xiàn)卻明顯優(yōu)于人類獎勵。

通過課程學習來教會靈巧轉筆

圖片圖片

轉筆任務需要影子手不斷旋轉筆,以實現(xiàn)一些預定義的旋轉模式,完成盡可能多的循環(huán)。

圖片圖片

研究人員通過以下方式解決此任務:

(1)指示 Eureka 生成獎勵函數,用于將筆重新定向到隨機目標配置,然后

(2)使用 Eureka 獎勵微調此預訓練策略以達到所需的筆序列-旋轉配置。

如圖所示,Eureka微調很快就適應了策略,成功地連續(xù)旋轉了許多個周期。相比之下,預訓練或從頭開始學習的策略連單個周期都無法完成。

圖片圖片

5次查詢,教會人形機器人穩(wěn)定地跑步!

Eureka能否根據人類反饋進行調整呢?

目前為止,Eureka可以通過環(huán)境反饋全自動運行。

為了捕捉人類的細微偏好,Eureka還可以使用自然語言反饋來共同引導獎勵設計。

這就產生了一種新穎的無梯度情境下的RLHF。

圖片圖片

帶有人類反饋的Eureka只用了5次查詢,就教會了人形機器人如何穩(wěn)定地跑步!

圖片圖片

而在沒有RLHF前,人形機器人是這樣跑步的。

圖片圖片

參考資料:

https://eureka-research.github.io/

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-05-30 07:40:56

2020-04-15 17:14:14

戴爾

2023-10-21 21:14:00

AI模型

2011-12-21 10:54:23

Apple應用設計iOS

2023-03-26 21:03:54

GPT-4人工智能

2012-06-01 14:49:07

豌豆莢設計獎Tawkon

2024-03-27 13:32:00

AI數據

2024-05-20 08:40:00

2013-06-13 14:24:29

蘋果WWDC2013

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-10-22 20:14:08

人工智能GPT-4

2012-06-13 13:24:01

Between豌豆莢設計獎

2023-11-02 12:10:00

AI訓練

2023-11-06 12:46:00

AI數據

2023-10-08 13:11:00

訓練數據

2012-06-20 16:24:11

Cubie Messe豌豆莢設計獎

2023-05-05 09:42:12

點贊
收藏

51CTO技術棧公眾號