偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT4教機(jī)器人盤(pán)轉(zhuǎn)筆,那叫一個(gè)絲滑!

人工智能
研究人員提出了一種名為 EUREKA 的新算法。EUREKA 使用 LLM 來(lái)生成和改進(jìn)獎(jiǎng)勵(lì)函數(shù)。在測(cè)試中,EUREKA 在 29 種不同的強(qiáng)化學(xué)習(xí)環(huán)境中達(dá)到了人類(lèi)級(jí)別的性能,并在 83% 的任務(wù)中超越了人類(lèi)專(zhuān)家設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。

那個(gè)在聊天中給數(shù)學(xué)家陶哲軒帶來(lái)啟發(fā)的GPT-4,最近又開(kāi)始教機(jī)器人轉(zhuǎn)筆了。

圖片

項(xiàng)目叫Agent Eureka,是由英偉達(dá)、賓州大學(xué)、加州理工學(xué)院和得克薩斯大學(xué)奧斯汀分校聯(lián)手研發(fā)的。他們的研究結(jié)合了 GPT-4 結(jié)構(gòu)的能力和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),讓 Eureka 能設(shè)計(jì)出精妙的獎(jiǎng)勵(lì)函數(shù)。

GPT-4 的編程能力賦予 Eureka 強(qiáng)大的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)技巧。這意味著,在大部分任務(wù)中,Eureka 自己設(shè)計(jì)的獎(jiǎng)勵(lì)方案,甚至比人類(lèi)專(zhuān)家更出色。這讓它能完成一些人類(lèi)難以完成的任務(wù),包括轉(zhuǎn)筆、打開(kāi)抽屜,盤(pán)核桃,甚至更復(fù)雜的任務(wù),如拋接球,操作剪刀等等。

圖片圖片

圖片圖片

雖然目前這些都是在模擬環(huán)境中完成的,但這已經(jīng)非常厲害了。

項(xiàng)目已經(jīng)開(kāi)源,項(xiàng)目地址和論文地址放在文末。

簡(jiǎn)單總結(jié)下論文的核心要點(diǎn)。

論文探討了如何使用大型語(yǔ)言模型(LLM)來(lái)設(shè)計(jì)并優(yōu)化機(jī)器學(xué)習(xí)中的獎(jiǎng)勵(lì)函數(shù)。這是一個(gè)重要的課題,因?yàn)樵O(shè)計(jì)好的獎(jiǎng)勵(lì)函數(shù)可以大大提高機(jī)器學(xué)習(xí)模型的性能,但是設(shè)計(jì)這樣的函數(shù)是非常困難的。

研究人員提出了一種名為 EUREKA 的新算法。EUREKA 使用 LLM 來(lái)生成和改進(jìn)獎(jiǎng)勵(lì)函數(shù)。在測(cè)試中,EUREKA 在 29 種不同的強(qiáng)化學(xué)習(xí)環(huán)境中達(dá)到了人類(lèi)級(jí)別的性能,并在 83% 的任務(wù)中超越了人類(lèi)專(zhuān)家設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。

EUREKA 還成功地解決了一些以前無(wú)法通過(guò)人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)解決的復(fù)雜操作任務(wù),例如模擬「Shadow Hand」手部快速轉(zhuǎn)筆的操作。

此外,EUREKA 提供了一種新的方法,可以根據(jù)人類(lèi)的反饋生成更有效、更符合人類(lèi)期望的獎(jiǎng)勵(lì)函數(shù)。

EUREKA 的工作方式包括三個(gè)主要步驟:

1. 將環(huán)境作為上下文:EUREKA 使用環(huán)境的源代碼作為上下文,從而生成可執(zhí)行的獎(jiǎng)勵(lì)函數(shù)。

2. 進(jìn)化搜索:EUREKA 通過(guò)進(jìn)化搜索迭代地提出和改進(jìn)獎(jiǎng)勵(lì)函數(shù)。

3. 獎(jiǎng)勵(lì)反思:EUREKA 根據(jù)策略訓(xùn)練的統(tǒng)計(jì)數(shù)據(jù)生成獎(jiǎng)勵(lì)質(zhì)量的文本總結(jié),從而自動(dòng)和有針對(duì)性地改進(jìn)獎(jiǎng)勵(lì)函數(shù)。

這項(xiàng)研究可能會(huì)對(duì)強(qiáng)化學(xué)習(xí)和獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)領(lǐng)域產(chǎn)生深遠(yuǎn)影響,因?yàn)樗峁┝艘环N新的、有效的方法來(lái)自動(dòng)生成和改進(jìn)獎(jiǎng)勵(lì)函數(shù),而且這種方法的性能在許多情況下超過(guò)了人類(lèi)專(zhuān)家。

項(xiàng)目地址:https://github.com/eureka-research/Eureka

論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

責(zé)任編輯:武曉燕 來(lái)源: 渡碼
相關(guān)推薦

2023-10-21 21:14:00

AI模型

2023-02-26 11:53:20

2023-10-22 20:14:08

人工智能GPT-4

2023-10-23 13:31:37

GPT-4語(yǔ)言模型

2023-03-16 12:14:55

2022-11-04 16:58:10

Linux環(huán)境變量

2021-08-06 09:35:37

Python盯盤(pán)機(jī)器人編程語(yǔ)言

2022-10-21 17:30:26

機(jī)器人

2024-10-14 09:40:00

AI機(jī)器人

2024-05-16 12:03:54

Python代碼開(kāi)發(fā)

2023-05-09 15:41:03

2020-02-18 10:26:58

機(jī)器人人工智能系統(tǒng)

2012-06-21 14:20:16

CSS3

2021-05-24 15:29:24

人工智能機(jī)器人聊天

2021-11-30 10:56:43

ChatterBot機(jī)器人人工智能

2021-04-01 10:51:44

機(jī)器人人工智能編程

2020-09-15 13:56:08

公眾號(hào)機(jī)器人圖靈機(jī)器人

2021-01-12 12:45:16

機(jī)器人人工智能AI

2024-09-02 09:10:00

OpenAI機(jī)器人

2023-04-09 16:17:05

ChatGPT人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)