偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎?MIT新研究:AI并不是人類的最佳隊(duì)友

新聞 深度學(xué)習(xí)
MIT最近研究表明,AI和人類玩家之間的配合可以說(shuō)是沒(méi)有配合了,根本看不懂隊(duì)友給的各種暗示信息!

[[433351]]

 強(qiáng)化學(xué)習(xí)的AI在圍棋、星際爭(zhēng)霸、王者榮耀等游戲以絕對(duì)的優(yōu)勢(shì)碾壓了人類玩家,也證明了思維能力可以通過(guò)模擬來(lái)得到。

但如果這么強(qiáng)的AI成為了你的隊(duì)友,能被帶飛嗎?

MIT林肯實(shí)驗(yàn)室的研究人員最近的在紙牌游戲Hanabi(花火)中人類和AI agenet之間的合作研究結(jié)果表明,盡管RL agent的個(gè)人表現(xiàn)能力十分出色,但當(dāng)跟人類玩家一起匹配的時(shí)候,卻只會(huì)讓人直呼太坑。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊(duì)友">

https://arxiv.org/pdf/2107.07630.pdf

Hanabi是一個(gè)需要玩家之間互相溝通合作取勝的游戲,在這個(gè)游戲中,人類玩家更喜歡可預(yù)測(cè)的基于規(guī)則的AI系統(tǒng),而非黑盒的神經(jīng)網(wǎng)絡(luò)模型。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊(duì)友">

一般來(lái)說(shuō),最先進(jìn)的游戲機(jī)器人使用的算法都是深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning)。首先通過(guò)在游戲中提供一個(gè)agent和一組可能的候選action集合,通過(guò)來(lái)自環(huán)境的反饋機(jī)制來(lái)進(jìn)行學(xué)習(xí)。在訓(xùn)練過(guò)程中,還會(huì)采用隨機(jī)的探索action來(lái)最大化目標(biāo),從而獲得最優(yōu)的action序列。

深增強(qiáng)學(xué)習(xí)的早期研究依靠人類玩家提供的游戲數(shù)據(jù)進(jìn)行學(xué)習(xí)。最近研究人員已經(jīng)能夠在沒(méi)有人類數(shù)據(jù)的情況下,純粹依靠自我博弈來(lái)開(kāi)發(fā)RL agent。

MIT 林肯實(shí)驗(yàn)室的研究人員更關(guān)注讓如此強(qiáng)大的AI 如何成為隊(duì)友,這項(xiàng)工作也能讓我們進(jìn)一步了解是什么阻礙了強(qiáng)化學(xué)習(xí)的應(yīng)用只能局限于電子游戲,而無(wú)法擴(kuò)大到現(xiàn)實(shí)應(yīng)用中。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊(duì)友">

最近的強(qiáng)化學(xué)習(xí)研究大多應(yīng)用于單人游戲(Atari Breakout 打磚塊)或者對(duì)抗性游戲(星際爭(zhēng)霸,圍棋),其中AI 主要的對(duì)手是人類玩家或者是其他的AI 機(jī)器人。

在這些對(duì)抗中,強(qiáng)化學(xué)習(xí)取得了空前的成功,因?yàn)闄C(jī)器人對(duì)這些游戲并沒(méi)有一些先入為主的偏見(jiàn)和假設(shè),而是從零開(kāi)始學(xué)習(xí)打游戲,并以最好的玩家數(shù)據(jù)進(jìn)行訓(xùn)練。

事實(shí)上,AI學(xué)會(huì)打游戲以后,甚至還會(huì)自己創(chuàng)造一些技巧。一個(gè)有名的例子是DeepMind的alphago在它的比賽中下了一步棋,但分析師當(dāng)時(shí)認(rèn)為這一步棋是一個(gè)錯(cuò)誤,因?yàn)樗`背了人類專家的直覺(jué)。

但同樣的舉動(dòng)卻帶來(lái)了不一樣的結(jié)果,AI最后憑借這手成功擊敗了人類。所以當(dāng)RL agent與人類合作時(shí),研究人員認(rèn)為同樣的聰明才智也可以發(fā)揮作用。

[[433353]]最佳隊(duì)友">

在MIT研究人員的實(shí)驗(yàn)中選擇了紙牌游戲Hanabi,其中包括兩到五名玩家,他們必須合作以特定的順序出牌。Hanabi 很簡(jiǎn)單,但它也是一個(gè)需要合作和有限的信息的游戲。

Hanabi游戲發(fā)明于2010年,由二到五個(gè)玩家參與,玩家需以正確的順序一起打出五種不同顏色的牌。游戲特點(diǎn):所有玩家都可以看到對(duì)方的牌,但卻看不到自己的牌。

根據(jù)游戲規(guī)則,玩家可以互相提示自己手里的牌(但僅限于牌的顏色或數(shù)字),讓其他玩家可以推斷他們應(yīng)該出什么牌,但提示的次數(shù)是有限制的。

正是這種高效溝通的行為使Hanabi具備了一種科學(xué)魅力。例如,人類可以很自然地理解其他玩家的提示,哪張卡片是可出的,但是機(jī)器本質(zhì)上無(wú)法理解這些提示。

到目前為止人工智能程序已經(jīng)可以在玩Hanabi花火游戲時(shí)贏得很高分?jǐn)?shù),但只限于與其他類似的智能機(jī)器人一起玩。在不熟悉其他玩家的游戲風(fēng)格或者有「臨時(shí)」(從未一起玩過(guò)的)玩家的情況下,對(duì)程序的挑戰(zhàn)最大,也更接近真實(shí)情況。

近年來(lái),幾個(gè)研究團(tuán)隊(duì)探討了可以玩Hanabi的AI機(jī)器人的發(fā)展,其中一些強(qiáng)化學(xué)習(xí)agent使用符號(hào)AI。

AI的評(píng)估主要采用他們的性能,包括self-play(和自己玩),cross-play(和其他類型的agent一起玩),Human-play(和人類合作)。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊(duì)友">

和人類玩家之間的cross-play,對(duì)于衡量人與機(jī)器之間的合作尤為重要,也是論文實(shí)驗(yàn)的基礎(chǔ)。

為了檢驗(yàn)人工智能協(xié)作的有效性,研究人員使用了SmartBot,這是一種基于規(guī)則的self-play人工智能系統(tǒng),還有一種在跨游戲和RL算法中排名最高的模型Hanabi機(jī)器人Other-Play。

在實(shí)驗(yàn)中,人類參與者與AI agent一起玩了幾次Hanabi游戲,每次隊(duì)友的AI都不相同,實(shí)驗(yàn)人員并不知道在和哪個(gè)模型一起玩。

研究人員根據(jù)客觀和主觀指標(biāo)評(píng)估了人類AI合作的水平??陀^指標(biāo)包括分?jǐn)?shù)、錯(cuò)誤率等。主觀指標(biāo)包括人類玩家的經(jīng)驗(yàn),包括他們對(duì)AI團(tuán)隊(duì)成員的信任和舒適程度,以及他們理解AI動(dòng)機(jī)和預(yù)測(cè)其行為的能力。

兩種人工智能模型的客觀表現(xiàn)無(wú)顯著差異。但研究人員預(yù)計(jì),人類玩家對(duì)Other-Play有更積極的主觀體驗(yàn),因?yàn)樗麄兘邮苓^(guò)與其他玩家合作的訓(xùn)練。

根據(jù)對(duì)參與者的調(diào)查,與基于規(guī)則的SmartBot Agent相比,經(jīng)驗(yàn)豐富的Hanabi玩家在其他游戲RL算法方面的經(jīng)驗(yàn)較少,成功的一個(gè)關(guān)鍵點(diǎn)是為其他玩家提供偽裝線索的技能。

例如,說(shuō)「一個(gè)方塊」卡放在桌子上,你的隊(duì)友手里拿著兩個(gè)方塊。當(dāng)你指著卡片說(shuō)「這是兩張」或「這是一個(gè)正方形」時(shí),你暗地里告訴你的隊(duì)友玩這張卡片,而不告訴他關(guān)于卡片的全部信息。一個(gè)經(jīng)驗(yàn)豐富的玩家會(huì)立刻就能夠領(lǐng)會(huì)這個(gè)提示。但向AI 隊(duì)友提供相同類型的信息證明要困難得多。

一個(gè)參與者表示,我已經(jīng)給了隊(duì)友很明顯的提示了,但他根本就沒(méi)用,我不知道為什么。

一個(gè)有趣的現(xiàn)實(shí)是,Other-play一直在避免創(chuàng)建「秘密」的約定,他們只是在執(zhí)行self-play時(shí)開(kāi)發(fā)的這些預(yù)定規(guī)則。這使得Other-play成為其他AI算法的最佳隊(duì)友,盡管AI算法并不是其訓(xùn)練計(jì)劃的一部分。但研究人員認(rèn)為,這是他在訓(xùn)練過(guò)程中已經(jīng)假設(shè)了會(huì)遇到哪些類型的隊(duì)友。

值得注意的是,Other-play假設(shè)隊(duì)友也針對(duì)zero-shot 協(xié)調(diào)進(jìn)行了優(yōu)化。相比之下,人類Hanabi玩家通常不會(huì)使用這種假設(shè)進(jìn)行學(xué)習(xí)。

游戲前常規(guī)設(shè)置和游戲后復(fù)盤是人類Hanabi玩家的常見(jiàn)做法,使人類學(xué)習(xí)更容易獲得few-shot協(xié)調(diào)的能力。

研究人員表示,目前的研究結(jié)果表明,人工智能的客觀任務(wù)表現(xiàn)(self-play和cross-play)在與其他AI模型合作時(shí),可能與人類的信任和偏好無(wú)關(guān)。

這就產(chǎn)生了一個(gè)問(wèn)題:哪些客觀指標(biāo)與主觀的人類偏好相關(guān)?

[[433354]]最佳隊(duì)友">

鑒于訓(xùn)練基于RL的agent所需的數(shù)據(jù)量巨大,訓(xùn)練環(huán)中的人是不可行的。因此,如果我們想訓(xùn)練被人類合作者接受和評(píng)估的AI agent,我們需要找到可訓(xùn)練的,可以替代或與人類偏好密切相關(guān)的目標(biāo)函數(shù)。

同時(shí),研究人員也說(shuō)明,不要將Hanabi實(shí)驗(yàn)的結(jié)果外推到他們無(wú)法測(cè)試的其他環(huán)境、游戲或領(lǐng)域。

論文還承認(rèn)了實(shí)驗(yàn)中的一些局限性,研究人員正在努力解決這些局限性。例如,受試者群體很?。ㄖ挥?9名參與者),并且偏向于精通Hanabi的人,這意味著他們已經(jīng)預(yù)先定義了AI團(tuán)隊(duì)成員的行為期望,并且更有可能對(duì)RL agent有負(fù)面體驗(yàn)。

然而,研究結(jié)果對(duì)未來(lái)加強(qiáng)學(xué)習(xí)研究具有重要意義。

如果最先進(jìn)的RL agent甚至不能在一個(gè)限制性和窄范圍的游戲中成為一個(gè)可以接受的合作者,那么我們真的應(yīng)該期待同樣的RL技術(shù)在應(yīng)用于更復(fù)雜、更微妙、更具后果性的游戲和現(xiàn)實(shí)世界的情況時(shí)只是可以用。

在技術(shù)和學(xué)術(shù)領(lǐng)域,關(guān)于強(qiáng)化學(xué)習(xí)的爭(zhēng)論很多,而且確實(shí)如此,研究結(jié)果也表明不應(yīng)將RL系統(tǒng)的顯著性能視為在所有可能的應(yīng)用中都能獲得相同的高性能。

在學(xué)習(xí)型智能體在復(fù)雜的人類機(jī)器人交互等情況下成為有效的合作者之前,需要更多的理論和應(yīng)用工作。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2017-10-18 22:18:09

2024-09-23 15:04:16

2025-03-03 09:12:00

2019-01-31 10:42:04

框架AI開(kāi)發(fā)

2024-09-03 13:30:00

2018-02-25 19:20:13

軟件定義SD-WAN廣域網(wǎng)

2022-11-27 12:50:01

AI算法MIT

2022-03-13 23:19:04

元宇宙區(qū)塊鏈數(shù)字貨幣

2023-06-01 17:26:25

人工智能

2022-05-09 11:23:43

人工智能機(jī)器學(xué)習(xí)推理

2011-07-26 13:47:06

AndroidLinux

2015-12-17 11:04:00

云開(kāi)支云計(jì)算

2015-05-08 07:29:42

OpenStack云方案云服務(wù)成本

2021-07-15 06:43:12

SQLSelect命令

2011-07-28 09:45:59

云計(jì)算

2011-08-31 15:52:26

微軟

2021-06-24 08:20:15

MySQL數(shù)據(jù)庫(kù)索引

2024-08-09 12:46:04

2018-02-04 14:44:11

2021-10-11 09:51:38

谷歌人工智能強(qiáng)化學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)