偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎？MIT新研究：AI并不是人類的最佳隊(duì)友

作者：佚名 2021-11-04 15:30:56

新聞深度學(xué)習(xí)

MIT最近研究表明，AI和人類玩家之間的配合可以說(shuō)是沒(méi)有配合了，根本看不懂隊(duì)友給的各種暗示信息！

強(qiáng)化學(xué)習(xí)的AI在圍棋、星際爭(zhēng)霸、王者榮耀等游戲以絕對(duì)的優(yōu)勢(shì)碾壓了人類玩家，也證明了思維能力可以通過(guò)模擬來(lái)得到。

但如果這么強(qiáng)的AI成為了你的隊(duì)友，能被帶飛嗎？

MIT林肯實(shí)驗(yàn)室的研究人員最近的在紙牌游戲Hanabi（花火）中人類和AI agenet之間的合作研究結(jié)果表明，盡管RL agent的個(gè)人表現(xiàn)能力十分出色，但當(dāng)跟人類玩家一起匹配的時(shí)候，卻只會(huì)讓人直呼太坑。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎？MIT新研究：AI并不是人類的<span><span><span><i style=

最佳隊(duì)友">

https://arxiv.org/pdf/2107.07630.pdf

Hanabi是一個(gè)需要玩家之間互相溝通合作取勝的游戲，在這個(gè)游戲中，人類玩家更喜歡可預(yù)測(cè)的基于規(guī)則的AI系統(tǒng)，而非黑盒的神經(jīng)網(wǎng)絡(luò)模型。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎？MIT新研究：AI并不是人類的<span><span><span><i style=

最佳隊(duì)友">

一般來(lái)說(shuō)，最先進(jìn)的游戲機(jī)器人使用的算法都是深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning）。首先通過(guò)在游戲中提供一個(gè)agent和一組可能的候選action集合，通過(guò)來(lái)自環(huán)境的反饋機(jī)制來(lái)進(jìn)行學(xué)習(xí)。在訓(xùn)練過(guò)程中，還會(huì)采用隨機(jī)的探索action來(lái)最大化目標(biāo)，從而獲得最優(yōu)的action序列。

深增強(qiáng)學(xué)習(xí)的早期研究依靠人類玩家提供的游戲數(shù)據(jù)進(jìn)行學(xué)習(xí)。最近研究人員已經(jīng)能夠在沒(méi)有人類數(shù)據(jù)的情況下，純粹依靠自我博弈來(lái)開(kāi)發(fā)RL agent。

MIT 林肯實(shí)驗(yàn)室的研究人員更關(guān)注讓如此強(qiáng)大的AI 如何成為隊(duì)友，這項(xiàng)工作也能讓我們進(jìn)一步了解是什么阻礙了強(qiáng)化學(xué)習(xí)的應(yīng)用只能局限于電子游戲，而無(wú)法擴(kuò)大到現(xiàn)實(shí)應(yīng)用中。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎？MIT新研究：AI并不是人類的<span><span><span><i style=

最佳隊(duì)友">

最近的強(qiáng)化學(xué)習(xí)研究大多應(yīng)用于單人游戲（Atari Breakout 打磚塊）或者對(duì)抗性游戲（星際爭(zhēng)霸，圍棋），其中AI 主要的對(duì)手是人類玩家或者是其他的AI 機(jī)器人。

在這些對(duì)抗中，強(qiáng)化學(xué)習(xí)取得了空前的成功，因?yàn)闄C(jī)器人對(duì)這些游戲并沒(méi)有一些先入為主的偏見(jiàn)和假設(shè)，而是從零開(kāi)始學(xué)習(xí)打游戲，并以最好的玩家數(shù)據(jù)進(jìn)行訓(xùn)練。

事實(shí)上，AI學(xué)會(huì)打游戲以后，甚至還會(huì)自己創(chuàng)造一些技巧。一個(gè)有名的例子是DeepMind的alphago在它的比賽中下了一步棋，但分析師當(dāng)時(shí)認(rèn)為這一步棋是一個(gè)錯(cuò)誤，因?yàn)樗`背了人類專家的直覺(jué)。

但同樣的舉動(dòng)卻帶來(lái)了不一樣的結(jié)果，AI最后憑借這手成功擊敗了人類。所以當(dāng)RL agent與人類合作時(shí)，研究人員認(rèn)為同樣的聰明才智也可以發(fā)揮作用。

最佳隊(duì)友">

在MIT研究人員的實(shí)驗(yàn)中選擇了紙牌游戲Hanabi，其中包括兩到五名玩家，他們必須合作以特定的順序出牌。Hanabi 很簡(jiǎn)單，但它也是一個(gè)需要合作和有限的信息的游戲。

Hanabi游戲發(fā)明于2010年，由二到五個(gè)玩家參與，玩家需以正確的順序一起打出五種不同顏色的牌。游戲特點(diǎn)：所有玩家都可以看到對(duì)方的牌，但卻看不到自己的牌。

根據(jù)游戲規(guī)則，玩家可以互相提示自己手里的牌（但僅限于牌的顏色或數(shù)字），讓其他玩家可以推斷他們應(yīng)該出什么牌，但提示的次數(shù)是有限制的。

正是這種高效溝通的行為使Hanabi具備了一種科學(xué)魅力。例如，人類可以很自然地理解其他玩家的提示，哪張卡片是可出的，但是機(jī)器本質(zhì)上無(wú)法理解這些提示。

到目前為止人工智能程序已經(jīng)可以在玩Hanabi花火游戲時(shí)贏得很高分?jǐn)?shù)，但只限于與其他類似的智能機(jī)器人一起玩。在不熟悉其他玩家的游戲風(fēng)格或者有「臨時(shí)」（從未一起玩過(guò)的）玩家的情況下，對(duì)程序的挑戰(zhàn)最大，也更接近真實(shí)情況。

近年來(lái)，幾個(gè)研究團(tuán)隊(duì)探討了可以玩Hanabi的AI機(jī)器人的發(fā)展，其中一些強(qiáng)化學(xué)習(xí)agent使用符號(hào)AI。

AI的評(píng)估主要采用他們的性能，包括self-play（和自己玩），cross-play（和其他類型的agent一起玩），Human-play（和人類合作）。

強(qiáng)化學(xué)習(xí)AI能帶你1打5嗎？MIT新研究：AI并不是人類的<span><span><span><i style=

最佳隊(duì)友">

和人類玩家之間的cross-play，對(duì)于衡量人與機(jī)器之間的合作尤為重要，也是論文實(shí)驗(yàn)的基礎(chǔ)。

為了檢驗(yàn)人工智能協(xié)作的有效性，研究人員使用了SmartBot，這是一種基于規(guī)則的self-play人工智能系統(tǒng)，還有一種在跨游戲和RL算法中排名最高的模型Hanabi機(jī)器人Other-Play。

在實(shí)驗(yàn)中，人類參與者與AI agent一起玩了幾次Hanabi游戲，每次隊(duì)友的AI都不相同，實(shí)驗(yàn)人員并不知道在和哪個(gè)模型一起玩。

研究人員根據(jù)客觀和主觀指標(biāo)評(píng)估了人類AI合作的水平。客觀指標(biāo)包括分?jǐn)?shù)、錯(cuò)誤率等。主觀指標(biāo)包括人類玩家的經(jīng)驗(yàn)，包括他們對(duì)AI團(tuán)隊(duì)成員的信任和舒適程度，以及他們理解AI動(dòng)機(jī)和預(yù)測(cè)其行為的能力。

兩種人工智能模型的客觀表現(xiàn)無(wú)顯著差異。但研究人員預(yù)計(jì)，人類玩家對(duì)Other-Play有更積極的主觀體驗(yàn)，因?yàn)樗麄兘邮苓^(guò)與其他玩家合作的訓(xùn)練。

根據(jù)對(duì)參與者的調(diào)查，與基于規(guī)則的SmartBot Agent相比，經(jīng)驗(yàn)豐富的Hanabi玩家在其他游戲RL算法方面的經(jīng)驗(yàn)較少，成功的一個(gè)關(guān)鍵點(diǎn)是為其他玩家提供偽裝線索的技能。

例如，說(shuō)「一個(gè)方塊」卡放在桌子上，你的隊(duì)友手里拿著兩個(gè)方塊。當(dāng)你指著卡片說(shuō)「這是兩張」或「這是一個(gè)正方形」時(shí)，你暗地里告訴你的隊(duì)友玩這張卡片，而不告訴他關(guān)于卡片的全部信息。一個(gè)經(jīng)驗(yàn)豐富的玩家會(huì)立刻就能夠領(lǐng)會(huì)這個(gè)提示。但向AI 隊(duì)友提供相同類型的信息證明要困難得多。

一個(gè)參與者表示，我已經(jīng)給了隊(duì)友很明顯的提示了，但他根本就沒(méi)用，我不知道為什么。

一個(gè)有趣的現(xiàn)實(shí)是，Other-play一直在避免創(chuàng)建「秘密」的約定，他們只是在執(zhí)行self-play時(shí)開(kāi)發(fā)的這些預(yù)定規(guī)則。這使得Other-play成為其他AI算法的最佳隊(duì)友，盡管AI算法并不是其訓(xùn)練計(jì)劃的一部分。但研究人員認(rèn)為，這是他在訓(xùn)練過(guò)程中已經(jīng)假設(shè)了會(huì)遇到哪些類型的隊(duì)友。

值得注意的是，Other-play假設(shè)隊(duì)友也針對(duì)zero-shot 協(xié)調(diào)進(jìn)行了優(yōu)化。相比之下，人類Hanabi玩家通常不會(huì)使用這種假設(shè)進(jìn)行學(xué)習(xí)。

游戲前常規(guī)設(shè)置和游戲后復(fù)盤(pán)是人類Hanabi玩家的常見(jiàn)做法，使人類學(xué)習(xí)更容易獲得few-shot協(xié)調(diào)的能力。

研究人員表示，目前的研究結(jié)果表明，人工智能的客觀任務(wù)表現(xiàn)（self-play和cross-play）在與其他AI模型合作時(shí)，可能與人類的信任和偏好無(wú)關(guān)。

這就產(chǎn)生了一個(gè)問(wèn)題：哪些客觀指標(biāo)與主觀的人類偏好相關(guān)？

最佳隊(duì)友">

鑒于訓(xùn)練基于RL的agent所需的數(shù)據(jù)量巨大，訓(xùn)練環(huán)中的人是不可行的。因此，如果我們想訓(xùn)練被人類合作者接受和評(píng)估的AI agent，我們需要找到可訓(xùn)練的，可以替代或與人類偏好密切相關(guān)的目標(biāo)函數(shù)。

同時(shí)，研究人員也說(shuō)明，不要將Hanabi實(shí)驗(yàn)的結(jié)果外推到他們無(wú)法測(cè)試的其他環(huán)境、游戲或領(lǐng)域。

論文還承認(rèn)了實(shí)驗(yàn)中的一些局限性，研究人員正在努力解決這些局限性。例如，受試者群體很小（只有29名參與者），并且偏向于精通Hanabi的人，這意味著他們已經(jīng)預(yù)先定義了AI團(tuán)隊(duì)成員的行為期望，并且更有可能對(duì)RL agent有負(fù)面體驗(yàn)。

然而，研究結(jié)果對(duì)未來(lái)加強(qiáng)學(xué)習(xí)研究具有重要意義。

如果最先進(jìn)的RL agent甚至不能在一個(gè)限制性和窄范圍的游戲中成為一個(gè)可以接受的合作者，那么我們真的應(yīng)該期待同樣的RL技術(shù)在應(yīng)用于更復(fù)雜、更微妙、更具后果性的游戲和現(xiàn)實(shí)世界的情況時(shí)只是可以用。

在技術(shù)和學(xué)術(shù)領(lǐng)域，關(guān)于強(qiáng)化學(xué)習(xí)的爭(zhēng)論很多，而且確實(shí)如此，研究結(jié)果也表明不應(yīng)將RL系統(tǒng)的顯著性能視為在所有可能的應(yīng)用中都能獲得相同的高性能。

在學(xué)習(xí)型智能體在復(fù)雜的人類機(jī)器人交互等情況下成為有效的合作者之前，需要更多的理論和應(yīng)用工作。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="p1h1l"><track id="p1h1l"></track></cite>

<meter id="p1h1l"></meter>