偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

新聞 人工智能
最新消息,騰訊又圍繞王者榮耀AI“絕悟”發(fā)表了新論文,已經(jīng)被AI頂會AAAI 2020收錄。

 [[286697]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

最新消息,騰訊又圍繞王者榮耀AI“絕悟”發(fā)表了新論文,已經(jīng)被AI頂會AAAI 2020收錄。

這是繼今年8月份絕悟在5v5比賽中擊敗職業(yè)戰(zhàn)隊(duì)后,騰訊首次披露AI背后的技術(shù)細(xì)節(jié)。

騰訊研究人員表示,將AI執(zhí)行動作時(shí)間限制在業(yè)余高手玩家相同的水平上(間隔為133ms),絕悟已經(jīng)能夠單挑頂級職業(yè)選手,并在其擅長的英雄上實(shí)現(xiàn)碾壓,15場比賽中職業(yè)選手只贏了1場,并且最多堅(jiān)持不到8分鐘。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

在今年8月份的公開測試中,這一王者榮耀1V1的AI與大量頂級業(yè)余玩家進(jìn)行了2100場對戰(zhàn)。AI勝率達(dá)到99.81%。

在貂蟬(法師)、狄仁杰(射手)、花木蘭(上單/戰(zhàn)士)、露娜(打野/刺客)、魯班(射手)等英雄上,勝率都是100%。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

如此AI是怎么訓(xùn)練出來的?我們且看騰訊最新論文中披露的最新細(xì)節(jié)。

30小時(shí)達(dá)到王者水平,70小時(shí)比肩職業(yè)玩家

首先需要指明的是,騰訊的這篇新論文關(guān)注的是 1v1 游戲AI,并不是 5v5 游戲AI。

研究人員在論文中解釋稱,后者更注重所有智能體的團(tuán)隊(duì)合作策略,而不是單個(gè)智能體的動作決策。

[[286698]]

考慮到這一點(diǎn),1v1游戲更適合用來研究游戲中的復(fù)雜動作決策問題,也能夠更加全面系統(tǒng)的研究游戲 AI 智能體的構(gòu)建。

AI的整體架構(gòu)一共分為4個(gè)模塊:強(qiáng)化學(xué)習(xí)學(xué)習(xí)器(RL Learner)、人工智能服務(wù)器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

這是一種高可擴(kuò)展低耦合的系統(tǒng)架構(gòu),可以用來構(gòu)建數(shù)據(jù)并行化。主要考慮的是復(fù)雜智能體的動作決策問題可能引入高方差的隨機(jī)梯度,所以有必要采用較大的批大小以加快訓(xùn)練速度。

其中,AI服務(wù)器實(shí)現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡?。記憶池是?shù)據(jù)存儲模塊,能為 RL 學(xué)習(xí)器提供訓(xùn)練實(shí)例。

這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設(shè)計(jì)和環(huán)境邏輯上。這樣的系統(tǒng)設(shè)計(jì)也可用于其它的多智能體競爭問題。

在強(qiáng)化學(xué)習(xí)學(xué)習(xí)器中,他們還實(shí)現(xiàn)了一個(gè) actor-critic 神經(jīng)網(wǎng)絡(luò),用于建模1v1 游戲中的動作依賴關(guān)系。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

為了應(yīng)對游戲中的多個(gè)場景決策,研究人員們還提出了一系列算法策略,來實(shí)現(xiàn)更高效率的訓(xùn)練:

  • 為了幫助AI在戰(zhàn)斗中選擇目標(biāo),引入目標(biāo)注意力機(jī)制;
  • 為了學(xué)習(xí)英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
  • 用于構(gòu)建多標(biāo)簽近端策略優(yōu)化(PPO)目標(biāo),采用動作依賴關(guān)系的解耦;
  • 為了引導(dǎo)強(qiáng)化學(xué)習(xí)過程中的探索,開發(fā)了基于游戲知識的剪枝方法;
  • 為了確保使用大和有偏差的數(shù)據(jù)批進(jìn)行訓(xùn)練時(shí)的收斂性,改進(jìn) PPO 算法提出dual-clip PPO,其示意圖如下所示:
單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

研究人員在論文中指出,基于這樣的方法訓(xùn)練一個(gè)英雄,使用48個(gè)P40 GPU卡和18000個(gè)CPU 內(nèi)核,訓(xùn)練一天相當(dāng)于人類打500年,訓(xùn)練30個(gè)小時(shí)就能達(dá)到王者段位水平,70個(gè)小時(shí)比肩職業(yè)玩家,其表現(xiàn)要顯著優(yōu)于多種baseline方法。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

而且如前所述,在與人類選手交戰(zhàn)的測試中,獲得了非常亮眼的成績。

如果你想了解關(guān)于這一AI更多的細(xì)節(jié),我們將論文鏈接放到了文末~

來自騰訊AI Lab和天美工作室,還在打造開放平臺

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細(xì)節(jié)

與2018年12月份發(fā)布的王者榮耀AI論文作者單位相比,這次多了“天美工作室”——王者榮耀的開發(fā)團(tuán)隊(duì)。

[[286700]]

除了研究,騰訊AI Lab與王者榮耀還將聯(lián)合推出“開悟”AI+游戲開放平臺。

王者榮耀會開放游戲數(shù)據(jù)、游戲核心集群(Game Core)和工具,騰訊AI Lab會開放強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)的計(jì)算平臺和算力,邀請高校與研究機(jī)構(gòu)共同推進(jìn)相關(guān)AI研究,并通過平臺定期測評,來展示多智能體決策研究實(shí)力。

目前“開悟”平臺已啟動高校內(nèi)測,預(yù)計(jì)在2020年5月全面開放高校測試,并且在測試環(huán)境上,支持1v1,5v5等多種模式。

騰訊透露,計(jì)劃在2020年12月舉辦首屆AI在王者榮耀應(yīng)用的水平測試。

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-08-05 08:00:04

AI 數(shù)據(jù)人工智能

2021-09-03 16:17:11

服貿(mào)會騰訊

2020-08-25 15:07:49

騰訊云KPL王者榮耀

2017-08-30 12:17:02

Python王者榮耀套路

2025-02-14 08:30:00

模型AI訓(xùn)練

2020-05-02 15:10:53

AI 王者榮耀人工智能

2022-05-13 15:19:51

程序員

2020-04-03 09:05:43

麻將 AI Suphx神經(jīng)網(wǎng)絡(luò)

2023-04-06 09:37:22

谷歌AI

2016-09-26 17:06:29

2017-08-18 12:04:34

2015-06-24 09:18:22

谷歌SDN

2020-12-30 14:03:29

騰訊AI人工智能

2017-10-30 08:20:16

王者榮耀騰訊云游戲

2017-11-27 11:02:46

高并發(fā)突發(fā)池系統(tǒng)架構(gòu)王者榮耀

2017-12-25 16:20:40

Python自動化王者榮耀

2017-07-10 14:20:45

2025-05-28 11:44:24

AI模型研究

2020-07-10 08:27:55

王者榮耀微服務(wù)架構(gòu)

2017-06-09 18:31:00

電競手游王者榮耀
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號