偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="i4nlr"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

作者：乾明 2019-12-24 16:46:10

新聞人工智能

最新消息，騰訊又圍繞王者榮耀AI“絕悟”發(fā)表了新論文，已經(jīng)被AI頂會AAAI 2020收錄。

[[286697]]

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

最新消息，騰訊又圍繞王者榮耀AI“絕悟”發(fā)表了新論文，已經(jīng)被AI頂會AAAI 2020收錄。

這是繼今年8月份絕悟在5v5比賽中擊敗職業(yè)戰(zhàn)隊(duì)后，騰訊首次披露AI背后的技術(shù)細(xì)節(jié)。

騰訊研究人員表示，將AI執(zhí)行動作時間限制在業(yè)余高手玩家相同的水平上（間隔為133ms），絕悟已經(jīng)能夠單挑頂級職業(yè)選手，并在其擅長的英雄上實(shí)現(xiàn)碾壓，15場比賽中職業(yè)選手只贏了1場，并且最多堅(jiān)持不到8分鐘。

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

在今年8月份的公開測試中，這一王者榮耀1V1的AI與大量頂級業(yè)余玩家進(jìn)行了2100場對戰(zhàn)。AI勝率達(dá)到99.81%。

在貂蟬(法師)、狄仁杰(射手)、花木蘭(上單/戰(zhàn)士)、露娜(打野/刺客)、魯班(射手)等英雄上，勝率都是100%。

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

如此AI是怎么訓(xùn)練出來的？我們且看騰訊最新論文中披露的最新細(xì)節(jié)。

30小時達(dá)到王者水平，70小時比肩職業(yè)玩家

首先需要指明的是，騰訊的這篇新論文關(guān)注的是 1v1 游戲AI，并不是 5v5 游戲AI。

研究人員在論文中解釋稱，后者更注重所有智能體的團(tuán)隊(duì)合作策略，而不是單個智能體的動作決策。

考慮到這一點(diǎn)，1v1游戲更適合用來研究游戲中的復(fù)雜動作決策問題，也能夠更加全面系統(tǒng)的研究游戲 AI 智能體的構(gòu)建。

AI的整體架構(gòu)一共分為4個模塊：強(qiáng)化學(xué)習(xí)學(xué)習(xí)器（RL Learner）、人工智能服務(wù)器（AI Server）、分發(fā)模塊（Dispatch Module）和記憶池（Memory Pool）。

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

這是一種高可擴(kuò)展低耦合的系統(tǒng)架構(gòu)，可以用來構(gòu)建數(shù)據(jù)并行化。主要考慮的是復(fù)雜智能體的動作決策問題可能引入高方差的隨機(jī)梯度，所以有必要采用較大的批大小以加快訓(xùn)練速度。

其中，AI服務(wù)器實(shí)現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡?。記憶池是?shù)據(jù)存儲模塊，能為 RL 學(xué)習(xí)器提供訓(xùn)練實(shí)例。

這些模塊是分離的，可靈活配置，從而讓研究者可將重心放在算法設(shè)計和環(huán)境邏輯上。這樣的系統(tǒng)設(shè)計也可用于其它的多智能體競爭問題。

在強(qiáng)化學(xué)習(xí)學(xué)習(xí)器中，他們還實(shí)現(xiàn)了一個 actor-critic 神經(jīng)網(wǎng)絡(luò)，用于建模1v1 游戲中的動作依賴關(guān)系。

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

為了應(yīng)對游戲中的多個場景決策，研究人員們還提出了一系列算法策略，來實(shí)現(xiàn)更高效率的訓(xùn)練：

為了幫助AI在戰(zhàn)斗中選擇目標(biāo)，引入目標(biāo)注意力機(jī)制；
為了學(xué)習(xí)英雄的技能釋放組合，以便AI在序列決策中，快速輸出大量傷害，使用了LSTM；
用于構(gòu)建多標(biāo)簽近端策略優(yōu)化（PPO）目標(biāo)，采用動作依賴關(guān)系的解耦；
為了引導(dǎo)強(qiáng)化學(xué)習(xí)過程中的探索，開發(fā)了基于游戲知識的剪枝方法；
為了確保使用大和有偏差的數(shù)據(jù)批進(jìn)行訓(xùn)練時的收斂性，改進(jìn) PPO 算法提出dual-clip PPO，其示意圖如下所示：

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

研究人員在論文中指出，基于這樣的方法訓(xùn)練一個英雄，使用48個P40 GPU卡和18000個CPU 內(nèi)核，訓(xùn)練一天相當(dāng)于人類打500年，訓(xùn)練30個小時就能達(dá)到王者段位水平，70個小時比肩職業(yè)玩家，其表現(xiàn)要顯著優(yōu)于多種baseline方法。

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

而且如前所述，在與人類選手交戰(zhàn)的測試中，獲得了非常亮眼的成績。

如果你想了解關(guān)于這一AI更多的細(xì)節(jié)，我們將論文鏈接放到了文末~

來自騰訊AI Lab和天美工作室，還在打造開放平臺

單挑碾壓頂尖職業(yè)選手，騰訊公開王者榮耀AI最新細(xì)節(jié)

與2018年12月份發(fā)布的王者榮耀AI論文作者單位相比，這次多了“天美工作室”——王者榮耀的開發(fā)團(tuán)隊(duì)。

除了研究，騰訊AI Lab與王者榮耀還將聯(lián)合推出“開悟”AI+游戲開放平臺。

王者榮耀會開放游戲數(shù)據(jù)、游戲核心集群（Game Core）和工具，騰訊AI Lab會開放強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)的計算平臺和算力，邀請高校與研究機(jī)構(gòu)共同推進(jìn)相關(guān)AI研究，并通過平臺定期測評，來展示多智能體決策研究實(shí)力。

目前“開悟”平臺已啟動高校內(nèi)測，預(yù)計在2020年5月全面開放高校測試，并且在測試環(huán)境上，支持1v1，5v5等多種模式。

騰訊透露，計劃在2020年12月舉辦首屆AI在王者榮耀應(yīng)用的水平測試。

責(zé)任編輯：張燕妮來源：量子位

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<label id="zvdud"><nobr id="zvdud"><dfn id="zvdud"></dfn></nobr></label>