偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI擊敗DotA頂級(jí)選手是不是突破?OpenAI放出了更多細(xì)節(jié)

新聞 人工智能
周末,OpenAI在DotA 2全球頂級(jí)賽事TI7(The International)的 中單1v1比賽中擊敗了頂級(jí)選手Dendi 。OpenAI的發(fā)起人之一,硅谷鋼鐵俠馬斯克還順勢(shì) 連發(fā)三條twitter,贊賞OpenAI,談監(jiān)管,談AI的風(fēng)險(xiǎn) 。

[[200484]]

周末,OpenAI在DotA 2全球頂級(jí)賽事TI7(The International)的 中單1v1比賽中擊敗了頂級(jí)選手Dendi 。OpenAI的發(fā)起人之一,硅谷鋼鐵俠馬斯克還順勢(shì) 連發(fā)三條twitter,贊賞OpenAI,談監(jiān)管,談AI的風(fēng)險(xiǎn) 。

但關(guān)于這個(gè)參賽的AI,大家并不是非常了解,因此對(duì)于這次勝利的解讀,夸大其詞者有, 質(zhì)疑其并非突破 者也有。

直到今天,OpenAI終于在官方博客上公布了人工智能打DotA技術(shù)的進(jìn)化歷程、(部分)技術(shù)細(xì)節(jié),以及和更多選手對(duì)戰(zhàn)的視頻,以及怎樣打敗這個(gè)AI。

成績(jī)

我們?cè)贒otA 2上取得的結(jié)果表明,只要具備足夠的計(jì)算能力,自我對(duì)抗可以使機(jī)器學(xué)習(xí)系統(tǒng)的水平超越人類(目前僅限于中單1v1)。

在1個(gè)月時(shí)間里,我們系統(tǒng)的水平從只能匹配高段玩家上升至能擊敗頂級(jí)職業(yè)選手。自那時(shí)以來,系統(tǒng)仍在繼續(xù)得到優(yōu)化。

有監(jiān)督深度學(xué)習(xí)系統(tǒng)的性能取決于訓(xùn)練數(shù)據(jù)集,但在自我對(duì)抗系統(tǒng)中,隨著系統(tǒng)變得更強(qiáng)大,可用數(shù)據(jù)也會(huì)自動(dòng)得到優(yōu)化。

下圖是AI的TrueSkill得分:

隨著時(shí)間發(fā)展,我們最好的AI的TrueSkill得分也在線性提高。TrueSkill是通過AI之間進(jìn)行模擬游戲,觀察勝率來計(jì)算的,相當(dāng)于國(guó)際象棋的ELO評(píng)分。

TrueSkill得分的提高與系統(tǒng)各部分的改進(jìn)都相關(guān),為算法增加新功能、擴(kuò)大規(guī)模都能提高得分。

AI怎樣打DotA?

完整的DotA游戲是5v5對(duì)抗,但在某些巡回賽中也可以看到中單對(duì)抗。

我們的AI按照標(biāo)準(zhǔn)巡回賽規(guī)則來玩游戲,我們沒有在1v1比賽中加入任何有利于AI的簡(jiǎn)化。

AI通過以下界面來操作:

  • 觀察:bot API功能使AI可以像人類一樣觀察,包括英雄、兵線和附近地形。游戲是部分可觀察的。

  • 操作:通過bot API進(jìn)行操作,操作頻率與人類選手相仿,具體操作包括移動(dòng)位置、攻擊其他單位,以及使用道具。

  • 反饋:在獲勝后AI可以獲得激勵(lì)?;谄渌局笜?biāo),例如血量和補(bǔ)刀,AI也可以獲得激勵(lì)。

我們將十余種裝備合成方式列入白名單,供AI使用,并選擇其中一種進(jìn)行評(píng)價(jià)。我們還利用傳統(tǒng)的RL技術(shù)來訓(xùn)練最初的控兵線技巧。

開發(fā)歷程

項(xiàng)目進(jìn)程如下所示。下文提到的MMR全稱Match Making Rating,也就是比賽匹配分級(jí),相當(dāng)于天梯積分。在DotA 2中,15%的玩家天梯分低于1500,58%的玩家低于3000,99.99%低于7500。

  • 3月1日:我們首個(gè)經(jīng)典的增強(qiáng)學(xué)習(xí)系統(tǒng)配置于簡(jiǎn)單的DotA環(huán)境中。

  • 5月8日:天梯1500分的測(cè)試者表示,他的水平提升速度要高于AI。

  • 6月初:AI擊敗了天梯1500的測(cè)試者。

  • 6月30日:擊敗了大部分天梯3000分的測(cè)試者。

  • 7月8日:在對(duì)抗天梯7500分的半職業(yè)選手時(shí),取得首勝。

  • 8月7日:3比0擊敗Blitz(前職業(yè)選手,天梯6200)、2比1擊敗Pajkatt(職業(yè)選手,天梯8500)、3比0擊敗CC&C(職業(yè)選手,天梯8900)。他們都認(rèn)為,SumaiL知道如何擊敗這個(gè)AI。

  • 8月9日:10比0擊敗Arteezy(頂級(jí)職業(yè)選手,天梯10000)。他也認(rèn)為SumaiL知道如何擊敗AI。

  • 8月10日:6比0擊敗SumaiL(頂級(jí)中單職業(yè)選手,天梯8300)。他認(rèn)為這個(gè)AI是無法擊敗的。在與8月9日的AI對(duì)抗時(shí),他取得了2比1的成績(jī)。

  • 8月11日,2比0擊敗Dendi(前世界冠軍、天梯7300的職業(yè)選手)。在對(duì)抗8月10日的AI時(shí),這個(gè)AI取勝概率達(dá)到60%。

TI

我們的方法是將少量的“教練訓(xùn)練”與自我對(duì)抗結(jié)合在一起。這使得我們?cè)谥芤坏街芩膰?guó)際邀請(qǐng)賽(TI7)期間能大幅優(yōu)化AI。

周一晚間,Pajkatt使用了不太常見的裝備合成方式(購(gòu)買了早期魔杖),并取得了勝利。我們隨后將這種裝備合成方式加入到訓(xùn)練的白名單中。

周三下午1點(diǎn)左右,我們測(cè)試了最新版AI。這個(gè)AI在第一波對(duì)抗中損失了相當(dāng)一部分血量。我們一開始打算把代碼回滾,不過又注意到,隨后的游戲變得更有趣,而第一波對(duì)抗中的嚴(yán)重失血只是為了誘敵深入。進(jìn)一步的自我對(duì)抗修復(fù)了問題,AI學(xué)會(huì)了應(yīng)對(duì)誘餌策略。與此同時(shí),我們將其結(jié)合至周一版本的AI,只用于第一波對(duì)抗。在Arteezy下午4點(diǎn)到達(dá)的20分鐘前,我們完成了整個(gè)流程。

在與Arteezy的賽后,我們升級(jí)了控兵線模型,這使得TrueSkill評(píng)分增加了1分。在周四與Sumail的比賽之前,進(jìn)一步的訓(xùn)練讓TrueSkill評(píng)分又增加了2分。Sumail指出,AI學(xué)會(huì)了在對(duì)手視野外放技能。這基于我們此前從不知道的機(jī)制:在對(duì)手視野之外放技能,對(duì)方英雄就積累不到魔棒點(diǎn)數(shù)。

Arteezy也和我們MMR 7.5k的半職業(yè)測(cè)試版進(jìn)行了比賽,幾乎取得了勝利,但是,AI采用的一種策略令他驚訝。Arteezy隨后表示,中國(guó)頂尖職業(yè)選手、iG.V戰(zhàn)隊(duì)的中單Paparazi(拒絕者)曾在和他的比賽中用過一次這種策略,但這并不是常見行為。

如何擊敗AI

盡管Sumail認(rèn)為這個(gè)AI是“不可擊敗的”,但在某些非常少見的情況下,AI仍有可能被迷惑。我們?cè)趪?guó)際邀請(qǐng)賽的一場(chǎng)LAN活動(dòng)上搭建了AI。玩家進(jìn)行了超過1000盤游戲,嘗試任何可能的方式去擊敗AI。

成功擊敗AI的策略主要包括3種類型:

  • 拉兵線:玩家可以在AI的二塔和三塔之間,反復(fù)吸引剛產(chǎn)生的兵線來追你。最終將會(huì)有大量兵線在地圖上追你,而AI的防御塔將被磨血。

  • 毒球和風(fēng)靈之紋:在1級(jí)情況下,這樣的裝備組合大幅提升玩家相對(duì)于AI的移速,從而快速拿到一血。你需要利用這樣的優(yōu)勢(shì)去再次擊殺AI。

  • 1級(jí)強(qiáng)推:這需要大量技巧,但有幾名MMR 6k到7k的玩家靠在1級(jí)短時(shí)間內(nèi)放3-5次技能,擊殺了AI。

解決1v1中的這些問題類似于解決Pajkatt提出的漏洞。但在5v5情況下,這樣的漏洞無法使用。我們需要一種系統(tǒng),能處理從未見過的奇怪局面。

基礎(chǔ)設(shè)施

我們還沒有打算完整地討論這個(gè)AI的內(nèi)部原理,團(tuán)隊(duì)目前專注于解決5v5問題。

項(xiàng)目的第一步,是搞清楚如何基于實(shí)體GPU在云計(jì)算平臺(tái)上運(yùn)行DotA 2。

在GPU云計(jì)算實(shí)例上,游戲顯示了出錯(cuò)消息。在Greg的個(gè)人GPU臺(tái)式機(jī)上,也就是比賽中用的那臺(tái)主機(jī)運(yùn)行時(shí),我們注意到,在連接顯示器的情況下DotA可以啟動(dòng),但在沒有連接顯示器時(shí)仍然顯示出錯(cuò)消息。因此,我們對(duì)云計(jì)算GPU實(shí)例進(jìn)行了配置,偽裝已連接了顯示器。

DotA目前并不支持定制的專用服務(wù)器,這意味著在沒有GPU的情況下只能使用緩慢的軟件加速。我們隨后開發(fā)了一種機(jī)制,禁用大部分的OpenGL調(diào)用,僅僅保留了啟動(dòng)所需要的部分。

與此同時(shí),我們開發(fā)了腳本機(jī)器人??紤]到內(nèi)置機(jī)器人在1v1情況下表現(xiàn)不是很好,我們需要一個(gè)基準(zhǔn)作為參考,并理解機(jī)器人API的所有語義。

這個(gè)腳本機(jī)器人在10分鐘時(shí)間里完成了70次補(bǔ)刀,但仍落后于優(yōu)秀的人類選手。

目前最優(yōu)秀的1v1機(jī)器人能達(dá)到97次補(bǔ)刀(在此之前塔已經(jīng)推掉,因此這個(gè)數(shù)字來自于推測(cè)),而理論最高值是101次。

如何解決5v5?

1v1很復(fù)雜,但5v5更加復(fù)雜。我們知道,我們需要進(jìn)一步推動(dòng)AI向前發(fā)展,解決5v5的問題。

我們可以從行為復(fù)制著手。DotA大約每天有100萬盤公開比賽,這些比賽的回放會(huì)在Valve的服務(wù)器中保存兩周。

我們下載了自去年11月份以來所有專家級(jí)的回放,積累了包括580萬盤比賽在內(nèi)的數(shù)據(jù)庫(kù)(每盤比賽約45分鐘,有10名玩家參與)。我們使用OpenDota去分析這些回放,并捐出了1.2萬美元(相當(dāng)于他們10年的籌資目標(biāo))去支持這個(gè)項(xiàng)目。

當(dāng)然,在博客的最后,OpenAI再次表達(dá)了“我們要招人!”

責(zé)任編輯:張燕妮 來源: 36kr
相關(guān)推薦

2017-08-14 11:15:32

2019-12-16 09:38:07

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-08-04 15:20:44

開源技術(shù) 軟件

2019-11-18 10:34:24

戴爾

2025-09-16 09:06:00

OpenAI模型AI

2025-03-17 12:35:52

2021-09-15 05:19:35

算法裁員人工智能

2019-12-24 16:46:10

AI 數(shù)據(jù)人工智能

2024-03-19 07:16:23

2025-08-12 09:46:18

2012-07-18 10:51:46

Office 2013

2025-01-02 09:30:00

AI數(shù)據(jù)測(cè)試

2019-05-16 09:23:18

前端Title后端

2015-11-02 09:00:54

創(chuàng)業(yè)取舍

2021-01-22 16:25:15

AI 數(shù)據(jù)人工智能

2024-10-25 09:48:34

2009-03-15 10:12:23

Mobile IE6瀏覽器

2022-02-10 16:14:06

AI賽車游戲

2023-03-31 08:11:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)