偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

新聞 人工智能
在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,EA研究人員受到GAN的啟發(fā),提出了這種新方法ARLPCG (Adversarial Reinforcement Learning for Procedural Content Generation)。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

小人不斷跳躍到實(shí)時(shí)生成的平臺(tái)上、最后到達(dá)終點(diǎn)……

你以為這是個(gè)類似于微信“跳一跳”的小游戲?

但它的真實(shí)身份,其實(shí)是游戲大廠EA(美國(guó)藝電公司)最新研究出的游戲測(cè)試AI。

和普通只會(huì)打游戲的AI不同,這次EA提出的新模型不僅要讓小人成功跳到終點(diǎn),還要自己實(shí)時(shí)生成平臺(tái)來(lái)“為難”自己。

為什么要設(shè)計(jì)成這種“相愛(ài)相殺”的關(guān)系呢?

因?yàn)?,此前的許多游戲測(cè)試AI往往會(huì)對(duì)訓(xùn)練中的地圖過(guò)擬合,這導(dǎo)致它們?cè)跍y(cè)試新地圖時(shí)的表現(xiàn)很差。

由此,在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,EA研究人員受到GAN的啟發(fā),提出了這種新方法ARLPCG (Adversarial Reinforcement Learning for Procedural Content Generation)。

目前,該方法的相關(guān)論文已被IEEE Conference on Games 2021接收。

用博弈論解決過(guò)擬合

其實(shí),把AI用到游戲測(cè)試,已經(jīng)不是一件新鮮事了。

此前許多游戲測(cè)試AI都用到了強(qiáng)化學(xué)習(xí)

它的特點(diǎn)是基于環(huán)境而行動(dòng),根據(jù)從環(huán)境中獲得的獎(jiǎng)勵(lì)或懲罰(比如獲得積分、掉血等等)不斷學(xué)習(xí),從而制定出一套最佳的行動(dòng)策略。

不過(guò)研究人員發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)對(duì)于固定場(chǎng)景的泛化能力很差,往往會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。

比如在同樣的場(chǎng)景中,只用強(qiáng)化學(xué)習(xí)訓(xùn)練的情況下,小人遇到陌生路徑,就會(huì)發(fā)生“集體自殺”事件:

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

這對(duì)于測(cè)試游戲地圖哪里出現(xiàn)錯(cuò)誤而言,真的非常糟糕。

為此,EA的研究人員參考了GAN的原理來(lái)設(shè)計(jì)模型,讓AI內(nèi)部自己對(duì)抗、優(yōu)化。

具體來(lái)看,他們提出的方法ARLPCG主要由兩個(gè)強(qiáng)化學(xué)習(xí)智能體組成。

第一個(gè)智能體生成器 (Generator)主要負(fù)責(zé)生成游戲地圖,它使用了程序內(nèi)容生成(Procedural Content Generation),這是一種可以自動(dòng)生成游戲地圖或其他元素的技術(shù)。

第二個(gè)智能體是解算器 (Solver),它負(fù)責(zé)完成生成器所創(chuàng)建的關(guān)卡。

其中,解算器完成關(guān)卡后會(huì)獲得一定的獎(jiǎng)勵(lì);生成器生成具有挑戰(zhàn)性且可通過(guò)的地圖時(shí),也會(huì)獲得獎(jiǎng)勵(lì)。

訓(xùn)練過(guò)程中,兩個(gè)智能體之間會(huì)相互提供反饋,讓雙方都能拿到獎(jiǎng)勵(lì)。

最終生成器將學(xué)會(huì)創(chuàng)建各種可通過(guò)的地圖,解算器也能在測(cè)試各種地圖時(shí)變得更加通用。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

與此同時(shí),為了能夠調(diào)節(jié)關(guān)卡難度,研究人員還在模型中引入了輔助輸入 (Auxiliary input)。

通過(guò)調(diào)節(jié)這個(gè)值的大小,他們就能控制游戲的通過(guò)率。

比如,將生成器的輔助輸入設(shè)為1時(shí),它生成的平臺(tái)就會(huì)更大、間距更近,小人跳躍的難度也就更低。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

當(dāng)輔助輸入為-1時(shí),生成的平臺(tái)就會(huì)變小、間距也會(huì)拉開(kāi),能夠通關(guān)的小人隨之變少。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

結(jié)果顯示,在生成器的輔助輸入從1降至-1過(guò)程中,成功率從97%降低到了69%。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

此外,也能通過(guò)調(diào)節(jié)解算器的輔助輸入值控制通過(guò)率。

在固定路徑、規(guī)則生成路徑和對(duì)抗化生成路徑幾種情況下,通過(guò)率都隨著輔助輸入的降低而降低。

其中,對(duì)抗強(qiáng)化生成路徑的通過(guò)率明顯高于其他兩種。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

此外,因?yàn)榫哂袑?duì)未知環(huán)境泛化的能力,這個(gè)AI訓(xùn)練好后還可以被用于實(shí)時(shí)測(cè)試。

它可以在未知路段中構(gòu)建出合理的通過(guò)路線,并能反饋路徑中的障礙或其他問(wèn)題的位置。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

此外,這個(gè)AI還能被用于不同的游戲環(huán)境,在這篇論文中,EA還展示了它在賽車(chē)游戲環(huán)境中的表現(xiàn)情況。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

在這個(gè)場(chǎng)景下,生成器可以創(chuàng)建不同長(zhǎng)度、坡度、轉(zhuǎn)彎的路段,解算器則變成了小車(chē)在上面行駛。

如果在生成器中添加光線投射,還能在現(xiàn)有環(huán)境中導(dǎo)航。

在這種情況下,我們看到生成器在不同障礙物之間創(chuàng)建行駛難度低的軌道,從而讓小車(chē)到達(dá)終點(diǎn)(圖中紫色的球)。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

為測(cè)試大型開(kāi)放游戲

論文一作Linus Gisslén表示,開(kāi)放世界游戲和實(shí)時(shí)服務(wù)類游戲是現(xiàn)在發(fā)展的大勢(shì)所趨,當(dāng)游戲中引入很多可變動(dòng)的元素時(shí),會(huì)產(chǎn)生的bug也就隨之增多。

因此游戲測(cè)試變得非常重要。

目前常用的測(cè)試方法主要有兩種:一種是用腳本自動(dòng)化測(cè)試,另一種是人工測(cè)試

腳本測(cè)試速度快,但是在復(fù)雜問(wèn)題上的處理效果不好;人工測(cè)試剛好相反,雖然可以發(fā)現(xiàn)很多復(fù)雜的問(wèn)題,但是效率很低。

而AI剛好可以把這兩種方法的優(yōu)點(diǎn)結(jié)合起來(lái)。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開(kāi)發(fā)的測(cè)試AI成精了

事實(shí)上,EA這次提出的新方法非常輕便,生成器和求解器只用了兩層具有512個(gè)單元的神經(jīng)網(wǎng)絡(luò)。

Linus Gisslén解釋稱,這是因?yàn)榫哂卸鄠€(gè)技能會(huì)導(dǎo)致模型的訓(xùn)練成本非常高,所以他們盡可能讓每個(gè)受過(guò)訓(xùn)練的智能體只會(huì)一個(gè)技能。

他們希望之后這個(gè)AI可以不斷學(xué)習(xí)到新的技能,讓人工測(cè)試員從無(wú)聊枯燥的普通測(cè)試中解放出來(lái)。

此外EA表示,當(dāng)AI、機(jī)器學(xué)習(xí)逐漸成為整個(gè)游戲行業(yè)使用的主流技術(shù)時(shí),EA也會(huì)有充分的準(zhǔn)備。

論文鏈接:
https://arxiv.org/abs/2103.04847

參考鏈接:
[1]https://venturebeat.com/2021/10/07/reinforcement-learning-improves-game-testing-ai-team-finds/
[2]https://www.youtube.com/watch?v=z7q2PtVsT0I

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-09-10 15:10:00

智能強(qiáng)化學(xué)習(xí)框架

2018-06-21 08:51:29

強(qiáng)化學(xué)習(xí)算法人工智能

2009-07-06 18:12:07

金融危機(jī)創(chuàng)新博科資訊

2025-03-07 09:24:00

2021-08-25 08:23:51

AI數(shù)據(jù)機(jī)器學(xué)習(xí)

2021-09-24 09:35:34

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2019-01-31 10:42:04

框架AI開(kāi)發(fā)

2023-12-01 15:37:11

2020-11-16 08:54:05

Google 開(kāi)源技術(shù)

2015-10-15 14:13:56

博弈論數(shù)據(jù)科學(xué)家

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-01-26 08:31:49

2022-10-12 13:35:58

智能體自我意識(shí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2022-03-25 10:35:20

機(jī)器學(xué)習(xí)深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2024-11-29 16:33:24

2025-02-10 13:50:00

算法模型訓(xùn)練

2023-03-23 16:30:53

PyTorchDDPG算法

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)