偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用魔法打敗魔法!一個(gè)叫板頂級(jí)人類(lèi)棋手的圍棋AI輸給了它的同類(lèi)

人工智能 新聞
AI:「我能戰(zhàn)勝頂級(jí)人類(lèi)玩家。」另一個(gè) AI:「我玩不過(guò)人類(lèi),但我能戰(zhàn)勝你?!?

近幾年,自我博弈中的強(qiáng)化學(xué)習(xí)已經(jīng)在圍棋、國(guó)際象棋等一系列游戲中取得了超人的表現(xiàn)。此外,自我博弈的理想化版本還收斂于納什均衡。納什均衡在博弈論中非常著名,該理論是由博弈論創(chuàng)始人,諾貝爾獎(jiǎng)獲得者約翰 · 納什提出,即在一個(gè)博弈過(guò)程中,無(wú)論對(duì)方的策略選擇如何,當(dāng)事人一方都會(huì)選擇某個(gè)確定的策略,則該策略被稱(chēng)作支配性策略。如果任意一位參與者在其他所有參與者的策略確定的情況下,其選擇的策略是最優(yōu)的,那么這個(gè)組合就被定義為納什均衡。

之前就有研究表明,自我博弈中看似有效的連續(xù)控制策略也可以被對(duì)抗策略利用,這表明自我博弈可能并不像之前認(rèn)為的那樣強(qiáng)大。這就引出一個(gè)問(wèn)題:對(duì)抗策略是攻克自我博弈的方法,還是自我博弈策略本身就能力不足?

為了回答這個(gè)問(wèn)題,來(lái)自 MIT、 UC 伯克利等機(jī)構(gòu)的研究者進(jìn)行了一番研究,他們選擇自我博弈比較擅長(zhǎng)的領(lǐng)域進(jìn)行,即圍棋(Go)。具體而言,他們對(duì)公開(kāi)可用的最強(qiáng)圍棋 AI 系統(tǒng) KataGo 進(jìn)行攻擊。針對(duì)一個(gè)固定的網(wǎng)絡(luò)(凍結(jié) KataGo),他們訓(xùn)練了一個(gè)端到端的對(duì)抗策略,僅用了訓(xùn)練 KataGo 時(shí) 0.3% 的計(jì)算,他們就獲得了一個(gè)對(duì)抗性策略,并用該策略攻擊 KataGo,在沒(méi)有搜索的情況下,他們的策略對(duì) KataGo 的攻擊達(dá)到了 99% 的勝率,這與歐洲前 100 名圍棋選手實(shí)力相當(dāng)。而當(dāng) KataGo 使用足夠的搜索接近超人的水平時(shí),他們的勝率達(dá)到了 50%。至關(guān)重要的是,攻擊者(本文指該研究學(xué)到的策略)并不能通過(guò)學(xué)習(xí)通用的圍棋策略來(lái)取勝。

這里我們有必要說(shuō)一下 KataGo,正如本文所說(shuō)的,他們?cè)谧珜?xiě)本文時(shí),KataGo 還是最強(qiáng)大的公開(kāi)圍棋 AI 系統(tǒng)。在搜索的加持下,可以說(shuō) KataGo 非常強(qiáng)大,戰(zhàn)勝了本身就是超人類(lèi)的 ELF OpenGo 和 Leela Zero?,F(xiàn)在該研究的攻擊者戰(zhàn)勝 KataGo,可以說(shuō)是非常厲害了。

圖片

圖 1:對(duì)抗策略打敗了 KataGo 受害者。

圖片

  • 論文地址:https://arxiv.org/pdf/2211.00241.pdf
  • 研究主頁(yè):https://goattack.alignmentfund.org/adversarial-policy-katago?row=0#no_search-board

有趣的是,該研究提出的對(duì)抗策略無(wú)法戰(zhàn)勝人類(lèi)玩家,即使是業(yè)余選手也能大幅勝過(guò)所提模型。

攻擊方法

KataGo、AlphaZero 等之前的方法通常是訓(xùn)練智能體自己玩游戲,游戲?qū)κ质侵悄荏w自己。而在 MIT、UC 伯克利等機(jī)構(gòu)的這項(xiàng)研究中,攻擊者(adversary)和固定受害者(victim)智能體之間進(jìn)行博弈,利用這種方式訓(xùn)練攻擊者。該研究希望訓(xùn)練攻擊者利用與受害者智能體的博弈交互,而不只是模仿博弈對(duì)手。這個(gè)過(guò)程被稱(chēng)為「victim-play」。

圖片

在常規(guī)的自我博弈中,智能體通過(guò)從自己的策略網(wǎng)絡(luò)中采樣來(lái)建模對(duì)手的動(dòng)作,這種方法的確適用于自我博弈。但在 victim-play 中,從攻擊者的策略網(wǎng)絡(luò)中建模受害者的方法就是錯(cuò)誤的。為了解決這個(gè)問(wèn)題,該研究提出了兩類(lèi)對(duì)抗型 MCTS(A-MCTS),包括:

  • A-MCTS-S:在 A-MCTS-S 中,研究者將攻擊者的搜索過(guò)程設(shè)置如下:當(dāng)受害者移動(dòng)棋子時(shí),從受害者策略網(wǎng)絡(luò)中采樣;當(dāng)輪到攻擊者移動(dòng)棋子時(shí),從攻擊者策略網(wǎng)絡(luò)中采樣。
  • A-MCTS-R:由于 A-MCTS-S 低估了受害者的能力,該研究又提出了 A-MCTS-R,在 A-MCTS-R 樹(shù)中的每個(gè)受害者節(jié)點(diǎn)上為受害者運(yùn)行 MCTS。然而,這種變化增加了攻擊者訓(xùn)練和推理的計(jì)算復(fù)雜性。

在訓(xùn)練過(guò)程中,該研究針對(duì)與 frozen KataGo 受害者的博弈來(lái)訓(xùn)練對(duì)抗策略。在沒(méi)有搜索的情況下,攻擊者與 KataGo 受害者的博弈可以實(shí)現(xiàn) >99% 的勝率,這與歐洲前 100 名圍棋選手的實(shí)力相當(dāng)。此外,經(jīng)過(guò)訓(xùn)練的攻擊者在與受害者智能體博弈的 64 個(gè)回合中實(shí)現(xiàn)了超過(guò) 80% 的勝率,研究者估計(jì)其實(shí)力與最優(yōu)秀的人類(lèi)圍棋棋手相當(dāng)。

值得注意的是,這些游戲表明,該研究提出的對(duì)抗策略并不是完全在做博弈,而是通過(guò)欺騙 KataGo 在對(duì)攻擊者有利的位置落子,以過(guò)早地結(jié)束游戲。事實(shí)上,盡管攻擊者能夠利用與最佳人類(lèi)圍棋選手相當(dāng)?shù)牟┺牟呗?,但它卻很容易被人類(lèi)業(yè)余愛(ài)好者擊敗。

為了測(cè)試攻擊者與人類(lèi)對(duì)弈的水平,該研究讓論文一作 Tony Tong Wang 與攻擊者模型實(shí)際對(duì)弈了一番。Wang 在該研究項(xiàng)目之前從未學(xué)習(xí)過(guò)圍棋,但他還是以巨大的優(yōu)勢(shì)贏了攻擊者模型。這表明該研究提出的對(duì)抗性策略雖然可以擊敗能戰(zhàn)勝人類(lèi)頂級(jí)玩家的 AI 模型,但它卻無(wú)法擊敗人類(lèi)玩家。這或許可以說(shuō)明一些 AI 圍棋模型是存在 bug 的。

評(píng)估結(jié)果

攻擊受害者策略網(wǎng)絡(luò)?

首先,研究者對(duì)自身攻擊方法對(duì) KataGo (Wu, 2019) 的表現(xiàn)進(jìn)行了評(píng)估,結(jié)果發(fā)現(xiàn) A-MCTS-S 算法針對(duì)無(wú)搜索的 Latest(KataGo 的最新網(wǎng)絡(luò))實(shí)現(xiàn)了 99% 以上的勝率。

如下圖 3 所示,研究者評(píng)估了自身對(duì)抗策略對(duì) Initial 和 Latest 策略網(wǎng)絡(luò)的表現(xiàn)。他們發(fā)現(xiàn)在大部分訓(xùn)練過(guò)程中,自身攻擊者對(duì)兩個(gè)受害者均取得很高的勝率(高于 90%)。但是隨著時(shí)間推移,攻擊者對(duì) Latest 過(guò)擬合,對(duì) Initial 的勝率也下降到 20% 左右。

研究者還評(píng)估了對(duì) Latest 的最佳對(duì)抗策略檢查點(diǎn),取得了超過(guò) 99% 的勝率。并且,如此高的勝率是在對(duì)抗策略?xún)H訓(xùn)練 3.4 × 10^7 個(gè)時(shí)間步長(zhǎng)的情況下實(shí)現(xiàn)的,這一數(shù)據(jù)是受害者時(shí)間步長(zhǎng)的 0.3%。

圖片

遷移到有搜索的受害者?

研究者將對(duì)抗策略成功地遷移到了低搜索機(jī)制上,并評(píng)估了上一節(jié)訓(xùn)練的對(duì)抗策略對(duì)有搜索 Latest 的能力。如下圖 4a 所示,他們發(fā)現(xiàn)在 32 個(gè)受害者回合時(shí),A-MCTS-S 對(duì)受害者的勝率下降到了 80%。但這里,受害者在訓(xùn)練與推理時(shí)都沒(méi)有搜索。

圖片

此外,研究者還測(cè)試了 A-MCTS-R,并發(fā)現(xiàn)它的表現(xiàn)更好,在 32 個(gè)受害者回合時(shí)對(duì) Latest 取得了超過(guò) 99% 的勝率,但在 128 個(gè)回合時(shí)勝率下降到 10% 以下。

在圖 4b 中,研究者展示了當(dāng)攻擊者來(lái)到 4096 個(gè)回合時(shí),A-MCTS-S 對(duì) Latest 最高取得了 54% 的勝率。這與 A-MCTS-R 在 200 個(gè)回合時(shí)的表現(xiàn)非常相似,后者取得了 49% 的勝率。

其他評(píng)估

如下圖 9 所示,研究者發(fā)現(xiàn),盡管 Latest 是一個(gè)更強(qiáng)大的智能體,但針對(duì) Latest 訓(xùn)練的攻擊者在對(duì)抗 Latest 時(shí)要比 Initial 表現(xiàn)更好。

圖片?

最后,研究者探討了攻擊原理,包括受害者的 value 預(yù)測(cè)和硬編碼防御評(píng)估。如下圖 5 所示,所有的基線攻擊都要比他們訓(xùn)練的對(duì)抗策略表現(xiàn)差得多。

圖片

更多技術(shù)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-11-10 13:57:48

2023-09-14 10:07:38

人工智能數(shù)據(jù)管理

2021-03-04 07:24:32

開(kāi)發(fā)者搜索編程

2023-02-20 09:39:32

2019-11-29 08:00:36

AI 數(shù)據(jù)人工智能

2020-12-02 10:13:03

AI 數(shù)據(jù)人工智能

2023-12-29 14:17:16

2023-02-03 11:34:18

ChatGPT人工智能

2025-01-14 14:54:57

2021-09-01 00:02:42

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-11-07 06:56:00

模型微軟

2022-08-08 08:39:45

艾米麗·瓊斯游戲賽車(chē)人工智能

2020-07-13 11:20:23

Python魔法命令代碼

2018-06-14 09:52:03

2018-03-02 10:58:17

人工智能AI律師

2024-11-13 10:26:25

2025-05-21 08:23:52

IO開(kāi)發(fā)Java

2022-04-02 10:18:04

AI棋牌程序

2025-04-17 09:00:00

2022-07-28 08:33:59

JupyterPython
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)