偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AlphaZero的黑箱打開了!DeepMind論文登上PNAS

人工智能 新聞
AlphaZero 表明神經(jīng)網(wǎng)絡(luò)可以學(xué)到人類可理解的表征。

國際象棋一直是 AI 的試驗(yàn)場。70 年前,艾倫·圖靈猜想可以制造一臺(tái)能夠自我學(xué)習(xí)并不斷從自身經(jīng)驗(yàn)中獲得改進(jìn)的下棋機(jī)器。上世紀(jì)出現(xiàn)的「深藍(lán)」第一次擊敗人類,但它依賴專家編碼人類的國際象棋知識(shí),而誕生于 2017 年的 AlphaZero 作為一種神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)機(jī)器實(shí)現(xiàn)了圖靈的猜想。

AlphaZero 無需使用任何人工設(shè)計(jì)的啟發(fā)式算法,也不需要觀看人類下棋,而是完全通過自我對(duì)弈進(jìn)行訓(xùn)練。

那么,它真的學(xué)習(xí)了人類關(guān)于國際象棋的概念嗎?這是一個(gè)神經(jīng)網(wǎng)絡(luò)的可解釋性問題。

對(duì)此,AlphaZero 的作者 Demis Hassabis 與 DeepMind 的同事以及谷歌大腦的研究員合作了一項(xiàng)研究,在 AlphaZero 的神經(jīng)網(wǎng)絡(luò)中找到了人類國際象棋概念的證據(jù),展示了網(wǎng)絡(luò)在訓(xùn)練過程中獲得這些概念的時(shí)間和位置,還發(fā)現(xiàn)了 AlphaZero 與人類不同的下棋風(fēng)格。論文近期發(fā)表于 PNAS。

圖片

論文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero 在訓(xùn)練中獲得人類象棋概念

AlphaZero 的網(wǎng)絡(luò)架構(gòu)包含一個(gè)骨干網(wǎng)絡(luò)殘差網(wǎng)絡(luò)(ResNet)和單獨(dú)的 Policy Head、Value Head,ResNet 由一系列由網(wǎng)絡(luò)塊和跳躍連接(skip connection)的層構(gòu)成。

在訓(xùn)練迭代方面,AlphaZero 從具有隨機(jī)初始化參數(shù)的神經(jīng)網(wǎng)絡(luò)開始,反復(fù)與自身對(duì)弈,學(xué)習(xí)對(duì)棋子位置的評(píng)估,根據(jù)在此過程中生成的數(shù)據(jù)進(jìn)行多次訓(xùn)練。

為了確定 AlphaZero 網(wǎng)絡(luò)在多大程度上表征了人類所擁有的國際象棋概念,這項(xiàng)研究使用了稀疏線性探測方法,將網(wǎng)絡(luò)在訓(xùn)練過程中參數(shù)的變化映射為人類可理解概念的變化。

首先將概念定義為如圖 1 中橙色所示的用戶定義函數(shù)。廣義線性函數(shù) g 作為一個(gè)探針被訓(xùn)練用于近似一個(gè)國際象棋概念 c。近似值 g 的質(zhì)量表示層(線性)對(duì)概念進(jìn)行編碼的程度。對(duì)于給定概念,對(duì)每個(gè)網(wǎng)絡(luò)中所有層的訓(xùn)練過程中產(chǎn)生的網(wǎng)絡(luò)序列重復(fù)該過程。

圖片

圖 1:在 AlphaZero 網(wǎng)絡(luò)(藍(lán)色)中探索人類編碼的國際象棋概念。

比如,可以用一個(gè)函數(shù)來確定我方或地方是否有「主教」 (?) :

圖片

當(dāng)然,還有很多比這個(gè)例子更復(fù)雜的象棋概念,比如對(duì)于棋子的機(jī)動(dòng)性(mobility),可以編寫一個(gè)函數(shù)來比較我方和敵方移動(dòng)棋子時(shí)的得分。

在本實(shí)驗(yàn)中,概念函數(shù)是已經(jīng)預(yù)先指定的,封裝了國際象棋這一特定領(lǐng)域的知識(shí)。

接下來是對(duì)探針進(jìn)行訓(xùn)練。研究人員將 ChessBase 數(shù)據(jù)集中 10 的 5 次方個(gè)自然出現(xiàn)的象棋位置作為訓(xùn)練集,從深度為 d 的網(wǎng)絡(luò)激活訓(xùn)練一個(gè)稀疏回歸探針 g,來預(yù)測給定概念 c 的值。

通過比較 AlphaZero 自學(xué)習(xí)周期中不同訓(xùn)練步驟的網(wǎng)絡(luò),以及每個(gè)網(wǎng)絡(luò)中不同層的不同概念探針的分?jǐn)?shù),就可以提取網(wǎng)絡(luò)學(xué)習(xí)到某個(gè)概念的時(shí)間和位置。

最終得到每個(gè)概念的 what-when-where 圖,對(duì)「被計(jì)算的概念是什么」、「該計(jì)算在網(wǎng)絡(luò)的哪個(gè)位置發(fā)生」、「概念在網(wǎng)絡(luò)訓(xùn)練的什么時(shí)間出現(xiàn)」這三個(gè)指標(biāo)進(jìn)行可視化。如圖2。

圖片

圖2:從 A 到 B 的概念分別是「對(duì)總分的評(píng)估」、「我方被將軍了嗎」、「對(duì)威脅的評(píng)估」、「我方能吃掉敵方的皇后嗎」、「敵方這一步棋會(huì)將死我方嗎」、「對(duì)子力分?jǐn)?shù)的評(píng)估」、「子力分?jǐn)?shù)」、「我方有王城兵嗎」。

可以看到,C 圖中,隨著 AlphaZero 變得更強(qiáng),「threats」概念的函數(shù)和 AlphaZero 的表征(可由線性探針檢測到)變得越來越不相關(guān)。

這樣的 what-when-where 圖包括探測方法比較所需的兩個(gè)基線,一是輸入回歸,在第 0 層顯示,二是來自具有隨機(jī)權(quán)重的網(wǎng)絡(luò)激活的回歸,在訓(xùn)練步驟 0 處顯示。上圖的結(jié)果可以得出結(jié)論,回歸精度的變化完全由網(wǎng)絡(luò)表征的變化來決定。

此外,許多 what-when-where 圖的結(jié)果都顯示了一個(gè)相同的模式,即整個(gè)網(wǎng)絡(luò)的回歸精度一直都很低,直到大約 32k 步時(shí)才開始隨著網(wǎng)絡(luò)深度的增加而迅速提高,隨后穩(wěn)定下來并在后面的層中保持不變。所以,所有與概念相關(guān)的計(jì)算都在網(wǎng)絡(luò)的相對(duì)早期發(fā)生,而之后的殘差塊要么執(zhí)行移動(dòng)選擇,要么計(jì)算給定概念集之外的特征。

而且,隨著訓(xùn)練的進(jìn)行,許多人類定義的概念都可以從 AlphaZero 的表征中預(yù)測到,且預(yù)測準(zhǔn)確率很高。

對(duì)于更高級(jí)的概念,研究人員發(fā)現(xiàn) AlphaZero 掌握它們的位置存在差異。首先在 2k 訓(xùn)練步驟時(shí)與零顯著不同的概念是「material」和「space」;更復(fù)雜的概念如「king_safety」、「threats」、「mobility」,則是在 8k 訓(xùn)練步驟時(shí)顯著得變?yōu)榉橇?,且?32k 訓(xùn)練步驟之后才有實(shí)質(zhì)增長。這個(gè)結(jié)果與圖 2 中 what-when-where 圖顯示的圖片急劇上升的點(diǎn)一致。

另外,大多數(shù) what-when-where 圖的一個(gè)顯著特征是網(wǎng)絡(luò)的回歸精度在開始階段增長迅速,隨后達(dá)到平穩(wěn)狀態(tài)或下降。這表明目前從 AlphaZero 身上所發(fā)現(xiàn)的概念集還只是檢測了網(wǎng)絡(luò)的較早層,要了解后面的層,需要新的概念檢測技術(shù)。

AlphaZero 的開局策略與人類不同

在觀察到 AlphaZero 學(xué)習(xí)了人類國際象棋概念后,研究人員進(jìn)一步針對(duì)開局策略探討了 AlphaZero 對(duì)于象棋戰(zhàn)術(shù)的理解,因?yàn)殚_局的選擇也隱含了棋手對(duì)于相關(guān)概念的理解。

圖片

研究人員觀察到,AlphaZero 與人類的開局策略并不相同:隨著時(shí)間的推移,AlphaZero 縮小了選擇范圍,而人類則是擴(kuò)大選擇范圍。

如圖 3A 是人類對(duì)白棋的第一步偏好的歷史演變,早期階段,流行將 e4 作為第一步棋,后來的開局策略則變得更平衡、更靈活。

圖 3B 則是 AlphaZero 的開局策略隨訓(xùn)練步驟的演變??梢钥吹?,AlphaZero 的開局總是平等地權(quán)衡所有選擇,然后逐漸縮小選擇范圍。

圖片

圖 3:隨著訓(xùn)練步驟和時(shí)間的推移,AlphaZero 和人類對(duì)第一步的偏好比較。

這與人類知識(shí)的演變形成鮮明對(duì)比,人類知識(shí)從 e4 開始逐漸擴(kuò)展,而 AlphaZero 在訓(xùn)練的后期階段明顯偏向于 d4。不過,這種偏好不需要過度解釋,因?yàn)樽晕覍?duì)弈訓(xùn)練是基于快速游戲,為了促進(jìn)探索增加了許多隨機(jī)性。

造成這種差異的原因尚不清楚,但它反映了人類與人工神經(jīng)網(wǎng)絡(luò)之間的根本差異。一個(gè)可能的因素,或許是關(guān)于人類象棋的歷史數(shù)據(jù)更強(qiáng)調(diào)大師玩家的集體知識(shí),而 AlphaZero 的數(shù)據(jù)包括了初學(xué)者級(jí)別下棋和單一進(jìn)化策略。

那么,當(dāng) AlphaZero 的神經(jīng)網(wǎng)絡(luò)經(jīng)過多次訓(xùn)練后,是否會(huì)出對(duì)某些開局策略顯示出穩(wěn)定的偏好?

研究結(jié)果是,許多情況下,這種偏好在不同訓(xùn)練中并不穩(wěn)定,AlphaZero 的開局策略非常多樣。比如在經(jīng)典的Ruy Lopez 開局(俗稱「西班牙開局」)中,AlphaZero 在早期有選擇黑色的偏好,并遵循典型的下法,即 1.e4 e5,2.Nf3 Nc6,3.Bb5。

圖片

圖 4:Ruy Lopez 開局

而在不同的訓(xùn)練中,AlphaZero 會(huì)逐漸收斂到 3.f6 和 3.a6 中的一個(gè)。此外,AlphaZero 模型的不同版本都各自顯示出對(duì)一個(gè)動(dòng)作的強(qiáng)烈偏好,且這種偏好在訓(xùn)練早期就得以建立。

這進(jìn)一步證明,國際象棋的成功下法多種多樣,這種多樣性不僅存在于人與機(jī)器之間,也存在于 AlphaZero 的不同訓(xùn)練迭代中。

AlphaZero 掌握知識(shí)的過程

那么,以上關(guān)于開局策略的研究結(jié)果,與 AlphaZero 對(duì)概念的理解有什么關(guān)聯(lián)呢?

這項(xiàng)研究發(fā)現(xiàn),在各種概念的 what-when-where 圖中有一個(gè)明顯的拐點(diǎn),與開局偏好的顯著變化正好相吻合,尤其是 material 和 mobility的概念似乎與開局策略直接相關(guān)。

material 概念主要是在訓(xùn)練步驟 10k 和 30k 之間學(xué)習(xí)的,piece mobility 的概念也在同一時(shí)期逐步融入到 AlphaZero 的 value head 中。對(duì)棋子的 material 價(jià)值的基本理解應(yīng)該先于對(duì)棋子 mobility 的理解。然后 AlphaZero 將這一理論納入到 25k 到 60k 訓(xùn)練步驟之間開局偏好中。

作者進(jìn)一步分析了 AlphaZero 網(wǎng)絡(luò)關(guān)于國際象棋的知識(shí)的演變過程:首先發(fā)現(xiàn)棋力;接著是短時(shí)間窗口內(nèi)基礎(chǔ)知識(shí)的爆炸式增長,主要是與 mobility 相關(guān)的一些概念;最后是改進(jìn)階段,神經(jīng)網(wǎng)絡(luò)的開局策略在數(shù)十萬個(gè)訓(xùn)練步驟中得到完善。雖然整體學(xué)習(xí)的時(shí)間很長,但特定的基礎(chǔ)能力會(huì)在相對(duì)較短的時(shí)間內(nèi)迅速出現(xiàn)。

前國際象棋世界冠軍 Vladimir Kramnik 也被請(qǐng)來為這一結(jié)論提供佐證,他的觀察與上述過程一致。

最后總結(jié)一下,這項(xiàng)工作證明了 AlphaZero 網(wǎng)絡(luò)所學(xué)習(xí)的棋盤表示能夠重建許多人類國際象棋概念,并詳細(xì)說明了網(wǎng)絡(luò)所學(xué)習(xí)的概念內(nèi)容、在訓(xùn)練時(shí)間中學(xué)習(xí)概念的時(shí)間以及計(jì)算概念的網(wǎng)絡(luò)位置。而且,AlphaZero 的下棋風(fēng)格與人類并不相同。

既然我們以人類定義的國際象棋概念來理解神經(jīng)網(wǎng)絡(luò),那么下一個(gè)問題將會(huì)是:神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)人類知識(shí)以外的東西嗎?

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-15 12:52:32

模型數(shù)據(jù)

2022-11-17 13:32:46

AlphaZero黑箱網(wǎng)絡(luò)

2023-04-25 14:00:00

GPTAI

2021-02-24 15:38:37

數(shù)據(jù)語言架構(gòu)

2021-12-07 09:51:06

神經(jīng)網(wǎng)絡(luò)AI算法

2024-03-18 10:19:15

AI藥物研發(fā)

2023-02-13 11:34:13

數(shù)字孿生工業(yè)4.0

2023-11-18 09:48:23

2022-07-04 18:33:40

深度學(xué)習(xí)人工智能科學(xué)

2022-07-06 13:13:36

SWIL神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2024-07-25 13:56:49

2020-04-13 14:00:07

量子計(jì)算圍棋AI

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-12-06 09:00:00

2023-05-22 09:19:19

2020-09-17 14:28:50

NumPyPython數(shù)據(jù)

2021-07-29 09:29:12

AI游戲DeepMind

2022-02-17 14:34:58

AIDeepMind開發(fā)

2021-10-13 10:38:08

邊緣計(jì)算太空時(shí)代無線通信
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)