顫抖吧人類(lèi)!阿爾法狗之后又有了冷撲大師
恐怕大家都是從阿爾法狗擊敗李世乭這條熱文,才開(kāi)始關(guān)注AI的吧,然而現(xiàn)在不光有了阿爾法狗,還出了一個(gè)冷撲大師,專(zhuān)攻德?lián)涞囊豢預(yù)I機(jī)器人。
首先先來(lái)了解下德州撲克與棋類(lèi)的區(qū)別。圍棋是一種“完美信息游戲”,場(chǎng)面上所有的情況都黑白分明地?cái)[在棋面上,雙方掌握對(duì)等的信息。然而,德?lián)渲须[藏了很多信息,是一種“非完美信息游戲”。玩家不知道對(duì)手手中是什么牌,不知道五張公共牌會(huì)開(kāi)出怎樣的結(jié)果,也不知道對(duì)手猜測(cè)自己握有怎樣的手牌。因此,雖然一盤(pán)德?lián)涞臎Q策點(diǎn)數(shù)量是10的160次方,要少于圍棋,但光靠搜索是打不了德?lián)涞摹5聯(lián)溆纱颂隽嗽谒阉髁可系妮^量,對(duì)AI提出了另一個(gè)方向上的考驗(yàn):應(yīng)對(duì)隱藏的信息。
阿爾法狗的幾個(gè)基本原理,分別為:走棋網(wǎng)絡(luò)(Policy Network),給定當(dāng)前局面,預(yù)測(cè)和采樣下一步的走棋;快速走子(Fast rollout),在適當(dāng)犧牲走棋質(zhì)量的條件下提高速度;價(jià)值網(wǎng)絡(luò)(Value Network),給定當(dāng)前局面,估計(jì)雙方勝率;蒙特卡羅樹(shù)搜索(Monte Carlo Tree Search,MCTS),把以上三個(gè)部分串聯(lián)成一個(gè)完整的系統(tǒng)。
冷撲大師的算法則主要基于:納什均衡、虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)、殘局解算器(end-game solver)和自我強(qiáng)化學(xué)習(xí)等模塊。
然而對(duì)于用戶(hù)來(lái)說(shuō),阿爾法狗和冷撲大師除了能讓我們看看新聞以外,哪個(gè)又更有用呢?
在現(xiàn)實(shí)生活中,我們遇到的事情會(huì)更像玩德?lián)洌荷虡I(yè)談判時(shí)對(duì)方未知的底牌、房屋拍賣(mài)時(shí)競(jìng)爭(zhēng)對(duì)手難測(cè)的舉動(dòng)、股票交易中一些隱藏的內(nèi)部消息。桑德霍姆認(rèn)為,德?lián)銩I打開(kāi)了靠人工智能解決隨機(jī)事件和隱藏信息的大門(mén)。這樣的AI,才有望離開(kāi)虛擬的棋牌世界,成為人類(lèi)在現(xiàn)實(shí)生活中談判、博弈和投資的好幫手。