理性強(qiáng)化學(xué)習(xí)遭遇瓶頸,進(jìn)化算法會成為接替者嗎?
人工智能和博弈論的交集催生了強(qiáng)化學(xué)習(xí),但在博弈論基礎(chǔ)上的問題求解通常依賴于理性和完美信息假設(shè)。在多智能體博弈環(huán)境下,這種條件的滿足幾乎是不可能的。作者分析了傳統(tǒng)強(qiáng)化學(xué)習(xí)在這方面的局限,并討論了進(jìn)化強(qiáng)化學(xué)習(xí)作為替代方案的可能性。
人工智能(AI)的研究領(lǐng)域充滿了無法回答的問題以及無法被分配給正確問題的答案。在過去,人工智能為它堅(jiān)持「錯(cuò)誤」的做法付出了代價(jià),經(jīng)歷了一段時(shí)間的停滯,也就是所謂的「人工智能的寒冬」。然而,人工智能的日歷剛剛翻入了春天,相關(guān)的應(yīng)用領(lǐng)域正在蓬勃發(fā)展。
時(shí)至今日,人工智能的一個(gè)分支長期以來一直被人忽視,這里說的是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)最近在 AlphaGo 和 Atari 游戲中展示了令人印象深刻的結(jié)果。但說實(shí)話,這些都不是強(qiáng)化學(xué)習(xí)的勝利。在這些例子中,發(fā)揮更深層作用的是深度神經(jīng)網(wǎng)絡(luò),而不是強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)的研究水平仍然維持在它幾十年前所達(dá)到的深度上。
當(dāng)人們將強(qiáng)化學(xué)習(xí)應(yīng)用到現(xiàn)實(shí)生活問題中時(shí),情況就更糟了。如果訓(xùn)練一個(gè)機(jī)器人使其能在繩子上保持平衡聽起來很困難,那么不妨試試訓(xùn)練一隊(duì)機(jī)器人去贏得一場足球比賽,或者訓(xùn)練一隊(duì)無人機(jī)來監(jiān)視移動的目標(biāo)。
在我們失去分支(強(qiáng)化學(xué)習(xí))甚至是整棵大樹(人工智能)前,我們必須提升對這些應(yīng)用的理解。博弈論是用于研究擁有共同目標(biāo)的參與者(player)團(tuán)隊(duì)在對弈中的應(yīng)對策略的最常見方法。它能夠賦予我們在這樣的環(huán)境下指引機(jī)器學(xué)習(xí)算法的工具。
但是,需要注意的是這種常見的方法并不是一種與常識相符的方法,我們來看看為什么。
消除錯(cuò)誤和建立新真理或事實(shí)一樣好,甚至有時(shí)比它們更好。
——Charles Darwin |
首先,讓我們從了解一些術(shù)語和這些領(lǐng)域的基礎(chǔ)知識開始探索其奧秘。
博弈論
1. 一些常用術(shù)語
- 博弈:正如人們通常所理解的游戲,它可能是任何環(huán)境,其中參與者采取行動,并且博弈的結(jié)果取決于行動。
- 參與者:在博弈中做出決策的人。
- 策略:在給定一系列可能在博弈中出現(xiàn)的情況下,一個(gè)參與者采用的完整的行動方案。
- 收益:參與者從博弈的特定結(jié)果中獲得的收益。
- 均衡:在一場博弈中,參與者都做出了他們的決策并且得到了結(jié)果的狀態(tài)。
- 納什均衡:一種如果其它參與者的策略保持不變,任何參與者都不能通過改變他們自己的策略獲得收益的均衡狀態(tài)。
- 占優(yōu)均衡:無論一個(gè)參與者的對手如何選擇策略,該參與者的策略都比其對手好的一種均衡狀態(tài)。
2. 囚徒困境
這可能是文獻(xiàn)中最著名的博弈案例。其收益矩陣如下圖所示。對于「收益矩陣」(又名支付矩陣)的介紹可能需要一千字的篇幅。對于一個(gè)有經(jīng)驗(yàn)的人來說,一個(gè)收益矩陣就已經(jīng)足夠提供描述一場博弈所必需的所有信息了?,F(xiàn)在,讓我們稍微了解一下什么是「囚徒困境」。
囚徒困境的收益矩陣
警方逮捕了兩名犯罪嫌疑人,嫌疑人 A 和嫌疑人 B。盡管臭名昭著,但由于缺乏證據(jù),這兩名嫌疑人不能因正在被調(diào)查的犯罪事實(shí)而入獄。但他們可以以較輕的罪名被拘留。
他們被囚禁的時(shí)間取決于他們將在審訊室中說些什么,而這就恰好引發(fā)了一場博弈。每位嫌疑犯(參與者)都有機(jī)會對另一名嫌疑犯保持沉默或告密。收益矩陣描述了每一名參與者將根據(jù)博弈的結(jié)果被囚禁多少年。例如,如果嫌疑人 A 保持沉默,而嫌疑人 B 告發(fā)了他們,嫌疑人 A 將服刑 3 年(收益為 -3),嫌疑人 B 則將不用服刑(收益為 0)。
如果你仔細(xì)研究這個(gè)收益矩陣,你會發(fā)現(xiàn):參與者合理的行動應(yīng)該是背叛另一個(gè)人,或者從博弈論的角度來說,背叛他人是占優(yōu)策略。然而,如果每個(gè)人都選擇背叛他人,將導(dǎo)致博弈走向納什均衡,這意味著每個(gè)參與者都會得到 -2 的收益。
不覺得有什么奇怪的嗎?是的,或許說至少本來就應(yīng)該是這樣。如果兩位參與者都同意保持沉默,他們都會得到更高的獎勵「-1」。囚徒困境是說明有時(shí)「合理的行動導(dǎo)致的結(jié)果比合作更差」的一個(gè)博弈的例子。
3. 一些歷史上的評價(jià)
博弈論起源于經(jīng)濟(jì)學(xué),但是時(shí)至今日已經(jīng)發(fā)展為一個(gè)跨學(xué)科的研究領(lǐng)域。博弈論之父,約翰. 馮諾伊曼(你可以看到馮諾伊曼在這個(gè)領(lǐng)域有著很好的職業(yè)前景)是第一個(gè)對「博弈」的一般概念進(jìn)行嚴(yán)格形式化定義的人。為了便于分析,他把自己對博弈的研究限制在包含兩個(gè)參與者(player)的情況。
之后,他與 Oskar Morgenstern 合著了一本書,這本書奠定了期望效用理論的基礎(chǔ),并逐漸形成了博弈論的課程。也正是大約在那個(gè)時(shí)候,John Nash 引入了納什均衡的概念,這有助于描述博弈的結(jié)果。
二、強(qiáng)化學(xué)習(xí)
不久后,人們就意識到博弈論可能存在的應(yīng)用范圍是如此廣闊:從游戲到生物學(xué)、哲學(xué),再到不久后誕生的人工智能?,F(xiàn)如今的博弈論與多個(gè)參與者通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的情況密切相關(guān),這是一個(gè)被稱為多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)域。一個(gè)在這種情況下的應(yīng)用實(shí)例是:假設(shè)我們有一隊(duì)機(jī)器人(參與者),其中的每個(gè)機(jī)器人(參與者)都必須學(xué)會如何做才能有利于它的團(tuán)隊(duì)。
1. 一些常用術(shù)語
- 智能體:相當(dāng)于參與者。
- 獎勵:相當(dāng)于收益
- 狀態(tài):用于描述智能體所處情況的所需要的全部信息。
- 動作:相當(dāng)于博弈中的行動。
- 策略:與博弈論中的策略相類似,它定義了一個(gè)智能體在特定的狀態(tài)下將采取的動作。
- 環(huán)境:在學(xué)習(xí)過程中與智能體交互的所有事物。
2. 應(yīng)用
不妨想象一下如下的場景:一隊(duì)無人機(jī)被釋放到森林中,以便盡早預(yù)測和定位火災(zāi),讓消防員能及時(shí)做出反應(yīng)。無人機(jī)是自動控制的,它們必須探索森林、學(xué)到可能引起火災(zāi)的條件,并且相互合作,這樣一來它們就可以在消耗很少的電量并且進(jìn)行較少的通信的情況下覆蓋廣闊的森林區(qū)域。
該應(yīng)用屬于環(huán)境監(jiān)測領(lǐng)域,其中人工智能將技術(shù)的預(yù)測能力可以被用于指導(dǎo)人類的干預(yù)行為。我們所處的這個(gè)世界中的技術(shù)正在變得越來越復(fù)雜、而物理世界正面臨著前所未有的挑戰(zhàn),現(xiàn)在我們可以將 Kipling 的名言「上帝不可能無處不在,所以他創(chuàng)造了母親」改寫為「人類不可能無處不在,所以他創(chuàng)造了無人機(jī)」。
去中心化的架構(gòu)是另一個(gè)有趣的應(yīng)用領(lǐng)域。像物聯(lián)網(wǎng)和區(qū)塊鏈這樣的技術(shù)創(chuàng)造了巨大的網(wǎng)絡(luò)。信息和處理過程分布在不同的物理實(shí)體中,這種架構(gòu)被公認(rèn)為能夠提供隱私性、高效性和民主性。
無論你想使用傳感器來最小化一個(gè)國家的家庭能源消耗,還是想更換銀行系統(tǒng),去中心化都是一個(gè)新的吸引人的解決方案。
然而,讓這些網(wǎng)絡(luò)變得智能化是具有挑戰(zhàn)性的。因?yàn)榇蠖鄶?shù)我們引以為傲的算法都缺少訓(xùn)練數(shù)據(jù)并且渴望更大的計(jì)算能力。而強(qiáng)化學(xué)習(xí)算法正好可以用于高效的數(shù)據(jù)處理,并且使網(wǎng)絡(luò)能夠適應(yīng)其環(huán)境中的變化。在這種情況下,為了提高整體的效率,研究各個(gè)算法如何協(xié)作是十分有趣的。
我們該使用深度學(xué)習(xí)還是集體學(xué)習(xí)呢?人工智能研究已經(jīng)將其成果建立在越來越深的網(wǎng)絡(luò)上,但對于挑戰(zhàn)性問題的答案卻可能來自于集體知識,而不是基于深度學(xué)習(xí)的個(gè)體。我們錯(cuò)過了一片大森林嗎?
三、不僅僅是博弈
將人工智能問題轉(zhuǎn)化成類似于囚徒困境的簡單博弈是很吸引人的。這是測試新技術(shù)時(shí)常用的方法,因?yàn)樗峁┝艘粋€(gè)計(jì)算成本低并且直觀的測試平臺。然而,重要的是不要忽略噪聲、延遲、有限的內(nèi)存等實(shí)際的特征對算法的影響。
也許,人工智能研究中最具誤導(dǎo)性的假設(shè)莫過于與迭代靜態(tài)博弈的交互表征的假設(shè)。例如,假設(shè)智能體一直沒有經(jīng)過學(xué)習(xí)、沒有被改變,一個(gè)算法可以在每當(dāng)它想要做出決策和規(guī)劃時(shí)應(yīng)用囚徒困境博弈。但是學(xué)習(xí)對智能體的表現(xiàn)又有何影響呢?與其它智能體的互動不會影響它的策略嗎?
這一領(lǐng)域的研究集中在合作進(jìn)化上,Robert Axelrod 曾經(jīng)研究過囚徒困境的迭代版本中出現(xiàn)的最優(yōu)策略。Axelrod 組織的錦標(biāo)賽說明:適應(yīng)時(shí)間和互動的策略(即使聽起來和以牙還牙的策略一樣簡單)是非常有效的。在最近的進(jìn)展中(https://arxiv.org/abs/1803.00162),人工智能社區(qū)研究了在「順序囚徒困境」下的學(xué)習(xí)情況,但這方面的研究尚處于起步階段。
多智能體學(xué)習(xí)和單智能體學(xué)習(xí)的區(qū)別在于大大提高的復(fù)雜性。訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)已經(jīng)足夠痛苦了,而當(dāng)我們再加入新的網(wǎng)絡(luò)作為智能體的一部分時(shí),這個(gè)問題的難度就以指數(shù)形式增長。
一個(gè)不太明顯但是更重要的問題是,這類問題缺乏理論性質(zhì)。單智能體強(qiáng)化學(xué)習(xí)是一個(gè)被充分理解了的研究領(lǐng)域,因?yàn)?Richard Bellman 和 Christopher Watkins 已經(jīng)提出了學(xué)習(xí)所需的算法并進(jìn)行了證明。然而,在多智能體學(xué)習(xí)的情況下,這種證明就失效了。
為了說明出現(xiàn)的一些令人困惑的問題:一個(gè)智能體執(zhí)行一個(gè)學(xué)習(xí)算法去學(xué)習(xí)如何對它所處的環(huán)境做出最佳的反應(yīng)。在我們提出的例子中,環(huán)境包括其他同樣執(zhí)行這個(gè)學(xué)習(xí)算法的智能體。因此,算法必須在它行動之前考慮其動作的影響。
四、早期的關(guān)注點(diǎn)
從博弈論創(chuàng)立之初(在經(jīng)濟(jì)學(xué)中)就產(chǎn)生的關(guān)注點(diǎn)。讓我們從研究經(jīng)典博弈論下的系統(tǒng)所做的一些假設(shè)開始。
- 理性:一般在博弈論中,為了達(dá)到納什均衡,假設(shè)存在完全的理性。這大致意味著智能體總是以自己的利益為出發(fā)點(diǎn)采取行動。
- 完美信息:每個(gè)智能體都了解關(guān)于博弈的一切信息,這些信息包括規(guī)則、其他的參與者所了解的信息,以及其它參與者的策略是什么。
- 共同知識:當(dāng)所有的智能體都知道 P,并且所有的智能體都知道「所有的智能體知道 P」,所有的智能體都知道「所有的智能體知道『所有的智能體知道 P』」... 以此無休止地循環(huán)下去,這就是存在的共同知識。有一些有趣的謎題,比如藍(lán)眼睛島民之謎(http://mesosyn.com/mental1-2.html),描述了共同知識對一個(gè)問題的影響。
Kenn Arrow 在 1986 年表達(dá)了他對經(jīng)典博弈論的保留意見:
在本文(http://dieoff.org/_Economics/RationalityOfSelfAndOthersArrow.pdf)中,我希望研究清楚理性假設(shè)在經(jīng)濟(jì)學(xué)理論中使用的一些意義。特別是,我想強(qiáng)調(diào),盡管理性通常以個(gè)人形式呈現(xiàn),但它不僅僅是個(gè)人的特性。相反,理性不僅僅聚集它自身的力量,還從它所處的社會環(huán)境中聚集了它的意義。在非常理想的條件下,這是最合理的觀點(diǎn)。當(dāng)這些條件不能被滿足時(shí),理性假設(shè)變得難以成立,甚至可能自相矛盾。
如果你覺得 Arrow 對于經(jīng)典博弈論的假設(shè)有些苛刻的話,你認(rèn)為你上次購買東西有多理性?或者說,你今天花了多少心思和努力在吃飯上?
但是 Arrow 并不太關(guān)心理性的假設(shè)本身。他關(guān)心的是理性假設(shè)所帶來的影響。對于一個(gè)理性的智能體來說,你需要為它們提供做決策做需要的所有信息。這就需要無所不知的參與者,這樣做有兩個(gè)壞處:首先,它對參與者的信息存儲和處理提出了不切實(shí)際的要求。其次,由于你可以通過一個(gè)中央的控制者的規(guī)則來取代所有的參與者的博弈(這哪里有趣呢?),博弈論不再是一個(gè)「多方對抗的博弈的理論」。
這個(gè)觀點(diǎn)中,信息價(jià)值是另一個(gè)有趣的地方。我們已經(jīng)討論過,擁有所有的信息是不可行的。但是如果假設(shè)參與者都擁有的是有限的知識,會怎樣呢?這樣做有幫助嗎?
你可以去請教任何涉足這個(gè)領(lǐng)域的人,但是一言以蔽之,在不確定性條件下的優(yōu)化是很困難的。是的,還好我們有古老的納什均衡。但是問題是,這個(gè)過程是無限循環(huán)的。博弈論并沒有為你提供評價(jià)它們的依據(jù)。因此,即使你達(dá)到了一個(gè)納什均衡,也沒有什么大不了的。
五、強(qiáng)化學(xué)習(xí)的關(guān)注點(diǎn)
在這里,你應(yīng)該認(rèn)為人工智能應(yīng)用比傳統(tǒng)的博弈論所涉及的例子要復(fù)雜得多。就拿在機(jī)器人應(yīng)用中使用納什均衡方法的一些障礙來說:想象一下,你現(xiàn)在是機(jī)器人世界杯上的一隊(duì)足球機(jī)器人的隊(duì)長。你的隊(duì)員和對手有多快、多強(qiáng)、多聰明?對手的隊(duì)伍會采取什么策略?你該如何獎勵你的隊(duì)員?進(jìn)球是慶祝的唯一理由嗎?還是說表揚(yáng)一次好的傳球也能提升整支隊(duì)伍的表現(xiàn)呢?顯然,僅僅熟悉足球的規(guī)則也不會讓你贏得比賽。
如果博弈論幾十年來一直被爭論不休,如果它是建立在不切實(shí)際的假設(shè)之上處理現(xiàn)實(shí)的任務(wù)的,如果它提出的解決方案是復(fù)雜、難以理解的,那么為什么我們還要繼續(xù)研究它呢?很明顯,這是我們在群體推理中唯一得到的研究成果。如果我們真正了解群體是如何進(jìn)行交互和合作從而達(dá)到它們的目標(biāo),那么心理學(xué)和政治中的一些問題就會清楚的多。
多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的研究人員要么徹底地展開關(guān)于他們算法的理論性質(zhì)的討論(并且通常展現(xiàn)出好的結(jié)果),或者根據(jù)傳統(tǒng)方法研究納什均衡的存在。后一種方法似乎在這個(gè)領(lǐng)域的年輕研究者眼中,看起來像是一種證明:在嚴(yán)格的、不切實(shí)際的假設(shè)下,理論上存在的那種無限循環(huán)的、本身價(jià)值值得懷疑的解決方案,將永遠(yuǎn)不會在實(shí)踐中被利用。
六、進(jìn)化博弈論
進(jìn)化博弈論的創(chuàng)立并不是最近發(fā)生的事,但是它在人工智能領(lǐng)域的廣泛應(yīng)用卻經(jīng)歷了很長時(shí)間才被承認(rèn)。它起源于生物學(xué),在 1973 年由 John M.Smith 和 George R.Price 作為經(jīng)典博弈論的替代者提出。這種改變是巨大的,我們可以說是討論了一種全新的方法。
推理的主體不再是參與者本身,而是參與者組成的群體。因此,概率化的策略被定義為做出決策的參與者的百分比,而不是像在經(jīng)典的博弈論中一個(gè)參與者選擇一個(gè)動作的概率。隨著策略進(jìn)化為行為模式,理性的、無所不知的智能體便不再是必不可少的了。進(jìn)化的過程類似于達(dá)爾文的學(xué)說。參與者遵循適者生存和隨機(jī)突變的原則繁衍,這一過程可以通過一系列微分方程優(yōu)雅地描述,被稱為「復(fù)制器動力學(xué)」。
在下面的示意圖中,我們可以看到這個(gè)系統(tǒng)的三個(gè)重要組成部分。群體代表智能體的團(tuán)隊(duì),其特征為策略的組合。博弈規(guī)則決定了群體的收益,這也可以看作演化算法的適應(yīng)度的值。最后,復(fù)制器規(guī)則描述了群體如何根據(jù)適應(yīng)度值和進(jìn)化過程的數(shù)學(xué)特性來進(jìn)化。
圖片來自于維基百科:(https://creativecommons.org/licenses/by-sa/3.0)
納什均衡的概念以及對它的目標(biāo)被「進(jìn)化穩(wěn)定策略」所取代。如果一種策略能抵御遵循另一種策略的群體的入侵(入侵的群體規(guī)模很小),它就滿足「進(jìn)化穩(wěn)定策略」的特性。因此,可以在充分了解的動態(tài)系統(tǒng)的穩(wěn)定性方面對團(tuán)隊(duì)行為進(jìn)行研究,例如「Lyapunov stability」。
達(dá)到平衡狀態(tài)需要一個(gè)不平衡的過程。理性行為在不平衡的狀態(tài)中意味著什么呢?個(gè)體在平衡的過程中是否會對平衡狀態(tài)進(jìn)行推測?如果他們這樣做了,不平衡可以在某種程度上被視為一個(gè)高階均衡過程嗎?
在上文中,Arrow 似乎在努力地尋找博弈的動態(tài)特性。那么進(jìn)化博弈論能否給他一個(gè)答案呢?
最近,著名的強(qiáng)化學(xué)習(xí)算法,比如「Q 學(xué)習(xí)」,在這種新的方法的指導(dǎo)下被研究,并且取得了重要的研究成果。如何使用這種新的工具最終取決于應(yīng)用場景。
我們可以采用前饋方法,推導(dǎo)出學(xué)習(xí)算法的動態(tài)模型?;蛘叻催^來,我們從一些期望得到的動態(tài)特性出發(fā),設(shè)計(jì)一個(gè)能體現(xiàn)它們的學(xué)習(xí)算法。
我們可以描述性地使用復(fù)制器動力學(xué),以可視化收斂過程。或者規(guī)范地對算法調(diào)優(yōu),以收斂到最優(yōu)解。通過消除盲目調(diào)參的需要,后者可以極大地減小我們現(xiàn)在為所面對的艱巨任務(wù)訓(xùn)練深度網(wǎng)絡(luò)時(shí)所引起的計(jì)算復(fù)雜度。
七、結(jié)論
追溯博弈論和人工智能何時(shí)以及為何交織在一起并不難。然而,不可忽視的是人工智能,尤其是多智能體增強(qiáng)學(xué)習(xí)在遵循經(jīng)典博弈論方法時(shí)所面臨的限制。
進(jìn)化博弈論的論述聽起來十分有前景,它提供了理論工具,具有實(shí)踐的優(yōu)勢,但我們在自己動手嘗試它之前不會真正知道其奧秘。由此看來,策略的進(jìn)化并不是自然產(chǎn)生的,而是研究團(tuán)體為了改進(jìn)而進(jìn)行的有意識的努力。但這難道不正是進(jìn)化的本質(zhì)嗎?
擺脫一直推動你前進(jìn)的思維慣性需要付出巨大的努力。但是,盡管強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域取得了廣泛的成功,仍然急需得到提升。
原文鏈接:
https://medium.freecodecamp.org/game-theory-and-ai-where-it-all-started-and-where-it-should-all-stop-82f7bd53a3b4
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)文章,微信公眾號“機(jī)器之心( id: almosthuman2014)”】