偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

理性強化學(xué)習(xí)遭遇瓶頸,進(jìn)化算法會成為接替者嗎?

開發(fā) 開發(fā)工具 算法
人工智能和博弈論的交集催生了強化學(xué)習(xí),但在博弈論基礎(chǔ)上的問題求解通常依賴于理性和完美信息假設(shè)。在多智能體博弈環(huán)境下,這種條件的滿足幾乎是不可能的。

人工智能和博弈論的交集催生了強化學(xué)習(xí),但在博弈論基礎(chǔ)上的問題求解通常依賴于理性和完美信息假設(shè)。在多智能體博弈環(huán)境下,這種條件的滿足幾乎是不可能的。作者分析了傳統(tǒng)強化學(xué)習(xí)在這方面的局限,并討論了進(jìn)化強化學(xué)習(xí)作為替代方案的可能性。

[[233562]]

人工智能(AI)的研究領(lǐng)域充滿了無法回答的問題以及無法被分配給正確問題的答案。在過去,人工智能為它堅持「錯誤」的做法付出了代價,經(jīng)歷了一段時間的停滯,也就是所謂的「人工智能的寒冬」。然而,人工智能的日歷剛剛翻入了春天,相關(guān)的應(yīng)用領(lǐng)域正在蓬勃發(fā)展。

時至今日,人工智能的一個分支長期以來一直被人忽視,這里說的是強化學(xué)習(xí)。強化學(xué)習(xí)最近在 AlphaGo 和 Atari 游戲中展示了令人印象深刻的結(jié)果。但說實話,這些都不是強化學(xué)習(xí)的勝利。在這些例子中,發(fā)揮更深層作用的是深度神經(jīng)網(wǎng)絡(luò),而不是強化學(xué)習(xí),強化學(xué)習(xí)的研究水平仍然維持在它幾十年前所達(dá)到的深度上。

當(dāng)人們將強化學(xué)習(xí)應(yīng)用到現(xiàn)實生活問題中時,情況就更糟了。如果訓(xùn)練一個機器人使其能在繩子上保持平衡聽起來很困難,那么不妨試試訓(xùn)練一隊機器人去贏得一場足球比賽,或者訓(xùn)練一隊無人機來監(jiān)視移動的目標(biāo)。

在我們失去分支(強化學(xué)習(xí))甚至是整棵大樹(人工智能)前,我們必須提升對這些應(yīng)用的理解。博弈論是用于研究擁有共同目標(biāo)的參與者(player)團(tuán)隊在對弈中的應(yīng)對策略的最常見方法。它能夠賦予我們在這樣的環(huán)境下指引機器學(xué)習(xí)算法的工具。

但是,需要注意的是這種常見的方法并不是一種與常識相符的方法,我們來看看為什么。

消除錯誤和建立新真理或事實一樣好,甚至有時比它們更好。

——Charles Darwin

首先,讓我們從了解一些術(shù)語和這些領(lǐng)域的基礎(chǔ)知識開始探索其奧秘。

博弈論

1. 一些常用術(shù)語

  • 博弈:正如人們通常所理解的游戲,它可能是任何環(huán)境,其中參與者采取行動,并且博弈的結(jié)果取決于行動。
  • 參與者:在博弈中做出決策的人。
  • 策略:在給定一系列可能在博弈中出現(xiàn)的情況下,一個參與者采用的完整的行動方案。
  • 收益:參與者從博弈的特定結(jié)果中獲得的收益。
  • 均衡:在一場博弈中,參與者都做出了他們的決策并且得到了結(jié)果的狀態(tài)。
  • 納什均衡:一種如果其它參與者的策略保持不變,任何參與者都不能通過改變他們自己的策略獲得收益的均衡狀態(tài)。
  • 占優(yōu)均衡:無論一個參與者的對手如何選擇策略,該參與者的策略都比其對手好的一種均衡狀態(tài)。

2. 囚徒困境

這可能是文獻(xiàn)中最著名的博弈案例。其收益矩陣如下圖所示。對于「收益矩陣」(又名支付矩陣)的介紹可能需要一千字的篇幅。對于一個有經(jīng)驗的人來說,一個收益矩陣就已經(jīng)足夠提供描述一場博弈所必需的所有信息了?,F(xiàn)在,讓我們稍微了解一下什么是「囚徒困境」。

囚徒困境的收益矩陣

囚徒困境的收益矩陣

警方逮捕了兩名犯罪嫌疑人,嫌疑人 A 和嫌疑人 B。盡管臭名昭著,但由于缺乏證據(jù),這兩名嫌疑人不能因正在被調(diào)查的犯罪事實而入獄。但他們可以以較輕的罪名被拘留。

他們被囚禁的時間取決于他們將在審訊室中說些什么,而這就恰好引發(fā)了一場博弈。每位嫌疑犯(參與者)都有機會對另一名嫌疑犯保持沉默或告密。收益矩陣描述了每一名參與者將根據(jù)博弈的結(jié)果被囚禁多少年。例如,如果嫌疑人 A 保持沉默,而嫌疑人 B 告發(fā)了他們,嫌疑人 A 將服刑 3 年(收益為 -3),嫌疑人 B 則將不用服刑(收益為 0)。

如果你仔細(xì)研究這個收益矩陣,你會發(fā)現(xiàn):參與者合理的行動應(yīng)該是背叛另一個人,或者從博弈論的角度來說,背叛他人是占優(yōu)策略。然而,如果每個人都選擇背叛他人,將導(dǎo)致博弈走向納什均衡,這意味著每個參與者都會得到 -2 的收益。

不覺得有什么奇怪的嗎?是的,或許說至少本來就應(yīng)該是這樣。如果兩位參與者都同意保持沉默,他們都會得到更高的獎勵「-1」。囚徒困境是說明有時「合理的行動導(dǎo)致的結(jié)果比合作更差」的一個博弈的例子。

3. 一些歷史上的評價

博弈論起源于經(jīng)濟學(xué),但是時至今日已經(jīng)發(fā)展為一個跨學(xué)科的研究領(lǐng)域。博弈論之父,約翰. 馮諾伊曼(你可以看到馮諾伊曼在這個領(lǐng)域有著很好的職業(yè)前景)是第一個對「博弈」的一般概念進(jìn)行嚴(yán)格形式化定義的人。為了便于分析,他把自己對博弈的研究限制在包含兩個參與者(player)的情況。

之后,他與 Oskar Morgenstern 合著了一本書,這本書奠定了期望效用理論的基礎(chǔ),并逐漸形成了博弈論的課程。也正是大約在那個時候,John Nash 引入了納什均衡的概念,這有助于描述博弈的結(jié)果。

二、強化學(xué)習(xí)

不久后,人們就意識到博弈論可能存在的應(yīng)用范圍是如此廣闊:從游戲到生物學(xué)、哲學(xué),再到不久后誕生的人工智能?,F(xiàn)如今的博弈論與多個參與者通過強化學(xué)習(xí)進(jìn)行訓(xùn)練的情況密切相關(guān),這是一個被稱為多智能體強化學(xué)習(xí)的領(lǐng)域。一個在這種情況下的應(yīng)用實例是:假設(shè)我們有一隊機器人(參與者),其中的每個機器人(參與者)都必須學(xué)會如何做才能有利于它的團(tuán)隊。

1. 一些常用術(shù)語

  • 智能體:相當(dāng)于參與者。
  • 獎勵:相當(dāng)于收益
  • 狀態(tài):用于描述智能體所處情況的所需要的全部信息。
  • 動作:相當(dāng)于博弈中的行動。
  • 策略:與博弈論中的策略相類似,它定義了一個智能體在特定的狀態(tài)下將采取的動作。
  • 環(huán)境:在學(xué)習(xí)過程中與智能體交互的所有事物。

2. 應(yīng)用

不妨想象一下如下的場景:一隊無人機被釋放到森林中,以便盡早預(yù)測和定位火災(zāi),讓消防員能及時做出反應(yīng)。無人機是自動控制的,它們必須探索森林、學(xué)到可能引起火災(zāi)的條件,并且相互合作,這樣一來它們就可以在消耗很少的電量并且進(jìn)行較少的通信的情況下覆蓋廣闊的森林區(qū)域。

該應(yīng)用屬于環(huán)境監(jiān)測領(lǐng)域,其中人工智能將技術(shù)的預(yù)測能力可以被用于指導(dǎo)人類的干預(yù)行為。我們所處的這個世界中的技術(shù)正在變得越來越復(fù)雜、而物理世界正面臨著前所未有的挑戰(zhàn),現(xiàn)在我們可以將 Kipling 的名言「上帝不可能無處不在,所以他創(chuàng)造了母親」改寫為「人類不可能無處不在,所以他創(chuàng)造了無人機」。

去中心化的架構(gòu)是另一個有趣的應(yīng)用領(lǐng)域。像物聯(lián)網(wǎng)和區(qū)塊鏈這樣的技術(shù)創(chuàng)造了巨大的網(wǎng)絡(luò)。信息和處理過程分布在不同的物理實體中,這種架構(gòu)被公認(rèn)為能夠提供隱私性、高效性和民主性。

無論你想使用傳感器來最小化一個國家的家庭能源消耗,還是想更換銀行系統(tǒng),去中心化都是一個新的吸引人的解決方案。

然而,讓這些網(wǎng)絡(luò)變得智能化是具有挑戰(zhàn)性的。因為大多數(shù)我們引以為傲的算法都缺少訓(xùn)練數(shù)據(jù)并且渴望更大的計算能力。而強化學(xué)習(xí)算法正好可以用于高效的數(shù)據(jù)處理,并且使網(wǎng)絡(luò)能夠適應(yīng)其環(huán)境中的變化。在這種情況下,為了提高整體的效率,研究各個算法如何協(xié)作是十分有趣的。

我們該使用深度學(xué)習(xí)還是集體學(xué)習(xí)呢?人工智能研究已經(jīng)將其成果建立在越來越深的網(wǎng)絡(luò)上,但對于挑戰(zhàn)性問題的答案卻可能來自于集體知識,而不是基于深度學(xué)習(xí)的個體。我們錯過了一片大森林嗎?

三、不僅僅是博弈

將人工智能問題轉(zhuǎn)化成類似于囚徒困境的簡單博弈是很吸引人的。這是測試新技術(shù)時常用的方法,因為它提供了一個計算成本低并且直觀的測試平臺。然而,重要的是不要忽略噪聲、延遲、有限的內(nèi)存等實際的特征對算法的影響。

也許,人工智能研究中最具誤導(dǎo)性的假設(shè)莫過于與迭代靜態(tài)博弈的交互表征的假設(shè)。例如,假設(shè)智能體一直沒有經(jīng)過學(xué)習(xí)、沒有被改變,一個算法可以在每當(dāng)它想要做出決策和規(guī)劃時應(yīng)用囚徒困境博弈。但是學(xué)習(xí)對智能體的表現(xiàn)又有何影響呢?與其它智能體的互動不會影響它的策略嗎?

這一領(lǐng)域的研究集中在合作進(jìn)化上,Robert Axelrod 曾經(jīng)研究過囚徒困境的迭代版本中出現(xiàn)的最優(yōu)策略。Axelrod 組織的錦標(biāo)賽說明:適應(yīng)時間和互動的策略(即使聽起來和以牙還牙的策略一樣簡單)是非常有效的。在最近的進(jìn)展中(https://arxiv.org/abs/1803.00162),人工智能社區(qū)研究了在「順序囚徒困境」下的學(xué)習(xí)情況,但這方面的研究尚處于起步階段。

多智能體學(xué)習(xí)和單智能體學(xué)習(xí)的區(qū)別在于大大提高的復(fù)雜性。訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)已經(jīng)足夠痛苦了,而當(dāng)我們再加入新的網(wǎng)絡(luò)作為智能體的一部分時,這個問題的難度就以指數(shù)形式增長。

一個不太明顯但是更重要的問題是,這類問題缺乏理論性質(zhì)。單智能體強化學(xué)習(xí)是一個被充分理解了的研究領(lǐng)域,因為 Richard Bellman 和 Christopher Watkins 已經(jīng)提出了學(xué)習(xí)所需的算法并進(jìn)行了證明。然而,在多智能體學(xué)習(xí)的情況下,這種證明就失效了。

為了說明出現(xiàn)的一些令人困惑的問題:一個智能體執(zhí)行一個學(xué)習(xí)算法去學(xué)習(xí)如何對它所處的環(huán)境做出最佳的反應(yīng)。在我們提出的例子中,環(huán)境包括其他同樣執(zhí)行這個學(xué)習(xí)算法的智能體。因此,算法必須在它行動之前考慮其動作的影響。

四、早期的關(guān)注點

從博弈論創(chuàng)立之初(在經(jīng)濟學(xué)中)就產(chǎn)生的關(guān)注點。讓我們從研究經(jīng)典博弈論下的系統(tǒng)所做的一些假設(shè)開始。

  • 理性:一般在博弈論中,為了達(dá)到納什均衡,假設(shè)存在完全的理性。這大致意味著智能體總是以自己的利益為出發(fā)點采取行動。
  • 完美信息:每個智能體都了解關(guān)于博弈的一切信息,這些信息包括規(guī)則、其他的參與者所了解的信息,以及其它參與者的策略是什么。
  • 共同知識:當(dāng)所有的智能體都知道 P,并且所有的智能體都知道「所有的智能體知道 P」,所有的智能體都知道「所有的智能體知道『所有的智能體知道 P』」... 以此無休止地循環(huán)下去,這就是存在的共同知識。有一些有趣的謎題,比如藍(lán)眼睛島民之謎(http://mesosyn.com/mental1-2.html),描述了共同知識對一個問題的影響。

Kenn Arrow 在 1986 年表達(dá)了他對經(jīng)典博弈論的保留意見:

在本文(http://dieoff.org/_Economics/RationalityOfSelfAndOthersArrow.pdf)中,我希望研究清楚理性假設(shè)在經(jīng)濟學(xué)理論中使用的一些意義。特別是,我想強調(diào),盡管理性通常以個人形式呈現(xiàn),但它不僅僅是個人的特性。相反,理性不僅僅聚集它自身的力量,還從它所處的社會環(huán)境中聚集了它的意義。在非常理想的條件下,這是最合理的觀點。當(dāng)這些條件不能被滿足時,理性假設(shè)變得難以成立,甚至可能自相矛盾。

如果你覺得 Arrow 對于經(jīng)典博弈論的假設(shè)有些苛刻的話,你認(rèn)為你上次購買東西有多理性?或者說,你今天花了多少心思和努力在吃飯上?

但是 Arrow 并不太關(guān)心理性的假設(shè)本身。他關(guān)心的是理性假設(shè)所帶來的影響。對于一個理性的智能體來說,你需要為它們提供做決策做需要的所有信息。這就需要無所不知的參與者,這樣做有兩個壞處:首先,它對參與者的信息存儲和處理提出了不切實際的要求。其次,由于你可以通過一個中央的控制者的規(guī)則來取代所有的參與者的博弈(這哪里有趣呢?),博弈論不再是一個「多方對抗的博弈的理論」。

這個觀點中,信息價值是另一個有趣的地方。我們已經(jīng)討論過,擁有所有的信息是不可行的。但是如果假設(shè)參與者都擁有的是有限的知識,會怎樣呢?這樣做有幫助嗎?

你可以去請教任何涉足這個領(lǐng)域的人,但是一言以蔽之,在不確定性條件下的優(yōu)化是很困難的。是的,還好我們有古老的納什均衡。但是問題是,這個過程是無限循環(huán)的。博弈論并沒有為你提供評價它們的依據(jù)。因此,即使你達(dá)到了一個納什均衡,也沒有什么大不了的。

五、強化學(xué)習(xí)的關(guān)注點

在這里,你應(yīng)該認(rèn)為人工智能應(yīng)用比傳統(tǒng)的博弈論所涉及的例子要復(fù)雜得多。就拿在機器人應(yīng)用中使用納什均衡方法的一些障礙來說:想象一下,你現(xiàn)在是機器人世界杯上的一隊足球機器人的隊長。你的隊員和對手有多快、多強、多聰明?對手的隊伍會采取什么策略?你該如何獎勵你的隊員?進(jìn)球是慶祝的唯一理由嗎?還是說表揚一次好的傳球也能提升整支隊伍的表現(xiàn)呢?顯然,僅僅熟悉足球的規(guī)則也不會讓你贏得比賽。

如果博弈論幾十年來一直被爭論不休,如果它是建立在不切實際的假設(shè)之上處理現(xiàn)實的任務(wù)的,如果它提出的解決方案是復(fù)雜、難以理解的,那么為什么我們還要繼續(xù)研究它呢?很明顯,這是我們在群體推理中唯一得到的研究成果。如果我們真正了解群體是如何進(jìn)行交互和合作從而達(dá)到它們的目標(biāo),那么心理學(xué)和政治中的一些問題就會清楚的多。

多智能體強化學(xué)習(xí)領(lǐng)域的研究人員要么徹底地展開關(guān)于他們算法的理論性質(zhì)的討論(并且通常展現(xiàn)出好的結(jié)果),或者根據(jù)傳統(tǒng)方法研究納什均衡的存在。后一種方法似乎在這個領(lǐng)域的年輕研究者眼中,看起來像是一種證明:在嚴(yán)格的、不切實際的假設(shè)下,理論上存在的那種無限循環(huán)的、本身價值值得懷疑的解決方案,將永遠(yuǎn)不會在實踐中被利用。

六、進(jìn)化博弈論

進(jìn)化博弈論的創(chuàng)立并不是最近發(fā)生的事,但是它在人工智能領(lǐng)域的廣泛應(yīng)用卻經(jīng)歷了很長時間才被承認(rèn)。它起源于生物學(xué),在 1973 年由 John M.Smith 和 George R.Price 作為經(jīng)典博弈論的替代者提出。這種改變是巨大的,我們可以說是討論了一種全新的方法。

推理的主體不再是參與者本身,而是參與者組成的群體。因此,概率化的策略被定義為做出決策的參與者的百分比,而不是像在經(jīng)典的博弈論中一個參與者選擇一個動作的概率。隨著策略進(jìn)化為行為模式,理性的、無所不知的智能體便不再是必不可少的了。進(jìn)化的過程類似于達(dá)爾文的學(xué)說。參與者遵循適者生存和隨機突變的原則繁衍,這一過程可以通過一系列微分方程優(yōu)雅地描述,被稱為「復(fù)制器動力學(xué)」。

在下面的示意圖中,我們可以看到這個系統(tǒng)的三個重要組成部分。群體代表智能體的團(tuán)隊,其特征為策略的組合。博弈規(guī)則決定了群體的收益,這也可以看作演化算法的適應(yīng)度的值。最后,復(fù)制器規(guī)則描述了群體如何根據(jù)適應(yīng)度值和進(jìn)化過程的數(shù)學(xué)特性來進(jìn)化。

圖片來自于維基百科:(https://creativecommons.org/licenses/by-sa/3.0)

納什均衡的概念以及對它的目標(biāo)被「進(jìn)化穩(wěn)定策略」所取代。如果一種策略能抵御遵循另一種策略的群體的入侵(入侵的群體規(guī)模很小),它就滿足「進(jìn)化穩(wěn)定策略」的特性。因此,可以在充分了解的動態(tài)系統(tǒng)的穩(wěn)定性方面對團(tuán)隊行為進(jìn)行研究,例如「Lyapunov stability」。

達(dá)到平衡狀態(tài)需要一個不平衡的過程。理性行為在不平衡的狀態(tài)中意味著什么呢?個體在平衡的過程中是否會對平衡狀態(tài)進(jìn)行推測?如果他們這樣做了,不平衡可以在某種程度上被視為一個高階均衡過程嗎?

在上文中,Arrow 似乎在努力地尋找博弈的動態(tài)特性。那么進(jìn)化博弈論能否給他一個答案呢?

最近,著名的強化學(xué)習(xí)算法,比如「Q 學(xué)習(xí)」,在這種新的方法的指導(dǎo)下被研究,并且取得了重要的研究成果。如何使用這種新的工具最終取決于應(yīng)用場景。

我們可以采用前饋方法,推導(dǎo)出學(xué)習(xí)算法的動態(tài)模型?;蛘叻催^來,我們從一些期望得到的動態(tài)特性出發(fā),設(shè)計一個能體現(xiàn)它們的學(xué)習(xí)算法。

我們可以描述性地使用復(fù)制器動力學(xué),以可視化收斂過程?;蛘咭?guī)范地對算法調(diào)優(yōu),以收斂到最優(yōu)解。通過消除盲目調(diào)參的需要,后者可以極大地減小我們現(xiàn)在為所面對的艱巨任務(wù)訓(xùn)練深度網(wǎng)絡(luò)時所引起的計算復(fù)雜度。

七、結(jié)論

追溯博弈論和人工智能何時以及為何交織在一起并不難。然而,不可忽視的是人工智能,尤其是多智能體增強學(xué)習(xí)在遵循經(jīng)典博弈論方法時所面臨的限制。

進(jìn)化博弈論的論述聽起來十分有前景,它提供了理論工具,具有實踐的優(yōu)勢,但我們在自己動手嘗試它之前不會真正知道其奧秘。由此看來,策略的進(jìn)化并不是自然產(chǎn)生的,而是研究團(tuán)體為了改進(jìn)而進(jìn)行的有意識的努力。但這難道不正是進(jìn)化的本質(zhì)嗎?

擺脫一直推動你前進(jìn)的思維慣性需要付出巨大的努力。但是,盡管強化學(xué)習(xí)在人工智能領(lǐng)域取得了廣泛的成功,仍然急需得到提升。

原文鏈接:

https://medium.freecodecamp.org/game-theory-and-ai-where-it-all-started-and-where-it-should-all-stop-82f7bd53a3b4

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2013-12-23 11:39:20

數(shù)據(jù)中心Unix接替

2017-03-28 10:15:07

2020-09-02 10:36:52

機器人人工智能系統(tǒng)

2023-06-25 11:30:47

可視化

2022-11-02 14:02:02

強化學(xué)習(xí)訓(xùn)練

2025-08-01 09:05:00

2017-01-15 18:12:17

大數(shù)據(jù)人工智能AI

2020-05-06 16:07:05

百度飛槳

2024-03-25 11:37:40

機器學(xué)習(xí)人工智能進(jìn)化算法

2024-10-12 17:14:12

2025-08-07 09:16:41

2025-06-03 06:12:03

2023-03-09 08:00:00

強化學(xué)習(xí)機器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強化學(xué)習(xí)代碼深度學(xué)習(xí)

2021-01-26 12:20:53

比特幣加密貨幣數(shù)字貨幣

2022-02-17 12:27:29

機器學(xué)習(xí)數(shù)據(jù)安全網(wǎng)絡(luò)攻擊

2025-05-28 02:25:00

2015-01-14 10:46:22

APP開發(fā)

2017-07-18 10:16:27

強化學(xué)習(xí)決策問題監(jiān)督學(xué)習(xí)

2025-03-25 09:12:00

LIMAI模型
點贊
收藏

51CTO技術(shù)棧公眾號