強(qiáng)化學(xué)習(xí)是否言過其實?
譯文?譯者 | 李睿
審校 | 孫淑娟?
可以想象一下,你正準(zhǔn)備和朋友一起下國際象棋,但他并不是人類,而是一個不了解游戲規(guī)則的計算機(jī)程序。但這個應(yīng)用程序卻明白自己致力實現(xiàn)一個目標(biāo),就是在游戲中獲勝。?
因為計算機(jī)程序不知道規(guī)則,所以開始下棋的招數(shù)是隨機(jī)的。其中有些招數(shù)完全沒有意義,而對你來說獲勝很容易。在這里假設(shè)你非常喜歡和這個朋友下國際象棋,以至于沉迷于這個游戲。?
但計算機(jī)程序最終會獲勝,因為它會逐漸學(xué)會擊敗你的方法和招數(shù)。雖然假設(shè)的這個場景看起來有些牽強(qiáng),但它應(yīng)該能讓你對強(qiáng)化學(xué)習(xí)(機(jī)器學(xué)習(xí)的一個領(lǐng)域)的大致工作原理有一個基本的了解。 ?

強(qiáng)化學(xué)習(xí)到底有多智能? ?
人類智力包含許多特征,包括獲得知識、擴(kuò)展智力能力的愿望和直覺思維。當(dāng)國際象棋冠軍加里·卡斯帕羅夫在輸給IBM公司的一臺名為“深藍(lán)”(Deep Blue)的電腦時,人類的智能受到了很大的質(zhì)疑。除了吸引公眾的注意力之外,描繪機(jī)器人在未來統(tǒng)治人類的世界末日場景也占據(jù)了主流意識。?
然而,“深藍(lán)”并不是一個普通的對手。與這個計算程序下棋就像與一個千歲的老人進(jìn)行比賽,而他一生一直在不停地下國際象棋。但“深藍(lán)”擅長玩一種特定的游戲,而不是其他智力活動,如演奏樂器、撰寫著作、進(jìn)行科學(xué)實驗、撫養(yǎng)子女或修理汽車。?
這絕不是想貶低“深藍(lán)”所取得的成就。與其相反,計算機(jī)在智力能力上超越人類的想法需要仔細(xì)的檢驗,首先要分析強(qiáng)化學(xué)習(xí)的工作機(jī)制。?
強(qiáng)化學(xué)習(xí)是如何工作的?
如上所述,強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子集,它涉及智能代理在環(huán)境中如何行動以最大化累積獎勵的概念。?
簡單地說,強(qiáng)化學(xué)習(xí)機(jī)器人接受獎懲機(jī)制的訓(xùn)練,它們做出正確的動作會得到獎勵,做出錯誤的動作會受到懲罰。強(qiáng)化學(xué)習(xí)機(jī)器人不會“思考”如何采取更好的行動,它們只是讓所有的行動成為可能,以最大限度地提高成功的機(jī)會。?
強(qiáng)化學(xué)習(xí)的缺點?

強(qiáng)化學(xué)習(xí)的主要缺點是它需要采用大量的資源來實現(xiàn)它的目標(biāo)。強(qiáng)化學(xué)習(xí)在圍棋游戲中的成功就說明了這一點。這是一款流行的雙人游戲,其目標(biāo)是使用棋子在棋盤上占據(jù)最大區(qū)域,同時避免丟子。?
AlphaGo Master是一款在圍棋比賽中擊敗人類棋手的計算機(jī)程序,它耗費大量的資金和人力,其中包括許多工程師,非常豐富的游戲經(jīng)驗以及256個GPU和128000個CPU。?
在學(xué)習(xí)如何在比賽獲勝的過程中,需要投入大量的資源和精力。這就引出了一個問題:設(shè)計不能憑直覺思考的人工智能是否合理?人工智能研究不是應(yīng)該嘗試模仿人類智能嗎? ?
支持強(qiáng)化學(xué)習(xí)的一個論點是,人們不應(yīng)該期望人工智能系統(tǒng)像人類一樣行動,它用于解決復(fù)雜問題需要進(jìn)一步發(fā)展。另一方面,反對強(qiáng)化學(xué)習(xí)的觀點是,人工智能研究應(yīng)該專注于讓機(jī)器做目前只有人類和動物才有能力做的事情。從這個角度來看,人工智能與人類智能的比較是恰當(dāng)?shù)摹?/span>?
量子強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)是一個新興的領(lǐng)域,據(jù)說可以解決上述的一些問題。量子強(qiáng)化學(xué)習(xí)(QRL)是一種加速計算的方法。 ?
首先,量子強(qiáng)化學(xué)習(xí)(QRL)應(yīng)該通過優(yōu)化探索(發(fā)現(xiàn)策略)和開發(fā)(選擇最佳策略)階段來加速學(xué)習(xí)。目前的一些應(yīng)用和提出的量子計算改進(jìn)了數(shù)據(jù)庫搜索,將大數(shù)分解為質(zhì)數(shù),等等。 ?
盡管量子強(qiáng)化學(xué)習(xí)(QRL)還沒有以突破性的方式出現(xiàn),但它有望解決常規(guī)強(qiáng)化學(xué)習(xí)的一些重大挑戰(zhàn)。?
強(qiáng)化學(xué)習(xí)的業(yè)務(wù)案例?

正如以上提到的,強(qiáng)化學(xué)習(xí)研究和開發(fā)至關(guān)重要。以下是來自麥肯錫公司的一份調(diào)查報告中的有關(guān)強(qiáng)化學(xué)習(xí)的一些實際應(yīng)用示例,強(qiáng)化學(xué)習(xí)可以:?
- 優(yōu)化半導(dǎo)體和芯片設(shè)計,優(yōu)化制造工藝,提高半導(dǎo)體行業(yè)的產(chǎn)量。 ?
- 提高工廠產(chǎn)量,優(yōu)化物流以減少浪費和成本,提高農(nóng)業(yè)利潤。 ?
- 縮短航空航天和國防工業(yè)新系統(tǒng)的上市時間。 ?
- 優(yōu)化設(shè)計流程,提高汽車行業(yè)的生產(chǎn)效率。 ?
- 通過實時交易和定價策略增加收入,改善客戶體驗,并在金融服務(wù)中為客戶提供先進(jìn)的個性化服務(wù)。 ?
- 優(yōu)化礦山設(shè)計,管理發(fā)電,應(yīng)用整體物流調(diào)度,優(yōu)化作業(yè),降低成本,提高產(chǎn)量。 ?
- 通過實時監(jiān)測和精確鉆井提高產(chǎn)量,優(yōu)化油輪行進(jìn)路線,實現(xiàn)預(yù)測性維護(hù),防止油氣行業(yè)的設(shè)備故障。 ?
- 促進(jìn)藥物發(fā)現(xiàn),優(yōu)化研究流程,自動化生產(chǎn)和優(yōu)化制藥行業(yè)的生物方法。 ?
- 優(yōu)化供應(yīng)鏈,實施先進(jìn)的庫存建模,為零售部門的客戶提供先進(jìn)的個性化服務(wù)。 ?
- 優(yōu)化和管理網(wǎng)絡(luò),在電信行業(yè)應(yīng)用客戶個性化。 ?
- 優(yōu)化運(yùn)輸物流的路線、網(wǎng)絡(luò)規(guī)劃、倉庫操作。 ?
- 使用下一代代理從網(wǎng)站提取數(shù)據(jù)。 ?
強(qiáng)化學(xué)習(xí)的反思?
強(qiáng)化學(xué)習(xí)的能力可能是有限的,但它不會被高估。此外,隨著強(qiáng)化學(xué)習(xí)研究和開發(fā)項目的增加,幾乎每個經(jīng)濟(jì)部門的潛在用例也在增加。?
大規(guī)模采用強(qiáng)化學(xué)習(xí)依賴于幾個因素,其中包括優(yōu)化算法設(shè)計、配置學(xué)習(xí)環(huán)境和計算能力的可用性。?
原文標(biāo)題:??Is reinforcement learning overhyped???,作者:Aleksandras ?ul?enko?
































