偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="2zo5a"></thead>

<tr id="2zo5a"></tr>

<abbr id="2zo5a"></abbr><em id="2zo5a"></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

作者：楊熹 2017-07-18 10:16:27

移動開發(fā) 開發(fā)

今天來看看強(qiáng)化學(xué)習(xí)，不過不是要用它來玩游戲，而是覺得它在制造業(yè)，庫存，電商，廣告，推薦，金融，醫(yī)療等與我們生活息息相關(guān)的領(lǐng)域也有很好的應(yīng)用，當(dāng)然要了解一下了。

定義

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個重要分支，是多學(xué)科多領(lǐng)域交叉的一個產(chǎn)物，它的本質(zhì)是解決 decision making 問題，即自動進(jìn)行決策，并且可以做連續(xù)決策。

它主要包含四個元素，agent，環(huán)境狀態(tài)，行動，獎勵，強(qiáng)化學(xué)習(xí)的目標(biāo)就是獲得最多的累計獎勵。

讓我們以小孩學(xué)習(xí)走路來做個形象的例子：

小孩想要走路，但在這之前，他需要先站起來，站起來之后還要保持平衡，接下來還要先邁出一條腿，是左腿還是右腿，邁出一步后還要邁出下一步。

小孩就是 agent，他試圖通過采取行動（即行走）來操縱環(huán)境（行走的表面），并且從一個狀態(tài)轉(zhuǎn)變到另一個狀態(tài)（即他走的每一步），當(dāng)他完成任務(wù)的子任務(wù)（即走了幾步）時，孩子得到獎勵（給巧克力吃），并且當(dāng)他不能走路時，就不會給巧克力。

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

和監(jiān)督式學(xué)習(xí), 非監(jiān)督式學(xué)習(xí)的區(qū)別

在機(jī)器學(xué)習(xí)中，我們比較熟知的是監(jiān)督式學(xué)習(xí)，非監(jiān)督學(xué)習(xí)，此外還有一個大類就是強(qiáng)化學(xué)習(xí)：

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

強(qiáng)化學(xué)習(xí)和監(jiān)督式學(xué)習(xí)的區(qū)別：

監(jiān)督式學(xué)習(xí)就好比你在學(xué)習(xí)的時候，有一個導(dǎo)師在旁邊指點(diǎn)，他知道怎么是對的怎么是錯的，但在很多實際問題中，例如 chess，Go，這種有成千上萬種組合方式的情況，不可能有一個導(dǎo)師知道所有可能的結(jié)果。

而這時，強(qiáng)化學(xué)習(xí)會在沒有任何標(biāo)簽的情況下，通過先嘗試做出一些行為得到一個結(jié)果，通過這個結(jié)果是對還是錯的反饋，調(diào)整之前的行為，就這樣不斷的調(diào)整，算法能夠?qū)W習(xí)到在什么樣的情況下選擇什么樣的行為可以得到最好的結(jié)果。

就好比你有一只還沒有訓(xùn)練好的小狗，每當(dāng)它把屋子弄亂后，就減少美味食物的數(shù)量（懲罰），每次表現(xiàn)不錯時，就加倍美味食物的數(shù)量（獎勵），那么小狗最終會學(xué)到一個知識，就是把客廳弄亂是不好的行為。

兩種學(xué)習(xí)方式都會學(xué)習(xí)出輸入到輸出的一個映射，監(jiān)督式學(xué)習(xí)出的是之間的關(guān)系，可以告訴算法什么樣的輸入對應(yīng)著什么樣的輸出，強(qiáng)化學(xué)習(xí)出的是給機(jī)器的反饋 reward function，即用來判斷這個行為是好是壞。

另外強(qiáng)化學(xué)習(xí)的結(jié)果反饋有延時，有時候可能需要走了很多步以后才知道以前的某一步的選擇是好還是壞，而監(jiān)督學(xué)習(xí)做了比較壞的選擇會立刻反饋給算法。

而且強(qiáng)化學(xué)習(xí)面對的輸入總是在變化，每當(dāng)算法做出一個行為，它影響下一次決策的輸入，而監(jiān)督學(xué)習(xí)的輸入是獨(dú)立同分布的。

通過強(qiáng)化學(xué)習(xí)，一個 agent 可以在探索和開發(fā)（exploration and exploitation）之間做權(quán)衡，并且選擇一個最大的回報。

exploration 會嘗試很多不同的事情，看它們是否比以前嘗試過的更好。

exploitation 會嘗試過去經(jīng)驗中最有效的行為。

一般的監(jiān)督學(xué)習(xí)算法不考慮這種平衡，就只是是 exploitative。

強(qiáng)化學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的區(qū)別：

非監(jiān)督式不是學(xué)習(xí)輸入到輸出的映射，而是模式。例如在向用戶推薦新聞文章的任務(wù)中，非監(jiān)督式會找到用戶先前已經(jīng)閱讀過類似的文章并向他們推薦其一，而強(qiáng)化學(xué)習(xí)將通過向用戶先推薦少量的新聞，并不斷獲得來自用戶的反饋，最后構(gòu)建用戶可能會喜歡的文章的“知識圖”。

主要算法和分類

從強(qiáng)化學(xué)習(xí)的幾個元素的角度劃分的話，方法主要有下面幾類：

Policy based, 關(guān)注點(diǎn)是找到最優(yōu)策略。

Value based, 關(guān)注點(diǎn)是找到最優(yōu)獎勵總和。

Action based, 關(guān)注點(diǎn)是每一步的最優(yōu)行動。

我們可以用一個最熟知的旅行商例子來看，

我們要從 A 走到 F，每兩點(diǎn)之間表示這條路的成本，我們要選擇路徑讓成本越低越好：

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

那么幾大元素分別是：

states ，就是節(jié)點(diǎn) {A, B, C, D, E, F}

action ，就是從一點(diǎn)走到下一點(diǎn) {A -> B, C -> D, etc}

reward function ，就是邊上的 cost

policy，就是完成任務(wù)的整條路徑 {A -> C -> F}

有一種走法是這樣的，在 A 時，可以選的 (B, C, D, E)，發(fā)現(xiàn) D 最優(yōu)，就走到 D，此時，可以選的 (B, C, F)，發(fā)現(xiàn) F 最優(yōu)，就走到 F，此時完成任務(wù)。

這個算法就是強(qiáng)化學(xué)習(xí)的一種，叫做 epsilon greedy，是一種 Policy based 的方法，當(dāng)然了這個路徑并不是最優(yōu)的走法。

此外還可以從不同角度使分類更細(xì)一些：

如下圖所示的四種分類方式，分別對應(yīng)著相應(yīng)的主要算法：

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

Model-free：不嘗試去理解環(huán)境, 環(huán)境給什么就是什么，一步一步等待真實世界的反饋, 再根據(jù)反饋采取下一步行動。

Model-based：先理解真實世界是怎樣的, 并建立一個模型來模擬現(xiàn)實世界的反饋，通過想象來預(yù)判斷接下來將要發(fā)生的所有情況，然后選擇這些想象情況中最好的那種，并依據(jù)這種情況來采取下一步的策略。它比 Model-free 多出了一個虛擬環(huán)境，還有想象力。

Policy based：通過感官分析所處的環(huán)境, 直接輸出下一步要采取的各種動作的概率, 然后根據(jù)概率采取行動。

Value based：輸出的是所有動作的價值, 根據(jù)最高價值來選動作，這類方法不能選取連續(xù)的動作。

Monte-carlo update：游戲開始后, 要等待游戲結(jié)束, 然后再總結(jié)這一回合中的所有轉(zhuǎn)折點(diǎn), 再更新行為準(zhǔn)則。

Temporal-difference update：在游戲進(jìn)行中每一步都在更新, 不用等待游戲的結(jié)束, 這樣就能邊玩邊學(xué)習(xí)了。

On-policy：必須本人在場, 并且一定是本人邊玩邊學(xué)習(xí)。

Off-policy：可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學(xué)習(xí)別人的行為準(zhǔn)則。

主要算法有下面幾種，今天先只是簡述：

1. Sarsa

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

Q 為動作效用函數(shù)（action-utility function），用于評價在特定狀態(tài)下采取某個動作的優(yōu)劣，可以將之理解為智能體（Agent）的大腦。

SARSA 利用馬爾科夫性質(zhì)，只利用了下一步信息, 讓系統(tǒng)按照策略指引進(jìn)行探索，在探索每一步都進(jìn)行狀態(tài)價值的更新，更新公式如下所示：

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

s 為當(dāng)前狀態(tài)，a 是當(dāng)前采取的動作，s’ 為下一步狀態(tài)，a’ 是下一個狀態(tài)采取的動作，r 是系統(tǒng)獲得的獎勵， α 是學(xué)習(xí)率， γ 是衰減因子。

2. Q learning

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

Q Learning 的算法框架和 SARSA 類似, 也是讓系統(tǒng)按照策略指引進(jìn)行探索，在探索每一步都進(jìn)行狀態(tài)價值的更新。關(guān)鍵在于 Q Learning 和 SARSA 的更新公式不一樣，Q Learning 的更新公式如下：

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

3. Policy Gradients

系統(tǒng)會從一個固定或者隨機(jī)起始狀態(tài)出發(fā)，策略梯度讓系統(tǒng)探索環(huán)境，生成一個從起始狀態(tài)到終止?fàn)顟B(tài)的狀態(tài)-動作-獎勵序列，s1,a1,r1,.....,sT,aT,rT，在第 t 時刻，我們讓 gt=rt+γrt+1+... 等于 q(st,a) ，從而求解策略梯度優(yōu)化問題。

4. Actor-Critic

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

算法分為兩個部分：Actor 和 Critic。Actor 更新策略， Critic 更新價值。Critic 就可以用之前介紹的 SARSA 或者 Q Learning 算法。

5. Monte-carlo learning

用當(dāng)前策略探索產(chǎn)生一個完整的狀態(tài)-動作-獎勵序列:

s1,a1,r1,....,sk,ak,rk～π

在序列第一次碰到或者每次碰到一個狀態(tài) s 時，計算其衰減獎勵:

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

最后更新狀態(tài)價值:

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

6. Deep-Q-Network

DQN 算法的主要做法是 Experience Replay，將系統(tǒng)探索環(huán)境得到的數(shù)據(jù)儲存起來，然后隨機(jī)采樣樣本更新深度神經(jīng)網(wǎng)絡(luò)的參數(shù)。它也是在每個 action 和 environment state 下達(dá)到最大回報，不同的是加了一些改進(jìn)，加入了經(jīng)驗回放和決斗網(wǎng)絡(luò)架構(gòu)。

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

應(yīng)用舉例

強(qiáng)化學(xué)習(xí)有很多應(yīng)用，除了無人駕駛，AlphaGo，玩游戲之外，還有下面這些工程中實用的例子：

1. Manufacturing

例如一家日本公司 Fanuc，工廠機(jī)器人在拿起一個物體時，會捕捉這個過程的視頻，記住它每次操作的行動，操作成功還是失敗了，積累經(jīng)驗，下一次可以更快更準(zhǔn)地采取行動。

開發(fā)者自述：我是這樣理解強(qiáng)化學(xué)習(xí)的

2. Inventory Management

在庫存管理中，因為庫存量大，庫存需求波動較大，庫存補(bǔ)貨速度緩慢等阻礙使得管理是個比較難的問題，可以通過建立強(qiáng)化學(xué)習(xí)算法來減少庫存周轉(zhuǎn)時間，提高空間利用率。

3. Dynamic pricing

強(qiáng)化學(xué)習(xí)中的 Q-learning 可以用來處理動態(tài)定價問題。

4. Customer Delivery

制造商在向各個客戶運(yùn)輸時，想要在滿足客戶的所有需求的同時降低車隊總成本。通過 multi-agents 系統(tǒng)和 Q-learning，可以降低時間，減少車輛數(shù)量。

5. ECommerce Personalization

在電商中，也可以用強(qiáng)化學(xué)習(xí)算法來學(xué)習(xí)和分析顧客行為，定制產(chǎn)品和服務(wù)以滿足客戶的個性化需求。

6. Ad Serving

例如算法 LinUCB （屬于強(qiáng)化學(xué)習(xí)算法 bandit 的一種算法），會嘗試投放更廣范圍的廣告，盡管過去還沒有被瀏覽很多，能夠更好地估計真實的點(diǎn)擊率。

再如雙 11 推薦場景中，阿里巴巴使用了深度強(qiáng)化學(xué)習(xí)與自適應(yīng)在線學(xué)習(xí)，通過持續(xù)機(jī)器學(xué)習(xí)和模型優(yōu)化建立決策引擎，對海量用戶行為以及百億級商品特征進(jìn)行實時分析，幫助每一個用戶迅速發(fā)現(xiàn)寶貝，提高人和商品的配對效率。還有，利用強(qiáng)化學(xué)習(xí)將手機(jī)用戶點(diǎn)擊率提升了 10-20%。

7. Financial Investment Decisions

例如這家公司 Pit.ai，應(yīng)用強(qiáng)化學(xué)習(xí)來評價交易策略，可以幫助用戶建立交易策略，并幫助他們實現(xiàn)其投資目標(biāo)。

8. Medical Industry

動態(tài)治療方案（DTR）是醫(yī)學(xué)研究的一個主題，是為了給患者找到有效的治療方法。例如癌癥這種需要長期施藥的治療，強(qiáng)化學(xué)習(xí)算法可以將患者的各種臨床指標(biāo)作為輸入來制定治療策略。

學(xué)習(xí)資料

上面簡單地介紹了強(qiáng)化學(xué)習(xí)的概念，區(qū)別，主要算法，下面是一些學(xué)習(xí)資源，供參考：

Udacity 課程：Machine Learning: Reinforcement Learning，Reinforcement Learning；
經(jīng)典教科書：Sutton & Barto Textbook: Reinforcement Learning: An Introduction 被引用2萬多次

http://t.cn/Raif2sl
UC Berkeley開發(fā)的經(jīng)典的入門課程作業(yè)－編程玩“吃豆人”游戲：Berkeley Pac-Man Project (CS188 Intro to AI)
Stanford開發(fā)的入門課程作業(yè)－簡化版無人車駕駛：Car Tracking (CS221 AI: Principles and Techniques)
5.CS 294: Deep Reinforcement Learning, Fall 2015 CS 294 Deep Reinforcement Learning, Fall 2015。
David Silver強(qiáng)化學(xué)習(xí)：

http://t.cn/Rw0rwtU

參考文章

http://www.jianshu.com/p/14625de78455

http://www.jianshu.com/p/2100cc577a46

https://www.marutitech.com/businesses-reinforcement-learning/

https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/

https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/4-02-RL-methods/

https://www.zhihu.com/question/41775291

http://www.algorithmdog.com/reinforcement-learning-model-free-learning

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。本文作者楊熹，原文來自個人博客。

責(zé)任編輯：張子龍來源：雷鋒網(wǎng)

強(qiáng)化學(xué)習(xí)決策問題監(jiān)督學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<samp id="4xkiy"></samp>

<menuitem id="4xkiy"><ul id="4xkiy"></ul></menuitem>

<pre id="4xkiy"><button id="4xkiy"><mark id="4xkiy"></mark></button></pre>