偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

幾行代碼實現強化學習

作者：機器學習與數據分析 2020-08-10 06:36:21

人工智能機器學習

本文的目的是讓您快速使用一些簡潔的程序包，以便您可以輕松地開始學習強化學習。有關如何實施SOTA深度強化學習算法的深入教程，請參閱此內容。

在過去的一年中，強化學習已經取得了重大進步，最新技術每兩個月發(fā)布一次。我們已經看到AlphaGo擊敗了世界冠軍圍棋選手Ke Jie，Multi-Agents玩了捉迷藏，甚至AlphaStar在星際爭霸中也擁有自己的實力。

實施這些算法可能會非常具有挑戰(zhàn)性，因為它需要對深度學習和強化學習都有很好的理解。本文的目的是讓您快速使用一些簡潔的程序包，以便您可以輕松地開始學習強化學習。

有關如何實施SOTA深度強化學習算法的深入教程，請參閱此內容。強烈推薦您仔細閱讀!

一、環(huán)境

在開始實現這些算法之前，我們首先需要創(chuàng)建一個工作環(huán)境，即游戲。對于算法而言，重要的是要了解什么是動作和觀察空間。為此，我們將介紹幾個可用于選擇有趣環(huán)境的軟件包。

1. Gym

Gym是用于開發(fā)和比較強化學習算法的工具包。它通常用于實驗和研究目的，因為它提供了一個易于使用的界面來處理環(huán)境。

只需使用以下命令安裝軟件包：

pip install gym

之后，您可以使用以下代碼創(chuàng)建環(huán)境：

import gym 
env = gym.make(‘CartPole-v0’)

在 CartPole 環(huán)境中，您的任務是防止頭連接到推車的電線桿掉落。

env變量包含有關環(huán)境(游戲)的信息。要了解CartPole的操作空間是什么，只需運行env.action_space即可產生Discrete(2)。這意味著可能有兩個離散的動作。要查看觀察空間，請運行env.observation_space，它產生Box(4)。此框代表 n(4)個封閉間隔的笛卡爾積。

要渲染游戲，請運行以下代碼：

import gym 
env = gym.make('CartPole-v0') 
 
obs = env.reset() 
while True: 
    action = env.action_space.sample() 
    obs, rewards, done, info = env.step(action) 
    env.render() 
 
    if done: 
        break

我們可以看到，如果我們選擇采取隨機行動，則小車車一直在失敗。最終，目標將是運行強化學習算法，該算法將學習如何解決此問題。

有關Gym中環(huán)境的完整列表，請參閱此。

注意：如果您在運行atari(阿塔利)游戲時遇到問題，請參見內容：https://github.com/openai/gym/issues/1726。

2. Retro

創(chuàng)建有趣的環(huán)境的另一個選項是使用Retro。該軟件包由OpenAI開發(fā)，可讓您使用ROMS來模擬Airstriker-Genesis之類的游戲。

只需使用以下命令安裝軟件包：

pip install gym-retro

然后，我們可以使用以下方法創(chuàng)建和查看環(huán)境：

import retro 
env = retro.make(game='Airstriker-Genesis')

同樣，要渲染游戲，請運行以下代碼：

import retro 
env = retro.make(game='Airstriker-Genesis') 
 
obs = env.reset() 
while True: 
    action = env.action_space.sample() 
    obs, rewards, done, info = env.step(action) 
    env.render() 
 
    if done: 
        break

幾行代碼實現強化學習

要安裝ROMS，您需要找到相應的.sha文件，然后運行：

python3 -m retro.import /path/to/your/ROMs/directory/

注意：有關易于使用的環(huán)境的完整列表，請運行：

retro.data.list_games()

3. Procgen

強化學習的一個典型問題是，生成的算法通?？梢栽谔囟ōh(huán)境下很好地工作，但無法學習任何可通用的技能。例如，如果我們要改變游戲的外觀或敵人的反應該怎么辦?

為了解決這個問題，OpenAI開發(fā)了一個名為Procgen的軟件包，該軟件包允許創(chuàng)建過程生成的環(huán)境。我們可以使用此軟件包來衡量強化學習代理學習通用技能的速度。

渲染游戲非常簡單：

import gym 
param = {"num_levels": 1, "distribution_mode": "hard"} 
env = gym.make("procgen:procgen-leaper-v0", **param) 
 
obs = env.reset() 
while True: 
    action = env.action_space.sample() 
    obs, rewards, done, info = env.step(action) 
    env.render() 
 
    if done: 
        break

這將生成可在其上訓練算法的單個級別。有幾個選項可用于以程序方式生成同一環(huán)境的許多不同版本：

num_levels-可以生成的唯一級別數
distribution_mode-使用哪種級別的變量，選項為"easy簡單"，"hard難"，"extreme極致"，"memory記憶"，"exploration探索"。所有游戲都支持“易”和“難”，而其他選項則取決于游戲。

二、強化學習

現在，終于是時候進行實際的強化學習了。盡管有許多可用的軟件包可用于訓練算法，但由于它們的可靠實現，我將主要研究“穩(wěn)定Baselines ”。

請注意，我不會在此帖子中解釋RL算法的實際工作方式，因為這本身就需要一個全新的帖子。有關最新算法(例如PPO，SAC和TD3)的概述，請參見內容：

https://github.com/dennybritz/reinforcement-learning。

1. 穩(wěn)定的基線(穩(wěn)定Baselines)

穩(wěn)定基準(SB)是基于OpenAI基準的，旨在使研究社區(qū)和行業(yè)更容易復制，改進和識別新想法。他們在“基線”上進行了改進，使之成為一個更穩(wěn)定，更簡單的工具，使初學者可以嘗試進行“強化學習”，而不會陷入實施細節(jié)中。

SB之所以經常使用，是因為它可以輕松，快速地應用最新的強化學習算法。此外，創(chuàng)建和訓練RL模型只需要幾行代碼。

安裝可以簡單地通過以下方式完成：pip install stable-baselines。然后，為了創(chuàng)建和學習RL模型(例如PPO2)，我們運行以下代碼行：

from stable_baselines import PPO2 
from stable_baselines.common.policies import MlpPolicy 
model = PPO2(MlpPolicy, env, verbose=1) 
model.learn(total_timesteps=10_000, log_interval=10)

有些事情可能需要一些解釋：

total_timesteps：要訓練的樣本總數
MlpPolicy：實現actor-critic的Policy對象。在這種情況下，將使用2層64層的多層感知器。還有視覺信息策略，例如CnnPolicy甚至CnnLstmPolicy

為了將此模型應用于CartPole示例，我們需要將環(huán)境包裝在Dummy中，以使其可供SB使用。然后，在CartPole環(huán)境中訓練PPO2的完整示例如下：

from stable_baselines.common.policies import MlpPolicy 
from stable_baselines.common.vec_env import DummyVecEnv 
from stable_baselines import PPO2 
import gym 
 
env = gym.make('CartPole-v0') 
env = DummyVecEnv([lambda: env]) 
 
model = PPO2(MlpPolicy, env, verbose=1) 
model.learn(total_timesteps=50_000, log_interval=10) 
 
obs = env.reset() 
while True: 
    action, _states = model.predict(obs) 
    obs, rewards, dones, info = env.step(action) 
    env.render()

如上圖所示，PPO2僅用50,000步就設法找到一種保持極點穩(wěn)定的方法。這只需要幾行代碼和幾分鐘的處理!

如果要將其應用于Procgen或Retro，請確保選擇一個允許基于卷積的網絡的策略，因為觀察空間很可能是環(huán)境當前狀態(tài)的圖像。

最后，CartPole示例非常簡單，僅需訓練50,000步即可。大多數其他環(huán)境在顯示出顯著改進之前通常需要執(zhí)行幾千萬步。

注意：《穩(wěn)定基準》的作者警告初學者在產品中使用該軟件包之前，對強化學習要有很好的了解。強化學習有許多關鍵組成部分，如果其中任何一個出現錯誤，該算法將失敗，并且可能會留下很少的解釋。

2. 其他軟件包

還有其他一些常用于應用RL算法的軟件包：

TF-Agents-比穩(wěn)定基線需要更多的編碼，但通常是強化學習研究的必備軟件包。
MinimalRL-在Pytorch中以非常少的代碼實現的最新RL算法。它絕對有助于理解算法。
DeepRL-Pytorch的另一種實現，但是此版本還具有實現要使用的其他環(huán)境。
MlAgents-一個開放源代碼的Unity插件，使游戲和模擬可用作培訓代理的環(huán)境。

三、結論

強化學習可能是一個棘手的課題，因為很難調試代碼中是否以及何時出現問題。希望這篇文章可以幫助您開始進行強化學習。

責任編輯：趙寧寧來源：今日頭條

強化學習代碼深度學習

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tr id="z1u6d"><dfn id="z1u6d"></dfn></tr>

<cite id="z1u6d"></cite>

<sup id="z1u6d"></sup><cite id="z1u6d"></cite>

<legend id="z1u6d"><track id="z1u6d"></track></legend>

<blockquote id="z1u6d"></blockquote>