偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

新聞 深度學習
OpenAI 發(fā)布了 Spinning Up,這是一份教學資源,旨在讓所有人熟練掌握深度強化學習方面的技能。

 OpenAI 發(fā)布了 Spinning Up,這是一份教學資源,旨在讓所有人熟練掌握深度強化學習方面的技能。Spinning Up 包含清晰的 RL 代碼示例、習題、文檔和教程。

在項目主頁中,OpenAI 提供了非常完整的使用教程,包括 Spinning Up 的詳細介紹、各種環(huán)境下的安裝方法、收錄的算法,以及實驗實現(xiàn)的教程等。除此之外,OpenAI 也提供了豐厚的學習資料,包括強化學習的入門基礎(chǔ)、結(jié)合 Spinning Up 學習 RL 的課程、論文推薦、實驗練習和基準結(jié)果參考等。給人的***印象就是,要想在深度強化學習上從 Zero 到 Hero,天天逛這個網(wǎng)站就夠了~

項目地址:https://spinningup.openai.com/en/latest/

在 Deep RL 中邁出***步

[[249339]]

OpenAI 相信深度學習——特別是深度強化學習——將在強大是 AI 技術(shù)發(fā)展中發(fā)揮核心作用。雖然有很多資源可以讓人們快速了解深度學習,但深度強化學習更具挑戰(zhàn)性。為此,OpenAI 設(shè)計了 Spinning Up 來幫助人們學會使用這些技術(shù)并擴展關(guān)于它們的一些想法。

OpenAI 設(shè)計 Spinning Up 的靈感來源于與該機構(gòu)學者和研究員的合作,通過該合作,他們發(fā)現(xiàn),如果獲得正確的指導和資源,在機器學習方面經(jīng)驗甚少甚至沒有經(jīng)驗的人也可以快速成長為從業(yè)者。在 Deep RL 中開發(fā)的 Spinning Up 正是為這種需求準備的,該資源已被納入了 2019 年的學者和研究員團隊課程(https://blog.openai.com/openai-scholars-2019/)。

[[249340]]

OpenAI 還發(fā)現(xiàn),具有 RL 方面的能力可以幫助人們參與跨學科研究領(lǐng)域,如 AI 安全——涉及強化學習和其它技能的混合。還有很多從零開始學習 RL 的人向 OpenAI 尋求建議,因此他們決定把提供的這些非正式建議正式發(fā)布出來。

Spinning Up 主要包含以下核心內(nèi)容:

  • 強化學習技術(shù)的簡介,包含各種算法和基本理論的直觀理解;
  • 一些介紹如何才能做好強化學習研究的經(jīng)驗;
  • 重要論文的實現(xiàn),按照主題進行分類;
  • 各種強化學習算法的單獨實現(xiàn),它們都有非常完善的介紹文檔;
  • ***還會有一些熱身練習題。

整個項目主要可以分為用戶文檔、強化學習簡介、資源、算法文檔和 Utilities 文檔。其中用戶文檔主要介紹了學習該項目所需要的一些準備,包括怎樣安裝 Python 和 OpenAI Gym 等強化學習環(huán)境,學習資源的主要內(nèi)容以及實戰(zhàn)所需要注意的事項等。

在強化學習簡介中,OpenAI 主要討論了 RL 中的關(guān)鍵概念、關(guān)鍵算法和策略優(yōu)化等內(nèi)容。根據(jù)這一部分的內(nèi)容,至少我們會對強化學習有一個清晰的認識,也就正式從小白到入門了。簡介后面的資源章節(jié)才是進階者的***,OpenAI 會先介紹如何才能做好強化學習研究,包括需要怎樣的背景知識、如何寫 RL 代碼及思考強化學習問題等。當然這一部分還提供了非常多的「硬資源」,OpenAI 按照 12 大研究主題提供了 98 篇「必讀」論文,并提供了其它一些練習題與挑戰(zhàn)賽。

估計等讀者搞定資源部分,就可以成為真正的強化學習研究者了。當然我們也可以跳過直接學習第三部分的算法文檔,它包含了策略梯度、策略優(yōu)化和 Actor-Critic 等多種主流強化學習算法。只要我們完成了***部分的前提準備,第三部分的各種算法就能手到擒來。此外對于每一個 RL 算法,文檔都會提供全面的介紹,包括基本思想、公式定理、模型組件和參數(shù)等。

支持

該項目具有以下支持計劃:

  • 高帶寬軟件支持期:發(fā)布后的前三周,OpenAI 將快速處理 bug 修復、安裝問題,以及解決文檔中的錯誤和歧義。我們將努力簡化用戶體驗,使用 Spinning Up 自學變得盡可能簡單。
  • 2019 年 4 月的主要審查:發(fā)布約六個月后,OpenAI 將基于從學習社區(qū)收到的反饋認真審查軟件包的狀態(tài),并宣布任何未來修改的計劃。
  • 內(nèi)部開發(fā)的公開發(fā)布:如果 OpenAI 在與學者和研究員一起工作時,對 Deep RL 中的 Spinning Up 進行了修改,OpenAI 會將修改發(fā)至公共報告,并立即向所有人開放。

OpenAI 還將與其它組織合作來幫助人們學會使用這些材料。他們的***個合作伙伴是加州大學伯克利分校的 Center for Human-Compatible AI (CHAI),并將在 2019 年初合作舉辦一個關(guān)于深度 RL 的研修班,類似于計劃在 OpenAI 舉辦的 Spinning Up 研修班。

Hello World

感受深度強化學習算法表現(xiàn)如何的***方式就是運行它們。而有了 Spinning Up,這變得非常簡單:

python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

在訓練結(jié)束時,你將獲得關(guān)于如何從實驗中查看數(shù)據(jù)以及觀看訓練智能體視頻的指導。

Spinning Up 實現(xiàn)與 Classic Control、Box2D 和 MuJoCo 任務(wù)套件中的 Gym 環(huán)境兼容。

考慮到新學者,我們?yōu)?Spinning Up 設(shè)計了代碼,使其更短、更友好,也更加容易學習。我們的目標是用最小的實現(xiàn)來演示理論如何變成代碼,避免深度強化學習庫中常見的抽象層和模糊層。我們傾向于清晰化而不是模塊化——實現(xiàn)之間的代碼重用嚴格受限于日志和并行實用程序。給代碼加注釋,這樣你就總能知道事情的進展,并在相應(yīng)的文檔頁面上得到背景材料(和偽代碼)的支持。

學習資源概覽

在整個項目中,強化學習簡介部分和算法部分可能是很多數(shù)讀者都非常感興趣的章節(jié),下面主要介紹了這兩部分包含的內(nèi)容。首先在強化學習簡介中,關(guān)鍵概念是必須解釋清楚的:

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源
  • 狀態(tài)和觀察值;
  • 動作空間;
  • 策略;
  • 軌跡;
  • 不同形式化的獎勵;
  • RL ***化問題;
  • 值函數(shù)。

在關(guān)鍵概念之后,OpenAI 詳細介紹了各種強化學習算法及技術(shù)在整體所處的位置。如下所示,強化學習也是個桃李滿天下的大家族:

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

***在強化學習簡介部分,OpenAI 還重點介紹了策略優(yōu)化,這一部分有挺多推導的,尤其是梯度的推導。不過好消息是這些推導都給出了詳細的過程,包括變換、消元和一些對數(shù)技巧等。讀者可以感受下推導過程:

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

此外在算法章節(jié),Spinning Up 還收錄了很多重要的強化學習算法,在項目頁上也給出了各個算法的詳細介紹和調(diào)用方法。

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

Spinning Up 收錄的算法。

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

比如策略梯度算法,如上圖所示,文檔中會給出關(guān)鍵的方程、偽代碼、使用方法以及參考文獻。

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

策略梯度算法的有限時域未折扣回報的梯度期望,以及策略參數(shù)的梯度更新方法。

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

策略梯度算法的偽代碼。

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

策略梯度算法的調(diào)用函數(shù),我們可以看到,Spinning Up 提供的函數(shù)調(diào)用可以直接設(shè)置參數(shù)。文檔還提供了詳細的參數(shù)解釋。

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

策略梯度算法的參考文獻。

Spinning Up 提供了 MuJoCo Gym 任務(wù)套件的 5 個環(huán)境下的算法實現(xiàn)基準,包括 HalfCheetah、Hopper、Walker2d、Swimmer、Ant。

從Zero到Hero,OpenAI重磅發(fā)布深度強化學習資源

HalfCheetah-2 環(huán)境下訓練 3 百萬時間步的基準結(jié)果。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強化學習DQN

2017-11-28 15:20:27

Python語言編程

2017-10-18 17:16:59

ZeroHeroPython

2017-08-17 09:15:23

強化學習KerasOpenAI

2021-09-17 15:54:41

深度學習機器學習人工智能

2017-03-27 16:35:23

2022-07-11 11:14:47

強化學習AI基于模型

2017-03-28 10:15:07

2017-07-25 16:04:31

概念應(yīng)用強化學習

2020-05-06 16:07:05

百度飛槳

2024-09-13 06:32:25

2021-09-26 13:50:52

AI 數(shù)據(jù)強化學習

2025-02-03 06:00:00

2022-05-31 10:45:01

深度學習防御

2020-05-12 07:00:00

深度學習強化學習人工智能

2023-12-03 22:08:41

深度學習人工智能

2022-09-04 14:38:00

世界模型建模IRIS

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2023-08-05 13:08:54

2023-01-04 10:02:53

強化學習自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號