偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<li id="frhxp"><dl id="frhxp"></dl></li>

<button id="frhxp"><tbody id="frhxp"><strike id="frhxp"></strike></tbody></button>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

「多巴胺」來襲！谷歌推出新型強(qiáng)化學(xué)習(xí)框架Dopamine

作者：佚名 2018-08-29 08:13:22

新聞人工智能

谷歌發(fā)布博客介紹其最新推出的強(qiáng)化學(xué)習(xí)新框架 Dopamine，該框架基于TensorFlow，可提供靈活性、穩(wěn)定性、復(fù)現(xiàn)性，以及快速的基準(zhǔn)測(cè)試。

谷歌發(fā)布博客介紹其最新推出的強(qiáng)化學(xué)習(xí)新框架 Dopamine，該框架基于TensorFlow，可提供靈活性、穩(wěn)定性、復(fù)現(xiàn)性，以及快速的基準(zhǔn)測(cè)試。

GitHub repo： https://github.com/google/dopamine

在過去幾年里，強(qiáng)化學(xué)習(xí)研究取得了多方面的顯著進(jìn)展。這些進(jìn)展使得智能體能夠以超越人類的水平玩游戲，其中比較可圈可點(diǎn)的例子包括：DeepMind 的 DQN 在 Atari 游戲上的表現(xiàn)、AlphaGo、AlphaGoZero 以及 Open AI Five。具體來說，在 DQN 中引入重播記憶（replay memory）使得智能體能夠利用先前的經(jīng)驗(yàn)，大規(guī)模分布式訓(xùn)練使得智能體能夠?qū)W(xué)習(xí)過程分配給多個(gè)工作線程（worker），分布式方法使得智能體能夠建模完整的分布，而不僅僅是它們的期望值，從而了解它們所在環(huán)境的完整情況。這種進(jìn)步非常重要，因?yàn)樗惴ù呱倪@些進(jìn)展還可用于其他領(lǐng)域，如機(jī)器人學(xué)。

通常來講，取得此類進(jìn)展需要在設(shè)計(jì)上進(jìn)行快速迭代（通常沒有明確的方向），打破已有方法的結(jié)構(gòu)。然而，多數(shù)現(xiàn)有強(qiáng)化學(xué)習(xí)框架并不同時(shí)具備可讓研究者高效迭代 RL 方法的靈活性和穩(wěn)定性，因此探索新的研究方向可能短期內(nèi)無法獲得明顯的收益。再者，復(fù)現(xiàn)現(xiàn)有框架的結(jié)果通常太過耗時(shí)，可能會(huì)導(dǎo)致科學(xué)復(fù)現(xiàn)性問題。

今天，谷歌介紹了一款基于TensorFlow的新框架，旨在為強(qiáng)化學(xué)習(xí)研究者及相關(guān)人員提供具備靈活性、穩(wěn)定性及復(fù)現(xiàn)性的工具。該框架的靈感來自于大腦中獎(jiǎng)勵(lì)–激勵(lì)行為的主要組成部分「多巴胺」（Dopamine），這反映了神經(jīng)科學(xué)和強(qiáng)化學(xué)習(xí)研究之間的密切聯(lián)系，該框架旨在支持能夠推動(dòng)重大發(fā)現(xiàn)的推測(cè)性研究。谷歌還發(fā)布了一組相關(guān)的 Colab（ https://github.com/google/dopamine/blob/master/dopamine/colab/README.md ），以說明該框架的使用方法。

易用性

清晰性（clarity）和簡(jiǎn)明性（simplicity）是該框架設(shè)計(jì)過程中的兩個(gè)關(guān)鍵考量因素。谷歌提供的代碼很緊湊（大約 15 個(gè) Python 文件）且記錄良好。原因在于谷歌研究人員專注于街機(jī)模式學(xué)習(xí)環(huán)境（ALE，一個(gè)成熟、已被充分了解的基準(zhǔn)）和四個(gè)基于價(jià)值的智能體：DQN、C51、精心設(shè)計(jì)的 Rainbow 智能體簡(jiǎn)化版和 Implicit Quantile Network 智能體（上個(gè)月才在 ICML 大會(huì)上得到展示）。谷歌希望這一簡(jiǎn)明性特點(diǎn)可使研究者容易理解智能體的內(nèi)在工作原理，快速嘗試新想法。

復(fù)現(xiàn)性

谷歌非?？粗貜?qiáng)化學(xué)習(xí)研究中的復(fù)現(xiàn)性。因此，谷歌提供了其代碼的完整測(cè)試；這些測(cè)試見文檔附表。此外，谷歌的實(shí)驗(yàn)框架遵循 Machado 等人（2018）關(guān)于利用 ALE 標(biāo)準(zhǔn)化經(jīng)驗(yàn)評(píng)估的推薦方法。

基準(zhǔn)測(cè)試

對(duì)于新研究者來說，對(duì)自己的想法進(jìn)行快速的基準(zhǔn)測(cè)試是非常重要的。谷歌提供四個(gè)智能體的完整訓(xùn)練數(shù)據(jù)，包括 ALE 支持的 60 個(gè)游戲，格式為 Python pickle 文件（對(duì)于使用谷歌框架訓(xùn)練的智能體）和 JSON 數(shù)據(jù)文件（用于對(duì)比其他框架訓(xùn)練的智能體）。谷歌還提供了一個(gè)網(wǎng)站，研究者可以使用該網(wǎng)站對(duì)所有提供智能體在所有 60 個(gè)游戲中的訓(xùn)練運(yùn)行進(jìn)行快速可視化。下圖即谷歌的 4 個(gè)智能體在 Seaquest 上的訓(xùn)練運(yùn)行（Seaquest 是 ALE 支持的 Atari 2600 游戲之一）。

谷歌的 4 個(gè)智能體在 Seaquest 上的訓(xùn)練運(yùn)行。x 軸表示迭代，每個(gè)迭代是一百萬個(gè)游戲幀（實(shí)時(shí)游戲 4.5 小時(shí)）；y 軸是每次游戲獲取的平均分。陰影區(qū)域表示 5 個(gè)獨(dú)立運(yùn)行的置信區(qū)間。

谷歌還提供利用這些智能體訓(xùn)練的深度網(wǎng)絡(luò)、原始統(tǒng)計(jì)日志以及用于 Tensorboard 可視化的TensorFlow事件文件。

相關(guān)地址： https://github.com/google/dopamine/tree/master/docs#downloads

谷歌希望其框架的靈活性和易用性能夠幫助研究者嘗試新想法。谷歌已經(jīng)在研究中使用了該框架，發(fā)現(xiàn)它可使很多想法快速迭代，具備很強(qiáng)的靈活性。谷歌期待看到社區(qū)使用這一框架。

責(zé)任編輯：張燕妮來源：機(jī)器之心

Google 學(xué)習(xí)框架技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<u id="zhprv"><form id="zhprv"></form></u><ruby id="zhprv"><thead id="zhprv"><tbody id="zhprv"></tbody></thead></ruby><ruby id="zhprv"></ruby>