偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI從零開(kāi)始學(xué)會(huì)玩《我的世界》，DeepMind AI通用化取得突破

作者：機(jī)器之心 2023-01-13 14:04:14

人工智能新聞

通用 AI 的重要里程碑。

通用智能需要解決多個(gè)領(lǐng)域的任務(wù)。人們認(rèn)為強(qiáng)化學(xué)習(xí)算法具有這種潛力，但它一直受到為新任務(wù)調(diào)整所需資源和知識(shí)的阻礙。在 DeepMind 的一項(xiàng)新研究中，研究人員展示了基于世界模型的通用可擴(kuò)展的算法 DreamerV3，它在具有固定超參數(shù)的廣泛領(lǐng)域中優(yōu)于以前的方法。

DreamerV3 符合的領(lǐng)域包括連續(xù)和離散動(dòng)作、視覺(jué)和低維輸入、2D 和 3D 世界、不同的數(shù)據(jù)量、獎(jiǎng)勵(lì)頻率和獎(jiǎng)勵(lì)等級(jí)。值得一提的是，DreamerV3 是第一個(gè)在沒(méi)有人類數(shù)據(jù)或主動(dòng)教育的情況下從零開(kāi)始在《我的世界》（Minecraft）中收集鉆石的算法。研究人員表示，這樣的通用算法可以使強(qiáng)化學(xué)習(xí)得到廣泛應(yīng)用，并有望擴(kuò)展到硬決策問(wèn)題。

鉆石是《我的世界》游戲中最受歡迎的物品之一，它是游戲中最稀有的物品之一，可被用來(lái)制作游戲中絕大多數(shù)最強(qiáng)的工具、武器以及盔甲。因?yàn)橹挥性谧钌畹膸r石層中才能找到鉆石，所以產(chǎn)量很低。

DreamerV3 是第一個(gè)在我的世界中收集鉆石的算法，無(wú)需人工演示或手動(dòng)制作課程。該視頻顯示了它收集的第一顆鉆石，發(fā)生在 30M 環(huán)境步數(shù) / 17 天游戲時(shí)間之內(nèi)。

如果你對(duì)于 AI 玩我的世界沒(méi)有什么概念，英偉達(dá) AI 科學(xué)家 Jim Fan 表示，和 AlphaGo 下圍棋比，我的世界任務(wù)數(shù)量是無(wú)限的，環(huán)境變化是無(wú)限的，知識(shí)也是有隱藏信息的。

對(duì)于人類來(lái)說(shuō)，在我的世界里探索和構(gòu)建是有趣的事，圍棋則顯得有些復(fù)雜，對(duì)于 AI 來(lái)說(shuō)，情況剛好相反。AlphaGo 在 6 年前擊敗了人類冠軍，但現(xiàn)在也沒(méi)有可以和我的世界人類高手媲美的算法出現(xiàn)。

早在 2019 年夏天，我的世界的開(kāi)發(fā)公司就提出了「鉆石挑戰(zhàn)」，懸賞可以在游戲里找鉆石的 AI 算法，直到 NeurIPS 2019 上，在提交的 660 多份參賽作品中，沒(méi)有一個(gè) AI 能勝任這項(xiàng)任務(wù)。

但 DreamerV3 的出現(xiàn)改變了這一現(xiàn)狀，鉆石是一項(xiàng)高度組合和長(zhǎng)期的任務(wù)，需要復(fù)雜的探索和規(guī)劃，新算法能在沒(méi)有任何人工數(shù)據(jù)輔助的情況下收集鉆石?；蛟S效率還有很大改進(jìn)空間，但 AI 智能體現(xiàn)在可以從頭開(kāi)始學(xué)習(xí)收集鉆石這一事實(shí)本身，是一個(gè)重要的里程碑。

DreamerV3 方法概述

論文《Mastering Diverse Domains through World Models》：

論文鏈接：https://arxiv.org/abs/2301.04104v1

DreamerV3 算法由三個(gè)神經(jīng)網(wǎng)絡(luò)組成，分別是世界模型（world model）、critic 和 actor。這三個(gè)神經(jīng)網(wǎng)絡(luò)在不共享梯度的情況下根據(jù)回放經(jīng)驗(yàn)同時(shí)訓(xùn)練，下圖 3（a）展示了世界模型學(xué)習(xí)，圖（b）展示了 Actor Critic 學(xué)習(xí)。

為了取得跨域成功，這些組件需要適應(yīng)不同的信號(hào)幅度，并在它們的目標(biāo)中穩(wěn)健地平衡項(xiàng)。這是具有挑戰(zhàn)性的，因?yàn)椴粌H針對(duì)同一領(lǐng)域內(nèi)的相似任務(wù)，而且還要使用固定超參數(shù)跨不同領(lǐng)域進(jìn)行學(xué)習(xí)。

DeepMind 首先解釋了用于預(yù)測(cè)未知數(shù)量級(jí)的簡(jiǎn)單變換，然后介紹了世界模型、critic、actor 以及它們的穩(wěn)健學(xué)習(xí)目標(biāo)。結(jié)果發(fā)現(xiàn)，結(jié)合 KL 平衡和自由位可以使世界模型無(wú)需調(diào)整學(xué)習(xí)，并且在不夸大小回報(bào)（small return）的情況下，縮小大回報(bào)實(shí)現(xiàn)了固定的策略熵正則化器。

Symlog 預(yù)測(cè)

重建輸入以及預(yù)測(cè)獎(jiǎng)勵(lì)和價(jià)值具有挑戰(zhàn)性，因?yàn)樗鼈兊囊?guī)模可能因領(lǐng)域而異。使用平方損失預(yù)測(cè)大目標(biāo)會(huì)導(dǎo)致發(fā)散，而絕對(duì)損失和 Huber 損失會(huì)使學(xué)習(xí)停滯。另一方面，基于運(yùn)行統(tǒng)計(jì)數(shù)據(jù)的歸一化目標(biāo)將非平穩(wěn)性引入優(yōu)化。因此，DeepMind 提出將 symlog 預(yù)測(cè)作為解決這一難題的簡(jiǎn)單方法。

為此，具有輸入 x 和參數(shù) θ 的神經(jīng)網(wǎng)絡(luò) f (x, θ) 學(xué)習(xí)預(yù)測(cè)其目標(biāo) y 的變換版本。為了讀出該網(wǎng)絡(luò)的預(yù)測(cè) y^，DeepMind 使用了逆變換，如下公式（1）所示。

從下圖 4 中可以看到，使用對(duì)數(shù)（logarithm）作為變換無(wú)法預(yù)測(cè)具有負(fù)值的目標(biāo)。

因此，DeepMind 從雙對(duì)稱對(duì)數(shù)族中選擇一個(gè)函數(shù)，命名為 symlog 并作為變換，同時(shí)將 symexp 函數(shù)作為逆函數(shù)。

symlog 函數(shù)壓縮大的正值和負(fù)值的大小。DreamerV3 在解碼器、獎(jiǎng)勵(lì)預(yù)測(cè)器和 critic 中使用 symlog 預(yù)測(cè)，還使用 symlog 函數(shù)壓縮編碼器的輸入。

世界模型學(xué)習(xí)

世界模型通過(guò)自編碼學(xué)習(xí)感官輸入的緊湊表示，并通過(guò)預(yù)測(cè)未來(lái)的表示和潛在行為的獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)規(guī)劃。

如上圖 3 所示，DeepMind 將世界模型實(shí)現(xiàn)為循環(huán)狀態(tài)空間模型 (RSSM)。首先，編碼器將感官輸入 x_t 映射到隨機(jī)表示 z_t，然后具有循環(huán)狀態(tài) h_t 的序列模型在給定過(guò)去動(dòng)作 a_t?1 的情況下預(yù)測(cè)這些表示的序列。h_t 和 z_t 的串聯(lián)形成模型狀態(tài)，從中預(yù)測(cè)獎(jiǎng)勵(lì) r_t 和 episode 連續(xù)標(biāo)志 c_t ∈ {0, 1} 并重建輸入以確保信息表示，具體如下公式（3）所示。

下圖 5 可視化了 world world 的長(zhǎng)期視頻預(yù)測(cè)。編碼器和解碼器使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行視覺(jué)輸入，使用多層感知器 (MLP) 進(jìn)行低維輸入。動(dòng)態(tài)、獎(jiǎng)勵(lì)和持續(xù)預(yù)測(cè)器也是 MLPs，這些表示從 softmax 分布的向量中采樣而來(lái)。DeepMind 在采樣步驟中使用了直通梯度。

Actor Critic 學(xué)習(xí)

Actor Critic 神經(jīng)網(wǎng)絡(luò)完全從世界模型預(yù)測(cè)的抽象序列中學(xué)習(xí)行為。在環(huán)境交互期間，DeepMind 通過(guò)從 actor 網(wǎng)絡(luò)中采樣來(lái)選擇動(dòng)作，無(wú)需進(jìn)行前瞻性規(guī)劃。

actor 和 critic 在模型狀態(tài)下運(yùn)行，進(jìn)而可以從世界模型學(xué)得的馬爾可夫表示中獲益。actor 的目標(biāo)是在每個(gè)模型狀態(tài)的折扣因子 γ = 0.997 時(shí)最大化預(yù)期回報(bào)。為了考慮超出預(yù)測(cè)范圍 T = 16 的獎(jiǎng)勵(lì)，critic 學(xué)習(xí)預(yù)測(cè)當(dāng)前 actor 行為下每個(gè)狀態(tài)的回報(bào)。

?

從重放輸入的表示開(kāi)始，動(dòng)態(tài)預(yù)測(cè)器和 actor 產(chǎn)生一系列預(yù)期的模型狀態(tài) s_1:T 、動(dòng)作 a_1:T 、獎(jiǎng)勵(lì) r_1:T 和連續(xù)標(biāo)志 c_1:T 。為了估計(jì)超出預(yù)測(cè)范圍的獎(jiǎng)勵(lì)的回報(bào)，DeepMind 計(jì)算了自舉的 λ 回報(bào)，它整合了預(yù)期回報(bào)和價(jià)值。

實(shí)驗(yàn)結(jié)果

DeepMind 進(jìn)行了廣泛的實(shí)證研究，以評(píng)估 DreamerV3 在固定超參數(shù)下跨不同領(lǐng)域（超過(guò) 150 個(gè)任務(wù)）的通用性和可擴(kuò)展性，并與已有文獻(xiàn)中 SOTA 方法進(jìn)行比較。此外還將 DreamerV3 應(yīng)用于具有挑戰(zhàn)性的視頻游戲《我的世界》。

對(duì)于 DreamerV3，DeepMind 直接報(bào)告隨機(jī)訓(xùn)練策略的性能，并避免使用確定性策略進(jìn)行單獨(dú)評(píng)估運(yùn)行，從而簡(jiǎn)化了設(shè)置。所有的 DreamerV3 智能體均在一個(gè) Nvidia V100 GPU 上進(jìn)行訓(xùn)練。下表 1 為基準(zhǔn)概覽。

為了評(píng)估 DreamerV3 的通用性，DeepMind 在七個(gè)領(lǐng)域進(jìn)行了廣泛的實(shí)證評(píng)估，包括連續(xù)和離散動(dòng)作、視覺(jué)和低維輸入、密集和稀疏獎(jiǎng)勵(lì)、不同獎(jiǎng)勵(lì)尺度、2D 和 3D 世界以及程序生成。下圖 1 中的結(jié)果發(fā)現(xiàn)，DreamerV3 在所有領(lǐng)域都實(shí)現(xiàn)了強(qiáng)大的性能，并在其中 4 個(gè)領(lǐng)域的表現(xiàn)優(yōu)于所有以前的算法，同時(shí)在所有基準(zhǔn)測(cè)試中使用了固定超參數(shù)。

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)