偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

人工智能一大技術(shù)：強(qiáng)化學(xué)習(xí)（RL）

作者：智能制造網(wǎng) 2020-12-23 06:07:54

人工智能深度學(xué)習(xí)

強(qiáng)化學(xué)習(xí)主要由智能體(Agent)、環(huán)境(Environment)、狀態(tài)(State)和動(dòng)作(Action)、獎(jiǎng)勵(lì)(Reward)組成。智能體將在環(huán)境的當(dāng)前狀態(tài)下，根據(jù)獎(jiǎng)勵(lì)信號(hào)做出動(dòng)作，從而達(dá)到環(huán)境中的不同狀態(tài)并得到獎(jiǎng)勵(lì)。

人工智能技術(shù)進(jìn)步的速度越來(lái)越快，每種細(xì)分技術(shù)所創(chuàng)造的價(jià)值正日益得到展現(xiàn)。

2013年，DeepMind發(fā)明了DQN算法，成功將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)，開(kāi)啟了深度強(qiáng)化學(xué)習(xí)的新紀(jì)元。此后數(shù)年，強(qiáng)化學(xué)習(xí)的成果日新月異，很多非常困難的問(wèn)題都被深度強(qiáng)化學(xué)習(xí)算法解決。

2016年，谷歌阿爾法圍棋以4:1戰(zhàn)勝?lài)迨澜绻谲?、職業(yè)九段棋手李世石，不僅讓深度學(xué)習(xí)為人們所知，而且掀起了人工智能的“大眾熱”，大家由此更加關(guān)注強(qiáng)化學(xué)習(xí)這一技術(shù)要點(diǎn)。

使用強(qiáng)化學(xué)習(xí)的一個(gè)很好的例子是讓機(jī)器人學(xué)習(xí)如何走路。機(jī)器人首先向前邁出一大步然后跌倒。這一大步和摔倒是強(qiáng)化學(xué)習(xí)系統(tǒng)關(guān)注的響應(yīng)點(diǎn)。由于反饋是負(fù)面的，所以繼續(xù)調(diào)整，系統(tǒng)會(huì)根據(jù)多個(gè)負(fù)反饋的比對(duì)最終確定機(jī)器人應(yīng)該把步子邁的小一點(diǎn)，不停地小，直到機(jī)器人走路不會(huì)摔倒為止。

通過(guò)強(qiáng)化學(xué)習(xí)，Boston Dynamics公司的機(jī)器人已經(jīng)掌握了托舉、后空翻、跳上窗臺(tái)的要點(diǎn)。而迪斯尼幻想工程已經(jīng)把這一點(diǎn)帶到了一個(gè)新的層面，那就是讓人形機(jī)器人來(lái)執(zhí)行玩命的特技。

有業(yè)內(nèi)人士指出，強(qiáng)化學(xué)習(xí)和其他的人工智能技術(shù)有一個(gè)很大的差異，那就是它的學(xué)習(xí)范式和其它技術(shù)不太一樣。它不需要我們?nèi)ナ占瘮?shù)據(jù)，也不需要我們?nèi)プ鋈魏螛?biāo)記，而是我們把稱(chēng)之為智能體(Agent)，放在一個(gè)環(huán)境里，就像動(dòng)物或者我們自己生存的一個(gè)環(huán)境里，它會(huì)和環(huán)境自己打交道，自己學(xué)會(huì)在環(huán)境里如何完成一個(gè)任務(wù)，解決一個(gè)問(wèn)題。

強(qiáng)化學(xué)習(xí)主要由智能體(Agent)、環(huán)境(Environment)、狀態(tài)(State)和動(dòng)作(Action)、獎(jiǎng)勵(lì)(Reward)組成。智能體將在環(huán)境的當(dāng)前狀態(tài)下，根據(jù)獎(jiǎng)勵(lì)信號(hào)做出動(dòng)作，從而達(dá)到環(huán)境中的不同狀態(tài)并得到獎(jiǎng)勵(lì)。

除了強(qiáng)化學(xué)習(xí)外，機(jī)器學(xué)習(xí)也備受關(guān)注。機(jī)器學(xué)習(xí)是AI的一個(gè)子集，是通過(guò)不同場(chǎng)景中的經(jīng)驗(yàn)來(lái)訓(xùn)練系統(tǒng)的能力。隨著車(chē)輛變得越來(lái)越自動(dòng)化，開(kāi)發(fā)人員可以使用機(jī)器學(xué)習(xí)訓(xùn)練系統(tǒng)來(lái)識(shí)別對(duì)象，并用更少的數(shù)據(jù)更好地解釋其環(huán)境。

再來(lái)看一下深度學(xué)習(xí)。深度學(xué)習(xí)就是從有限樣例中通過(guò)算法總結(jié)出一般性的規(guī)律，并可以應(yīng)用到新的未知數(shù)據(jù)上。例如，我們可以從一些歷史病例的集合中總結(jié)出癥狀和疾病之間的規(guī)律。這樣，當(dāng)有新的病人到來(lái)時(shí)，我們可以利用總結(jié)出來(lái)的規(guī)律來(lái)判斷這個(gè)病人得了什么疾病。

那么，強(qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者的區(qū)別是什么?簡(jiǎn)單說(shuō)，人工智能范圍最大，涵蓋機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。如果把人工智能比喻成孩子大腦，那么機(jī)器學(xué)習(xí)是讓孩子去掌握認(rèn)知能力的過(guò)程，而深度學(xué)習(xí)是這種過(guò)程中很有效率的一種教學(xué)體系。

由強(qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)等技術(shù)構(gòu)成的人工智能，其良好的發(fā)展前景引人期待。從全國(guó)來(lái)看，據(jù)艾瑞咨詢測(cè)算，2022年國(guó)內(nèi)人工智能核心產(chǎn)業(yè)規(guī)模有望達(dá)到1573億元，復(fù)合增速達(dá)58%，產(chǎn)業(yè)將持續(xù)快速增長(zhǎng)。如此廣闊的市場(chǎng)空間，吸引著社會(huì)各界投資者的關(guān)注。

值得一提的是，發(fā)展“以人為本”的人工智能是全社會(huì)的課題，需要政府、商界、學(xué)界及所有利益相關(guān)方共擔(dān)責(zé)任，協(xié)力推動(dòng)。作為技術(shù)應(yīng)用與推廣的主體，企業(yè)負(fù)有不可推卸的社會(huì)責(zé)任。在研究強(qiáng)化學(xué)習(xí)相關(guān)技術(shù)時(shí)，企業(yè)要自覺(jué)遵守法規(guī)制度和社會(huì)公約，以此促進(jìn)其有序、可持續(xù)應(yīng)用。

未來(lái)，全球的可持續(xù)發(fā)展越來(lái)越依賴(lài)于數(shù)據(jù)創(chuàng)造的價(jià)值，而人工智能是數(shù)字經(jīng)濟(jì)中應(yīng)用十分廣泛的技術(shù)之一。或許再過(guò)幾年，AI將在精準(zhǔn)農(nóng)業(yè)、智能家居、遠(yuǎn)程醫(yī)療、自動(dòng)駕駛等領(lǐng)域發(fā)揮更加重要的作用。

責(zé)任編輯：姜華來(lái)源：今日頭條

人工智能 AI 深度學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)