偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化學(xué)習(xí)的框架化,會(huì)引爆AI開發(fā)的新腦洞嗎?

新聞 人工智能
能夠提供技術(shù)解決方案及低準(zhǔn)入門檻的后者才是王道。但面對眾多開發(fā)平臺的深度學(xué)習(xí)框架,需要考慮的問題可就多了:兼容性、社群資源、框架遷移等等不一而足。

 [[256809]]

  假如你是應(yīng)用開發(fā)者,不懂算法,又想開發(fā)一個(gè)帶 AI 功能的 APP,你會(huì)選擇:

  1. 自己從頭訓(xùn)練一個(gè) AI 模型;
  2. 使用開發(fā)平臺的訓(xùn)練框架和 API;

  答案顯而易見,能夠提供技術(shù)解決方案及低準(zhǔn)入門檻的后者才是王道。

  但面對眾多開發(fā)平臺的深度學(xué)習(xí)框架,需要考慮的問題可就多了:兼容性、社群資源、框架遷移等等不一而足。

  而最近,框架之爭的焦點(diǎn)又轉(zhuǎn)移到強(qiáng)化學(xué)習(xí)身上了。

  谷歌在去年推出了基于 TensorFlow 的強(qiáng)化學(xué)習(xí)框架 Dopamine,強(qiáng)化學(xué)習(xí)界的明星 OpenAI 也將很多算法放上了 baseline,百度也在前不久更新了 PaddlePaddle 的強(qiáng)化學(xué)習(xí)框架 PARL。就連一向低調(diào)的網(wǎng)易,都公布了自主研發(fā)的強(qiáng)化編程(Reinforced Programing)框架……

  對于大部分開發(fā)者來說,強(qiáng)化學(xué)習(xí)到底能帶來什么,與深度學(xué)習(xí)框架有何區(qū)別,自家應(yīng)用又該何去何從,恐怕還有點(diǎn)云里霧里的。

  所以我們今天不妨就來厘清強(qiáng)化學(xué)習(xí)的真正價(jià)值與現(xiàn)實(shí)難題。

  深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),傻傻分不清楚?

  經(jīng)過幾年的市場教育,大多數(shù)開發(fā)者對于深度學(xué)習(xí)框架能夠做什么、怎么做,已經(jīng)比較有譜了。

  但是各大平臺隨即推出的強(qiáng)化學(xué)習(xí)框架或者深度強(qiáng)化學(xué)習(xí)框架,就讓人有點(diǎn)蒙圈了。它們之間的區(qū)別在哪里,又分別承擔(dān)著怎樣的職責(zé)呢?

  我們舉個(gè)例子來解釋一下這三種機(jī)器學(xué)習(xí)方法的不同吧:

  假如我是個(gè)種植工廠,想要做一個(gè)能夠識別蘋果好壞的 APP,那么就需要一個(gè)深度學(xué)習(xí)開發(fā)框架,在上面搭建訓(xùn)練過程。幾乎所有開發(fā)平臺都有現(xiàn)成的圖像識別 API,我只需要把訓(xùn)練用的圖片(也就是各種各樣的蘋果照片)拖進(jìn)系統(tǒng),就可以得到一個(gè)訓(xùn)練好的蘋果識別模型了。

  但如果我更懶一點(diǎn),想要一個(gè)能自己學(xué)會(huì)采摘優(yōu)質(zhì)成熟蘋果的機(jī)器人呢?深度學(xué)習(xí)就有點(diǎn)搞不定了。

  這時(shí)我需要用強(qiáng)化學(xué)習(xí)框架來訓(xùn)練一個(gè)智能體,每當(dāng)它摘下一個(gè)新鮮漂亮的好蘋果,就會(huì)收到來自系統(tǒng)的獎(jiǎng)勵(lì),進(jìn)行正強(qiáng)化。要是錯(cuò)誤摘下了沒熟或者爛掉的蘋果,就沒有獎(jiǎng)勵(lì)甚至?xí)豢鄯?,進(jìn)行負(fù)強(qiáng)化。

  為了得到更多的回報(bào),智能體會(huì)就更愿意選擇那些好果子來摘,而放棄那些會(huì)帶來 0 分甚至負(fù)分的果子。通過這種方法,我就得到了一個(gè)***化摘到好果子的智能機(jī)器人,豈不是美滋滋?

  但嘗到甜頭的我又不滿足了,不僅想讓它學(xué)會(huì)摘黃瓜摘西紅柿,而且還懶得再訓(xùn)練一遍。這時(shí)候就需要一種全新的算法,將深度學(xué)習(xí)與強(qiáng)化結(jié)合學(xué)習(xí)起來,只要告訴它新的獎(jiǎng)勵(lì)機(jī)制,機(jī)器就能通過深度神經(jīng)網(wǎng)絡(luò)自主 get 類似技能,不需要我再手把手訓(xùn)練。

  以前,我還需要自己一行行敲代碼,現(xiàn)在只要有一個(gè)開發(fā)框架+訓(xùn)練樣本,就可以輕松擁有永不疲倦、勤奮學(xué)習(xí)、還會(huì)舉一反三的智能體,這樣的誘惑試問誰能拒絕?

  當(dāng)然,這里只是簡單解釋一下它們的工作模式,真要訓(xùn)練出這樣一個(gè)智慧模型并應(yīng)用于自家產(chǎn)品上,是一個(gè)更為復(fù)雜的綜合工程。

  不過,增加了強(qiáng)化學(xué)習(xí)功能的開發(fā)框架,大大降低了強(qiáng)化學(xué)習(xí)訓(xùn)練的編程難度和工作量,對于想做強(qiáng)化學(xué)習(xí)但又無力從零開始搭建環(huán)境和訓(xùn)練的技術(shù)人員和企業(yè)來說,無疑是個(gè)好消息。

  AI 開發(fā)新寵:強(qiáng)化學(xué)習(xí)究竟有什么用?

  如今,強(qiáng)化學(xué)習(xí)不僅成了學(xué)術(shù)界的寵兒,相關(guān)研究論文在各大頂會(huì)中的比例飛速上升;各家開發(fā)平臺也都把強(qiáng)化學(xué)習(xí)框架當(dāng)成重點(diǎn)來部署和爭奪。

  但問題也隨之而來:框架只能降低一部分開發(fā)門檻,定制化模型、調(diào)試、兼容等工作依然需要企業(yè)投入大量人力物力財(cái)力,如果費(fèi)了大力氣得到的成果***無法應(yīng)用或者不切實(shí)際,對開發(fā)者來說無疑是非常殘酷的。

  因此在貿(mào)然“以身效法”之前,有必要先搞搞清楚:強(qiáng)化學(xué)習(xí)到底強(qiáng)在哪些地方?開發(fā)者又應(yīng)該在何種情況下向它投誠?

  先解釋一下強(qiáng)化學(xué)習(xí)的核心邏輯,那就是智能體(Agent)可以在環(huán)境(Environment)中根據(jù)獎(jiǎng)勵(lì)(Reward)的不同來判斷自己在什么狀態(tài)(State)下采用什么行動(dòng)(Action),從而***限度地提高累積獎(jiǎng)勵(lì)。

  比如擊敗圍棋世界冠軍的 Alpha Go,在《Dota 2》中血虐人類玩家的 OpenAI Five,打下 Atari 2600 游戲***分的 DeepMind DQN,都是基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的。

  那么它具體有哪些特征呢,大致可以總結(jié)為三個(gè)方面:

  1. 訓(xùn)練樣本。強(qiáng)化學(xué)習(xí)是通過環(huán)境給出的獎(jiǎng)懲結(jié)果來學(xué)習(xí),需要帶有回報(bào)的數(shù)據(jù)。
  2. 交互方式。強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程是動(dòng)態(tài)的,需要與環(huán)境進(jìn)行交互來完成,不是給什么樣本就學(xué)什么,沒有環(huán)境都白搭。
  3. 解決問題。強(qiáng)化學(xué)習(xí)的邏輯更像人腦,主要解決的是智能決策問題,比如游戲打出高分、通用機(jī)器人、推薦系統(tǒng)等等。

  這些特殊設(shè)定,使得強(qiáng)化學(xué)習(xí)可以在很多應(yīng)用領(lǐng)域表現(xiàn)得比傳統(tǒng)深度學(xué)習(xí)更為出色,比如:

  控制類智能:工業(yè)上多關(guān)節(jié)機(jī)械臂的實(shí)時(shí)控制,讓機(jī)器人觀看 YouTube 視頻學(xué)習(xí)動(dòng)作并應(yīng)用到現(xiàn)實(shí)場景中,又或者是幫助無人車學(xué)習(xí)如何應(yīng)對人和動(dòng)物亂穿馬路這樣的特殊情況;

  序列問題:比如文本序列預(yù)測,通過行為反饋?zhàn)屗阉髋判蜻_(dá)到***效果;電商推薦系統(tǒng), 根據(jù)用戶對推薦列表的反饋(忽略、點(diǎn)擊或購買)來實(shí)時(shí)改變推薦策略。

  對話生成:比如體驗(yàn)更好的人機(jī)多輪對話,讓機(jī)器人能夠持續(xù)生成有意義的對話,而不是亂說一氣地尬聊;與深度學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)更好的機(jī)器雙語翻譯效果。

  傳統(tǒng)深度學(xué)習(xí)已經(jīng)能很好地解決機(jī)器感知和識別問題,但人類對機(jī)器智能的要求顯然不止于此,能夠應(yīng)對復(fù)雜現(xiàn)實(shí)中決策型問題的強(qiáng)化學(xué)習(xí),以及二者的融合,自然成為 AI 應(yīng)用未來的重點(diǎn)發(fā)展方向。

  這種情況下,掌握了算法先發(fā)優(yōu)勢的技術(shù)平臺相繼推出 RL 框架,無疑是爭奪開發(fā)者和入口權(quán)的***布局。

  強(qiáng)化學(xué)習(xí)框架之爭,究竟拼些什么?

  當(dāng)然,強(qiáng)化學(xué)習(xí)雖然取得了很多“炫酷”的成就,但其應(yīng)用的局限也是顯而易見的,不得不預(yù)先做好準(zhǔn)備:

  比如強(qiáng)化學(xué)習(xí)就像剛出生的嬰兒,所有技能都要從零開始訓(xùn)練,需要花很多時(shí)間才能教會(huì)它掌握一個(gè)任務(wù)目標(biāo);

  而且,強(qiáng)化學(xué)習(xí)只能根據(jù)即時(shí)反饋指令來進(jìn)行動(dòng)作,下圍棋、打 dota 或許很牛,但面對個(gè)性化語音助手這樣需要記憶和推理能力的任務(wù),就有點(diǎn)力不從心;

  另一個(gè)困擾的問題是,目前的強(qiáng)化學(xué)習(xí)算法在穩(wěn)定性和效率上參差不齊,想要真正滿足現(xiàn)實(shí)場景的應(yīng)用需求,還有待加強(qiáng)。

  因此,如何選擇適合自身業(yè)務(wù)的強(qiáng)化學(xué)習(xí)框架來試水,或許是開發(fā)者當(dāng)下最為關(guān)心的問題。

  就強(qiáng)化學(xué)習(xí)的發(fā)展方向和各個(gè)平臺的特點(diǎn)來看,我們有幾個(gè)不成熟的小建議供參考:

  • 平臺的穩(wěn)定及復(fù)現(xiàn)性

  深度學(xué)習(xí)是穩(wěn)定的,有固定的數(shù)據(jù)集和固定目標(biāo),超參數(shù)出現(xiàn)很小的改動(dòng),最終的性能也不會(huì)受到太大影響。但強(qiáng)化學(xué)習(xí)(或者深度強(qiáng)化學(xué)習(xí))就不是如此了,訓(xùn)練結(jié)果會(huì)受到隨機(jī)幾率、樣本效率、算法穩(wěn)定性等多重影響,從而帶來結(jié)果上的巨大差異,降低成功的復(fù)現(xiàn)率。更嚴(yán)重的情況是,機(jī)器認(rèn)為自己無論怎么嘗試都會(huì)導(dǎo)致失敗,直接崩潰不學(xué)了。

  為了解決隨機(jī)性和復(fù)現(xiàn)的問題,不同平臺的解決方案也不盡相同。

  比如谷歌是實(shí)現(xiàn)訓(xùn)練環(huán)境和測試環(huán)節(jié)的標(biāo)準(zhǔn)化。為代碼提供 60 款游戲的測試覆蓋范圍和訓(xùn)練數(shù)據(jù),并使用街機(jī)學(xué)習(xí)環(huán)境(Arcade Learning Environment)進(jìn)行標(biāo)準(zhǔn)化經(jīng)驗(yàn)評估。

  而百度則是盡可能多地覆蓋相關(guān)算法。PARL 框架提供 algorithm 集合,里面包含了大量主流的經(jīng)典算法和完整的超參數(shù)列表,以保障模型的復(fù)現(xiàn)率。

  • 靈活性&易用性

  大多數(shù)開發(fā)者的***需求,是希望借助技術(shù)框架打破算法的桎梏自由馳騁,釋放自己的新想法和商業(yè)創(chuàng)造力。因此,框架設(shè)計(jì)一方面要平衡多元業(yè)務(wù)場景和簡易訓(xùn)練方式之間的矛盾,另一方面則要跟上技術(shù)趨勢的發(fā)展快速迭代。

  比如谷歌的街機(jī)學(xué)習(xí)環(huán)境,智能體在其中是如何工作的,理解起來就非常簡單,并且有詳細(xì)的文檔記錄和原始日志。除此之外,谷歌還推出了一個(gè) TensorBoard 的可視化工具套件,幫助幫助開發(fā)者在短時(shí)間內(nèi)清晰直觀地梳理、驗(yàn)證和迭代新想法。

  • 框架與業(yè)務(wù)的耦合性

  盡管我們說強(qiáng)化學(xué)習(xí)距離產(chǎn)業(yè)端落地還有遙遠(yuǎn)的距離,但技術(shù)框架從基礎(chǔ)開發(fā)就為產(chǎn)業(yè)結(jié)合做好準(zhǔn)備,顯然能加快這一進(jìn)程。

  因此,技術(shù)框架與產(chǎn)業(yè)端業(yè)務(wù)需求的耦合,就成為開發(fā)平臺生命力的一大保障。比如百度加快跟進(jìn)強(qiáng)化學(xué)習(xí)框架,就很好地填補(bǔ)了中文文檔和訓(xùn)練數(shù)據(jù)在強(qiáng)化學(xué)習(xí)算法中的不足。

  另外需要考慮的,則是中文世界的開發(fā)者數(shù)量、數(shù)據(jù)規(guī)模、用戶體量,對技術(shù)框架的支持能力也是一大挑戰(zhàn)?;?PaddlePaddle 對大規(guī)模工業(yè)級排序/推薦等稀疏模型的支持能力,百度的 PARL 得以輕松擴(kuò)展到百億級別數(shù)據(jù)或特征的訓(xùn)練,這種并行提速的能力,更符合中國市場的真實(shí)需求。

  當(dāng)然,影響強(qiáng)化學(xué)習(xí)性能和用戶選擇的因素還有很多,比如社區(qū)資源的豐富,算法質(zhì)量,應(yīng)用工具的多元化等等。

  總體而言,現(xiàn)階段想要低門檻、短時(shí)間地訓(xùn)練處一個(gè)好的強(qiáng)化學(xué)習(xí)模型,還是很困難。但正如吳恩達(dá)所說的,“短期悲觀,長期樂觀”,深度強(qiáng)化學(xué)習(xí)作為機(jī)器智能接下來的發(fā)展方向,是毋庸置疑的。

  想要贏得未來,這個(gè)新的競爭高地不得不去占領(lǐng)。強(qiáng)化學(xué)習(xí)的框架之爭只是序曲,隨著各種難度超乎想象的實(shí)際問題被一一解決,很多有趣的事情將會(huì)發(fā)生。

責(zé)任編輯:張燕妮 來源: 鈦媒體
相關(guān)推薦

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2021-11-04 15:30:56

AI 數(shù)據(jù)人工智能

2017-02-20 16:35:10

人工智能算法強(qiáng)化學(xué)習(xí)

2025-05-15 09:04:00

2024-12-09 08:45:00

模型AI

2020-11-16 08:54:05

Google 開源技術(shù)

2025-03-03 09:12:00

2025-06-30 09:08:00

2021-10-11 17:15:30

AI 數(shù)據(jù)人工智能

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2017-07-18 10:16:27

強(qiáng)化學(xué)習(xí)決策問題監(jiān)督學(xué)習(xí)

2025-05-08 09:16:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2023-07-20 15:18:42

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2020-06-30 09:54:30

框架AI開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號