偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用 Apache Spark 和 TensorFlow 進(jìn)行深度學(xué)習(xí)

大數(shù)據(jù) Spark
神經(jīng)網(wǎng)絡(luò)在過(guò)去幾年中取得了驚人的進(jìn)步,現(xiàn)在已成為圖像識(shí)別和自動(dòng)翻譯領(lǐng)域最先進(jìn)的技術(shù)。TensorFlow是 Google 為數(shù)字計(jì)算和神經(jīng)網(wǎng)絡(luò)發(fā)布的新框架。在這篇博文中,我們將演示如何使用 TensorFlow 和 Spark 一起來(lái)訓(xùn)練和應(yīng)用深度學(xué)習(xí)模型。

[[199663]]

神經(jīng)網(wǎng)絡(luò)在過(guò)去幾年中取得了驚人的進(jìn)步,現(xiàn)在已成為圖像識(shí)別和自動(dòng)翻譯領(lǐng)域***進(jìn)的技術(shù)。TensorFlow是 Google 為數(shù)字計(jì)算和神經(jīng)網(wǎng)絡(luò)發(fā)布的新框架。在這篇博文中,我們將演示如何使用 TensorFlow 和 Spark 一起來(lái)訓(xùn)練和應(yīng)用深度學(xué)習(xí)模型。

你可能會(huì)想:當(dāng)大多數(shù)高性能深度學(xué)習(xí)實(shí)現(xiàn)只是單節(jié)點(diǎn)時(shí),Apache Spark 在這里使用什么?為了回答這個(gè)問(wèn)題,我們將通過(guò)兩個(gè)用例來(lái)解釋如何使用 Spark 和 TensorFlow 的集群機(jī)器來(lái)改進(jìn)深度學(xué)習(xí)流程:

超參數(shù)調(diào)整:使用 Spark 找到神經(jīng)網(wǎng)絡(luò)訓(xùn)練的***超參數(shù),使得訓(xùn)練時(shí)間減少 10 倍并且錯(cuò)誤率降低 34 %。

大規(guī)模部署模型:使用 Spark,在大量數(shù)據(jù)上應(yīng)用訓(xùn)練后神經(jīng)網(wǎng)絡(luò)模型。

超參數(shù)調(diào)優(yōu)

深度學(xué)習(xí)機(jī)器學(xué)習(xí)(ML)技術(shù)的一個(gè)例子是人工神經(jīng)網(wǎng)絡(luò)。它們采取復(fù)雜的輸入,例如圖像或音頻記錄,然后對(duì)這些信號(hào)應(yīng)用復(fù)雜的數(shù)學(xué)變換。該變換的輸出是數(shù)值向量,其更容易被其他 ML 算法運(yùn)算。人工神經(jīng)網(wǎng)絡(luò)通過(guò)模仿人腦視覺(jué)皮質(zhì)中的神經(jīng)元(以簡(jiǎn)化形式)執(zhí)行這種轉(zhuǎn)化。

正如人類(lèi)學(xué)習(xí)解釋他們所看到的那樣,人工神經(jīng)網(wǎng)絡(luò)需要被訓(xùn)練來(lái)識(shí)別「有趣」的特定模式。例如,這些可以是簡(jiǎn)單的圖案,例如,邊緣,圓形,但是它們可能要復(fù)雜。在這里,我們將使用由 NIST 組合的經(jīng)典數(shù)據(jù)集,并訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別這些數(shù)字:

TensorFlow 庫(kù)自動(dòng)化訓(xùn)練各種形狀和大小的神經(jīng)網(wǎng)絡(luò)算法的創(chuàng)建。然而,構(gòu)建神經(jīng)網(wǎng)絡(luò)的實(shí)際過(guò)程比僅在數(shù)據(jù)集上運(yùn)行一些函數(shù)更復(fù)雜。通常會(huì)有許多非常重要的影響模型訓(xùn)練效果的超參數(shù)(外行人術(shù)語(yǔ)中的配置參數(shù))設(shè)置。選擇正確的參數(shù)會(huì)導(dǎo)致高性能,而不良參數(shù)會(huì)導(dǎo)致訓(xùn)練時(shí)間長(zhǎng),性能不佳。在實(shí)踐中,機(jī)器學(xué)習(xí)從業(yè)者用不同的超參數(shù)多次重復(fù)運(yùn)行相同的模型,以便找到***超參數(shù)集。這是一種稱(chēng)為超參數(shù)優(yōu)化的經(jīng)典技術(shù)。

建立神經(jīng)網(wǎng)絡(luò)時(shí),有很多要慎重選擇的超參數(shù)。例如:

  • 每層神經(jīng)元數(shù)量:太少的神經(jīng)元會(huì)降低網(wǎng)絡(luò)的表達(dá)力,但太多會(huì)大大增加運(yùn)行時(shí)間并返回帶有噪聲的估計(jì)。
  • 學(xué)習(xí)率:如果太高,神經(jīng)網(wǎng)絡(luò)只會(huì)關(guān)注最近幾個(gè)樣本,忽視以前積累的所有經(jīng)驗(yàn)。如果太低,達(dá)到好狀態(tài)需要太長(zhǎng)時(shí)間。

有趣的是,即使 TensorFlow 本身沒(méi)有分布,超參數(shù)調(diào)整過(guò)程也是「尷尬并行」,可以使用 Spark 進(jìn)行分布。在這種情況下,我們可以使用 Spark 來(lái) broadcast 諸如數(shù)據(jù)和模型描述之類(lèi)的常見(jiàn)元素,然后在整個(gè)機(jī)器群集之間以容錯(cuò)方式調(diào)度各個(gè)重復(fù)計(jì)算。

使用Spark如何提高準(zhǔn)確性?超級(jí)參數(shù)的默認(rèn)設(shè)置精度為 99.2%。通過(guò)超參數(shù)調(diào)優(yōu),在測(cè)試集上***的結(jié)果是具有 99.47% 的精度,這減少 34% 的測(cè)試誤差。分配添加到集群的節(jié)點(diǎn)數(shù)呈線性關(guān)系的計(jì)算:使用 13 節(jié)點(diǎn)集群,我們能夠并行訓(xùn)練 13 個(gè)模型,這相當(dāng)于在一臺(tái)機(jī)器上一次訓(xùn)練一個(gè)模型的 7 倍速度。以下是關(guān)于機(jī)器集群數(shù)量的計(jì)算時(shí)間(以秒為單位)的圖表:

更重要的是,我們深入了解訓(xùn)練過(guò)程的各種訓(xùn)練超參數(shù)的敏感性。例如,對(duì)于不同數(shù)量的神經(jīng)元,我們繪制關(guān)于學(xué)習(xí)率的最終測(cè)試性能:

這顯示了神經(jīng)網(wǎng)絡(luò)的典型權(quán)衡曲線:

  • 學(xué)習(xí)率至關(guān)重要:如果太低,神經(jīng)網(wǎng)絡(luò)不會(huì)學(xué)到任何東西(高測(cè)試錯(cuò)誤率);如果太高,在某些配置中,訓(xùn)練過(guò)程可能隨機(jī)振蕩甚至發(fā)散。
  • 神經(jīng)元的數(shù)量對(duì)于獲得良好的性能并不重要,并且具有許多神經(jīng)元的網(wǎng)絡(luò)對(duì)于學(xué)習(xí)率更加敏感。這是奧卡姆的剃刀原理:對(duì)于大多數(shù)目標(biāo)來(lái)說(shuō),更簡(jiǎn)單的模型往往都是「夠好」的。如果你在缺少 1% 的測(cè)試錯(cuò)誤率后有足夠的時(shí)間和資源,你可以投入大量資源進(jìn)行訓(xùn)練,并找到產(chǎn)生影響的適當(dāng)?shù)某瑓?shù)。

通過(guò)使用稀疏的參數(shù)樣本,我們可以對(duì)最有希望的參數(shù)集進(jìn)行歸零。

我該怎么用?

由于 TensorFlow 可以使用每個(gè)機(jī)器的所有核心,因此我們一次只能在每個(gè)機(jī)器運(yùn)行一個(gè)任務(wù),并將它們批處理以限制競(jìng)爭(zhēng)。TensorFlow 庫(kù)可以作為常規(guī) Python 庫(kù)安裝在 Spark 集群上,遵循 TensorFlow 網(wǎng)站上的說(shuō)明。以下筆記本顯示如何安裝 TensorFlow,讓用戶(hù)重新運(yùn)行此博客的實(shí)驗(yàn):

使用TensorFlow分布式處理圖像

使用TensorFlow測(cè)試圖像的分布處理

規(guī)模部署模型

TensorFlow 模型可以直接嵌入到管道中,以對(duì)數(shù)據(jù)集執(zhí)行復(fù)雜的識(shí)別任務(wù)。例如,我們展示了如何從已經(jīng)訓(xùn)練的股票神經(jīng)網(wǎng)絡(luò)模型中標(biāo)注一組圖像。

該模型首先使用 Spark 的內(nèi)置 broadcasting 機(jī)制分配給集群的機(jī)器:

 

然后將該模型加載到每個(gè)節(jié)點(diǎn)上并應(yīng)用于圖像。這是每個(gè)節(jié)點(diǎn)上運(yùn)行代碼的草圖:

 

通過(guò)將圖像批量化在一起,可以使此代碼更有效率。

這是一個(gè)圖像的例子:

[[199665]]

 

這里是根據(jù)神經(jīng)網(wǎng)絡(luò)對(duì)這個(gè)圖像的解釋?zhuān)@是非常準(zhǔn)確的:

期待

針對(duì)手寫(xiě)數(shù)字識(shí)別和圖像標(biāo)識(shí),我們已經(jīng)展示了如何結(jié)合 Spark 和 TensorFlow 訓(xùn)練和部署神經(jīng)網(wǎng)絡(luò)。即使我們使用的神經(jīng)網(wǎng)絡(luò)框架本身只適用于單節(jié)點(diǎn),我們可以使用 Spark 來(lái)分配超參數(shù)調(diào)整過(guò)程和模型部署。這不僅減少了訓(xùn)練時(shí)間,而且提高了準(zhǔn)確度,使我們更好地了解了各種超參數(shù)的敏感性。

雖然此支持僅適用于 Python,但我們期待在 TensorFlow 和 Spark 框架的其余部分之間進(jìn)行更深入的集成。

責(zé)任編輯:武曉燕
相關(guān)推薦

2018-04-09 10:20:32

深度學(xué)習(xí)

2017-12-01 15:24:04

TensorFlow深度學(xué)習(xí)教程

2021-02-03 13:56:09

KerasAPI深度學(xué)習(xí)

2018-04-16 11:30:32

深度學(xué)習(xí)

2018-04-11 09:30:41

深度學(xué)習(xí)

2018-04-17 09:40:22

深度學(xué)習(xí)

2016-12-06 08:51:48

深度學(xué)習(xí)TensorFlow機(jī)器學(xué)習(xí)

2024-03-26 09:11:13

TensorFlow深度學(xué)習(xí)Pipeline

2018-03-26 20:14:32

深度學(xué)習(xí)

2017-08-16 10:57:52

深度學(xué)習(xí)TensorFlowNLP

2017-11-28 11:34:29

深度學(xué)習(xí)樹(shù)搜索二元處理機(jī)制

2014-02-14 15:43:16

ApacheSpark

2023-05-14 22:35:24

TensorFlowKeras深度學(xué)習(xí)

2014-07-15 10:59:58

Spark代碼跟讀

2017-05-22 13:15:45

TensorFlow深度學(xué)習(xí)

2017-02-14 21:00:33

大數(shù)據(jù)機(jī)器學(xué)習(xí)廣告檢測(cè)

2018-09-06 08:00:00

深度學(xué)習(xí)TensorFlowPython

2018-04-18 09:39:07

深度學(xué)習(xí)

2023-10-23 10:19:23

自動(dòng)駕駛深度學(xué)習(xí)

2022-11-13 08:11:03

TensorFlow人工智能開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)