偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="xg0vm"><track id="xg0vm"></track></legend>^{<sub id="xg0vm"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

【技術(shù)】TensorFlow官方解讀：如何在多系統(tǒng)和網(wǎng)絡(luò)拓?fù)渲袠?gòu)建高性能模型

作者：TensorFlow 2017-06-09 10:00:15

大數(shù)據(jù)

這個(gè)文檔和附帶的腳本詳細(xì)介紹了如何構(gòu)建針對各種系統(tǒng)和網(wǎng)絡(luò)拓?fù)涞母咝阅芸赏卣鼓Ｐ汀＿@個(gè)技術(shù)在本文檔中用了一些低級的 Tensorflow Python 基元。在未來，這些技術(shù)將被并入高級 API。

這個(gè)文檔和附帶的腳本詳細(xì)介紹了如何構(gòu)建針對各種系統(tǒng)和網(wǎng)絡(luò)拓?fù)涞母咝阅芸赏卣鼓Ｐ?。這個(gè)技術(shù)在本文檔中用了一些低級的 Tensorflow Python 基元。在未來，這些技術(shù)將被并入高級 API。

輸入管道

性能指南闡述了如何診斷輸入管道可能存在的問題及其***解決方法。在使用大量輸入和每秒更高的采樣處理中我們發(fā)現(xiàn) tf.FIFOQueue 和 tf.train.queue_runner 無法使用當(dāng)前多個(gè) GPU 生成飽和，例如在使用 AlexNet 訓(xùn)練 ImageNet 時(shí)。這是因?yàn)槭褂昧? Python 線程作為底層實(shí)現(xiàn)，而 Python 線程的開銷太大了。

我們在腳本中采用的另一種方法是通過 Tensorflow 中的本機(jī)并行構(gòu)建輸入管道。我們的方法主要由如下 3 個(gè)階段組成：

I/O 讀?。簭拇疟P中選擇和讀取圖像文件。
圖像處理：將圖像記錄解碼為像素、預(yù)處理并生成最小批量。
CPU 到 GPU 的數(shù)據(jù)傳輸：將圖像從 CPU 傳輸至 GPU。

通過利用 data_flow_ops.StagingArea，每個(gè)階段的主要部分與其他階段并行執(zhí)行。StagingArea 是一個(gè)像隊(duì)列(queue)一樣且類似于 tf.FIFOQueue 的運(yùn)算符。不同之處在于 StagingArea 提供了更簡單的功能且可在 CPU 和 GPU 中與其他階段并行執(zhí)行。將輸入管道拆分為 3 個(gè)獨(dú)立并行操作的階段，并且這是可擴(kuò)展的，充分利用大型的多核環(huán)境。本節(jié)的余下部分將詳細(xì)介紹每個(gè)階段以及 data_flow_ops.StagingArea 的使用細(xì)節(jié)。

并行 I/O 讀取

data_flow_ops.RecordInput 用于磁盤的并行讀取。給定一個(gè)代表 TFRecords 的輸入文件列表，RecordInput 可使用后臺線程連續(xù)讀取記錄。這些記錄被放置在大型的內(nèi)部池中，當(dāng)這個(gè)池加載量達(dá)到其容量的一半時(shí)，會有相應(yīng)的張量輸出。這個(gè)操作有其內(nèi)部線程，線程由占用最少的 CPU 資源的 I/O 時(shí)間主導(dǎo)，這就允許它可與模型的其余部分并行運(yùn)行。

并行圖像處理

從 RecordInput 讀取圖像后，它們作為張量被傳遞至圖像處理管道。為了更方便解釋圖像處理管道，假設(shè)輸入管道的目標(biāo)是 8 個(gè)批量大小為 256(每個(gè) GPU 32 個(gè))GPU。256 個(gè)圖像記錄的讀取和處理是獨(dú)立并行的。從圖中 256 個(gè) RecordInput 讀操作開始，每個(gè)讀取操作后都有一個(gè)與之相匹配的圖像預(yù)處理操作，這些操作是彼此獨(dú)立和并行執(zhí)行的。這些圖像預(yù)處理操作包括諸如圖像解碼、失真和調(diào)整大小。

當(dāng)圖像通過預(yù)處理器后，它們被聯(lián)接成 8 個(gè)大小為 32 的張量。為了達(dá)到這一目的，使用了 tf.parallel_stack，而不是 tf.concat ，目的作為單一操作被實(shí)現(xiàn)，且在將它們聯(lián)結(jié)在一起之前需要所有輸入準(zhǔn)備就緒。tf.parallel_stack 將未初始化的張量作為輸出，并且在有張量輸入時(shí)，每個(gè)輸入的張量被寫入輸出張量的指定部分。

當(dāng)所有的張量完成輸入時(shí)，輸出張量在圖中傳遞。這有效隱藏了由于產(chǎn)生所有輸入張量的長尾(long tail)而導(dǎo)致的內(nèi)存延遲。

并行從 CPU 到 GPU 的數(shù)據(jù)傳輸

繼續(xù)假設(shè)目標(biāo)是批量大小為 256(每個(gè) GPU 32 個(gè))8 個(gè) GPU，一旦輸入圖像被處理完并被 CPU 聯(lián)接后，我們將得到 8 個(gè)批量大小為 32 的張量。Tensorflow 可以使一個(gè)設(shè)備的張量直接用在任何其他設(shè)備上。為使張量在任何設(shè)備中可用，Tensorflow 插入了隱式副本。在張量被實(shí)際使用之前，會在設(shè)備之間調(diào)度副本運(yùn)行。一旦副本無法按時(shí)完成運(yùn)行，需要這些張量的計(jì)算將會停止并且導(dǎo)致性能下降。

在此實(shí)現(xiàn)中，data_flow_ops.StagingArea 用于明確排定并行副本。最終的結(jié)果是當(dāng) GPU 上的計(jì)算開始時(shí)，所有張量已可用。

軟件管道

由于所有的階段都可以在不同的處理器下運(yùn)行，在它們之間使用 data_flow_ops.StagingArea 可使其并行運(yùn)行。StagingArea 是一個(gè)與 tf.FIFOQueue 相似且像隊(duì)列(queue)一樣的運(yùn)算符，tf.FIFOQueue 提供更簡單的功能可在 CPU 和 GPU 中被執(zhí)行。

在模型開始運(yùn)行所有的階段之前，輸入管道階段將被預(yù)熱，以將其間的分段緩存區(qū)置于一組數(shù)據(jù)之間。在每個(gè)運(yùn)行階段中，開始時(shí)從分段緩沖區(qū)中讀取一組數(shù)據(jù)，并在***將該組數(shù)據(jù)推送。

例如有 A、B、C 三個(gè)階段，這之間就有兩個(gè)分段區(qū)域 S1 和 S2。在預(yù)熱時(shí)，我們運(yùn)行：

Warm up: 
Step 1: A0 
Step 2: A1  B0 
 
Actual execution: 
Step 3: A2  B1  C0 
Step 4: A3  B2  C1 
Step 5: A4  B3  C2

預(yù)熱結(jié)束之后，S1 和 S2 各有一組數(shù)據(jù)。對于實(shí)際執(zhí)行的每個(gè)步驟，會計(jì)算一組來自分段區(qū)域的數(shù)據(jù)，同時(shí)分段區(qū)域會添加一組新數(shù)據(jù)。

此方案的好處是：

所有的階段都是非阻塞的，因?yàn)轭A(yù)熱后分段區(qū)域總會有一組數(shù)據(jù)存在。
每個(gè)階段都可以并行處理，因?yàn)樗鼈兛梢粤⒓磫?dòng)。
分段緩存區(qū)具有固定的內(nèi)存開銷，并至多有一組額外的數(shù)據(jù)。
運(yùn)行一個(gè)步驟的所有階段只需要調(diào)用 singlesession.run()，這使得分析和調(diào)試更加容易。

構(gòu)建高性能模型的***實(shí)踐

以下收集的是一些額外的***實(shí)踐，可以改善模型性能，增加模型靈活性。

使用 NHWC 和 NCHW 建模

CNN 使用的絕大多數(shù) Tensorflow 操作都支持 NHWC 和 NCHW 數(shù)據(jù)格式。在 GPU 中，NCHW 更快;但是在 CPU 中，NHWC 只是偶爾更快。

構(gòu)建一個(gè)支持日期格式的模型可增加其靈活性，能夠在任何平臺上良好運(yùn)行?；鶞?zhǔn)腳本是為了支持 NCHW 和 NHWC 而編寫的。使用 GPU 訓(xùn)練模型時(shí)會經(jīng)常用到 NCHW。NHWC 在 CPU 中有時(shí)速度更快。在 GPU 中可以使用 NCHW 對一個(gè)靈活的模型進(jìn)行訓(xùn)練，在 CPU 中使用 NHWC 進(jìn)行推理，并從訓(xùn)練中獲得合適的權(quán)重參數(shù)。

使用融合的批處理歸一化

Tensorflow 中默認(rèn)的批處理歸一化被實(shí)現(xiàn)為復(fù)合操作，這是很通用的做法，但是其性能不好。融合的批處理歸一化是一種替代選擇，其在 GPU 中能取得更好的性能。如下是用 tf.contrib.layers.batch_norm 實(shí)現(xiàn)融合批處理歸一化的一個(gè)實(shí)例：

bn = tf.contrib.layers.batch_norm( 
          input_layer, fused=True, data_format='NCHW' 
          scope=scope)

變量分布和梯度聚合

訓(xùn)練期間，訓(xùn)練的變量值通過聚合的梯度和增量進(jìn)行更新。在基準(zhǔn)腳本中，展示了通過使用靈活和通用的 Tensorflow 原語，我們可以構(gòu)建各種各樣的高性能分布和聚合方案。

在基準(zhǔn)腳本中包括 3 個(gè)變量分布和聚合的例子：

參數(shù)服務(wù)器，訓(xùn)練模型的每個(gè)副本都從參數(shù)服務(wù)器中讀取變量并獨(dú)立更新變量。當(dāng)每個(gè)模型需要變量時(shí)，它們將被復(fù)制到由 Tensorflow 運(yùn)行時(shí)添加的標(biāo)準(zhǔn)隱式副本中。示例腳本介紹了使用此方法如何進(jìn)行本地訓(xùn)練、分布式同步訓(xùn)練和分布式異步訓(xùn)練。
拷貝，在每個(gè) GPU 上放置每個(gè)訓(xùn)練變量相同的副本，在變量數(shù)據(jù)立即可用時(shí)，正向計(jì)算和反向計(jì)算立即開始。所有 GPU 中的梯度都會被累加，累加的總和應(yīng)用于每個(gè) GPU 變量副本，以使其保持同步。
分布式復(fù)制，將每個(gè) GPU 中的訓(xùn)練參數(shù)副本與參數(shù)服務(wù)器上的主副本放置在一起，在變量數(shù)據(jù)可用時(shí)，正向計(jì)算和反向計(jì)算立即開始。一臺服務(wù)器上每個(gè) GPU 的梯度會被累加，然后每個(gè)服務(wù)器中聚合的梯度會被應(yīng)用到主副本中。當(dāng)所有的模塊都執(zhí)行此操作后，每個(gè)模塊都將從主副本中更新變量副本。

以下是有關(guān)每種方法的其他細(xì)節(jié)。

參數(shù)服務(wù)器變量

在 Tensorflow 模型中管理變量的最常見方式是參數(shù)服務(wù)器模式。

在分布式系統(tǒng)中，每個(gè)工作器(worker)進(jìn)程運(yùn)行相同的模型，參數(shù)服務(wù)器處理其自有的變量主副本。當(dāng)一個(gè)工作器需要一個(gè)來自參數(shù)服務(wù)器的變量時(shí)，它可從其中直接引用。Tensorflow 在運(yùn)行時(shí)會將隱式副本添加到圖形中，這使得在需要它的計(jì)算設(shè)備上變量值可用。當(dāng)在工作器上計(jì)算梯度時(shí)，這個(gè)梯度會被傳輸?shù)綋碛刑囟ㄗ兞康膮?shù)服務(wù)器中，而相應(yīng)的優(yōu)化器被用于更新變量。

以下是一些提高吞吐量的技術(shù)：

為了使負(fù)載平衡，這些變量根據(jù)其大小在參數(shù)服務(wù)器之間傳輸。
當(dāng)每個(gè)工作器有多個(gè) GPU 時(shí)，累加每個(gè) GPU 的梯度，并把這個(gè)單一的聚合梯度發(fā)送到參數(shù)服務(wù)器。這將降低網(wǎng)絡(luò)帶寬，減少參數(shù)服務(wù)器的工作量。

為了協(xié)調(diào)工作器，常常采用異步更新模式，其中每個(gè)工作器更新變量的主副本，而不與其他工作器同步。在我們的模型中，我們展示了在工作器中引入同步機(jī)制是非常容易的，所以在下一步開始之前所有的工作器必須完成更新。

這個(gè)參數(shù)服務(wù)器方法同樣可以應(yīng)用在本地訓(xùn)練中，在這種情況下，它們不是在參數(shù)服務(wù)器之間傳播變量的主副本，而是在 CPU 上或分布在可用的 GPU 上。

由于該設(shè)置的簡單性，這種架構(gòu)在社區(qū)中獲得廣泛的推廣。

通過傳遞參數(shù) variable_update=parameter_server，也可以在腳本中使用此模式。

變量復(fù)制

在這種設(shè)計(jì)中，服務(wù)器中的每個(gè) GPU 都有自己的變量副本。通過將完全聚合的梯度應(yīng)用于變量的每個(gè) GPU 副本，使得這些值在 GPU 之間保持同步。

因?yàn)樽兞亢蛿?shù)據(jù)在訓(xùn)練的初始階段就準(zhǔn)備好了，所以訓(xùn)練的前向計(jì)算可以立即開始。聚合各個(gè)設(shè)備的梯度以得到一個(gè)完全聚合的梯度，并將該梯度應(yīng)用到每個(gè)本地副本中。

服務(wù)器間的梯度聚合可通過不同的方法實(shí)現(xiàn)：

使用 Tensorflow 標(biāo)準(zhǔn)操作在單個(gè)設(shè)備上(CPU 或 GPU)累加整和，然后將其拷貝回所有的 GPU。
使用英偉達(dá) NCCL，這個(gè)將在下面的 NCCL 章節(jié)闡述。

分布式訓(xùn)練中的變量復(fù)制

上述變量復(fù)制的方法可擴(kuò)展到分布式訓(xùn)練中。一種類似的方法是：完全地聚合集群中的梯度，并將它們應(yīng)用于每個(gè)本地副本。這種方法在未來版本的腳本中可能會出現(xiàn)，但是當(dāng)前的腳本采用不同的方法。描述如下。

在這一模式中，除了變量的每一個(gè) GPU 副本之外，主副本被存儲在參數(shù)服務(wù)器之中。借助這一復(fù)制模式，可使用變量的本地副本立刻開始訓(xùn)練。

隨著權(quán)重的梯度可用，它們會被送回至參數(shù)服務(wù)器，并所有的本地副本都會被更新：

同一個(gè)工作器中把 GPU 所有的梯度聚合在一起。
將來自各個(gè)工作器的聚合梯度發(fā)送至自帶變量的參數(shù)服務(wù)器中，其中使用特殊的優(yōu)化器來更新變量的主副本。
每個(gè)工作器從主副本中更新變量的本地副本。在示例模型中，這是在一個(gè)擁有交叉副本的負(fù)載中在等待所有的模塊完成變量更新后進(jìn)行的，并且只有在負(fù)載被所有副本釋放以后才能獲取新的變量。一旦所有的變量完成復(fù)制，這就標(biāo)志著一個(gè)訓(xùn)練步驟的完成，和下一個(gè)訓(xùn)練步驟的開始。

盡管這些聽起來與參數(shù)服務(wù)器的標(biāo)準(zhǔn)用法很相似，但是其性能在很多案例中表現(xiàn)更佳。這很大程度因?yàn)橛?jì)算沒有任何延遲，早期梯度的大部分復(fù)制延遲可被稍后的計(jì)算層隱藏。

通過傳遞參數(shù) variable_update=distributed_replicated 可以在腳本中使用該模式。

NCCL

為了在同一臺主機(jī)的不同 GPU 上傳播變量和聚合梯度，我們可以使用 Tensorflow 默認(rèn)的隱式復(fù)制機(jī)制。

然而，我們也可以選擇 NCCL(tf.contrib.nccl)。NCCL 是英偉達(dá)的一個(gè)庫，可以跨不同的 GPU 實(shí)現(xiàn)數(shù)據(jù)的高效傳輸和聚合。它在每個(gè) GPU 上分配一個(gè)協(xié)作內(nèi)核，這個(gè)內(nèi)核知道如何***地利用底層硬件拓?fù)浣Y(jié)構(gòu)，并使用單個(gè) SM 的 GPU。

通過實(shí)驗(yàn)證明，盡管 NCCL 通常會加速數(shù)據(jù)的聚合，但并不一定會加速訓(xùn)練。我們的假設(shè)是：隱式副本基本是不耗時(shí)的，因?yàn)樗鼈儽驹?GPU 上復(fù)制引擎，只要它的延遲可以被主計(jì)算本身隱藏起來，那么。雖然 NCCL 可以更快地傳輸數(shù)據(jù)，但是它需要一個(gè) SM，并且給底層的 L2 緩存增加了更多的壓力。我們的研究結(jié)果表明，在 8 個(gè) GPU 的條件下，NCCL 表現(xiàn)出了更優(yōu)異的性能;但是如果 GPU 更少的情況下，隱式副本通常會有更好的表現(xiàn)。

分段變量

我們進(jìn)一步介紹一種分段變量模式，我們使用分段區(qū)域來進(jìn)行變量讀取和更新。與輸入管道中的軟件流水線類似，這可以隱藏?cái)?shù)據(jù)拷貝的延遲。如果計(jì)算所花的時(shí)間比復(fù)制和聚合的時(shí)間更長，那么可以認(rèn)為復(fù)制本身是不耗時(shí)的。

這種方法的缺點(diǎn)是所有的權(quán)重都來自之前的訓(xùn)練步驟，所以這是一個(gè)不同于 SGD 的算法，但是通過調(diào)整學(xué)習(xí)率和其他超參數(shù)，還是有可能提高收斂性。

腳本的執(zhí)行

這一節(jié)將列出執(zhí)行主腳本的核心命令行參數(shù)和一些基本示例(tf_cnn_benchmarks.py)

注意：tf_cnn_benchmarks.py 使用的配置文件 force_gpu_compatible 是在 Tensorflow 1.1 版本之后引入的，直到 1.2 版本發(fā)布才建議從源頭建立。

主要的命令行參數(shù)

model：使用的模型有 resnet50、inception3、vgg16 和 alexnet。
num_gpus：這里指所用 GPU 的數(shù)量。
data_dir：數(shù)據(jù)處理的路徑，如果沒有被設(shè)置，那么將會使用合成數(shù)據(jù)。為了使用 Imagenet 數(shù)據(jù)，可把這些指示 (https://github.com/tensorflow/tensorflow/blob/master/tensorflow_models/inception#getting-started) 作為起點(diǎn)。
batch_size：每個(gè) GPU 的批量大小。
variable_update：管理變量的方法：parameter_server 、replicated、distributed_replicated、independent。
local_parameter_device：作為參數(shù)服務(wù)器使用的設(shè)備：CPU 或者 GPU。

單個(gè)實(shí)例

# VGG16 training ImageNet with 8 GPUs using arguments that optimize for 
# Google Compute Engine. 
python tf_cnn_benchmarks.py --local_parameter_device=cpu --num_gpus=8 \ 
--batch_size=32 --model=vgg16 --data_dir=/home/ubuntu/imagenet/train \ 
--variable_update=parameter_server --nodistortions 
 
# VGG16 training synthetic ImageNet data with 8 GPUs using arguments that 
# optimize for the NVIDIA DGX-1. 
python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \ 
--batch_size=64 --model=vgg16 --variable_update=replicated --use_nccl=True 
 
# VGG16 training ImageNet data with 8 GPUs using arguments that optimize for 
# Amazon EC2. 
python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \ 
--batch_size=64 --model=vgg16 --variable_update=parameter_server 
 
# ResNet-50 training ImageNet data with 8 GPUs using arguments that optimize for 
# Amazon EC2. 
python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \ 
--batch_size=64 --model=resnet50 --variable_update=replicated --use_nccl=False

分布式命令行參數(shù)

1)ps_hosts：在<host>:port 的格式中(比如 10.0.0.2:50000)，逗號分隔的主機(jī)列表用做參數(shù)服務(wù)器。

2)worker_hosts：(比如 10.0.0.2:50001)，逗號分隔的主機(jī)列表用作工作器，在<host>:port 的格式中。

3)task_index：正在啟動(dòng)的 ps_host 或 worker_hosts 列表中的主機(jī)索引。

4)job_name：工作的類別，例如 ps 或者 worker。

分布式實(shí)例

如下是在兩個(gè)主機(jī)(host_0 (10.0.0.1) 和 host_1 (10.0.0.2))上訓(xùn)練 ResNet-50 的實(shí)例，這個(gè)例子使用的是合成數(shù)據(jù)，如果要使用真實(shí)數(shù)據(jù)請傳遞 data_dir 參數(shù)。# Run the following commands on host_0 (10.0.0.1):

python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \ 
--batch_size=64 --model=resnet50 --variable_update=distributed_replicated \ 
--job_name=worker --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \ 
--worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=0 
 
python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \ 
--batch_size=64 --model=resnet50 --variable_update=distributed_replicated \ 
--job_name=ps --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \ 
--worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=0 
 
# Run the following commands on host_1 (10.0.0.2): 
python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \ 
--batch_size=64 --model=resnet50 --variable_update=distributed_replicated \ 
--job_name=worker --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \ 
--worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=1 
 
python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \ 
--batch_size=64 --model=resnet50 --variable_update=distributed_replicated \ 
--job_name=ps --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \ 
--worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=1

責(zé)任編輯：龐桂玉來源： 36大數(shù)據(jù)

大數(shù)據(jù)網(wǎng)絡(luò)拓?fù)?/a>可拓展模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營