【技術(shù)】TensorFlow官方解讀:如何在多系統(tǒng)和網(wǎng)絡(luò)拓?fù)渲袠?gòu)建高性能模型
這個(gè)文檔和附帶的腳本詳細(xì)介紹了如何構(gòu)建針對各種系統(tǒng)和網(wǎng)絡(luò)拓?fù)涞母咝阅芸赏卣鼓P?。這個(gè)技術(shù)在本文檔中用了一些低級的 Tensorflow Python 基元。在未來,這些技術(shù)將被并入高級 API。
輸入管道
性能指南闡述了如何診斷輸入管道可能存在的問題及其***解決方法。在使用大量輸入和每秒更高的采樣處理中我們發(fā)現(xiàn) tf.FIFOQueue 和 tf.train.queue_runner 無法使用當(dāng)前多個(gè) GPU 生成飽和,例如在使用 AlexNet 訓(xùn)練 ImageNet 時(shí)。這是因?yàn)槭褂昧? Python 線程作為底層實(shí)現(xiàn),而 Python 線程的開銷太大了。
我們在腳本中采用的另一種方法是通過 Tensorflow 中的本機(jī)并行構(gòu)建輸入管道。我們的方法主要由如下 3 個(gè)階段組成:
- I/O 讀?。簭拇疟P中選擇和讀取圖像文件。
- 圖像處理:將圖像記錄解碼為像素、預(yù)處理并生成最小批量。
- CPU 到 GPU 的數(shù)據(jù)傳輸:將圖像從 CPU 傳輸至 GPU。
通過利用 data_flow_ops.StagingArea,每個(gè)階段的主要部分與其他階段并行執(zhí)行。StagingArea 是一個(gè)像隊(duì)列(queue)一樣且類似于 tf.FIFOQueue 的運(yùn)算符。不同之處在于 StagingArea 提供了更簡單的功能且可在 CPU 和 GPU 中與其他階段并行執(zhí)行。將輸入管道拆分為 3 個(gè)獨(dú)立并行操作的階段,并且這是可擴(kuò)展的,充分利用大型的多核環(huán)境。本節(jié)的余下部分將詳細(xì)介紹每個(gè)階段以及 data_flow_ops.StagingArea 的使用細(xì)節(jié)。
并行 I/O 讀取
data_flow_ops.RecordInput 用于磁盤的并行讀取。給定一個(gè)代表 TFRecords 的輸入文件列表,RecordInput 可使用后臺線程連續(xù)讀取記錄。這些記錄被放置在大型的內(nèi)部池中,當(dāng)這個(gè)池加載量達(dá)到其容量的一半時(shí),會有相應(yīng)的張量輸出。這個(gè)操作有其內(nèi)部線程,線程由占用最少的 CPU 資源的 I/O 時(shí)間主導(dǎo),這就允許它可與模型的其余部分并行運(yùn)行。
并行圖像處理
從 RecordInput 讀取圖像后,它們作為張量被傳遞至圖像處理管道。為了更方便解釋圖像處理管道,假設(shè)輸入管道的目標(biāo)是 8 個(gè)批量大小為 256(每個(gè) GPU 32 個(gè))GPU。256 個(gè)圖像記錄的讀取和處理是獨(dú)立并行的。從圖中 256 個(gè) RecordInput 讀操作開始,每個(gè)讀取操作后都有一個(gè)與之相匹配的圖像預(yù)處理操作,這些操作是彼此獨(dú)立和并行執(zhí)行的。這些圖像預(yù)處理操作包括諸如圖像解碼、失真和調(diào)整大小。
當(dāng)圖像通過預(yù)處理器后,它們被聯(lián)接成 8 個(gè)大小為 32 的張量。為了達(dá)到這一目的,使用了 tf.parallel_stack,而不是 tf.concat ,目的作為單一操作被實(shí)現(xiàn),且在將它們聯(lián)結(jié)在一起之前需要所有輸入準(zhǔn)備就緒。tf.parallel_stack 將未初始化的張量作為輸出,并且在有張量輸入時(shí),每個(gè)輸入的張量被寫入輸出張量的指定部分。
當(dāng)所有的張量完成輸入時(shí),輸出張量在圖中傳遞。這有效隱藏了由于產(chǎn)生所有輸入張量的長尾(long tail)而導(dǎo)致的內(nèi)存延遲。
并行從 CPU 到 GPU 的數(shù)據(jù)傳輸
繼續(xù)假設(shè)目標(biāo)是批量大小為 256(每個(gè) GPU 32 個(gè))8 個(gè) GPU,一旦輸入圖像被處理完并被 CPU 聯(lián)接后,我們將得到 8 個(gè)批量大小為 32 的張量。Tensorflow 可以使一個(gè)設(shè)備的張量直接用在任何其他設(shè)備上。為使張量在任何設(shè)備中可用,Tensorflow 插入了隱式副本。在張量被實(shí)際使用之前,會在設(shè)備之間調(diào)度副本運(yùn)行。一旦副本無法按時(shí)完成運(yùn)行,需要這些張量的計(jì)算將會停止并且導(dǎo)致性能下降。
在此實(shí)現(xiàn)中,data_flow_ops.StagingArea 用于明確排定并行副本。最終的結(jié)果是當(dāng) GPU 上的計(jì)算開始時(shí),所有張量已可用。
軟件管道
由于所有的階段都可以在不同的處理器下運(yùn)行,在它們之間使用 data_flow_ops.StagingArea 可使其并行運(yùn)行。StagingArea 是一個(gè)與 tf.FIFOQueue 相似且像隊(duì)列(queue)一樣的運(yùn)算符,tf.FIFOQueue 提供更簡單的功能可在 CPU 和 GPU 中被執(zhí)行。
在模型開始運(yùn)行所有的階段之前,輸入管道階段將被預(yù)熱,以將其間的分段緩存區(qū)置于一組數(shù)據(jù)之間。在每個(gè)運(yùn)行階段中,開始時(shí)從分段緩沖區(qū)中讀取一組數(shù)據(jù),并在***將該組數(shù)據(jù)推送。
例如有 A、B、C 三個(gè)階段,這之間就有兩個(gè)分段區(qū)域 S1 和 S2。在預(yù)熱時(shí),我們運(yùn)行:
- Warm up:
- Step 1: A0
- Step 2: A1 B0
- Actual execution:
- Step 3: A2 B1 C0
- Step 4: A3 B2 C1
- Step 5: A4 B3 C2
預(yù)熱結(jié)束之后,S1 和 S2 各有一組數(shù)據(jù)。對于實(shí)際執(zhí)行的每個(gè)步驟,會計(jì)算一組來自分段區(qū)域的數(shù)據(jù),同時(shí)分段區(qū)域會添加一組新數(shù)據(jù)。
此方案的好處是:
- 所有的階段都是非阻塞的,因?yàn)轭A(yù)熱后分段區(qū)域總會有一組數(shù)據(jù)存在。
- 每個(gè)階段都可以并行處理,因?yàn)樗鼈兛梢粤⒓磫?dòng)。
- 分段緩存區(qū)具有固定的內(nèi)存開銷,并至多有一組額外的數(shù)據(jù)。
- 運(yùn)行一個(gè)步驟的所有階段只需要調(diào)用 singlesession.run(),這使得分析和調(diào)試更加容易。
構(gòu)建高性能模型的***實(shí)踐
以下收集的是一些額外的***實(shí)踐,可以改善模型性能,增加模型靈活性。
使用 NHWC 和 NCHW 建模
CNN 使用的絕大多數(shù) Tensorflow 操作都支持 NHWC 和 NCHW 數(shù)據(jù)格式。在 GPU 中,NCHW 更快;但是在 CPU 中,NHWC 只是偶爾更快。
構(gòu)建一個(gè)支持日期格式的模型可增加其靈活性,能夠在任何平臺上良好運(yùn)行?;鶞?zhǔn)腳本是為了支持 NCHW 和 NHWC 而編寫的。使用 GPU 訓(xùn)練模型時(shí)會經(jīng)常用到 NCHW。NHWC 在 CPU 中有時(shí)速度更快。在 GPU 中可以使用 NCHW 對一個(gè)靈活的模型進(jìn)行訓(xùn)練,在 CPU 中使用 NHWC 進(jìn)行推理,并從訓(xùn)練中獲得合適的權(quán)重參數(shù)。
使用融合的批處理歸一化
Tensorflow 中默認(rèn)的批處理歸一化被實(shí)現(xiàn)為復(fù)合操作,這是很通用的做法,但是其性能不好。融合的批處理歸一化是一種替代選擇,其在 GPU 中能取得更好的性能。如下是用 tf.contrib.layers.batch_norm 實(shí)現(xiàn)融合批處理歸一化的一個(gè)實(shí)例:
- bn = tf.contrib.layers.batch_norm(
- input_layer, fused=True, data_format='NCHW'
- scope=scope)
變量分布和梯度聚合
訓(xùn)練期間,訓(xùn)練的變量值通過聚合的梯度和增量進(jìn)行更新。在基準(zhǔn)腳本中,展示了通過使用靈活和通用的 Tensorflow 原語,我們可以構(gòu)建各種各樣的高性能分布和聚合方案。
在基準(zhǔn)腳本中包括 3 個(gè)變量分布和聚合的例子:
- 參數(shù)服務(wù)器,訓(xùn)練模型的每個(gè)副本都從參數(shù)服務(wù)器中讀取變量并獨(dú)立更新變量。當(dāng)每個(gè)模型需要變量時(shí),它們將被復(fù)制到由 Tensorflow 運(yùn)行時(shí)添加的標(biāo)準(zhǔn)隱式副本中。示例腳本介紹了使用此方法如何進(jìn)行本地訓(xùn)練、分布式同步訓(xùn)練和分布式異步訓(xùn)練。
- 拷貝,在每個(gè) GPU 上放置每個(gè)訓(xùn)練變量相同的副本,在變量數(shù)據(jù)立即可用時(shí),正向計(jì)算和反向計(jì)算立即開始。所有 GPU 中的梯度都會被累加,累加的總和應(yīng)用于每個(gè) GPU 變量副本,以使其保持同步。
- 分布式復(fù)制,將每個(gè) GPU 中的訓(xùn)練參數(shù)副本與參數(shù)服務(wù)器上的主副本放置在一起,在變量數(shù)據(jù)可用時(shí),正向計(jì)算和反向計(jì)算立即開始。一臺服務(wù)器上每個(gè) GPU 的梯度會被累加,然后每個(gè)服務(wù)器中聚合的梯度會被應(yīng)用到主副本中。當(dāng)所有的模塊都執(zhí)行此操作后,每個(gè)模塊都將從主副本中更新變量副本。
以下是有關(guān)每種方法的其他細(xì)節(jié)。
參數(shù)服務(wù)器變量
在 Tensorflow 模型中管理變量的最常見方式是參數(shù)服務(wù)器模式。
在分布式系統(tǒng)中,每個(gè)工作器(worker)進(jìn)程運(yùn)行相同的模型,參數(shù)服務(wù)器處理其自有的變量主副本。當(dāng)一個(gè)工作器需要一個(gè)來自參數(shù)服務(wù)器的變量時(shí),它可從其中直接引用。Tensorflow 在運(yùn)行時(shí)會將隱式副本添加到圖形中,這使得在需要它的計(jì)算設(shè)備上變量值可用。當(dāng)在工作器上計(jì)算梯度時(shí),這個(gè)梯度會被傳輸?shù)綋碛刑囟ㄗ兞康膮?shù)服務(wù)器中,而相應(yīng)的優(yōu)化器被用于更新變量。
以下是一些提高吞吐量的技術(shù):
- 為了使負(fù)載平衡,這些變量根據(jù)其大小在參數(shù)服務(wù)器之間傳輸。
- 當(dāng)每個(gè)工作器有多個(gè) GPU 時(shí),累加每個(gè) GPU 的梯度,并把這個(gè)單一的聚合梯度發(fā)送到參數(shù)服務(wù)器。這將降低網(wǎng)絡(luò)帶寬,減少參數(shù)服務(wù)器的工作量。
為了協(xié)調(diào)工作器,常常采用異步更新模式,其中每個(gè)工作器更新變量的主副本,而不與其他工作器同步。在我們的模型中,我們展示了在工作器中引入同步機(jī)制是非常容易的,所以在下一步開始之前所有的工作器必須完成更新。
這個(gè)參數(shù)服務(wù)器方法同樣可以應(yīng)用在本地訓(xùn)練中,在這種情況下,它們不是在參數(shù)服務(wù)器之間傳播變量的主副本,而是在 CPU 上或分布在可用的 GPU 上。
由于該設(shè)置的簡單性,這種架構(gòu)在社區(qū)中獲得廣泛的推廣。
通過傳遞參數(shù) variable_update=parameter_server,也可以在腳本中使用此模式。
變量復(fù)制
在這種設(shè)計(jì)中,服務(wù)器中的每個(gè) GPU 都有自己的變量副本。通過將完全聚合的梯度應(yīng)用于變量的每個(gè) GPU 副本,使得這些值在 GPU 之間保持同步。
因?yàn)樽兞亢蛿?shù)據(jù)在訓(xùn)練的初始階段就準(zhǔn)備好了,所以訓(xùn)練的前向計(jì)算可以立即開始。聚合各個(gè)設(shè)備的梯度以得到一個(gè)完全聚合的梯度,并將該梯度應(yīng)用到每個(gè)本地副本中。
服務(wù)器間的梯度聚合可通過不同的方法實(shí)現(xiàn):
- 使用 Tensorflow 標(biāo)準(zhǔn)操作在單個(gè)設(shè)備上(CPU 或 GPU)累加整和,然后將其拷貝回所有的 GPU。
- 使用英偉達(dá) NCCL,這個(gè)將在下面的 NCCL 章節(jié)闡述。
分布式訓(xùn)練中的變量復(fù)制
上述變量復(fù)制的方法可擴(kuò)展到分布式訓(xùn)練中。一種類似的方法是:完全地聚合集群中的梯度,并將它們應(yīng)用于每個(gè)本地副本。這種方法在未來版本的腳本中可能會出現(xiàn),但是當(dāng)前的腳本采用不同的方法。描述如下。
在這一模式中,除了變量的每一個(gè) GPU 副本之外,主副本被存儲在參數(shù)服務(wù)器之中。借助這一復(fù)制模式,可使用變量的本地副本立刻開始訓(xùn)練。
隨著權(quán)重的梯度可用,它們會被送回至參數(shù)服務(wù)器,并所有的本地副本都會被更新:
- 同一個(gè)工作器中把 GPU 所有的梯度聚合在一起。
- 將來自各個(gè)工作器的聚合梯度發(fā)送至自帶變量的參數(shù)服務(wù)器中,其中使用特殊的優(yōu)化器來更新變量的主副本。
- 每個(gè)工作器從主副本中更新變量的本地副本。在示例模型中,這是在一個(gè)擁有交叉副本的負(fù)載中在等待所有的模塊完成變量更新后進(jìn)行的,并且只有在負(fù)載被所有副本釋放以后才能獲取新的變量。一旦所有的變量完成復(fù)制,這就標(biāo)志著一個(gè)訓(xùn)練步驟的完成,和下一個(gè)訓(xùn)練步驟的開始。
盡管這些聽起來與參數(shù)服務(wù)器的標(biāo)準(zhǔn)用法很相似,但是其性能在很多案例中表現(xiàn)更佳。這很大程度因?yàn)橛?jì)算沒有任何延遲,早期梯度的大部分復(fù)制延遲可被稍后的計(jì)算層隱藏。
通過傳遞參數(shù) variable_update=distributed_replicated 可以在腳本中使用該模式。
NCCL
為了在同一臺主機(jī)的不同 GPU 上傳播變量和聚合梯度,我們可以使用 Tensorflow 默認(rèn)的隱式復(fù)制機(jī)制。
然而,我們也可以選擇 NCCL(tf.contrib.nccl)。NCCL 是英偉達(dá)的一個(gè)庫,可以跨不同的 GPU 實(shí)現(xiàn)數(shù)據(jù)的高效傳輸和聚合。它在每個(gè) GPU 上分配一個(gè)協(xié)作內(nèi)核,這個(gè)內(nèi)核知道如何***地利用底層硬件拓?fù)浣Y(jié)構(gòu),并使用單個(gè) SM 的 GPU。
通過實(shí)驗(yàn)證明,盡管 NCCL 通常會加速數(shù)據(jù)的聚合,但并不一定會加速訓(xùn)練。我們的假設(shè)是:隱式副本基本是不耗時(shí)的,因?yàn)樗鼈儽驹?GPU 上復(fù)制引擎,只要它的延遲可以被主計(jì)算本身隱藏起來,那么。雖然 NCCL 可以更快地傳輸數(shù)據(jù),但是它需要一個(gè) SM,并且給底層的 L2 緩存增加了更多的壓力。我們的研究結(jié)果表明,在 8 個(gè) GPU 的條件下,NCCL 表現(xiàn)出了更優(yōu)異的性能;但是如果 GPU 更少的情況下,隱式副本通常會有更好的表現(xiàn)。
分段變量
我們進(jìn)一步介紹一種分段變量模式,我們使用分段區(qū)域來進(jìn)行變量讀取和更新。與輸入管道中的軟件流水線類似,這可以隱藏?cái)?shù)據(jù)拷貝的延遲。如果計(jì)算所花的時(shí)間比復(fù)制和聚合的時(shí)間更長,那么可以認(rèn)為復(fù)制本身是不耗時(shí)的。
這種方法的缺點(diǎn)是所有的權(quán)重都來自之前的訓(xùn)練步驟,所以這是一個(gè)不同于 SGD 的算法,但是通過調(diào)整學(xué)習(xí)率和其他超參數(shù),還是有可能提高收斂性。
腳本的執(zhí)行
這一節(jié)將列出執(zhí)行主腳本的核心命令行參數(shù)和一些基本示例(tf_cnn_benchmarks.py)
注意:tf_cnn_benchmarks.py 使用的配置文件 force_gpu_compatible 是在 Tensorflow 1.1 版本之后引入的,直到 1.2 版本發(fā)布才建議從源頭建立。
主要的命令行參數(shù)
- model:使用的模型有 resnet50、inception3、vgg16 和 alexnet。
- num_gpus:這里指所用 GPU 的數(shù)量。
- data_dir:數(shù)據(jù)處理的路徑,如果沒有被設(shè)置,那么將會使用合成數(shù)據(jù)。為了使用 Imagenet 數(shù)據(jù),可把這些指示 (https://github.com/tensorflow/tensorflow/blob/master/tensorflow_models/inception#getting-started) 作為起點(diǎn)。
- batch_size:每個(gè) GPU 的批量大小。
- variable_update:管理變量的方法:parameter_server 、replicated、distributed_replicated、independent。
- local_parameter_device:作為參數(shù)服務(wù)器使用的設(shè)備:CPU 或者 GPU。
單個(gè)實(shí)例
- # VGG16 training ImageNet with 8 GPUs using arguments that optimize for
- # Google Compute Engine.
- python tf_cnn_benchmarks.py --local_parameter_device=cpu --num_gpus=8 \
- --batch_size=32 --model=vgg16 --data_dir=/home/ubuntu/imagenet/train \
- --variable_update=parameter_server --nodistortions
- # VGG16 training synthetic ImageNet data with 8 GPUs using arguments that
- # optimize for the NVIDIA DGX-1.
- python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \
- --batch_size=64 --model=vgg16 --variable_update=replicated --use_nccl=True
- # VGG16 training ImageNet data with 8 GPUs using arguments that optimize for
- # Amazon EC2.
- python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \
- --batch_size=64 --model=vgg16 --variable_update=parameter_server
- # ResNet-50 training ImageNet data with 8 GPUs using arguments that optimize for
- # Amazon EC2.
- python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \
- --batch_size=64 --model=resnet50 --variable_update=replicated --use_nccl=False
分布式命令行參數(shù)
1)ps_hosts:在<host>:port 的格式中(比如 10.0.0.2:50000),逗號分隔的主機(jī)列表用做參數(shù)服務(wù)器。
2)worker_hosts:(比如 10.0.0.2:50001),逗號分隔的主機(jī)列表用作工作器,在<host>:port 的格式中。
3)task_index:正在啟動(dòng)的 ps_host 或 worker_hosts 列表中的主機(jī)索引。
4)job_name:工作的類別,例如 ps 或者 worker。
分布式實(shí)例
如下是在兩個(gè)主機(jī)(host_0 (10.0.0.1) 和 host_1 (10.0.0.2))上訓(xùn)練 ResNet-50 的實(shí)例,這個(gè)例子使用的是合成數(shù)據(jù),如果要使用真實(shí)數(shù)據(jù)請傳遞 data_dir 參數(shù)。# Run the following commands on host_0 (10.0.0.1):
- python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \
- --batch_size=64 --model=resnet50 --variable_update=distributed_replicated \
- --job_name=worker --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \
- --worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=0
- python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \
- --batch_size=64 --model=resnet50 --variable_update=distributed_replicated \
- --job_name=ps --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \
- --worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=0
- # Run the following commands on host_1 (10.0.0.2):
- python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \
- --batch_size=64 --model=resnet50 --variable_update=distributed_replicated \
- --job_name=worker --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \
- --worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=1
- python tf_cnn_benchmarks.py --local_parameter_device=gpu --num_gpus=8 \
- --batch_size=64 --model=resnet50 --variable_update=distributed_replicated \
- --job_name=ps --ps_hosts=10.0.0.1:50000,10.0.0.2:50000 \
- --worker_hosts=10.0.0.1:50001,10.0.0.2:50001 --task_index=1