偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sup id="f1hoq"></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPU推理服務(wù)性能優(yōu)化之路

作者：linggong 2023-03-08 18:43:50

商務(wù)辦公

采用以上兩個(gè)推理模型的加速技巧，即CPU與GPU進(jìn)程隔離，TensorRT模型加速。我們對(duì)線上的大量的GPU推理服務(wù)進(jìn)行了優(yōu)化，也節(jié)省了比較多的GPU服務(wù)器成本。

1、背景

隨著CV算法在業(yè)務(wù)場(chǎng)景中使用越來(lái)越多，給我們帶來(lái)了新的挑戰(zhàn)，需要提升Python推理服務(wù)的性能以降低生產(chǎn)環(huán)境成本。為此我們深入去研究Python GPU推理服務(wù)的工作原理，推理模型優(yōu)化的方法。最終通過(guò)兩項(xiàng)關(guān)鍵的技術(shù): 1.Python的GPU與CPU進(jìn)程分離，2.使用TensorRT對(duì)模型進(jìn)行加速，使得線上大部分模型服務(wù)QPS提升5-10倍左右，大量節(jié)約了線上GPU推理服務(wù)的成本。

針對(duì)上面的兩項(xiàng)關(guān)鍵技術(shù)，我們還自研了相關(guān)框架與工具進(jìn)行沉淀。包括基于Python的CPU與GPU進(jìn)程自動(dòng)隔離的推理服務(wù)框架，以及對(duì)推理模型進(jìn)行轉(zhuǎn)TensorRT優(yōu)化的調(diào)試工具。

此外針對(duì)不同的推理服務(wù)性能瓶頸，我們還梳理了各種實(shí)戰(zhàn)優(yōu)化技巧，比如CPU與GPU分離，TensorRT開(kāi)啟半精度優(yōu)化，同模型混合部署，GPU數(shù)據(jù)傳輸與推理并行等。

下面從理論，框架與工具，實(shí)戰(zhàn)優(yōu)化技巧三個(gè)方面介紹下推理服務(wù)性能優(yōu)化的方法。

2、理論篇

2.1 CUDA架構(gòu)

CUDA 是 NVIDIA 發(fā)明的一種并行計(jì)算平臺(tái)和編程模型。它通過(guò)利用圖形處理器 (GPU) 的處理能力，可大幅提升計(jì)算性能。

CUDA的架構(gòu)中引入了主機(jī)端（host, cpu）和設(shè)備（device, gpu）的概念。CUDA的Kernel函數(shù)既可以運(yùn)行在主機(jī)端，也可以運(yùn)行在設(shè)備端。同時(shí)主機(jī)端與設(shè)備端之間可以進(jìn)行數(shù)據(jù)拷貝。

CUDA Kernel函數(shù)：是數(shù)據(jù)并行處理函數(shù)（核函數(shù))，在GPU上執(zhí)行時(shí)，一個(gè)Kernel對(duì)應(yīng)一個(gè)Grid，基于GPU邏輯架構(gòu)分發(fā)成眾多thread去并行執(zhí)行。

CUDA Stream流：Cuda stream是指一堆異步的cuda操作，他們按照host代碼調(diào)用的順序執(zhí)行在device上。

典型的CUDA代碼執(zhí)行流程：

a.將數(shù)據(jù)從Host端copy到Device端。

b.在Device上執(zhí)行kernel。

c.將結(jié)果從Device段copy到Host端。

以上流程也是模型在GPU推理的過(guò)程。在執(zhí)行的過(guò)程中還需要綁定CUDA Stream，以流的形式執(zhí)行。

2.2 傳統(tǒng)Python推理服務(wù)瓶頸

2.2.1 傳統(tǒng)Python推理服務(wù)架構(gòu)

由于Python在神經(jīng)網(wǎng)絡(luò)訓(xùn)練與推理領(lǐng)域提供了豐富的庫(kù)支持，加上Python語(yǔ)言自身的便利性，所以推理服務(wù)大多用Python實(shí)現(xiàn)。CV算法的推理引擎大多采用Python flask框架或Kserve的框架直接實(shí)現(xiàn)。這種框架大致調(diào)用流程如下：

以上架構(gòu)是傳統(tǒng)推理服務(wù)的常用架構(gòu)。這種架構(gòu)的優(yōu)勢(shì)是代碼寫起來(lái)比較通俗易懂。但是在性能上有很大的弊端，所能承載的QPS比較低。我們用了幾個(gè)CV模型去壓測(cè)，極限QPS也一般不會(huì)超過(guò)4。

2.2.2 瓶頸分析

由于以上架構(gòu)的CPU邏輯(圖片的前處理，后處理)與GPU邏輯(模型推理)在同一個(gè)線程內(nèi)，所以會(huì)存在如下性能瓶頸：

如果是單線程的模式，CPU邏輯與GPU邏輯相互等待，GPU Kernel函數(shù)調(diào)度不足，導(dǎo)致GPU使用率不高。無(wú)法充分提升QPS。這種情況下只能開(kāi)啟更多進(jìn)程來(lái)提升QPS，但是更多進(jìn)程會(huì)帶來(lái)更多顯存的開(kāi)銷。
如果開(kāi)啟多線程模式，經(jīng)過(guò)實(shí)測(cè)，這種方式也不能帶來(lái)QPS的提升。主要是因?yàn)镻ython的GIL鎖的原因，由于Python GIL鎖的存在，Python的多線程實(shí)際上是偽的多線程，并不是真正的并發(fā)執(zhí)行，而是多個(gè)線程通過(guò)爭(zhēng)搶GIL鎖來(lái)執(zhí)行，這種情況下GPU Kernel launch線程不能得到充分的調(diào)度。在Python推理服務(wù)中，開(kāi)啟多線程反而會(huì)導(dǎo)致GPU Kernel launch線程頻繁被CPU的線程打斷。由于GPU kernel lanch調(diào)度不足，這種方式也無(wú)法充分利用GPU使用率。

2.2.3 解決方案

針對(duì)以上問(wèn)題，我們的解決方案是把CPU邏輯與GPU邏輯分離在兩個(gè)不同的進(jìn)程中。CPU進(jìn)程主要負(fù)責(zé)圖片的前處理與后處理，GPU邏輯則主要負(fù)責(zé)執(zhí)行cuda kernel 函數(shù)，即模型推理。

另外由于我們線上有大量推理服務(wù)在運(yùn)行，所以我們基于Python開(kāi)發(fā)了一個(gè)CPU與GPU分離的統(tǒng)一框架。針對(duì)原有Flask或Kserve的服務(wù)，稍作修改即可使用我們的服務(wù)。具體請(qǐng)參考下面的CPU與GPU分離的統(tǒng)一推理框架相關(guān)介紹。

針對(duì)線上的某個(gè)推理服務(wù)，使用我們的框架進(jìn)行了CPU與GPU進(jìn)程分離，壓測(cè)得出的數(shù)據(jù)如下，可見(jiàn)QPS大約提升了7倍左右。

推理服務(wù)框架類型	QPS	耗時(shí)	GPU使用率
傳統(tǒng)推理服務(wù)(多線程)	4.5	1.05s	2%
自研框架(6CPU進(jìn)程+1GPU進(jìn)程)	27.43	437ms	12%

2.3 TensorRT模型加速原理

TensorRT是由英偉達(dá)公司推出的一款用于高性能深度學(xué)習(xí)模型推理的軟件開(kāi)發(fā)工具包，可以把經(jīng)過(guò)優(yōu)化后的深度學(xué)習(xí)模型構(gòu)建成推理引擎部署在實(shí)際的生產(chǎn)環(huán)境中。TensorRT提供基于硬件級(jí)別的推理引擎性能優(yōu)化。

下圖為業(yè)界最常用的TensorRT優(yōu)化流程，也是當(dāng)前模型優(yōu)化的最佳實(shí)踐，即pytorch或tensorflow等模型轉(zhuǎn)成onnx格式，然后onnx格式轉(zhuǎn)成TensorRT進(jìn)行優(yōu)化。

其中TensorRT所做的工作主要在兩個(gè)時(shí)期，一個(gè)是網(wǎng)絡(luò)構(gòu)建期，另外一個(gè)是模型運(yùn)行期。

a.網(wǎng)絡(luò)構(gòu)建期

i.模型解析與建立，加載onnx網(wǎng)絡(luò)模型。

ii.計(jì)算圖優(yōu)化，包括橫向算子融合，或縱向算子融合等。

iii.節(jié)點(diǎn)消除，去除無(wú)用的節(jié)點(diǎn)。

iv.多精度支持，支持FP32/FP16/int8等精度。

v.基于特定硬件的相關(guān)優(yōu)化。

b.模型運(yùn)行期

i.序列化，加載RensorRT模型文件。

提供運(yùn)行時(shí)的環(huán)境，包括對(duì)象生命周期管理，內(nèi)存顯存管理等。

以下是我們基于 VisualTransformer模型進(jìn)行的TensorRT優(yōu)化前后的性能評(píng)測(cè)報(bào)告：

類別	Pytorch	Onnx	TensorRT-fp32	TensorRT-fp16
平均耗時(shí)	20ms	15ms	7ms	3.5ms
精度變化	精度不變	精度不變	精度不變	精度稍有損失，誤差均值與方差在0.003內(nèi)

3、框架與工具篇

這一篇章，主要介紹我們自己推出的框架與工具。其中框架為CPU與GPU分離的Python統(tǒng)一推理框架，工具則為Onnx轉(zhuǎn)TensorRT的半自動(dòng)化調(diào)試工具。相關(guān)框架與工具我們?cè)诰€上大量推理服務(wù)推進(jìn)使用中。

其中CPU與GPU分離的Python統(tǒng)一推理框架解決了普通Python推理服務(wù)無(wú)法自動(dòng)隔離CPU與GPU的問(wèn)題，用戶只需要繼承并實(shí)現(xiàn)框架提供的前處理，推理，后處理相關(guān)接口，底層邏輯即可自動(dòng)把CPU與GPU進(jìn)行進(jìn)程級(jí)別隔離。

其中TensorRT半自動(dòng)化調(diào)試工具，主要定位并解決模型轉(zhuǎn)TensorRT的過(guò)程中遇到的各種精度丟失問(wèn)題。底層基于TensorRT的相關(guān)接口與工具進(jìn)行封裝開(kāi)發(fā)。簡(jiǎn)化TensorRT的優(yōu)化參數(shù)。

3.1 CPU與GPU分離的統(tǒng)一推理框架

新架構(gòu)設(shè)計(jì)方案如下：

方案設(shè)計(jì)的思路是GPU邏輯與CPU邏輯分離到兩個(gè)進(jìn)程，其中CPU進(jìn)程主要負(fù)責(zé)CPU相關(guān)的業(yè)務(wù)邏輯，GPU進(jìn)程主負(fù)責(zé)GPU相關(guān)推理邏輯。同時(shí)拉起一個(gè)Proxy進(jìn)程做路由轉(zhuǎn)發(fā)。

（1）Proxy進(jìn)程

Proxy進(jìn)程是系統(tǒng)門面，對(duì)外提供調(diào)用接口，主要負(fù)責(zé)路由分發(fā)與健康檢查。當(dāng)Proxy進(jìn)程收到請(qǐng)求后，會(huì)輪詢調(diào)用CPU進(jìn)程，分發(fā)請(qǐng)求給CPU進(jìn)程。

（2）CPU進(jìn)程

CPU進(jìn)程主要負(fù)責(zé)推理服務(wù)中的CPU相關(guān)邏輯，包括前處理與后處理。前處理一般為圖片解碼，圖片轉(zhuǎn)換。后處理一般為推理結(jié)果判定等邏輯。

CPU進(jìn)程在前處理結(jié)束后，會(huì)調(diào)用GPU進(jìn)程進(jìn)行推理，然后繼續(xù)進(jìn)行后處理相關(guān)邏輯。CPU進(jìn)程與GPU進(jìn)程通過(guò)共享內(nèi)存或網(wǎng)絡(luò)進(jìn)行通信。共享內(nèi)存可以減少圖片的網(wǎng)絡(luò)傳輸。

（3）GPU進(jìn)程

GPU進(jìn)程主要負(fù)責(zé)運(yùn)行GPU推理相關(guān)的邏輯，它啟動(dòng)的時(shí)候會(huì)加載很多模型到顯存，然后收到CPU進(jìn)程的推理請(qǐng)求后，直接觸發(fā)kernel lanuch調(diào)用模型進(jìn)行推理。

該方案對(duì)算法同學(xué)提供了一個(gè)Model類接口，算法同學(xué)不需要關(guān)心后面的調(diào)用邏輯，只需要填充其中的前處理，后處理的業(yè)務(wù)邏輯，既可快速上線模型服務(wù)，自動(dòng)拉起這些進(jìn)程。

該方案把CPU邏輯(圖片解碼，圖片后處理等)與GPU邏輯(模型推理)分離到兩個(gè)不同的進(jìn)程中。可以解決Python GIL鎖帶來(lái)的GPU Kernel launch調(diào)度問(wèn)題。

3.2 TensorRT調(diào)試工具

TensorRT雖然不是完全開(kāi)源的，但是官方給出了一些接口與工具，基于這些接口與工具我們可以對(duì)模型優(yōu)化流程進(jìn)行分析與干預(yù)。基于TensorRT官方提供的接口與工具，我們自己研發(fā)了一套工具。用戶可以使用我們的工具把模型轉(zhuǎn)成TensorRT格式，如果在模型轉(zhuǎn)換的過(guò)程中出現(xiàn)精度丟失等問(wèn)題，也可以使用該工具進(jìn)行問(wèn)題定位與解決。

自研工具主要在兩個(gè)階段為用戶提供幫助，一個(gè)階段是問(wèn)題定位，另一個(gè)階段是模型轉(zhuǎn)換。具體描述如下：

3.2.1 問(wèn)題定位

問(wèn)題定位階段主要是為了解決模型轉(zhuǎn)TensorRT開(kāi)啟FP16模式時(shí)出現(xiàn)的精度丟失問(wèn)題。一般分類模型，對(duì)精度的要求不是極致的情況下，盡量開(kāi)啟FP16，F(xiàn)P16模式下，NVIDIA對(duì)于FP16有專門的Tensor Cores可以進(jìn)行矩陣運(yùn)算，相比FP32來(lái)說(shuō)吞吐量提升一倍以上。

比如在轉(zhuǎn)TensorRT時(shí)，開(kāi)啟FP16出現(xiàn)了精度丟失問(wèn)題，自研工具在問(wèn)題定位階段的大致工作流程如下：

主要工作流程為：

（1）設(shè)定模型轉(zhuǎn)換精度要求后，標(biāo)記所有算子為輸出，然后對(duì)比所有算子的輸出精度。

（2）找到最早的不符合精度要求的算子，對(duì)該算子進(jìn)行如下幾種方式干預(yù)。

標(biāo)記該算子為FP32。
標(biāo)記其父類算子為FP32。
更改該算子的優(yōu)化策略(具體參考TensorRT的tactic)

循環(huán)通過(guò)以上兩個(gè)步驟，最終找到符合目標(biāo)精度要求的模型參數(shù)。這些參數(shù)比如，需要額外開(kāi)啟FP32的那些算子等。然后相關(guān)參數(shù)會(huì)輸出到配置文件中，如下：

配置項(xiàng)	解釋
FP32_LAYERS_FOR_FP16	開(kāi)啟FP16模式下，哪些算子需要額外開(kāi)啟FP32。
TRT_EXCLUDE_TACTIC	TensorRT算子需要忽略的tactic策略。(tactic可參考TensorRT相關(guān)資料)
atol	相對(duì)誤差
rtol	絕對(duì)誤差
check-error-stat	誤差的計(jì)算方法包括：mean, median, max

3.2.2 模型轉(zhuǎn)換

模型轉(zhuǎn)換階段則直接使用上面問(wèn)題定位階段得到的參數(shù)，調(diào)用TensorRT相關(guān)接口與工具進(jìn)行轉(zhuǎn)換。

此外，我們?cè)谀Ｐ娃D(zhuǎn)換階段，針對(duì)TensorRT原有參數(shù)與API過(guò)于復(fù)雜的問(wèn)題也做了一些封裝，提供了更為簡(jiǎn)潔的接口，比如工具可以自動(dòng)解析ONNX，判斷模型的輸入與輸出shape，不需要用戶再提供相關(guān)shape信息了。

4、優(yōu)化技巧實(shí)戰(zhàn)篇

在實(shí)際應(yīng)用中，我們期望用戶能夠?qū)σ粋€(gè)推理模型開(kāi)啟CPU與GPU分離的同時(shí)，也開(kāi)啟TensorRT優(yōu)化。這樣往往可以得到QPS兩次優(yōu)化的疊加效果。比如我們針對(duì)線下某個(gè)分類模型進(jìn)行優(yōu)化，使用的是CPU與GPU分離，TensorRT優(yōu)化，并開(kāi)啟FP16半精度，最終得到了10倍的QPS提升。

以下是我們?cè)谀Ｐ蛢?yōu)化過(guò)程中的一些實(shí)戰(zhàn)技巧，梳理一下，分享給大家。

（1）分類模型，CPU與GPU分離，TensorRT優(yōu)化，并開(kāi)啟FP16，得到10倍QPS提升

某個(gè)線上基于Resnet的分類模型，對(duì)精度損失可以接受誤差在0.001(誤差定義：median,atol,rtol)范圍內(nèi)。因此我們對(duì)該推理服務(wù)進(jìn)行了三項(xiàng)性能優(yōu)化：

a.使用我們提供的GPU與CPU分離的統(tǒng)一框架進(jìn)行改造。

b.對(duì)模型轉(zhuǎn)ONNX后，轉(zhuǎn)TensorRT。

c.開(kāi)啟FP16模式，并使用自研工具定位到中間出現(xiàn)精度損失的算子，把這些算子標(biāo)記為FP32.

經(jīng)過(guò)以上優(yōu)化，最終得到了10倍QPS的提升(與原來(lái)Pytorch直接推理比較)，成本上得到比較大的縮減。

（2）檢測(cè)模型，CPU與GPU分離，TensorRT模型優(yōu)化，QPS提升4-5倍左右。

某個(gè)線上基于Yolo的檢查模型，由于對(duì)精度要求比較高，所以沒(méi)有辦法開(kāi)啟FP16，我們直接在FP32的模式下進(jìn)行了TensorRT優(yōu)化，并使用統(tǒng)一框架進(jìn)行GPU與CPU分離，最終得到QPS 4-5倍的提升。

（3）同模型重復(fù)部署，充分利用GPU算力資源

在實(shí)際的場(chǎng)景中，往往GPU的算力是充足的，而GPU顯存是不夠的。經(jīng)過(guò)TensorRT優(yōu)化后，模型運(yùn)行時(shí)需要的顯存大小一般會(huì)降低到原來(lái)的1/3到1/2。

為了充分利用GPU算力，框架進(jìn)一步優(yōu)化，支持可以把GPU進(jìn)程在一個(gè)容器內(nèi)復(fù)制多份，這種架構(gòu)即保證了CPU可以提供充足的請(qǐng)求給GPU，也保證了GPU算力充分利用。優(yōu)化后的架構(gòu)如下圖：

比如線上某個(gè)模型，經(jīng)過(guò)TensorRT優(yōu)化后，顯存由原來(lái)的2.4G降低到只需要1.2G。為此我們申請(qǐng)了5G顯存，配置GPU進(jìn)程為復(fù)制4份，共需要4.8G顯存。這樣存充分利用5G顯存，達(dá)到原來(lái)一個(gè)模型的4倍的算力，充分利用GPU的算力資源。

5、總結(jié)

采用以上兩個(gè)推理模型的加速技巧，即CPU與GPU進(jìn)程隔離，TensorRT模型加速。我們對(duì)線上的大量的GPU推理服務(wù)進(jìn)行了優(yōu)化，也節(jié)省了比較多的GPU服務(wù)器成本。

其中CPU與GPU進(jìn)程隔離主要是針對(duì)Python推理服務(wù)的優(yōu)化，因?yàn)樵贑++的推理服務(wù)中，不存在Python GIL鎖，也就不存在Python Kernel launch線程的調(diào)度問(wèn)題。目前業(yè)界開(kāi)源的Python推理服務(wù)框架中，還沒(méi)有提供類似的優(yōu)化功能，所以我們后續(xù)有考慮把Python統(tǒng)一推理服務(wù)框架進(jìn)行開(kāi)源，希望能為社區(qū)做一點(diǎn)貢獻(xiàn)。

此外TensorRT的模型優(yōu)化，我們參考了大量NIVIDIA的官網(wǎng)文檔，在上層做了封裝，后續(xù)會(huì)進(jìn)一步深入研究。

責(zé)任編輯：武曉燕來(lái)源：得物技術(shù)

GPU 模型隔離

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="qmlob"><menuitem id="qmlob"></menuitem></pre>

<sub id="qmlob"><p id="qmlob"></p></sub>