偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

微信 NLP 算法微服務(wù)治理

作者：馮佳宜 2023-05-04 07:27:20

人工智能算法

本文主題為微信 NLP 算法微服務(wù)治理，將分享模型微服務(wù)帶來的挑戰(zhàn)，以及應(yīng)對這些挑戰(zhàn)的解決方案。

一、概述

馬斯克收購了推特，但對其技術(shù)表示不滿。認(rèn)為主頁速度過慢是因為有 1000 多個 RPC。先不評價馬斯克所說的原因是否正確，但可以看出，互聯(lián)網(wǎng)上為用戶提供的一個完整的服務(wù)，背后會有大量的微服務(wù)調(diào)用。

以微信讀書推薦為例，分為召回和排序兩個階段。

請求到達(dá)后，會先從用戶特征微服務(wù)拉取特征，把特征組合在一起進(jìn)行特征篩選，然后調(diào)用召回相關(guān)的微服務(wù)，這一流程還需要乘以一個 N，因為我們是多路召回，會有很多類似的召回流程在同時運(yùn)行。下面的是排序階段，從多個特征微服務(wù)中拉取相關(guān)特征，組合后多次調(diào)用排序模型服務(wù)。獲得最終結(jié)果后，一方面將最終結(jié)果返回給調(diào)用方，另一方面還要將流程的一些日志發(fā)送給日志系統(tǒng)留檔。

讀書推薦只是微信讀書整個 APP 中非常小的一部分，由此可見，即便是一個比較小的服務(wù)后面也會有大量的微服務(wù)調(diào)用。管中窺豹，可以意料到整個微信讀書的系統(tǒng)會有巨量的微服務(wù)調(diào)用。

大量的微服務(wù)帶來了什么問題？

根據(jù)日常工作的總結(jié)，主要是有以上三方面的挑戰(zhàn)：

① 管理方面：主要是圍繞如何高效地管理、開發(fā)以及部署大量的算法微服務(wù)。

② 性能方面：要盡量提升微服務(wù)，特別是算法微服務(wù)的性能。

③ 調(diào)度方面：如何在多個同類算法微服務(wù)之間實(shí)現(xiàn)高效合理的負(fù)載均衡。

二、微服務(wù)所面臨的管理問題

1、開發(fā)和部署：CI/CD 系統(tǒng)提供自動打包和部署

第一點(diǎn)是我們提供了一些自動打包和部署的流水線，減輕算法同學(xué)開發(fā)算法微服務(wù)的壓力，現(xiàn)在算法同學(xué)只需要寫一個 Python 函數(shù)，流水線會自動拉取預(yù)先寫好的一系列微服務(wù)模板，并將算法同學(xué)開發(fā)的函數(shù)填入，快速搭建微服務(wù)。

2、擴(kuò)縮容：任務(wù)積壓感知自動擴(kuò)縮容

第二點(diǎn)是關(guān)于微服務(wù)的自動擴(kuò)縮容，我們采取的是任務(wù)積壓感知的方案。我們會主動去探測某一類任務(wù)積壓或空閑的程度，當(dāng)積壓超過某一閾值后就會自動觸發(fā)擴(kuò)容操作；當(dāng)空閑達(dá)到某一閾值后，也會去觸發(fā)縮減微服務(wù)的進(jìn)程數(shù)。

3、微服務(wù)組織：圖靈完備 DAG / DSL / 自動壓測 / 自動部署

第三點(diǎn)是如何把大量的微服務(wù)組織在一起，來構(gòu)造出完整的上層服務(wù)。我們的上層服務(wù)是用 DAG 去表示的，DAG 的每一個節(jié)點(diǎn)代表一個對微服務(wù)的調(diào)用，每一條邊代表服務(wù)間數(shù)據(jù)的傳遞。針對 DAG，還專門開發(fā)了 DSL（領(lǐng)域特定語言），更好地描述和構(gòu)造 DAG。并且我們圍繞 DSL 開發(fā)了一系列基于網(wǎng)頁的工具，可以直接在瀏覽器里進(jìn)行上層服務(wù)的可視化構(gòu)建、壓測和部署。

4、性能監(jiān)控：Trace 系統(tǒng)

第四點(diǎn)性能監(jiān)控，當(dāng)上層服務(wù)出現(xiàn)問題時要去定位問題，我們構(gòu)建了一套自己的 Trace 系統(tǒng)。針對每一個外來請求，都有一整套的追蹤，可以查看請求在每一個微服務(wù)的耗時，從而發(fā)現(xiàn)系統(tǒng)的性能瓶頸。

三、微服務(wù)所面臨的性能問題

一般來說，算法的性能耗時都在深度學(xué)習(xí)模型上，優(yōu)化算法微服務(wù)的性能很大一部分著力點(diǎn)就在優(yōu)化深度學(xué)習(xí)模型 infer 性能?？梢赃x擇專用的 infer 框架，或嘗試深度學(xué)習(xí)編譯器，Kernel 優(yōu)化等等方法，對于這些方案，我們認(rèn)為并不是完全有必要。在很多情況下，我們直接用 Python 腳本上線，一樣可以達(dá)到比肩 C++ 的性能。

不是完全有必要的原因在于，這些方案確實(shí)能帶來比較好的性能，但是性能好不是服務(wù)唯一的要求。有一個很著名的二八定律，以人與資源來描述，就是 20% 的人會產(chǎn)生 80% 的資源，換句話說，20% 的人會提供 80% 的貢獻(xiàn)。對于微服務(wù)來說，也是適用的。

我們可以把微服務(wù)分為兩類，首先，成熟穩(wěn)定的服務(wù)，數(shù)量不多，可能只占有 20%，但是承擔(dān)了 80% 的流量。另一類是一些實(shí)驗性的或者還在開發(fā)迭代中的服務(wù)，數(shù)量很多，占了 80%，但是承擔(dān)的流量卻只占用的 20%，很重要的一點(diǎn)是，經(jīng)常會有變更和迭代，因此對快速開發(fā)和上線也會有比較強(qiáng)的需求。

前面提到的方法，比如 Infer 框架，Kernel 優(yōu)化等，不可避免的需要額外消耗開發(fā)成本。成熟穩(wěn)定的服務(wù)還是很適合這類方法，因為變更比較少，做一次優(yōu)化能持續(xù)使用很久。另一方面，這些服務(wù)承擔(dān)的流量很大，可能一點(diǎn)點(diǎn)的性能提升，就能帶來巨大的影響，所以值得去投入成本。

但這些方法對于實(shí)驗性服務(wù)就不那么合適了，因為實(shí)驗性服務(wù)會頻繁更新，我們無法對每一個新模型都去做新的優(yōu)化。針對實(shí)驗性服務(wù)，我們針對 GPU 混合部署場景，自研了 Python 解釋器 —— PyInter。實(shí)現(xiàn)了不用修改任何代碼，直接用 Python 腳本上線，同時可以獲得接近甚至超過 C++ 的性能。

我們以 Huggingface 的 bert-base 為標(biāo)準(zhǔn)，上圖的橫軸是并發(fā)進(jìn)程數(shù)，表示我們部署的模型副本的數(shù)量，可以看出我們的 PyInter 在模型副本數(shù)較多的情況下 QPS 甚至超越了 onnxruntime。

通過上圖，可以看到 PyInter 在模型副本數(shù)較多的情況下相對于多進(jìn)程和 ONNXRuntime 降低了差不多 80% 的顯存占用，而且大家注意，不管模型的副本數(shù)是多少，PyInter 的顯存占用數(shù)是維持不變的。

我們回到之前比較基礎(chǔ)的問題：Python 真的慢嗎？

沒錯，Python 是真的慢，但是 Python 做科學(xué)計算并不慢，因為真正做計算的地方并非 Python，而是調(diào)用 MKL 或者 cuBLAS 這種專用的計算庫。

那么 Python 的性能瓶頸主要在哪呢？主要在于多線程下的 GIL（Global Interpreter Lock），導(dǎo)致多線程下同一時間只能有一個線程處于工作狀態(tài)。這種形式的多線程對于 IO 密集型任務(wù)可能是有幫助的，但對于模型部署這種計算密集型的任務(wù)來說是毫無意義的。

那是不是換成多進(jìn)程，就能解決問題呢？

其實(shí)不是，多進(jìn)程確實(shí)可以解決 GIL 的問題，但也會帶來其它新的問題。首先，多進(jìn)程之間很難共享 CUDA Context/model，會造成很大的顯存浪費(fèi)，這樣的話，在一張顯卡上部署不了幾個模型。第二個是 GPU 的問題，GPU 在同一時間只能執(zhí)行一個進(jìn)程的任務(wù)，并且 GPU 在多個進(jìn)程間頻繁切換也會消耗時間。

對于 Python 場景下，比較理想的模式如下圖所示：

通過多線程部署，并且去掉 GIL 的影響，這也正是 PyInter 的主要設(shè)計思路，將多個模型的副本放到多個線程中去執(zhí)行，同時為每個 Python 任務(wù)創(chuàng)建一個單獨(dú)的互相隔離的 Python 解釋器，這樣多個任務(wù)的 GIL 就不會互相干擾了。這樣做集合了多進(jìn)程和多線程的優(yōu)點(diǎn)，一方面 GIL 互相獨(dú)立，另一方面本質(zhì)上還是單進(jìn)程多線程的模式，所以顯存對象可以共享，也不存在 GPU 的進(jìn)程切換開銷。

PyInter 實(shí)現(xiàn)的關(guān)鍵是進(jìn)程內(nèi)動態(tài)庫的隔離，解釋器的隔離，本質(zhì)上是動態(tài)庫的隔離，這里自研了動態(tài)庫加載器，類似 dlopen，但支持“隔離”和“共享”兩種動態(tài)庫加載方式。

以“隔離”方式加載動態(tài)庫，會把動態(tài)庫加載到不同的虛擬空間，不同的虛擬空間互相之間看不到。以“共享”方式加載動態(tài)庫，那么動態(tài)庫可以在進(jìn)程中任何地方看到和使用，包括各個虛擬空間內(nèi)部。

以“隔離”方式加載 Python 解釋器相關(guān)的庫，再以“共享”方式加載 cuda 相關(guān)的庫，這樣就實(shí)現(xiàn)了在隔離解釋器的同時共享顯存資源。

四、微服務(wù)所面臨的調(diào)度問題

多個微服務(wù)起到同等的重要程度以及同樣的作用，那么如何在多個微服務(wù)之間實(shí)現(xiàn)動態(tài)的負(fù)載均衡。動態(tài)負(fù)載均衡很重要，但幾乎不可能做到完美。

為什么動態(tài)負(fù)載均衡很重要？原因有以下幾點(diǎn)：

（1）機(jī)器硬件差異（CPU / GPU）；

（2）Request 長度差異（翻譯 2 個字 / 翻譯 200 個字）；

（3）Random 負(fù)載均衡下，長尾效應(yīng)明顯：

① P99/P50 差異可達(dá) 10 倍；

② P999/P50 差異可達(dá) 20 倍。

（4）對微服務(wù)來說，長尾才是決定整體速度的關(guān)鍵。

處理一個請求的耗時，變化比較大，算力區(qū)別、請求長度等都會影響耗時。微服務(wù)數(shù)量增多，總會有一些微服務(wù)命中長尾部分，會影響整個系統(tǒng)的響應(yīng)時間。

為什么動態(tài)負(fù)載均衡難以完美？

方案一：所有機(jī)器跑一遍 Benchmark。

這種方案不“動態(tài)”，無法應(yīng)對 Request 長度的差異。并且也不存在一個完美的 Benchmark 能反應(yīng)性能，對于不同模型來說不同機(jī)器的反應(yīng)都會不同。

方案二：實(shí)時獲取每一臺機(jī)器的狀態(tài)，把任務(wù)發(fā)給負(fù)載最輕的。

這一方案比較直觀，但問題在于在分布式系統(tǒng)中沒有真正的“實(shí)時”，信息從一臺機(jī)器傳遞到另一臺機(jī)器一定會花費(fèi)時間，而在這一時間中，機(jī)器狀態(tài)就可以發(fā)生了改變。比如在某一瞬間，某一臺 Worker 機(jī)器是最空閑的，多臺負(fù)責(zé)任務(wù)分發(fā)的 Master 機(jī)器都感知到了，于是都把任務(wù)分配給這臺最空閑的 Worker，這臺最空閑的 Worker 瞬間變成了最忙的，這就是負(fù)載均衡中著名的潮汐效應(yīng)。

方案三：維護(hù)一個全局唯一的任務(wù)隊列，所有負(fù)責(zé)任務(wù)分發(fā)的 Master 都把任務(wù)發(fā)送到隊列中，所有 Worker 都從隊列中取任務(wù)。

這一方案中，任務(wù)隊列本身就可能成為一個單點(diǎn)瓶頸，難以橫向擴(kuò)展。

動態(tài)負(fù)載均衡難以完美的根本原因是信息的傳遞需要時間，當(dāng)一個狀態(tài)被觀測到后，這個狀態(tài)一定已經(jīng)“過去”了。Youtube 上有一個視頻，推薦給大家，“Load Balancing is Impossible” https://www.youtube.com/watch?v=kpvbOzHUakA。

關(guān)于動態(tài)負(fù)載均衡算法，Power of 2 Choices 算法是隨機(jī)選擇兩個 worker，將任務(wù)分配給更空閑的那個。這個算法是我們目前使用的動態(tài)均衡算法的基礎(chǔ)。但是 Power of 2 Choices 算法存在兩大問題：首先，每次分配任務(wù)之前都需要去查詢下 Worker 的空閑狀態(tài)，多了一次 RTT；另外，有可能隨機(jī)選擇的兩個 worker 剛好都很忙。為了解決這些問題，我們進(jìn)行了改進(jìn)。

改進(jìn)后的算法是 Joint-Idle-Queue。

我們在 Master 機(jī)器上增加了兩個部件，Idle-Queue 和 Amnesia。Idle-Queue 用來記錄目前有哪些 Worker 處于空閑狀態(tài)。Amnesia 記錄在最近一段時間內(nèi)有哪些 Worker 給自己發(fā)送過心跳包，如果某個 Worker 長期沒有發(fā)送過心跳包，那么 Amnesia 就會逐漸將其遺忘掉。每一個 Worker 周期性上報自己是否空閑，空閑的 Worker 選擇一個 Master 上報自己的 IdIeness，并且報告自己可以處理的數(shù)量。Worker 在選擇 Master 時也是用到 Power of 2 Choices 算法，對其他的 Master，Worker 上報心跳包。

有新的任務(wù)到達(dá)時，Master 從 Idle-Queue 里隨機(jī) pick 兩個，選擇歷史 latency 更低的。如果 Idle-Queue 是空的，就會去看 Amnesia。從 Amnesia 中隨機(jī) pick 兩個，選擇歷史 latency 更低的。

在實(shí)際的效果上，采用該算法，可以把 P99/P50 壓縮到 1.5 倍，相比 Random 算法有 10 倍的提升。

五、總結(jié)

在模型服務(wù)化的實(shí)踐中，我們遇到了三個方面的挑戰(zhàn)：

首先是對于大量的微服務(wù)，如何進(jìn)行管理，如何優(yōu)化開發(fā)、上線和部署的流程，我們的解決方案是盡量自動化，抽取重復(fù)流程，將其做成自動化流水線和程序。

第二是模型性能優(yōu)化方面，如何讓深度學(xué)習(xí)模型微服務(wù)運(yùn)行得更加高效，我們的解決方案是從模型的實(shí)際需求出發(fā)，對于比較穩(wěn)定、流量較大的服務(wù)進(jìn)行定制化的優(yōu)化，對于實(shí)驗型的服務(wù)采用 PyInter，直接用 Python 腳本上線服務(wù)，也能達(dá)到 C++ 的性能。

第三是任務(wù)調(diào)度問題，如何實(shí)現(xiàn)動態(tài)負(fù)載均衡，我們的解決方案是在 Power of 2 Choices 的基礎(chǔ)上，開發(fā)了 JIQ 算法，大幅緩解了服務(wù)耗時的長尾問題。

責(zé)任編輯：姜華來源： DataFunTalk

NLP 算法微服務(wù)治理

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="hvgoi"></abbr>