
譯者 | 晶顏
審校 | 重樓
機(jī)器學(xué)習(xí)(ML)在諸如欺詐檢測和個(gè)性化推薦等實(shí)時(shí)應(yīng)用中變得越來越重要。由于其可擴(kuò)展性以及消除了基礎(chǔ)設(shè)施管理的工作量,這些應(yīng)用對(duì)于在無服務(wù)器計(jì)算中部署極具吸引力。
然而,將機(jī)器學(xué)習(xí)模型部署到無服務(wù)器環(huán)境中面臨著延遲、成本和性能方面的獨(dú)特挑戰(zhàn)。在本文中,我們將詳細(xì)闡述這些問題,并提供相應(yīng)的解決方案,以實(shí)現(xiàn)實(shí)時(shí)機(jī)器學(xué)習(xí)模型在無服務(wù)器架構(gòu)中的成功部署。
無服務(wù)器環(huán)境中部署實(shí)時(shí)機(jī)器學(xué)習(xí)的挑戰(zhàn)
無服務(wù)器計(jì)算(如AWS Lambda、谷歌云函數(shù)、Azure Functions)使開發(fā)者能夠構(gòu)建應(yīng)用程序而無需管理服務(wù)器。憑借靈活的擴(kuò)展性和成本優(yōu)勢,這些平臺(tái)非常適用于流量特征多變的場景。實(shí)時(shí)機(jī)器學(xué)習(xí)模型需在低延遲推理、成本控制與資源最優(yōu)使用之間進(jìn)行審慎權(quán)衡。
無服務(wù)器框架最大的優(yōu)勢在于其可擴(kuò)展性,但這也帶來了冷啟動(dòng)不可預(yù)測、資源受限以及成本超支等問題。對(duì)于實(shí)時(shí)機(jī)器學(xué)習(xí)而言,時(shí)間與成本都至關(guān)重要,因此應(yīng)對(duì)這些挑戰(zhàn)意義重大。
1.冷啟動(dòng):對(duì)延遲的影響
在無服務(wù)器計(jì)算中,冷啟動(dòng)(Cold Starts)是一個(gè)重大挑戰(zhàn)。當(dāng)無服務(wù)器函數(shù)環(huán)境近期未被調(diào)用時(shí),平臺(tái)需對(duì)其進(jìn)行初始化,這會(huì)引入延遲。冷啟動(dòng)時(shí)間取決于大型模型或依賴項(xiàng)的加載難度,是機(jī)器學(xué)習(xí)模型初始化所需的最快速度。在低延遲要求的實(shí)時(shí)應(yīng)用環(huán)境中,這可能會(huì)造成問題。
例如,AWS Lambda在大型模型預(yù)熱時(shí)可能增加多達(dá)10秒的延遲,這對(duì)欺詐檢測等實(shí)時(shí)系統(tǒng)可能會(huì)造成嚴(yán)重影響,因?yàn)榇祟愊到y(tǒng)對(duì)每毫秒都極為敏感。
AWS Lambda的預(yù)置并發(fā)功能可保持固定數(shù)量的函數(shù)實(shí)例處于活躍狀態(tài),從而減輕冷啟動(dòng)影響,顯著縮短冷啟動(dòng)時(shí)間。但這又會(huì)增加成本,開發(fā)者需要在延遲與額外成本間進(jìn)行權(quán)衡。

2. 管理成本:資源的有效利用
無服務(wù)器函數(shù)按使用次數(shù)計(jì)費(fèi),對(duì)于流量模式不穩(wěn)定的應(yīng)用程序來說非常有益。但執(zhí)行計(jì)算密集型機(jī)器學(xué)習(xí)模型(尤其是深度學(xué)習(xí)模型)會(huì)導(dǎo)致成本快速上升。在實(shí)時(shí)應(yīng)用中,每次模型調(diào)用都使用系統(tǒng)資源,大量使用時(shí)會(huì)增加運(yùn)營成本。
深度學(xué)習(xí)模型在處理涌入其中的每個(gè)請(qǐng)求時(shí)都需要強(qiáng)大的CPU和內(nèi)存支持。鑒于成本較高,企業(yè)必須高度重視優(yōu)化在無服務(wù)器功能上運(yùn)行的模型。
模型優(yōu)化是降低運(yùn)營成本的基本方法。通過采用量化技術(shù)和蒸餾方法精簡模型,可以減小模型規(guī)模并保持準(zhǔn)確性,使模型的推理過程能夠更快、更經(jīng)濟(jì)地完成。
批處理過程允許管理員將多個(gè)請(qǐng)求合并為一次執(zhí)行,從而減少無服務(wù)器函數(shù)的調(diào)用次數(shù)。這一方式優(yōu)化了處理過程,因?yàn)橐淮魏瘮?shù)調(diào)用可處理多個(gè)請(qǐng)求,從而降低了運(yùn)營成本與管理開銷。

3. 性能:資源限制與可擴(kuò)展性
無服務(wù)器函數(shù)采用的是無狀態(tài)處理方式,而機(jī)器學(xué)習(xí)模型則需要有狀態(tài)的執(zhí)行環(huán)境以及充足資源以有效運(yùn)行。在無服務(wù)器平臺(tái)上進(jìn)行實(shí)時(shí)機(jī)器學(xué)習(xí)時(shí),必須分配足夠的資源來處理推理工作負(fù)載,以避免延遲和超時(shí)情況發(fā)生。
部署到未定義計(jì)算環(huán)境中的大型模型的性能可能會(huì)受到限制。由于深度學(xué)習(xí)推理通常需要GPU支持,但大多數(shù)無服務(wù)器平臺(tái)不允許直接訪問GPU。甚至,大多數(shù)平臺(tái)都禁止直接訪問GPU。
在無服務(wù)器環(huán)境中部署的機(jī)器學(xué)習(xí)模型必須經(jīng)過精簡與優(yōu)化??刹渴餗obileNet等模型,企業(yè)借此能在保持頂級(jí)準(zhǔn)確性的同時(shí)節(jié)省內(nèi)存空間、加快處理速度。盡管存在資源可用性的限制,但由于這些模型針對(duì)移動(dòng)和邊緣設(shè)備進(jìn)行了優(yōu)化,因此它們是適用于無服務(wù)器操作的最理想模型。
并發(fā)進(jìn)程管理是開發(fā)過程的重要方面。在無服務(wù)器環(huán)境中,如果函數(shù)調(diào)用活動(dòng)出現(xiàn)意外激增,就可能會(huì)出現(xiàn)資源競爭問題,而無服務(wù)器環(huán)境的自動(dòng)擴(kuò)展功能可能引發(fā)此類情況。開發(fā)者通過獲取足夠的運(yùn)行執(zhí)行實(shí)例并進(jìn)行適當(dāng)?shù)呐渲眯薷?,能夠確保在高需求情況下功能的平穩(wěn)運(yùn)行。
無服務(wù)器架構(gòu)中實(shí)時(shí)機(jī)器學(xué)習(xí)部署的最佳實(shí)踐
在無服務(wù)器環(huán)境中部署實(shí)時(shí)機(jī)器學(xué)習(xí)模型需要考慮多種因素,而要實(shí)現(xiàn)成功部署,需遵循以下最佳實(shí)踐:
- 降低模型復(fù)雜度:對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行剪枝、量化和精簡,以優(yōu)化性能。通過使用MobileNet、TinyBERT等更輕量級(jí)的模型,可以有效地處理實(shí)時(shí)推理任務(wù)并保持良好準(zhǔn)確性。
- 降低冷啟動(dòng)延遲:通過預(yù)熱函數(shù)或使用預(yù)設(shè)的并發(fā)機(jī)制來最小化冷啟動(dòng)延遲。同時(shí),可考慮采用容器化等替代方案,以減少初始化開銷。
- 通過批量處理實(shí)現(xiàn)成本效率:不針對(duì)每個(gè)請(qǐng)求單獨(dú)調(diào)用無服務(wù)器函數(shù),而是集中處理所有請(qǐng)求,這樣可以減少調(diào)用次數(shù),從而降低總成本。
- 監(jiān)控和管理共享資源:監(jiān)控和控制無服務(wù)器函數(shù)的并發(fā)性,以確保無服務(wù)器函數(shù)不會(huì)中斷或超時(shí),并且輸出質(zhì)量不會(huì)下降。
- 低延遲應(yīng)用:使用邊緣設(shè)備來卸載推理任務(wù),以便在云依賴的情況下實(shí)現(xiàn)更緊密的計(jì)算和可擴(kuò)展性。

結(jié)語
無服務(wù)器架構(gòu)通過抽象底層基礎(chǔ)設(shè)施管理,為開發(fā)人員提供了在大規(guī)模場景下部署機(jī)器學(xué)習(xí)模型的高效工具,極大簡化了模型從訓(xùn)練到生產(chǎn)的落地流程。然而,在實(shí)時(shí)機(jī)器學(xué)習(xí)模型部署中,該架構(gòu)仍面臨特殊挑戰(zhàn):需在滿足嚴(yán)格延遲要求的前提下,平衡性能表現(xiàn)與實(shí)際成本效益,例如冷啟動(dòng)導(dǎo)致的延遲波動(dòng)、資源受限引發(fā)的性能瓶頸等。
對(duì)此,開發(fā)人員可通過整合多元優(yōu)化策略實(shí)現(xiàn)突破:采用模型量化、蒸餾等技術(shù)精簡模型體量,降低計(jì)算開銷;通過預(yù)置并發(fā)、函數(shù)預(yù)熱等手段優(yōu)化冷啟動(dòng)管理,減少延遲波動(dòng);結(jié)合動(dòng)態(tài)資源調(diào)度與并發(fā)控制機(jī)制,提升資源利用效率;輔以邊緣計(jì)算卸載輕量任務(wù),強(qiáng)化低延遲場景適配。通過上述策略的協(xié)同應(yīng)用,能夠在無服務(wù)器環(huán)境中構(gòu)建兼具高效性、穩(wěn)定性與經(jīng)濟(jì)性的實(shí)時(shí)機(jī)器學(xué)習(xí)系統(tǒng),充分釋放無服務(wù)器架構(gòu)在規(guī)模化部署中的潛力,為欺詐檢測、實(shí)時(shí)推薦等關(guān)鍵領(lǐng)域提供可靠的技術(shù)支撐。
原文標(biāo)題:Deploying Real-Time Machine Learning Models in Serverless Architectures: Balancing Latency, Cost, and Performance,作者:Kamalesh Jain




























