無(wú)服務(wù)器(Serverless)人工智能推理?
譯文無(wú)服務(wù)器計(jì)算是一種云計(jì)算模式,云服務(wù)提供商(如AWS、Azure和GCP)管理服務(wù)器基礎(chǔ)設(shè)施,并根據(jù)需要?jiǎng)討B(tài)分配資源。開發(fā)者可以直接調(diào)用API,或者以函數(shù)的形式編寫代碼,云服務(wù)商會(huì)根據(jù)特定事件觸發(fā)這些函數(shù)。這意味著開發(fā)者可以自動(dòng)擴(kuò)展應(yīng)用程序,無(wú)需擔(dān)心服務(wù)器管理和部署,從而節(jié)省成本并提高敏捷性。
無(wú)服務(wù)器計(jì)算的主要優(yōu)勢(shì)在于,它隱藏了與發(fā)布管理相關(guān)的許多復(fù)雜性,開發(fā)者無(wú)需操心容量規(guī)劃、硬件管理甚至操作系統(tǒng)。這種簡(jiǎn)潔性使開發(fā)者能夠騰出時(shí)間和資源,更多地專注于在已部署模型的基礎(chǔ)上構(gòu)建創(chuàng)新的應(yīng)用程序和服務(wù)。
AI模型部署
模型部署涉及幾個(gè)關(guān)鍵步驟,將機(jī)器學(xué)習(xí)或AI模型從開發(fā)環(huán)境推向生產(chǎn)環(huán)境,確保其可擴(kuò)展性、可靠性和有效性。關(guān)鍵要素包括模型訓(xùn)練與優(yōu)化,模型在此過程中被微調(diào)以提升性能,以及模型版本管理,這有助于管理不同迭代版本。訓(xùn)練完成后,模型被序列化并打包,連同其必要的依賴項(xiàng)一起,準(zhǔn)備好在合適的運(yùn)行時(shí)環(huán)境中部署,例如云平臺(tái)或容器化服務(wù)。模型通過API或Web服務(wù)暴露,使其能夠?yàn)橥獠繎?yīng)用程序提供實(shí)時(shí)預(yù)測(cè)。
除了部署之外,持續(xù)監(jiān)控以及建立CI/CD管道以實(shí)現(xiàn)自動(dòng)化的重新訓(xùn)練和模型更新也至關(guān)重要。安全措施同樣必不可少,以保障數(shù)據(jù)隱私并確保符合法規(guī)要求。模型必須具備可解釋性,尤其是在需要解釋AI決策的行業(yè),還應(yīng)納入反饋循環(huán),根據(jù)用戶輸入或數(shù)據(jù)變化不斷優(yōu)化模型。高效管理資源以優(yōu)化運(yùn)營(yíng)成本也是關(guān)鍵要素,確保部署的模型保持成本效益和可持續(xù)性。這些要素共同確保機(jī)器學(xué)習(xí)模型能夠在生產(chǎn)環(huán)境中高效、安全且高性能地運(yùn)行。
無(wú)服務(wù)器AI推理
無(wú)服務(wù)器AI推理是指利用無(wú)服務(wù)器計(jì)算平臺(tái)部署和運(yùn)行機(jī)器學(xué)習(xí)模型以進(jìn)行預(yù)測(cè),無(wú)需管理基礎(chǔ)設(shè)施或擔(dān)心擴(kuò)展資源。在這種設(shè)置中,模型被托管為API端點(diǎn),用戶只需為其模型實(shí)際使用的計(jì)算時(shí)間付費(fèi),提供成本效率和靈活性。像AWS Lambda、Google Cloud Functions和Azure Functions這樣的無(wú)服務(wù)器平臺(tái),使開發(fā)者能夠上傳其訓(xùn)練好的模型,并通過API將其暴露出來(lái)以實(shí)現(xiàn)實(shí)時(shí)預(yù)測(cè)。這使得企業(yè)能夠在無(wú)需管理復(fù)雜服務(wù)器基礎(chǔ)設(shè)施的情況下,將AI驅(qū)動(dòng)的決策融入其應(yīng)用程序。
無(wú)服務(wù)器AI推理的主要優(yōu)勢(shì)之一是其能夠根據(jù)不同的請(qǐng)求量無(wú)縫擴(kuò)展,使其非常適合欺詐檢測(cè)、推薦系統(tǒng)以及實(shí)時(shí)圖像或語(yǔ)音識(shí)別等用例。此外,它還減少了運(yùn)營(yíng)開銷,使數(shù)據(jù)科學(xué)家和開發(fā)者能夠?qū)W⒂谀P偷臏?zhǔn)確性與性能,而不是管理基礎(chǔ)設(shè)施。無(wú)服務(wù)器AI推理正變得越來(lái)越受歡迎,它適用于輕量級(jí)、低延遲的應(yīng)用程序,能夠在無(wú)需專用基礎(chǔ)設(shè)施的情況下,快速且低成本地提供AI預(yù)測(cè)。

無(wú)服務(wù)器AI的優(yōu)勢(shì)
傳統(tǒng)的AI模型在部署和擴(kuò)展時(shí)通常需要大量資源,尤其是在生產(chǎn)環(huán)境中。借助無(wú)服務(wù)器基礎(chǔ)設(shè)施,開發(fā)者可以利用一種高度靈活、按需付費(fèi)的模式,優(yōu)化成本和效率。以下是無(wú)服務(wù)器AI的幾個(gè)關(guān)鍵優(yōu)勢(shì):
簡(jiǎn)單性
AI模型通常需要大量的配置,尤其是在跨多臺(tái)機(jī)器進(jìn)行分布式計(jì)算時(shí)。無(wú)服務(wù)器計(jì)算隱藏了大部分基礎(chǔ)設(shè)施管理的復(fù)雜性,使開發(fā)者能夠快速部署和迭代他們的AI模型。開發(fā)者可以專注于核心邏輯,因此企業(yè)能夠以前所未有的速度開發(fā)AI驅(qū)動(dòng)的解決方案。
可擴(kuò)展性
無(wú)服務(wù)器計(jì)算提供了幾乎無(wú)限的可擴(kuò)展性,允許應(yīng)用程序在無(wú)需額外設(shè)置或配置的情況下應(yīng)對(duì)需求的增加。例如,如果某個(gè)AI模型正在為一個(gè)Web應(yīng)用程序提供實(shí)時(shí)預(yù)測(cè),突然面臨用戶激增的情況,無(wú)服務(wù)器基礎(chǔ)設(shè)施可以自動(dòng)擴(kuò)展以應(yīng)對(duì)這種激增,無(wú)需人工干預(yù)。
成本效益
無(wú)服務(wù)器計(jì)算采用基于用量的定價(jià)模式,用戶只需為其實(shí)際使用的資源付費(fèi)。這在處理AI任務(wù)時(shí)尤其有利,因?yàn)樵S多AI工作負(fù)載存在流量高峰,即在某些時(shí)段需要大量資源,而在其他時(shí)段則需要很少或不需要資源。
事件驅(qū)動(dòng)架構(gòu)
無(wú)服務(wù)器平臺(tái)本質(zhì)上是事件驅(qū)動(dòng)的,非常適合需要響應(yīng)實(shí)時(shí)數(shù)據(jù)的AI應(yīng)用程序。這對(duì)于欺詐檢測(cè)、異常檢測(cè)等場(chǎng)景至關(guān)重要。
無(wú)服務(wù)器解決方案
通過利用無(wú)服務(wù)器生態(tài)系統(tǒng),組織可以專注于創(chuàng)新,受益于自動(dòng)擴(kuò)展,優(yōu)化成本,并更快地交付應(yīng)用程序,同時(shí)保持安全高效的開發(fā)環(huán)境。
- 無(wú)服務(wù)器與AWS:AWS提供了多種支持無(wú)服務(wù)器AI的服務(wù),例如AWS Lambda,允許用戶在無(wú)需配置或管理服務(wù)器的情況下運(yùn)行代碼以響應(yīng)事件。對(duì)于機(jī)器學(xué)習(xí)任務(wù),Amazon SageMaker等服務(wù)使開發(fā)者能夠快速大規(guī)模地訓(xùn)練、部署和管理模型。
 - 無(wú)服務(wù)器與Microsoft Azure:Azure的無(wú)服務(wù)器產(chǎn)品,如Azure Functions,允許開發(fā)者根據(jù)特定事件或觸發(fā)器運(yùn)行AI模型和代碼,并根據(jù)需求自動(dòng)擴(kuò)展。Azure還通過Azure Machine Learning提供強(qiáng)大的機(jī)器學(xué)習(xí)服務(wù),提供用于大規(guī)模訓(xùn)練、部署和管理AI模型的工具。
 - 無(wú)服務(wù)器與GCP:GCP提供了關(guān)鍵的無(wú)服務(wù)器服務(wù),如Cloud Functions用于事件驅(qū)動(dòng)計(jì)算。這些服務(wù)能夠無(wú)縫集成GCP的AI和機(jī)器學(xué)習(xí)產(chǎn)品,例如Vertex AI,使企業(yè)能夠輕松部署AI模型并處理實(shí)時(shí)數(shù)據(jù)。
 
無(wú)服務(wù)器的挑戰(zhàn)
冷啟動(dòng)延遲
無(wú)服務(wù)器函數(shù)在經(jīng)過一段時(shí)間的空閑后被調(diào)用時(shí)可能會(huì)出現(xiàn)延遲。對(duì)于需要高響應(yīng)性的AI模型,冷啟動(dòng)可能會(huì)引入延遲,這可能會(huì)對(duì)實(shí)時(shí)應(yīng)用程序造成問題。
狀態(tài)管理
無(wú)服務(wù)器函數(shù)本質(zhì)上是無(wú)狀態(tài)的,這意味著在推理過程中管理AI模型的狀態(tài)可能會(huì)比較棘手。開發(fā)者必須設(shè)計(jì)應(yīng)用程序以通過數(shù)據(jù)庫(kù)或分布式緩存等外部方式處理會(huì)話持久化或狀態(tài)。
資源治理
許多無(wú)服務(wù)器平臺(tái)對(duì)內(nèi)存、執(zhí)行時(shí)間和CPU/GPU使用量設(shè)有限制。對(duì)于特別資源密集型的AI模型,這可能會(huì)成為一個(gè)問題,盡管通??梢酝ㄟ^設(shè)計(jì)高效的模型或?qū)⒋笮腿蝿?wù)拆分為較小的函數(shù)來(lái)解決。
調(diào)度公平性
在無(wú)服務(wù)器AI推理中,調(diào)度公平性確保并發(fā)任務(wù)之間公平分配資源,防止資源壟斷和延遲。這對(duì)于平衡對(duì)延遲敏感和資源密集型的工作負(fù)載同時(shí)保持一致性能至關(guān)重要。實(shí)現(xiàn)公平性需要采用優(yōu)先級(jí)隊(duì)列、負(fù)載均衡和預(yù)測(cè)性調(diào)度等策略,盡管無(wú)服務(wù)器環(huán)境的動(dòng)態(tài)性使得這一任務(wù)具有挑戰(zhàn)性。有效的調(diào)度是優(yōu)化AI推理任務(wù)吞吐量和響應(yīng)能力的關(guān)鍵。
總結(jié)
無(wú)服務(wù)器架構(gòu)通過提供無(wú)與倫比的可擴(kuò)展性、成本效益和簡(jiǎn)單性,徹底改變了開發(fā)者和企業(yè)對(duì)技術(shù)的使用方式。通過消除管理底層基礎(chǔ)設(shè)施的需求,這些架構(gòu)使開發(fā)者能夠?qū)⒕ν度氲絼?chuàng)新中,使他們能夠輕松設(shè)計(jì)和實(shí)現(xiàn)尖端的AI應(yīng)用程序。利用無(wú)服務(wù)器計(jì)算的企業(yè)能夠快速適應(yīng)不斷變化的需求,降低運(yùn)營(yíng)成本并加速開發(fā)周期。這種敏捷性促進(jìn)了更高效、更強(qiáng)大的AI驅(qū)動(dòng)解決方案的創(chuàng)建。
參考
- Orchestrate generative AI workflows with Amazon Bedrock and AWS Step Functions
 - Deploy models as serverless APIs
 - Run your AI inference applications on Cloud Run with NVIDIA GPUs
 
原文標(biāo)題:Serverless AI Inference,作者:Bhala Ranganathan















 
 
 










 
 
 
 