如何使用漸進(jìn)式模型剪枝在混合云-霧拓?fù)渲胁渴餖LM
譯文
譯者 | 李睿
審校 | 重樓
由于規(guī)模和資源方面的限制,將LLM部署到邊緣計(jì)算設(shè)備上面臨諸多挑戰(zhàn)。本文對(duì)漸進(jìn)式模型剪枝如何實(shí)現(xiàn)可擴(kuò)展的混合云-霧推理進(jìn)行了探討。
大型語言模型(LLM)如今已經(jīng)成為對(duì)話式人工智能、代碼生成、摘要等眾多場(chǎng)景的核心技術(shù)。然而,在計(jì)算資源有限的環(huán)境中,LLM的部署帶來了重大挑戰(zhàn),主要是在混合云-霧架構(gòu)中,實(shí)時(shí)推理可能需要在邊緣設(shè)備上運(yùn)行。
在這些情況下,漸進(jìn)式模型剪枝(Pruning)可以在不影響精度的情況下減少模型大小和計(jì)算成本。本文將探討如何使用層感知、資源自適應(yīng)的剪枝技術(shù)在云-霧拓?fù)渲杏行У夭渴餖LM。
什么是混合云-霧拓?fù)洌?/h4>
在深入討論該話題之前,首先了解并定義其架構(gòu):
- 云層:云層由集中式數(shù)據(jù)中心組成,其中包含數(shù)千個(gè)高性能計(jì)算服務(wù)器(HPC - GPU/TPU),具有用于訓(xùn)練大型語言模型(LLM)、全面推理和編排的大容量。
- 霧層:與傳統(tǒng)的云層不同,霧層由分散的微型數(shù)據(jù)中心組成,其智能和計(jì)算能力位于本地網(wǎng)絡(luò)或邊緣(例如智能城市、車輛、工業(yè)現(xiàn)場(chǎng))。霧層以低延遲運(yùn)行,但其資源受限。
混合云-霧拓?fù)浣Y(jié)構(gòu)協(xié)調(diào)了云霧兩層之間的推理。它將云計(jì)算的可擴(kuò)展性和靈活性與霧計(jì)算的接近性和低延遲優(yōu)勢(shì)相結(jié)合。云層處理大型數(shù)據(jù)集,執(zhí)行訓(xùn)練和回退邏輯。霧層在將數(shù)據(jù)發(fā)送到云層之前執(zhí)行數(shù)據(jù)過濾、預(yù)處理和分析等基本任務(wù)。在霧層本地處理數(shù)據(jù)可以降低延遲并實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。通過將一些任務(wù)卸載到霧層中,云層可以優(yōu)化資源利用率并高效運(yùn)行。
關(guān)鍵思路是動(dòng)態(tài)地調(diào)整霧計(jì)算資源和云計(jì)算資源的LLM組件的部署,以優(yōu)化性能。例如,LLM的某些部分可以在本地霧設(shè)備上運(yùn)行,而其他部分則在云中運(yùn)行。這使得系統(tǒng)可以利用霧計(jì)算和云計(jì)算的優(yōu)勢(shì)。
在邊緣/霧中部署LLM面臨挑戰(zhàn)
但是,在邊緣/霧環(huán)境中部署LLM仍面臨諸多挑戰(zhàn)。當(dāng)前的LLM(如GPT-3、LLaMA等)是擁有數(shù)千萬參數(shù)的模型,需要高內(nèi)存、高帶寬和多GPU集群進(jìn)行推理。
但是由于資源有限,霧層根本無法承載完整的LLM。因此,需要壓縮技術(shù)將LLM部署至霧節(jié)點(diǎn)。人們對(duì)LLM模型壓縮進(jìn)行了廣泛的研究,而LLM權(quán)重剪枝是其中一種代表性技術(shù)。
漸進(jìn)式權(quán)重模型剪枝
模型剪枝是一種從神經(jīng)網(wǎng)絡(luò)中刪除不重要的權(quán)重或神經(jīng)元的技術(shù),可以減少大小和計(jì)算要求。漸進(jìn)式剪枝通過允許在輸入附近進(jìn)行更多剪枝,在輸出附近進(jìn)行更少剪枝來逐步實(shí)現(xiàn)這一點(diǎn)。它還在各種參數(shù)大小下生成多個(gè)模型變體,以平衡性能和資源效率。
剪枝類型
- 結(jié)構(gòu)化剪枝:側(cè)重于刪除模型的組件,例如神經(jīng)元、注意力頭(Attention Heads)、卷積濾波器(Convolutional Filter)或整個(gè)前饋塊。這會(huì)產(chǎn)生更小、更高效的模型架構(gòu),同時(shí)保留了規(guī)則的結(jié)構(gòu),并使其與GPU和TPU等現(xiàn)有硬件兼容。由于整個(gè)塊被刪除,結(jié)構(gòu)化剪枝減少了計(jì)算和內(nèi)存需求,但保持了與標(biāo)準(zhǔn)深度學(xué)習(xí)框架的兼容性。
- 非結(jié)構(gòu)化剪枝:側(cè)重于從神經(jīng)網(wǎng)絡(luò)中刪除單個(gè)權(quán)重或連接,從而生成稀疏的權(quán)重矩陣。這種技術(shù)不能保持規(guī)則的結(jié)構(gòu),這使得在沒有專門的稀疏矩陣庫或定制硬件的情況下很難實(shí)現(xiàn)計(jì)算加速。然而,非結(jié)構(gòu)化剪枝可以具有非常高的壓縮比,并且可以有效地減少受限環(huán)境所需的整體模型大小。
- 分層剪枝:側(cè)重于根據(jù)模型特定層相對(duì)重要性或?qū)φw性能的貢獻(xiàn),選擇性剪枝特定層或子模塊。這種方法可精細(xì)控制模型復(fù)雜度,確保保留網(wǎng)絡(luò)的關(guān)鍵組件,同時(shí)剪枝影響較小的部分。
部署策略:剪枝+放置
通過使用漸進(jìn)式剪枝功能,可以跨云層和霧層部署LLM。以下討論部署LLM的步驟和流程:
- 首先是在云中訓(xùn)練和分析模型?;A(chǔ)LLM(例如LLaMA 2-7B)在特定于領(lǐng)域的數(shù)據(jù)上進(jìn)行微調(diào),以使模型適應(yīng)目標(biāo)用例。在訓(xùn)練完成后,采用顯著性分析等技術(shù)來識(shí)別可以在不降低性能的情況下剪枝的層或組件。隨后,生成不同稀疏級(jí)別(如50%、30%和10%)的基礎(chǔ)模型的各種剪枝變體。這有助于創(chuàng)建針對(duì)不同部署場(chǎng)景優(yōu)化的小型模型組合。
- 其次,根據(jù)可用的邊緣計(jì)算硬件(CPU/GPU)規(guī)格、內(nèi)存和散熱約束條件,將剪枝后的模型與霧節(jié)點(diǎn)的容量進(jìn)行匹配。每個(gè)設(shè)備都分配了一個(gè)適合其性能的剪枝變體。完整模型(例如最初的7B模型)保留在云中,用于高吞吐量、容忍延遲的用例(例如提示批處理)。實(shí)現(xiàn)智能路由策略,根據(jù)模型大小和硬件可用性動(dòng)態(tài)地將用戶查詢引導(dǎo)到最合適的節(jié)點(diǎn)。
- 最后,采用分層回退機(jī)制來保證準(zhǔn)確性和響應(yīng)性。如果霧節(jié)點(diǎn)的響應(yīng)置信度較低,或者輸入上下文長(zhǎng)度超過其處理限制,則查詢將升級(jí)到云端,由完整模型提供更準(zhǔn)確的答案。此外,還支持混合推理模式,其中霧節(jié)點(diǎn)提供快速的初始響應(yīng),云計(jì)算執(zhí)行異步的二次評(píng)估以提高輸出質(zhì)量。這種架構(gòu)不僅優(yōu)化了延遲和資源使用,還確保了LLM在不同基礎(chǔ)設(shè)施層之間的穩(wěn)健性和可擴(kuò)展性部署。
評(píng)估指標(biāo)
在使用漸進(jìn)式剪枝時(shí),跟蹤以下對(duì)實(shí)際驗(yàn)證至關(guān)重要的指標(biāo)非常重要。
- 模型精度:對(duì)于霧模型,模型精度的降幅需要低于2%,這一點(diǎn)很重要。
- 延遲:確保LLM模型在每個(gè)層中高效運(yùn)行,在霧層上的延遲低于100毫秒,在云層上的延遲<300?。
- 吞吐量:需要確保LLM模型在云層或霧層上運(yùn)行的每個(gè)節(jié)點(diǎn)上都具有高吞吐量。因此,需要跟蹤每個(gè)節(jié)點(diǎn)的“令牌/秒”(Tokens/sec)。
- 內(nèi)存:需要確保模型占用的內(nèi)存不超過總設(shè)備內(nèi)存的80%。
結(jié)論
在混合云-霧計(jì)算環(huán)境中部署LLM已不再停留于理論探討階段。通過大量研究,其可行性已經(jīng)得到驗(yàn)證。漸進(jìn)式模型剪枝提供了一種強(qiáng)大的方法,可以使大型語言模型(LLM)和深度神經(jīng)網(wǎng)絡(luò)(DNN)模型有效適應(yīng)資源受限的環(huán)境,推動(dòng)混合人工智能向真正智能、實(shí)時(shí)響應(yīng)的方向演進(jìn)。
無論是在邊緣端設(shè)計(jì)智能助理或物聯(lián)網(wǎng)設(shè)備,還是在分布式環(huán)境中構(gòu)建低延遲自然語言處理(NLP)管道,這種方法都可以彌合性能可訪問性差距,使LLM更接近模型數(shù)據(jù)生成和決策的地方。
原文標(biāo)題:Deploying LLMs Across Hybrid Cloud-Fog Topologies Using Progressive Model Pruning,作者:Sam Prakash Bheri



























