偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何使用漸進(jìn)式模型剪枝在混合云-霧拓?fù)渲胁渴餖LM

譯文
人工智能
大型語言模型(LLM)如今已經(jīng)成為對(duì)話式人工智能、代碼生成、摘要等眾多場(chǎng)景的核心技術(shù)。然而,在計(jì)算資源有限的環(huán)境中,LLM的部署帶來了重大挑戰(zhàn),主要是在混合云-霧架構(gòu)中,實(shí)時(shí)推理可能需要在邊緣設(shè)備上運(yùn)行。

譯者 | 李睿

審校 | 重樓

由于規(guī)模和資源方面的限制,將LLM部署到邊緣計(jì)算設(shè)備上面臨諸多挑戰(zhàn)。本文對(duì)漸進(jìn)式模型剪枝如何實(shí)現(xiàn)可擴(kuò)展的混合云-霧推理進(jìn)行了探討。

大型語言模型(LLM)如今已經(jīng)成為對(duì)話式人工智能、代碼生成、摘要等眾多場(chǎng)景的核心技術(shù)。然而,在計(jì)算資源有限的環(huán)境中,LLM的部署帶來了重大挑戰(zhàn),主要是在混合云-霧架構(gòu)中,實(shí)時(shí)推理可能需要在邊緣設(shè)備上運(yùn)行。

在這些情況下,漸進(jìn)式模型剪枝(Pruning)可以在不影響精度的情況下減少模型大小和計(jì)算成本。本文將探討如何使用層感知、資源自適應(yīng)的剪枝技術(shù)在云-霧拓?fù)渲杏行У夭渴餖LM。

什么是混合云-霧拓?fù)洌?/h4>

在深入討論該話題之前,首先了解并定義其架構(gòu):

  • 云層:云層由集中式數(shù)據(jù)中心組成,其中包含數(shù)千個(gè)高性能計(jì)算服務(wù)器(HPC - GPU/TPU),具有用于訓(xùn)練大型語言模型(LLM)、全面推理和編排的大容量。
  • 霧層:與傳統(tǒng)的云層不同,霧層由分散的微型數(shù)據(jù)中心組成,其智能和計(jì)算能力位于本地網(wǎng)絡(luò)或邊緣(例如智能城市、車輛、工業(yè)現(xiàn)場(chǎng))。霧層以低延遲運(yùn)行,但其資源受限。

混合云-霧拓?fù)浣Y(jié)構(gòu)協(xié)調(diào)了云霧兩層之間的推理。它將云計(jì)算的可擴(kuò)展性和靈活性與霧計(jì)算的接近性和低延遲優(yōu)勢(shì)相結(jié)合。云層處理大型數(shù)據(jù)集,執(zhí)行訓(xùn)練和回退邏輯。霧層在將數(shù)據(jù)發(fā)送到云層之前執(zhí)行數(shù)據(jù)過濾、預(yù)處理和分析等基本任務(wù)。在霧層本地處理數(shù)據(jù)可以降低延遲并實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。通過將一些任務(wù)卸載到霧層中,云層可以優(yōu)化資源利用率并高效運(yùn)行。

關(guān)鍵思路是動(dòng)態(tài)地調(diào)整霧計(jì)算資源和云計(jì)算資源的LLM組件的部署,以優(yōu)化性能。例如,LLM的某些部分可以在本地霧設(shè)備上運(yùn)行,而其他部分則在云中運(yùn)行。這使得系統(tǒng)可以利用霧計(jì)算和云計(jì)算的優(yōu)勢(shì)。

在邊緣/霧中部署LLM面臨挑戰(zhàn)

但是,在邊緣/霧環(huán)境中部署LLM仍面臨諸多挑戰(zhàn)。當(dāng)前的LLM(如GPT-3、LLaMA等)是擁有數(shù)千萬參數(shù)的模型,需要高內(nèi)存、高帶寬和多GPU集群進(jìn)行推理。

但是由于資源有限,霧層根本無法承載完整的LLM。因此,需要壓縮技術(shù)將LLM部署至霧節(jié)點(diǎn)。人們對(duì)LLM模型壓縮進(jìn)行了廣泛的研究,而LLM權(quán)重剪枝是其中一種代表性技術(shù)。

漸進(jìn)式權(quán)重模型剪枝

模型剪枝是一種從神經(jīng)網(wǎng)絡(luò)中刪除不重要的權(quán)重或神經(jīng)元的技術(shù),可以減少大小和計(jì)算要求。漸進(jìn)式剪枝通過允許在輸入附近進(jìn)行更多剪枝,在輸出附近進(jìn)行更少剪枝來逐步實(shí)現(xiàn)這一點(diǎn)。它還在各種參數(shù)大小下生成多個(gè)模型變體,以平衡性能和資源效率。

剪枝類型

  • 結(jié)構(gòu)化剪枝:側(cè)重于刪除模型的組件,例如神經(jīng)元、注意力頭(Attention Heads)、卷積濾波器(Convolutional Filter)或整個(gè)前饋塊。這會(huì)產(chǎn)生更小、更高效的模型架構(gòu),同時(shí)保留了規(guī)則的結(jié)構(gòu),并使其與GPU和TPU等現(xiàn)有硬件兼容。由于整個(gè)塊被刪除,結(jié)構(gòu)化剪枝減少了計(jì)算和內(nèi)存需求,但保持了與標(biāo)準(zhǔn)深度學(xué)習(xí)框架的兼容性。
  • 非結(jié)構(gòu)化剪枝:側(cè)重于從神經(jīng)網(wǎng)絡(luò)中刪除單個(gè)權(quán)重或連接,從而生成稀疏的權(quán)重矩陣。這種技術(shù)不能保持規(guī)則的結(jié)構(gòu),這使得在沒有專門的稀疏矩陣庫或定制硬件的情況下很難實(shí)現(xiàn)計(jì)算加速。然而,非結(jié)構(gòu)化剪枝可以具有非常高的壓縮比,并且可以有效地減少受限環(huán)境所需的整體模型大小。
  • 分層剪枝:側(cè)重于根據(jù)模型特定層相對(duì)重要性或?qū)φw性能的貢獻(xiàn),選擇性剪枝特定層或子模塊。這種方法可精細(xì)控制模型復(fù)雜度,確保保留網(wǎng)絡(luò)的關(guān)鍵組件,同時(shí)剪枝影響較小的部分。

部署策略:剪枝+放置

通過使用漸進(jìn)式剪枝功能,可以跨云層和霧層部署LLM。以下討論部署LLM的步驟和流程:

  • 首先是在云中訓(xùn)練和分析模型?;A(chǔ)LLM(例如LLaMA 2-7B)在特定于領(lǐng)域的數(shù)據(jù)上進(jìn)行微調(diào),以使模型適應(yīng)目標(biāo)用例。在訓(xùn)練完成后,采用顯著性分析等技術(shù)來識(shí)別可以在不降低性能的情況下剪枝的層或組件。隨后,生成不同稀疏級(jí)別(如50%、30%和10%)的基礎(chǔ)模型的各種剪枝變體。這有助于創(chuàng)建針對(duì)不同部署場(chǎng)景優(yōu)化的小型模型組合。
  • 其次,根據(jù)可用的邊緣計(jì)算硬件(CPU/GPU)規(guī)格、內(nèi)存和散熱約束條件,將剪枝后的模型與霧節(jié)點(diǎn)的容量進(jìn)行匹配。每個(gè)設(shè)備都分配了一個(gè)適合其性能的剪枝變體。完整模型(例如最初的7B模型)保留在云中,用于高吞吐量、容忍延遲的用例(例如提示批處理)。實(shí)現(xiàn)智能路由策略,根據(jù)模型大小和硬件可用性動(dòng)態(tài)地將用戶查詢引導(dǎo)到最合適的節(jié)點(diǎn)。
  • 最后,采用分層回退機(jī)制來保證準(zhǔn)確性和響應(yīng)性。如果霧節(jié)點(diǎn)的響應(yīng)置信度較低,或者輸入上下文長(zhǎng)度超過其處理限制,則查詢將升級(jí)到云端,由完整模型提供更準(zhǔn)確的答案。此外,還支持混合推理模式,其中霧節(jié)點(diǎn)提供快速的初始響應(yīng),云計(jì)算執(zhí)行異步的二次評(píng)估以提高輸出質(zhì)量。這種架構(gòu)不僅優(yōu)化了延遲和資源使用,還確保了LLM在不同基礎(chǔ)設(shè)施層之間的穩(wěn)健性和可擴(kuò)展性部署。

評(píng)估指標(biāo)

在使用漸進(jìn)式剪枝時(shí),跟蹤以下對(duì)實(shí)際驗(yàn)證至關(guān)重要的指標(biāo)非常重要。

  • 模型精度:對(duì)于霧模型,模型精度的降幅需要低于2%,這一點(diǎn)很重要。
  • 延遲:確保LLM模型在每個(gè)層中高效運(yùn)行,在霧層上的延遲低于100毫秒,在云層上的延遲<300?。
  • 吞吐量:需要確保LLM模型在云層或霧層上運(yùn)行的每個(gè)節(jié)點(diǎn)上都具有高吞吐量。因此,需要跟蹤每個(gè)節(jié)點(diǎn)的“令牌/秒”(Tokens/sec)。
  • 內(nèi)存:需要確保模型占用的內(nèi)存不超過總設(shè)備內(nèi)存的80%。

結(jié)論

在混合云-霧計(jì)算環(huán)境中部署LLM已不再停留于理論探討階段。通過大量研究,其可行性已經(jīng)得到驗(yàn)證。漸進(jìn)式模型剪枝提供了一種強(qiáng)大的方法,可以使大型語言模型(LLM)和深度神經(jīng)網(wǎng)絡(luò)(DNN)模型有效適應(yīng)資源受限的環(huán)境,推動(dòng)混合人工智能向真正智能、實(shí)時(shí)響應(yīng)的方向演進(jìn)。

無論是在邊緣端設(shè)計(jì)智能助理或物聯(lián)網(wǎng)設(shè)備,還是在分布式環(huán)境中構(gòu)建低延遲自然語言處理(NLP)管道,這種方法都可以彌合性能可訪問性差距,使LLM更接近模型數(shù)據(jù)生成和決策的地方。

原文標(biāo)題:Deploying LLMs Across Hybrid Cloud-Fog Topologies Using Progressive Model Pruning,作者:Sam Prakash Bheri

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2014-12-16 13:51:55

華為eSpace UC統(tǒng)一通信

2023-04-11 07:59:56

Kruise漸進(jìn)式交付

2010-04-27 13:41:42

云計(jì)算

2022-08-22 10:40:40

Kubernete部署分析運(yùn)行

2023-09-28 07:34:33

2024-11-04 16:04:06

2021-07-16 06:40:19

Argo RollouAnalysis云原生

2014-12-09 10:15:21

openstack混合云

2024-11-20 09:39:56

漸進(jìn)式遷移云策略云支出

2016-01-05 16:07:17

2021-06-03 05:48:58

GitOps 云原生Kubernetes

2021-06-24 08:25:38

flux2GitOps 云原生

2021-12-21 11:01:30

自動(dòng)駕駛數(shù)據(jù)人工智能

2025-09-28 01:50:00

2021-11-26 15:14:20

混合云網(wǎng)絡(luò)安全SASE

2018-12-03 16:17:51

IBM混合云公有云

2015-03-17 15:45:45

戴爾云計(jì)算云存儲(chǔ)混合云

2019-10-22 11:15:21

云計(jì)算數(shù)據(jù)安全

2021-01-13 13:49:29

漸進(jìn)式網(wǎng)頁應(yīng)用應(yīng)用程序開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)