偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="qwcor"><samp id="qwcor"><delect id="qwcor"></delect></samp></blockquote>

<em id="qwcor"><ul id="qwcor"><small id="qwcor"></small></ul></em>

<li id="qwcor"><dl id="qwcor"><sup id="qwcor"></sup></dl></li>

<p id="qwcor"></p>

<tt id="qwcor"></tt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

如何使用漸進(jìn)式模型剪枝在混合云-霧拓?fù)渲胁渴餖LM

作者：李睿 2025-07-09 07:57:36

大型語言模型（LLM）如今已經(jīng)成為對(duì)話式人工智能、代碼生成、摘要等眾多場(chǎng)景的核心技術(shù)。然而，在計(jì)算資源有限的環(huán)境中，LLM的部署帶來了重大挑戰(zhàn)，主要是在混合云-霧架構(gòu)中，實(shí)時(shí)推理可能需要在邊緣設(shè)備上運(yùn)行。

譯者 | 李睿

審校 | 重樓

由于規(guī)模和資源方面的限制，將LLM部署到邊緣計(jì)算設(shè)備上面臨諸多挑戰(zhàn)。本文對(duì)漸進(jìn)式模型剪枝如何實(shí)現(xiàn)可擴(kuò)展的混合云-霧推理進(jìn)行了探討。

大型語言模型（LLM）如今已經(jīng)成為對(duì)話式人工智能、代碼生成、摘要等眾多場(chǎng)景的核心技術(shù)。然而，在計(jì)算資源有限的環(huán)境中，LLM的部署帶來了重大挑戰(zhàn)，主要是在混合云-霧架構(gòu)中，實(shí)時(shí)推理可能需要在邊緣設(shè)備上運(yùn)行。

在這些情況下，漸進(jìn)式模型剪枝（Pruning）可以在不影響精度的情況下減少模型大小和計(jì)算成本。本文將探討如何使用層感知、資源自適應(yīng)的剪枝技術(shù)在云-霧拓?fù)渲杏行У夭渴餖LM。

什么是混合云-霧拓?fù)洌?/h4>
在深入討論該話題之前，首先了解并定義其架構(gòu)：
云層：云層由集中式數(shù)據(jù)中心組成，其中包含數(shù)千個(gè)高性能計(jì)算服務(wù)器（HPC - GPU/TPU），具有用于訓(xùn)練大型語言模型（LLM）、全面推理和編排的大容量。
霧層：與傳統(tǒng)的云層不同，霧層由分散的微型數(shù)據(jù)中心組成，其智能和計(jì)算能力位于本地網(wǎng)絡(luò)或邊緣（例如智能城市、車輛、工業(yè)現(xiàn)場(chǎng)）。霧層以低延遲運(yùn)行，但其資源受限。
混合云-霧拓?fù)浣Y(jié)構(gòu)協(xié)調(diào)了云霧兩層之間的推理。它將云計(jì)算的可擴(kuò)展性和靈活性與霧計(jì)算的接近性和低延遲優(yōu)勢(shì)相結(jié)合。云層處理大型數(shù)據(jù)集，執(zhí)行訓(xùn)練和回退邏輯。霧層在將數(shù)據(jù)發(fā)送到云層之前執(zhí)行數(shù)據(jù)過濾、預(yù)處理和分析等基本任務(wù)。在霧層本地處理數(shù)據(jù)可以降低延遲并實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。通過將一些任務(wù)卸載到霧層中，云層可以優(yōu)化資源利用率并高效運(yùn)行。
關(guān)鍵思路是動(dòng)態(tài)地調(diào)整霧計(jì)算資源和云計(jì)算資源的LLM組件的部署，以優(yōu)化性能。例如，LLM的某些部分可以在本地霧設(shè)備上運(yùn)行，而其他部分則在云中運(yùn)行。這使得系統(tǒng)可以利用霧計(jì)算和云計(jì)算的優(yōu)勢(shì)。

在邊緣/霧中部署LLM面臨挑戰(zhàn)

但是，在邊緣/霧環(huán)境中部署LLM仍面臨諸多挑戰(zhàn)。當(dāng)前的LLM（如GPT-3、LLaMA等）是擁有數(shù)千萬參數(shù)的模型，需要高內(nèi)存、高帶寬和多GPU集群進(jìn)行推理。

但是由于資源有限，霧層根本無法承載完整的LLM。因此，需要壓縮技術(shù)將LLM部署至霧節(jié)點(diǎn)。人們對(duì)LLM模型壓縮進(jìn)行了廣泛的研究，而LLM權(quán)重剪枝是其中一種代表性技術(shù)。

漸進(jìn)式權(quán)重模型剪枝

模型剪枝是一種從神經(jīng)網(wǎng)絡(luò)中刪除不重要的權(quán)重或神經(jīng)元的技術(shù)，可以減少大小和計(jì)算要求。漸進(jìn)式剪枝通過允許在輸入附近進(jìn)行更多剪枝，在輸出附近進(jìn)行更少剪枝來逐步實(shí)現(xiàn)這一點(diǎn)。它還在各種參數(shù)大小下生成多個(gè)模型變體，以平衡性能和資源效率。

剪枝類型

結(jié)構(gòu)化剪枝：側(cè)重于刪除模型的組件，例如神經(jīng)元、注意力頭（Attention Heads）、卷積濾波器(Convolutional Filter)或整個(gè)前饋塊。這會(huì)產(chǎn)生更小、更高效的模型架構(gòu)，同時(shí)保留了規(guī)則的結(jié)構(gòu)，并使其與GPU和TPU等現(xiàn)有硬件兼容。由于整個(gè)塊被刪除，結(jié)構(gòu)化剪枝減少了計(jì)算和內(nèi)存需求，但保持了與標(biāo)準(zhǔn)深度學(xué)習(xí)框架的兼容性。
非結(jié)構(gòu)化剪枝：側(cè)重于從神經(jīng)網(wǎng)絡(luò)中刪除單個(gè)權(quán)重或連接，從而生成稀疏的權(quán)重矩陣。這種技術(shù)不能保持規(guī)則的結(jié)構(gòu)，這使得在沒有專門的稀疏矩陣庫或定制硬件的情況下很難實(shí)現(xiàn)計(jì)算加速。然而，非結(jié)構(gòu)化剪枝可以具有非常高的壓縮比，并且可以有效地減少受限環(huán)境所需的整體模型大小。
分層剪枝：側(cè)重于根據(jù)模型特定層相對(duì)重要性或?qū)φw性能的貢獻(xiàn)，選擇性剪枝特定層或子模塊。這種方法可精細(xì)控制模型復(fù)雜度，確保保留網(wǎng)絡(luò)的關(guān)鍵組件，同時(shí)剪枝影響較小的部分。

部署策略：剪枝+放置

通過使用漸進(jìn)式剪枝功能，可以跨云層和霧層部署LLM。以下討論部署LLM的步驟和流程：

首先是在云中訓(xùn)練和分析模型?；A(chǔ)LLM（例如LLaMA 2-7B）在特定于領(lǐng)域的數(shù)據(jù)上進(jìn)行微調(diào)，以使模型適應(yīng)目標(biāo)用例。在訓(xùn)練完成后，采用顯著性分析等技術(shù)來識(shí)別可以在不降低性能的情況下剪枝的層或組件。隨后，生成不同稀疏級(jí)別（如50%、30%和10%）的基礎(chǔ)模型的各種剪枝變體。這有助于創(chuàng)建針對(duì)不同部署場(chǎng)景優(yōu)化的小型模型組合。
其次，根據(jù)可用的邊緣計(jì)算硬件（CPU/GPU）規(guī)格、內(nèi)存和散熱約束條件，將剪枝后的模型與霧節(jié)點(diǎn)的容量進(jìn)行匹配。每個(gè)設(shè)備都分配了一個(gè)適合其性能的剪枝變體。完整模型（例如最初的7B模型）保留在云中，用于高吞吐量、容忍延遲的用例（例如提示批處理）。實(shí)現(xiàn)智能路由策略，根據(jù)模型大小和硬件可用性動(dòng)態(tài)地將用戶查詢引導(dǎo)到最合適的節(jié)點(diǎn)。
最后，采用分層回退機(jī)制來保證準(zhǔn)確性和響應(yīng)性。如果霧節(jié)點(diǎn)的響應(yīng)置信度較低，或者輸入上下文長(zhǎng)度超過其處理限制，則查詢將升級(jí)到云端，由完整模型提供更準(zhǔn)確的答案。此外，還支持混合推理模式，其中霧節(jié)點(diǎn)提供快速的初始響應(yīng)，云計(jì)算執(zhí)行異步的二次評(píng)估以提高輸出質(zhì)量。這種架構(gòu)不僅優(yōu)化了延遲和資源使用，還確保了LLM在不同基礎(chǔ)設(shè)施層之間的穩(wěn)健性和可擴(kuò)展性部署。

評(píng)估指標(biāo)

在使用漸進(jìn)式剪枝時(shí)，跟蹤以下對(duì)實(shí)際驗(yàn)證至關(guān)重要的指標(biāo)非常重要。

模型精度：對(duì)于霧模型，模型精度的降幅需要低于2%，這一點(diǎn)很重要。
延遲：確保LLM模型在每個(gè)層中高效運(yùn)行，在霧層上的延遲低于100毫秒，在云層上的延遲<300?。
吞吐量：需要確保LLM模型在云層或霧層上運(yùn)行的每個(gè)節(jié)點(diǎn)上都具有高吞吐量。因此，需要跟蹤每個(gè)節(jié)點(diǎn)的“令牌/秒”（Tokens/sec）。
內(nèi)存：需要確保模型占用的內(nèi)存不超過總設(shè)備內(nèi)存的80%。

結(jié)論

在混合云-霧計(jì)算環(huán)境中部署LLM已不再停留于理論探討階段。通過大量研究，其可行性已經(jīng)得到驗(yàn)證。漸進(jìn)式模型剪枝提供了一種強(qiáng)大的方法，可以使大型語言模型（LLM）和深度神經(jīng)網(wǎng)絡(luò)（DNN）模型有效適應(yīng)資源受限的環(huán)境，推動(dòng)混合人工智能向真正智能、實(shí)時(shí)響應(yīng)的方向演進(jìn)。

無論是在邊緣端設(shè)計(jì)智能助理或物聯(lián)網(wǎng)設(shè)備，還是在分布式環(huán)境中構(gòu)建低延遲自然語言處理（NLP）管道，這種方法都可以彌合性能可訪問性差距，使LLM更接近模型數(shù)據(jù)生成和決策的地方。

原文標(biāo)題：Deploying LLMs Across Hybrid Cloud-Fog Topologies Using Progressive Model Pruning，作者：Sam Prakash Bheri

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

大型語言模型 LLM 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)