偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別卡脖子,華為黑科技破局!昇騰推理加速1.6倍打破LLM降智魔咒

人工智能 新聞
大模型越來(lái)越大,推理部署卻舉步維艱?就在剛剛,華為諾亞提出的Pangu Light框架,一舉打破了「剪枝即降智」魔咒,揭示出LLM瘦身的新路徑。毫無(wú)疑問(wèn),算法創(chuàng)新與國(guó)產(chǎn)平臺(tái)的結(jié)合,還將爆發(fā)出無(wú)法想象的巨大潛力!

LLM發(fā)展到今天,下一步該往哪個(gè)方向探索?

顯然,如今最明顯的一個(gè)問(wèn)題就是,大模型的參數(shù)規(guī)模還是太大了——DeepSeek-V3的參數(shù)為671B,Llama 3.1系列最大為405B,GPT-4o為200B,Claude 3.5 Sonnet為175B。

參數(shù)規(guī)模在不斷增長(zhǎng),高昂的計(jì)算成本和推理延遲,該怎么破?

顯然,無(wú)論推理還是部署,離開(kāi)了老黃的「卡」,都將寸步難行。

假設(shè)真到了這一天,我們將不得不面臨這一窘境時(shí),不打無(wú)準(zhǔn)備之仗,就是最好的策略。

這里,就引出了一個(gè)關(guān)鍵問(wèn)題——如何將算法創(chuàng)新,與國(guó)產(chǎn)AI計(jì)算平臺(tái)相結(jié)合。

具體來(lái)說(shuō),就是需要在保持模型性能的同時(shí),實(shí)現(xiàn)高效的壓縮與加速。

裁員裁到大動(dòng)脈?」

華為破悉關(guān)鍵

解決這個(gè)問(wèn)題的關(guān)鍵之一,就是結(jié)構(gòu)化剪枝技術(shù)。

顧名思義,這種「激進(jìn)」的壓縮技術(shù),正是通過(guò)整個(gè)移除模型中的冗余組件(如注意力頭等)來(lái)實(shí)現(xiàn)的。

結(jié)構(gòu)化剪枝更適合硬件加速,因?yàn)樗3至四P偷慕Y(jié)構(gòu)規(guī)則性。

然而只是簡(jiǎn)單粗暴的剪枝,卻往往會(huì)遭遇滑鐵盧,引發(fā)大問(wèn)題。

實(shí)踐表明,當(dāng)嘗試對(duì)模型的寬度(網(wǎng)絡(luò)通道數(shù))、深度(層數(shù))等多個(gè)維度同時(shí)進(jìn)行激進(jìn)壓縮時(shí),模型性能會(huì)斷崖式下跌——畢竟,大模型對(duì)于人類(lèi)還是個(gè)黑盒:

激進(jìn)的剪枝操作會(huì)嚴(yán)重?cái)_亂模型原有的參數(shù)分布平衡和精心學(xué)習(xí)到的信息流動(dòng)路徑,使得剪枝后的模型結(jié)構(gòu)失穩(wěn),性能大打折扣,甚至難以通過(guò)后續(xù)微調(diào)恢復(fù)。

打個(gè)不恰當(dāng)?shù)谋确?,這就好像是裁員裁到了大動(dòng)脈,或者刪除了看似不重要但起決定性作用的組件。

好在,面對(duì)這一難題,來(lái)自華為諾亞方舟實(shí)驗(yàn)室的研究者們,直接洞察到了問(wèn)題的核心——

在剪枝之后,必須對(duì)模型的剩余參數(shù)進(jìn)行精心的重新初始化與調(diào)整!

由此,他們推出了基于昇騰NPU的結(jié)構(gòu)化剪枝與優(yōu)化框架——Pangu Light。

通過(guò)創(chuàng)新性地引入了一系列權(quán)重調(diào)整與重置技術(shù),最終,他們成功填補(bǔ)了當(dāng)前方法在剪枝后模型穩(wěn)定與性能恢復(fù)機(jī)制上的關(guān)鍵空白。

Pangu Light的核心技術(shù)包括:

  • 旨在優(yōu)化深度剪枝的跨層注意力剪枝(CLAP)
  • 針對(duì)寬度剪枝的穩(wěn)定化LayerNorm剪枝(SLNP)
  • 為盤(pán)古模型「三明治」架構(gòu)量身定制的Post-RMSNorm融合優(yōu)化策略,并針對(duì)昇騰硬件平臺(tái)進(jìn)行了定制架構(gòu)優(yōu)化。

實(shí)驗(yàn)結(jié)果表明,Pangu Light在壓縮率和推理速度方面取得了顯著提升。

并且,相較于一些已有的剪枝框架(如NVIDIA Minitron/PUZZLE的部分策略),Pangu Light展現(xiàn)出更優(yōu)的效果。

剪枝后的Pangu系列模型在多項(xiàng)基準(zhǔn)測(cè)試中,精度-效率曲線都超越了業(yè)界領(lǐng)先的LLM(如Qwen3系列)。

結(jié)構(gòu)化剪枝的「夢(mèng)魘」:

為何模型越剪越「?jìng)梗?/span>

大模型結(jié)構(gòu)化剪枝的初衷,當(dāng)然是美好的——通過(guò)移除不重要的參數(shù)或結(jié)構(gòu)單元,實(shí)現(xiàn)「瘦身健體」。

然而,當(dāng)剪枝的「手術(shù)刀」同時(shí)伸向模型的深度、寬度、注意力機(jī)制乃至前饋網(wǎng)絡(luò)(FFN)時(shí),一場(chǎng)潛在的「噩夢(mèng)」便可能開(kāi)始。

傳統(tǒng)的剪枝方法大多依賴于某種重要性評(píng)分機(jī)制來(lái)決定「去留」,例如神經(jīng)元的激活值大小、權(quán)重的L2范數(shù)等。

雖然這些方法能夠識(shí)別出部分冗余組件,但在進(jìn)行大刀闊斧的多維度聯(lián)合剪枝時(shí),卻往往忽略了一個(gè)致命問(wèn)題:模型是一個(gè)高度耦合的復(fù)雜系統(tǒng)。

僅僅移除「看起來(lái)不重要」的部分,會(huì)像抽掉積木塔的底層積木一樣,導(dǎo)致整個(gè)模型的參數(shù)分布發(fā)生劇烈改變。

原本精心訓(xùn)練得到的權(quán)重,在移除了大量與之配合的「同事」后,其功能和意義可能已面目全非。

激活值的統(tǒng)計(jì)特性發(fā)生偏移,信息流在殘缺的網(wǎng)絡(luò)中傳遞受阻,最終導(dǎo)致剪枝后的模型性能大幅下降,陷入「一剪就壞,壞了難修」的困境,即便投入大量資源進(jìn)行后續(xù)微調(diào),也常常收效甚微。

正是因?yàn)槎床斓竭@一「剪枝后穩(wěn)定性」的核心癥結(jié),Pangu Light框架祭出了兩大「殺手锏」——跨層注意力剪枝(CLAP)和穩(wěn)定化LayerNorm剪枝(SLNP)。

這兩大技術(shù),正是為了從根本上解決剪枝帶來(lái)的模型失穩(wěn)問(wèn)題。

Pangu Light核心技術(shù)解析:

穩(wěn)定勝于一切

Pangu Light的成功,關(guān)鍵在于其獨(dú)特的「剪枝」后「修復(fù)與重建」哲學(xué),即通過(guò)精密的參數(shù)重置與結(jié)構(gòu)調(diào)整,確保模型在「瘦身」后依然「筋骨強(qiáng)健」。

跨層注意力剪枝(CLAP):層剪枝后的「智慧縫合」

當(dāng)整個(gè)網(wǎng)絡(luò)層被移除(深度剪枝)時(shí),其承載的注意力計(jì)算單元通常被完全丟棄,這對(duì)模型的信息處理能力無(wú)疑是巨大打擊。

傳統(tǒng)的逐層獨(dú)立剪枝未能充分利用被剪層的信息,相比之下,Pangu Light的CLAP技術(shù)卻展現(xiàn)了一種更為精妙的「跨層智慧」。

在研究者看來(lái),即便一個(gè)層被判定為可剪枝,其內(nèi)部的某些注意力頭(特別是KV group)可能依然承載著不可或缺的關(guān)鍵信息。

圖片

 因此,在剪去第l+1層時(shí),CLAP并不會(huì)將其注意力機(jī)制完全拋棄,而是會(huì)聯(lián)合評(píng)估第l層和第l+1層中所有KV group的重要性。

這種重要性基于其內(nèi)部尚存的Query Head的初始重要性:

圖片

式中,圖片 表示query head的初始重要性,圖片表示一個(gè)KV group中保留的query head的集合,圖片表示KV group中保留的query的數(shù)量。

從這兩層的所有KV group中,選取Top-K最重要的KV group,將其參數(shù)「移植」并整合到第l層。

這相當(dāng)于將被剪層l+1的「精華」注意力權(quán)重,巧妙地「縫合」并重新初始化到保留層l的注意力機(jī)制中,實(shí)現(xiàn)了信息的跨層保留與結(jié)構(gòu)功能的有效重組。

穩(wěn)定化LayerNorm剪枝(SLNP):寬度剪枝后的「定海神針」

當(dāng)網(wǎng)絡(luò)寬度被壓縮,即隱藏層通道被剪枝時(shí),RMSNorm(或LayerNorm)層中的可學(xué)習(xí)仿射參數(shù)γ的維度也隨之減少。

這一變化看似簡(jiǎn)單,實(shí)則極易引發(fā)「蝴蝶效應(yīng)」:γ的L2范數(shù)(即其整體尺度)可能發(fā)生劇變,進(jìn)而顯著改變RMSNorm層的輸出激活值的統(tǒng)計(jì)分布。

這種分布的漂移會(huì)逐層傳遞、放大,最終導(dǎo)致整個(gè)網(wǎng)絡(luò)內(nèi)部的激活狀態(tài)極不穩(wěn)定,嚴(yán)重阻礙剪枝后模型的收斂和性能恢復(fù)。

怎么辦?為此,研究者們提出了SLNP技術(shù),這套權(quán)重重置方案有效地直接針對(duì)了這一問(wèn)題。

圖片

他們發(fā)現(xiàn),通過(guò)精確調(diào)控剪枝后RMSNorm層γ參數(shù)的L2范數(shù),使其恢復(fù)到剪枝前的水平,對(duì)于維持模型穩(wěn)定性至關(guān)重要。

具體而言,對(duì)于每個(gè)被剪枝的RMSNorm層l,SLNP會(huì)計(jì)算一個(gè)重初始化標(biāo)量:

圖片

(分子和分母分別為剪枝前后參數(shù)γ的L2范數(shù))。然后,用這個(gè)標(biāo)量重新縮放剪枝后的γ參數(shù)。

這一簡(jiǎn)單的重初始化步驟,卻如「定海神針」一般有效。

它校正了輸出尺度,顯著提升了模型在剪枝后的穩(wěn)定性與后續(xù)微調(diào)的收斂性。

Post-RMSNorm融合優(yōu)化策略

另外,Pangu系列大模型還采用了一種獨(dú)特的「三明治」歸一化(Depth-Scaled Sandwich-Norm, DSSN)架構(gòu),即在每個(gè)Transformer塊的注意力模塊和FFN模塊之后都額外增加了一個(gè)RMSNorm層。

圖片

這一設(shè)計(jì)極大地增強(qiáng)了大規(guī)模模型訓(xùn)練的穩(wěn)定性,甚至實(shí)現(xiàn)了「零訓(xùn)練毛刺(zero loss spikes)」的佳績(jī)。

然而,這種歸一化也無(wú)可避免地帶來(lái)了額外的推理計(jì)算開(kāi)銷(xiāo)。

標(biāo)準(zhǔn)的RMSNorm計(jì)算公式如下:

圖片

RMSNorm會(huì)實(shí)時(shí)計(jì)算每一個(gè)輸入token的統(tǒng)計(jì)值,這極大影響了模型的推理效率。

為此,針對(duì)這種額外引入的Post-RMSNorm,研究者通過(guò)少量校準(zhǔn)集求取該統(tǒng)計(jì)值的均值,并將該均值替換RMSNorm的實(shí)時(shí)計(jì)算,其表達(dá)式如下:

圖片

替換后,歸一化層的計(jì)算公式表示如下:

圖片

圖片

這一變換有效地將Post-RMSNorm層替換為一個(gè)常數(shù)的逐通道縮放操作。

同時(shí),這一縮放操作可以將歸一化層的參數(shù)融入線性投影層的權(quán)重矩陣中,消除了PostNorm額外引入的參數(shù)。

實(shí)驗(yàn)驗(yàn)證

為了驗(yàn)證Pangu Light框架的實(shí)際效果,研究團(tuán)隊(duì)以Pangu 38B模型為基準(zhǔn),在華為昇騰NPU AI處理器上進(jìn)行了一系列詳盡的模型壓縮實(shí)驗(yàn)。

圖片


圖片

從實(shí)驗(yàn)結(jié)果可以看出,Pangu Light在不同的壓縮比例下,均能非常有效地保持模型的精度。

與參數(shù)量相近的業(yè)界知名模型Qwen3-32B相比,Pangu Light壓縮后的模型在多項(xiàng)任務(wù)上展現(xiàn)出更強(qiáng)的競(jìng)爭(zhēng)力,平均精度更優(yōu)。

在同樣加速2.1x的情況下,Pangu Light保留了高達(dá)98.9%的原始模型推理能能力,超越英偉達(dá)提出的PUZZLE壓縮方案(保持98.4%的精度)。

圖片

 在推理吞吐量方面,研究團(tuán)隊(duì)在昇騰NPU的配置下進(jìn)行了測(cè)試。

結(jié)果顯示,Pangu Light剪枝后的模型在昇騰硬件平臺(tái)上表現(xiàn)出卓越的親和力。

以32B規(guī)模的模型為例,Pangu Light-32B的吞吐量相較于Qwen3-32B提升了接近16.2%(2585 vs 2225 tokens/s)。

這就充分證明了其軟硬協(xié)同優(yōu)化的有效性,實(shí)現(xiàn)了模型性能與推理速度的更優(yōu)平衡。

消融實(shí)驗(yàn)

圖片

為了進(jìn)一步驗(yàn)證Pangu Light中各項(xiàng)創(chuàng)新技術(shù)的獨(dú)立貢獻(xiàn),研究團(tuán)隊(duì)還精心設(shè)計(jì)了消融實(shí)驗(yàn)。

在一項(xiàng)基于14B規(guī)模模型的少量數(shù)據(jù)微調(diào)評(píng)測(cè)中,對(duì)比僅基于激活值進(jìn)行剪枝的策略(NVIDIA Minitron方案的),同時(shí)采用CLAP和SLNP這兩種「寬深調(diào)整」(實(shí)為權(quán)重重置與結(jié)構(gòu)調(diào)整)技術(shù)的Pangu Light模型,在平均精度上實(shí)現(xiàn)了高達(dá)3.6個(gè)百分點(diǎn)的提升。

這一顯著差距,充分證明了在剪枝之后進(jìn)行系統(tǒng)性的參數(shù)調(diào)整與重置的極端重要性,以及Pangu Light所提方法的優(yōu)越性。

圖片

為了深入探究Pangu Light剪枝方法學(xué)對(duì)模型內(nèi)部參數(shù)的影響,特別是其核心的SLNP權(quán)重重置策略如何維持穩(wěn)定性,研究者們還細(xì)致分析了模型歸一化層的仿射縮放參數(shù)γ在剪枝前后的分布變化。

分析著重聚焦于那些在剪枝后被保留下來(lái)的通道和層所對(duì)應(yīng)的γ參數(shù)。

結(jié)果清晰地顯示,在應(yīng)用了Pangu Light的剪枝和SLNP重置策略后,這些被保留的γ參數(shù)的均值和標(biāo)準(zhǔn)差在每一層都與剪枝前保持了高度的一致性。

這一現(xiàn)象有力地說(shuō)明,Pangu Light的剪枝與權(quán)重重置方法能夠有效維持這些關(guān)鍵縮放參數(shù)學(xué)習(xí)到的統(tǒng)計(jì)特性,避免了劇烈的分布漂移。

這種參數(shù)層面的穩(wěn)定性,是剪枝后模型整體魯棒性和行為可預(yù)測(cè)性的重要基石。

昇騰賦能,華為引領(lǐng)AI普惠之路

可見(jiàn)Pangu Light框架的提出,無(wú)疑為L(zhǎng)LM的高效部署領(lǐng)域注入了強(qiáng)勁的新動(dòng)能。

它結(jié)合了系統(tǒng)性的結(jié)構(gòu)化剪枝與創(chuàng)新性的「剪枝后權(quán)重重置與結(jié)構(gòu)調(diào)整」理念,尤其強(qiáng)調(diào)了在激進(jìn)剪枝后對(duì)模型進(jìn)行「再穩(wěn)定化」的核心步驟。

由此,這個(gè)框架就成功破解了長(zhǎng)期困擾業(yè)界的「一剪就壞」難題。

甚至,在昇騰AI處理器的強(qiáng)大算力支持下,Pangu Light不僅實(shí)現(xiàn)了超高的模型壓縮率和推理加速,更難能可貴地保持了極具競(jìng)爭(zhēng)力的模型精度,展現(xiàn)了卓越的「精度-效率」均衡藝術(shù)。

可以說(shuō),這項(xiàng)由華為諾亞方舟實(shí)驗(yàn)室主導(dǎo)的研究成果,是軟硬件協(xié)同設(shè)計(jì)(「軟硬協(xié)同」)理念的又一次成功實(shí)踐,充分彰顯了算法創(chuàng)新與國(guó)產(chǎn)AI計(jì)算平臺(tái)(昇騰)深度融合所能爆發(fā)出的巨大潛力。

從此,不僅Pangu系列大模型有了強(qiáng)大的「瘦身」與加速工具,業(yè)界更是有了一條極有前途的路徑——

在保證高性能前提下,大模型應(yīng)用的門(mén)檻,還將繼續(xù)大幅降低!

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-05-21 13:48:58

AI模型推理

2021-07-09 22:54:38

昇騰產(chǎn)業(yè)升級(jí)智能化

2023-09-12 14:45:18

2019-05-24 09:47:09

ARM華為芯片

2022-04-23 13:42:50

昇騰AI

2023-05-23 14:06:53

微軟研究

2022-07-27 10:09:04

Atlas 800

2025-10-21 08:54:00

微軟LLM模型

2025-06-18 13:29:42

昇騰CANN

2020-05-21 15:18:00

數(shù)據(jù)庫(kù)工具技術(shù)

2023-10-17 19:37:34

昇騰

2022-03-14 16:56:51

俄羅斯半導(dǎo)體產(chǎn)業(yè)制裁

2022-10-18 11:37:03

鯤鵬

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2022-06-15 14:43:41

計(jì)算

2023-06-08 16:41:06

人工智能

2023-09-18 15:25:12

昇騰AI

2025-07-24 16:34:25

AI模型測(cè)試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)