偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

破解MoE模型“規(guī)模越大,效率越低”困境!中科院自動(dòng)化所提出新框架

人工智能
隨著LLM參數(shù)規(guī)模的持續(xù)擴(kuò)張,模型規(guī)模增長(zhǎng)與計(jì)算效率優(yōu)化難以協(xié)同推進(jìn)的核心挑戰(zhàn)逐漸顯現(xiàn),混合專家模型(MoE)作為一種稀疏激活架構(gòu),為模型規(guī)模的持續(xù)擴(kuò)展提供了理論上極具吸引力的技術(shù)途徑。

大模型參數(shù)量飆升至千億、萬(wàn)億級(jí),卻陷入“規(guī)模越大,效率越低” 困境?

中科院自動(dòng)化所新研究給出破局方案——

首次讓MoE專家告別“靜態(tài)孤立”,開啟動(dòng)態(tài)“組隊(duì)學(xué)習(xí)”。

圖片

具體而言,MoE本是大語(yǔ)言模型(LLM)實(shí)現(xiàn)參數(shù)量擴(kuò)張且計(jì)算成本僅呈線性增長(zhǎng)的核心路徑,卻長(zhǎng)期受困于負(fù)載失衡、參數(shù)冗余、通信開銷的“三難困境”,成為大模型落地部署的主要瓶頸。

而中科院自動(dòng)化所的研究團(tuán)隊(duì)通過專家集群動(dòng)態(tài)重組,不僅讓大模型總參數(shù)量直降80%,負(fù)載方差降低至原來的三分之一,消耗內(nèi)存更直逼輕量級(jí)傳統(tǒng)稠密模型,更一舉達(dá)成通信延遲、負(fù)載均衡、內(nèi)存占用的三重優(yōu)化,為大參數(shù)LLM的低成本部署提供了新路徑。

下面詳細(xì)來看——

一套統(tǒng)一框架直擊MoE底層運(yùn)作模式

隨著LLM參數(shù)規(guī)模的持續(xù)擴(kuò)張,模型規(guī)模增長(zhǎng)與計(jì)算效率優(yōu)化難以協(xié)同推進(jìn)的核心挑戰(zhàn)逐漸顯現(xiàn),混合專家模型(MoE)作為一種稀疏激活架構(gòu),為模型規(guī)模的持續(xù)擴(kuò)展提供了理論上極具吸引力的技術(shù)途徑。

它通過將計(jì)算任務(wù)動(dòng)態(tài)分配給不同的“專家”子神經(jīng)網(wǎng)絡(luò),使得模型參數(shù)量迅速增長(zhǎng)的同時(shí),計(jì)算成本仍能保持近乎線性增長(zhǎng)。

然而,MoE在實(shí)際部署中面臨著源于現(xiàn)代硬件體系結(jié)構(gòu)限制的嚴(yán)峻挑戰(zhàn)——一個(gè)根本性的“優(yōu)化三難困境”制約了MoE模型的實(shí)際效能。

負(fù)載不均衡、參數(shù)冗余和通信開銷這三大瓶頸,不僅各自形成了突出的優(yōu)化難題,更關(guān)鍵的是,它們深度耦合、相互制約,成為當(dāng)前MoE系統(tǒng)設(shè)計(jì)的核心障礙。

這些困境直接源于硬件的物理限制:

  • 內(nèi)存與容量限制:MoE巨大的參數(shù)量對(duì)GPU有限的高帶寬顯存構(gòu)成了巨大壓力,使得參數(shù)冗余成為一個(gè)關(guān)乎成本與可行性的關(guān)鍵問題。
  • 計(jì)算資源利用率低:傳統(tǒng)Top-K會(huì)直接將大量tokens路由給少數(shù)幾個(gè)得分top的專家,這種路由方式極易引起高分專家計(jì)算過載,而其他專家則在GPU中長(zhǎng)期處于空閑狀態(tài),造成了昂貴計(jì)算單元的嚴(yán)重浪費(fèi),使得實(shí)際吞吐量遠(yuǎn)低于理論值。
  • 通信瓶頸:在多節(jié)點(diǎn)、多GPU的分布式訓(xùn)練中,實(shí)現(xiàn)Token到專家的動(dòng)態(tài)路由所需的“All-to-All”全局通信模式,其高昂的延遲常常成為整個(gè)系統(tǒng)的性能主導(dǎo)因素。

面對(duì)此“三難困境”,現(xiàn)有的優(yōu)化工作往往是碎片化的,未能從系統(tǒng)層面統(tǒng)一解決問題。

例如,負(fù)載均衡損失函數(shù)是一種被動(dòng)的補(bǔ)償機(jī)制;參數(shù)壓縮技術(shù)(如MoE-Lite)雖減少了參數(shù),卻將專家視為獨(dú)立的實(shí)體,忽視了其內(nèi)在的結(jié)構(gòu)關(guān)聯(lián)性;而通信感知路由雖優(yōu)化了數(shù)據(jù)傳輸路徑,卻無(wú)法改變模型固有的冗余和失衡問題。

這種“事后補(bǔ)救”的優(yōu)化思路,凸顯出一個(gè)嚴(yán)峻的現(xiàn)實(shí)——學(xué)界迫切需要一個(gè)能夠協(xié)同解決這三重內(nèi)在矛盾的統(tǒng)一框架。

近日,來自中國(guó)科學(xué)院自動(dòng)化研究所的研究團(tuán)隊(duì),提出了一套統(tǒng)一框架,該框架直擊MoE的底層運(yùn)作模式。

研究團(tuán)隊(duì)發(fā)現(xiàn),被語(yǔ)義相似的輸入所激活的專家,其參數(shù)本身也存在著結(jié)構(gòu)性冗余

這一發(fā)現(xiàn)為設(shè)計(jì)動(dòng)態(tài)的、結(jié)構(gòu)化的專家組織方式提供了理論依據(jù),將專家從“靜態(tài)孤立的個(gè)體”轉(zhuǎn)變?yōu)椤皠?dòng)態(tài)協(xié)作的聯(lián)盟”。

實(shí)驗(yàn)表明,該框架在幾乎不損失模型性能的前提下,實(shí)現(xiàn)了總參數(shù)量削減80%,吞吐量提升10%-20%,峰值內(nèi)存消耗降低至逼近輕量級(jí)稠密模型的水平。

這項(xiàng)研究為構(gòu)建更高效、更經(jīng)濟(jì)、更具可擴(kuò)展性的MoE大模型提供了堅(jiān)實(shí)的理論與實(shí)踐基礎(chǔ)。

方法詳解:動(dòng)態(tài)專家分組與結(jié)構(gòu)化壓縮的統(tǒng)一框架

為了系統(tǒng)性解決上文提到的三難困境,研究團(tuán)隊(duì)提出的框架將MoE的優(yōu)化過程形式化為一個(gè)統(tǒng)一的聯(lián)合優(yōu)化數(shù)學(xué)問題,目標(biāo)函數(shù)旨在同時(shí)最小化任務(wù)損失、負(fù)載不均衡、參數(shù)冗余和通信成本:

圖片

為求解該問題,研究團(tuán)隊(duì)設(shè)計(jì)了四個(gè)緊密耦合、協(xié)同作用的核心技術(shù)組件。

1.在線雙相似度聚類

為克服傳統(tǒng)Top-K路由在動(dòng)態(tài)輸入分布下易于導(dǎo)致的負(fù)載失衡問題,研究團(tuán)隊(duì)提出了一個(gè)主動(dòng)對(duì)專家集合進(jìn)行動(dòng)態(tài)重組,而非被動(dòng)調(diào)整路由概率的解決方案。

研究團(tuán)隊(duì)設(shè)計(jì)了一種在線聚類算法,周期性地將專家動(dòng)態(tài)劃分至若干專家簇。聚類的核心依據(jù)是一個(gè)融合相似度指標(biāo)S,該指標(biāo)同時(shí)量化了專家的“結(jié)構(gòu)相似性”與“功能相似性”:

  • 結(jié)構(gòu)相似性(Sparam ):通過計(jì)算兩個(gè)專家權(quán)重矩陣W??和W??向量化表示的余弦相似度,直接衡量它們?cè)趨?shù)空間中的接近程度,揭示其底層的結(jié)構(gòu)關(guān)聯(lián)。

圖片

  • 功能相似性(Stask ):研究團(tuán)隊(duì)利用路由器的輸出logit作為輸入Token的有效語(yǔ)義嵌入。為每個(gè)專家維護(hù)一個(gè)“激活質(zhì)心”????(路由至該專家的Token嵌入的指數(shù)移動(dòng)平均值)。若兩個(gè)專家的激活質(zhì)心在向量空間中相近,則表明它們的功能定位趨同。

圖片

通過加權(quán)融合S(????,???? )=??Sparam +(1—??)Stask,研究團(tuán)隊(duì)獲得一個(gè)全面的相似度度量,基于該指標(biāo)周期性地運(yùn)行K-means++聚類算法即可進(jìn)行專家動(dòng)態(tài)重組。

該方法保證了簇內(nèi)專家的高度相關(guān)性,為后續(xù)的結(jié)構(gòu)化參數(shù)壓縮提供了前提。通過將路由過程分解,天然地平滑了Token分配的波動(dòng),起到粗粒度負(fù)載均衡的作用。

圖片

△圖1:在線雙相似度聚類與簇內(nèi)結(jié)構(gòu)化壓縮框架示意圖

2.共享基底與低秩殘差壓縮

既然簇內(nèi)專家具有高度的功能與結(jié)構(gòu)相似性,完整存儲(chǔ)每個(gè)專家的參數(shù)矩陣便構(gòu)成了顯著的冗余。

研究團(tuán)隊(duì)提出一種結(jié)構(gòu)化的參數(shù)分解方法,將每個(gè)專家的權(quán)重矩陣W??分解為一個(gè)共享的公共部分和一個(gè)低秩的特有部分。

  • 共享基底圖片:對(duì)于簇g內(nèi)的所有專家,研究團(tuán)隊(duì)將其權(quán)重矩陣進(jìn)行平均,得到一個(gè)代表該簇公共能力的共享基底矩陣。該矩陣僅需存儲(chǔ)一份,由簇內(nèi)所有專家共享。

圖片

  • 低秩殘差(ΔW??) :每個(gè)專家的特異性信息由其原始權(quán)重與共享基底的差值,即殘差矩陣圖片來表征。研究團(tuán)隊(duì)認(rèn)為,該殘差矩陣具有低秩特性,因此可將其高效地分解為兩個(gè)小維度矩陣A??和B??的乘積。

圖片

在前向計(jì)算中,圖片,其中圖片的計(jì)算結(jié)果可在簇內(nèi)專家間復(fù)用,提升了計(jì)算效率。

此分解方法實(shí)現(xiàn)了顯著的參數(shù)壓縮。其研究團(tuán)隊(duì)用一個(gè)壓縮比(CR)公式進(jìn)行衡量:

圖片

在典型配置下(d=4096,K=8,r=16),專家簇內(nèi)壓縮比高達(dá)6.6倍,框架能在幾乎不損失模型表達(dá)能力的前提下,大幅削減參數(shù)冗余。

3.分層路由

傳統(tǒng)的扁平化MoE路由機(jī)制需在全部專家中進(jìn)行選擇,其All-to-All通信模式是系統(tǒng)性能的主要瓶頸。研究團(tuán)隊(duì)設(shè)計(jì)了一種兩階段分層路由策略,將路由決策過程分解。

  • 第一階段:簇級(jí)別路由。輸入Token x首先與G個(gè)簇的“原型向量”???? 計(jì)算相似度,通過Softmax選擇最匹配的目標(biāo)簇??*。此步驟將路由的搜索空間從E個(gè)專家縮小至G個(gè)簇。

圖片

  • 第二階段:專家級(jí)別路由。在選定的簇??*內(nèi)部,Token x再與該簇內(nèi)的K個(gè)專家的路由權(quán)重????計(jì)算相似度,通過另一次Softmax選擇最終激活的Top-K個(gè)專家。

圖片

下圖為分層路由機(jī)制示意圖。該機(jī)制將路由過程分解為簇選擇與簇內(nèi)專家選擇兩個(gè)階段。

圖片

通過這種先選組再選專家的路由方法,路由計(jì)算復(fù)雜度從O(E·d)降低到O(G·d+K·d),在分布式環(huán)境中,數(shù)據(jù)僅需發(fā)送至托管目標(biāo)簇??* 的GPU子集,從而顯著降低了All-to-All通信的數(shù)據(jù)交換,直接緩解了系統(tǒng)的通信延遲瓶頸。

4. 異構(gòu)精度與動(dòng)態(tài)內(nèi)存管理

為進(jìn)一步降低MoE模型的顯存占用,使其能在更廣泛的硬件上部署。

研究團(tuán)隊(duì)對(duì)不同參數(shù)組件采用非均勻的數(shù)值精度。敏感度較高的共享基底矩陣(圖5)存儲(chǔ)為FP16格式,而容錯(cuò)性更高的低秩殘差因子A??,B??則被量化為INT4格式。

同時(shí),研究團(tuán)隊(duì)設(shè)計(jì)了一套內(nèi)存管理策略,實(shí)時(shí)監(jiān)控專家簇的活躍度。若一個(gè)簇在連續(xù)多個(gè)步驟中未被激活,則將其參數(shù)從GPU顯存動(dòng)態(tài)卸載至NVMe存儲(chǔ)。伴隨著動(dòng)態(tài)卸載,一個(gè)滾動(dòng)激活預(yù)測(cè)器會(huì)異步地將預(yù)測(cè)將被調(diào)用的簇預(yù)取回顯存。

該內(nèi)存優(yōu)化策略將MoE模型的峰值內(nèi)存消耗降低至與小一個(gè)數(shù)量級(jí)的稠密模型相當(dāng)?shù)乃?,顯著提升了大規(guī)模MoE模型的易用性。

實(shí)驗(yàn)驗(yàn)證:性能、效率與均衡性的綜合收益

研究團(tuán)隊(duì)在GLUE和WikiText-103等標(biāo)準(zhǔn)NLP基準(zhǔn)上進(jìn)行了全面的實(shí)驗(yàn)評(píng)估。

圖片圖片

相較于基線模型Switch Transformer,研究團(tuán)隊(duì)的框架在維持相近模型質(zhì)量的同時(shí),總參數(shù)量減少約80%,吞吐量提升10%-20%,峰值內(nèi)存消耗降低近50%。

而在啟用動(dòng)態(tài)卸載與量化后,模型的內(nèi)存占用可與標(biāo)準(zhǔn)的稠密Transformer模型相媲美,為在資源受限環(huán)境下部署和研究MoE模型提供了可行性。

研究團(tuán)隊(duì)的方法將專家負(fù)載的變異系數(shù)降低了超過三分之一,證明了動(dòng)態(tài)聚類在緩解負(fù)載失衡問題上的有效性。

圖片

而消融實(shí)驗(yàn)進(jìn)一步證實(shí),框架中的在線聚類、低秩壓縮和分層路由等組件對(duì)最終的性能增益均有不可或缺的貢獻(xiàn)。

論文鏈接:https://arxiv.org/abs/2510.02345

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-07-21 08:51:00

2025-07-02 08:43:00

數(shù)據(jù)訓(xùn)練模型

2021-12-20 10:03:01

自動(dòng)化人工智能 人臉識(shí)別

2022-11-22 10:07:32

研究模型

2021-10-21 15:20:35

智能自動(dòng)化Science

2024-06-05 09:22:43

2023-04-18 10:12:06

模型解碼

2025-03-11 13:49:20

2025-02-08 13:30:00

2025-01-02 12:22:09

2025-06-27 09:10:17

2025-02-06 09:20:00

2018-02-28 16:20:57

中科睿芯

2025-08-27 09:08:00

AI視覺模型

2025-07-22 08:50:00

AI模型訓(xùn)練

2024-08-06 12:00:00

監(jiān)督學(xué)習(xí)視覺

2015-11-03 11:59:08

戴爾云計(jì)算

2017-05-15 15:07:36

納米材料農(nóng)藥

2024-12-10 10:35:00

AI自動(dòng)駕駛

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)