偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Attention Sink產(chǎn)生的起點?清華&美團首次揭秘MoE LLM中的超級專家機制

人工智能 新聞
來自清華大學(xué)和美團的研究人員首次發(fā)現(xiàn)并確認了這一特殊且至關(guān)重要的專家子集的廣泛存在。盡管這些專家數(shù)量極為有限,但它們對模型性能的影響卻舉足輕重。

稀疏激活的混合專家模型(MoE)通過動態(tài)路由和稀疏激活機制,極大提升了大語言模型(LLM)的學(xué)習(xí)能力,展現(xiàn)出顯著的潛力。基于這一架構(gòu),涌現(xiàn)出了如 DeepSeek、Qwen 等先進的 MoE LLM。

然而,隨著模型參數(shù)的迅速膨脹,如何高效部署和推理成了新的挑戰(zhàn)。為此,學(xué)術(shù)界和工業(yè)界紛紛聚焦于模型壓縮技術(shù),尤其是面向 MoE 模型的 “專家級壓縮”。研究者們通過剪枝、量化、合并等方法,剔除或簡化那些 “非關(guān)鍵” 專家,從而在保證性能的同時,顯著減小模型體積。

分析專家的重要性差異不僅有助于推動更高效的模型壓縮,還為深入理解 MoE LLM 的內(nèi)部行為機制提供了關(guān)鍵視角。然而,現(xiàn)有方法多依賴經(jīng)驗性準則來識別重要專家,缺乏對專家重要性深度的探討。因此,本研究聚焦于一個此前被忽視的重要問題:

MoE LLM 中是否普遍存在一類在前向推理過程中發(fā)揮關(guān)鍵重要作用的專家子集?

通過對多個主流開源 MoE LLM(包括 DeepSeek 系列、Qwen3 系列、Mixtral 等)進行深入實證分析,來自清華大學(xué)和美團的研究人員首次發(fā)現(xiàn)并確認了這一特殊且至關(guān)重要的專家子集的廣泛存在。盡管這些專家數(shù)量極為有限,但它們對模型性能的影響卻舉足輕重。

例如,在 Qwen3-30B-A3B 模型中,僅裁剪 3 個專家(從約 6000 個專家中)就足以顯著降低模型性能,而隨機裁剪其他專家影響較小(如 圖 1 所示)。

圖片圖片

圖 1:對 Qwen3-30B-A3B 模型進行專家裁剪分析。裁剪三個超級專家將導(dǎo)致模型困惑度(PPL)顯著退化。而隨機裁剪上百個非超級專家的影響較小。

研究人員將這些專家命名為超級專家(Super Experts),并從以下三個方面進行了逐漸深入的系統(tǒng)分析:

1) 在不同模型和輸入數(shù)據(jù)領(lǐng)域中的分布規(guī)律;

2) 對非推理與推理模型能力的重要性;

3) 深入分析及理解壓縮超級專家對注意力機制的影響。

此外,作者還開發(fā)了一套自動化工具,能夠快速且精準地識別新模型中的超級專家。

圖片

  • 論文鏈接:https://arxiv.org/abs/2507.23279
  • 開源地址:https://github.com/ZunhaiSu/Super-Experts-Profilling

超級專家:發(fā)現(xiàn)及定位

研究以 Qwen 最新的混合專家大語言模型 Qwen3-30B-A3B 為例,展示了發(fā)現(xiàn)超級專家的過程。隨后,通過對不同模型和輸入數(shù)據(jù)領(lǐng)域的分析,深入探討了超級專家的分布特征,并進一步揭示了其在多個模型中的廣泛存在。

超級專家的概念源于對密集結(jié)構(gòu)大型語言模型中一個現(xiàn)象 —— 大值激活(Massive Activations)—— 的深入研究。大值激活指的是在大模型的解碼器層之間傳遞的隱藏狀態(tài)(hidden states)中,出現(xiàn)極端的激活離群點,其數(shù)值遠遠超出普通激活值,可能大上萬倍。研究人員首先在多個開源 MoE LLM 中驗證了這一現(xiàn)象的普遍性。

然而,研究并未止步于此,而是進一步提出了以下關(guān)鍵問題:

在 MoE LLM 中,這類大值激活是如何產(chǎn)生的?是所有激活的專家協(xié)同作用的結(jié)果,還是由少數(shù)關(guān)鍵專家主導(dǎo)?

通過對模型內(nèi)部數(shù)據(jù)流的細致觀察,研究得出了一個重要發(fā)現(xiàn):這些大值激活現(xiàn)象是由極少數(shù)特定專家所誘導(dǎo)的。這些專家在其 down_proj 層的輸出中,會產(chǎn)生罕見且極端的激活離群值。

這些離群值通過殘差連接累加到下一層的輸入中,通過一次或多次放大,最終導(dǎo)致大值激活現(xiàn)象的出現(xiàn)。作者將這些誘導(dǎo)大值激活現(xiàn)象的專家稱為 超級專家(Super Experts)。圖 2 以 Qwen3-30B-A3B 模型為例,生動地展示了這一機制。

圖片圖片

圖 2:第 1 層的第 68 號專家、第 2 層的第 92 號專家,以及第 3 層的第 82 號專家,共同構(gòu)成了一條 “激活放大鏈”。第 1 層的超級專家首先產(chǎn)生初始激活峰值,該峰值在傳遞至第 2 層后,被對應(yīng)層的超級專家進一步放大,并持續(xù)向后層傳播。最終在模型后續(xù)層中形成了穩(wěn)定且大幅的激活值。

為了直接驗證這一機制,作者還進行了逐層超級專家裁剪的消融實驗。如 圖 3 所示,當(dāng)裁剪某一層的超級專家時,該層對大值激活的影響將直接消失;當(dāng)裁剪所有超級專家時,原本顯著的大值激活現(xiàn)象也隨之完全消失。這無可辯駁地證明了,超級專家正是模型中大值激活的直接源頭。

圖片圖片

圖 3:Qwen3-30B-A3B 超級專家裁剪消融實驗。

在驗證了超級專家的存在后,作者接下來討論如何精準且自動地識別他們?;诔墝<矣绊懘笾导せ町a(chǎn)生的特性,研究提出了簡潔且有效的量化定義方法。

首先統(tǒng)計所有專家在各層 down_proj 輸出的最大激活幅值。設(shè) L 為形成大值激活的層集,ale 表示第 l 層中專家 e 在 down_proj 輸出的最大激活幅值,且 A = {ale} 為模型中所有此類值的集合。

若專家 e 在第 l 層滿足以下條件,則將其分類為超級專家:

圖片

其中,圖片,且 圖片

基于該定義,作者開發(fā)了一種自動化分析工具,并對多個 MoE LLM 進行了驗證。結(jié)果表明,該工具效果顯著(如 圖 4 和 圖 5 所示)。

圖片

圖 4:對多個 MoE LLM 的超級專家識別,加粗的為超級專家的 down_proj 輸出激活幅值。

圖片圖片

圖 5:對多個 MoE LLM 的所有專家的 down_proj 輸出激活幅值熱力圖,其中箭頭所指清晰地標注了超級專家。

基于提出的自動化校準工具,作者對多個 MoE LLM 和不同輸入數(shù)據(jù)集領(lǐng)域進行了超級專家的定位,得出了以下關(guān)鍵結(jié)論:

  • 超級專家普遍存在且數(shù)量稀少:在所有檢查的模型中都發(fā)現(xiàn)了超級專家(圖 5),數(shù)量占比通常遠小于 0.05%。例如在 Qwen3-30B-A3B 中,6144 個專家中僅有 3 個超級專家。
  • 超級專家分布穩(wěn)定且不受后訓(xùn)練影響:研究對比了多個模型的 Base 版本與后訓(xùn)練版本(如 Qwen3-30B-A3B-Base 與 Qwen3-30B-A3B),發(fā)現(xiàn)超級專家的分布完全一致。這意味著超級專家的形成于模型預(yù)訓(xùn)練階段且在后續(xù)過程持續(xù)穩(wěn)定。
  • 超級專家分布跨數(shù)據(jù)領(lǐng)域一致:研究還在多種不同類型的數(shù)據(jù)集(如中文文本 C-Eval、代碼 HumanEval、數(shù)學(xué) GSM8K)上進行了測試,發(fā)現(xiàn)超級專家的分布表現(xiàn)出驚人的穩(wěn)定性(圖 6)。

圖片圖片

圖 6:對多個輸入數(shù)據(jù)集領(lǐng)域的超級專家分析。

超級專家重要性分析

在發(fā)現(xiàn)并定位超級專家之后,研究繼續(xù)從非推理模型和推理模型兩個維度,研究了裁剪超級專家?guī)淼膰乐睾蠊沂玖怂鼈兊臉O端重要性。

對非推理模型,作者選取了 Qwen3-30B-A3B(非思考模式)、DeepSeek-V2-Lite 和 Mixtral-8x7B-v0.1 模型,在包括 ARC、BoolQ、HellaSwag、MMLU 在內(nèi)的多個測試任務(wù)上進行了評估。

實驗設(shè)置了三個對照組:原始模型、裁剪超級專家的模型、以及隨機裁剪同等數(shù)量非超級專家的模型。

圖片

圖 7:對非推理模型的超級專家重要性測試。

對非推理模型的實驗結(jié)果如 圖 7 所示,可以發(fā)現(xiàn)裁剪超級專家后:

  • 性能顯著下降:模型的平均準確率出現(xiàn)了 21.68% 到 27.21% 的下跌。
  • 數(shù)學(xué)任務(wù)上接近崩潰:在 GSM8K 這類需要一定邏輯推理的任務(wù)上,性能下降尤為嚴重,出現(xiàn)了 52.71% 到 74.51% 的巨幅下跌。
  • 隨機裁剪影響甚微:隨機裁剪同等數(shù)量的其他專家,對模型性能的影響幾乎可以忽略不計。

如果說裁剪超級專家對非推理任務(wù)的影響是 “重創(chuàng)”,那么對需要復(fù)雜邏輯和數(shù)學(xué)推理的任務(wù)而言,其影響則是 “毀滅性” 的。

研究者選取了 DeepSeek-R1 和 Qwen3-30B-A3B(思考模式),在 GPQA-Diamond、MATH-500、AIME 等高難度推理任務(wù)上進行了測試。

對推理模型的實驗結(jié)果如 圖 8 和 圖 9 所示,令人震驚,裁剪僅僅幾個超級專家后:

  • 推理能力完全喪失:在 DeepSeek-R1 和 Qwen3-30B-A3B 上一致地顯示,裁剪超級專家后,對推理任務(wù)造成了重創(chuàng),在 AIME 2024,AIME 2025,LiveCodeBench 等測試上,模型的 Pass@1(一次通過率)直接降為 0.00%。
  • 模型思維鏈短路:如 圖 10 所示,在對 Math-500 的測試輸出進行分析時,觀察到了一個非常奇特的現(xiàn)象。原始模型以及隨機裁剪的模型能夠條理清晰地分析問題,而裁剪了超級專家的模型的回答會陷入無意義的、機械的重復(fù),直到達到最大輸出長度。

圖片

圖 8:對 DeepSeek-R1 的超級專家重要性測試。

圖片

圖 9:對 Qwen3-30B-A3B(思考模式)的超級專家重要性測試。

圖片

圖 10:DeepSeek-R1 在 Math-500 上的輸出結(jié)果展示。

理解壓縮超級專家對注意力機制的影響

為什么裁剪超級專家會產(chǎn)生如此災(zāi)難性的后果?研究在本節(jié)進一步探究和理解其背后的深層機理,將超級專家與另一個大模型中的重要現(xiàn)象 —— 注意力匯聚區(qū)(attention sinks)—— 聯(lián)系了起來。

在基于多頭自注意力的大型語言模型中,某些特殊的 token(通常是序列的初始 token)會吸引大量的注意力分數(shù)。先前的研究表明,盡管注意力匯聚的 token 通常語義較弱,但它們的存在對于維持注意力分數(shù)的分布至關(guān)重要,許多高效模型方法例如稀疏注意力、KV cache 壓縮技術(shù)都非常重視保留注意力匯聚區(qū)。

基于大值激活會引起注意力匯聚區(qū)的形成的現(xiàn)有研究,結(jié)合本文的研究發(fā)現(xiàn)超級專家會引發(fā)大值激活的現(xiàn)象。作者提出了以下 MoE LLM 內(nèi)部機制因果鏈假設(shè):

超級專家 Super Experts(根源) →  大值激活 Massive Activations(現(xiàn)象) →  注意力匯聚區(qū) Attention Sinks(功能)

圖片圖片

圖 11:原始模型的注意力分數(shù)圖,其中第一個 token 明顯形成了注意力匯聚區(qū)。

圖片圖片

圖 12:裁剪超級專家后的對應(yīng)注意力頭的注意力分數(shù)圖,明顯可以看到注意力匯聚區(qū)的缺失。

為了驗證上述假設(shè),研究設(shè)計了一個名為 “注意力匯聚區(qū)衰減率”(Attention Sink Decay Rate) 的量化指標,用于衡量裁剪超級專家對注意力機制的破壞程度。

如 圖 13 所示,在裁剪超級專家后,模型所有層的注意力匯聚區(qū)衰減率都穩(wěn)定在 90% 左右,甚至接近 100%。這表明超級專家的壓縮,嚴重地破壞了模型內(nèi)部至關(guān)重要的注意力機制,驗證了上述提出的機制因果鏈。

圖 11 以及 圖 12 對裁剪前后注意力分數(shù)圖進行的可視化分析,清晰地驗證了注意力匯聚的破壞性影響。

圖片圖片

圖 13:Qwen3-30-A3B 注意力匯聚區(qū)衰減率分析。

結(jié)語

本研究揭示了廣泛存在于 MoE LLM 中的超級專家機制,并通過分析超級專家的分布規(guī)律、其對模型能力的重要性以及在注意力機制中的關(guān)鍵作用,進行了系統(tǒng)性探討。

該研究的四大核心貢獻是:

1. 首次識別并系統(tǒng)性地分析了超級專家這一前所未見的重要機制。在多個主流 MoE LLM 中廣泛驗證了超級專家的存在,并揭示超級專家分布的顯著穩(wěn)定性。此外,本文還構(gòu)建了自動化檢測工具,可高效識別新模型中的超級專家。

2. 實證驗證超級專家的關(guān)鍵作用。大量實驗顯示,超級專家對模型整體能力,尤其是數(shù)學(xué)推理任務(wù)至關(guān)重要。對于如 AIME、Math-500 等測試集,裁剪超級專家后模型表現(xiàn)近乎 “完全崩潰”,測試表現(xiàn)幾乎降至 0。

3. 揭示壓縮超級專家對注意力機制的影響。研究證實 MoE LLM 依賴超級專家形成注意力 “匯聚區(qū)”,該機制對于注意力分數(shù)的合理分布至關(guān)重要,而一旦超級專家被裁剪,該機制將遭受嚴重破壞,進而顯著削弱模型性能。

4. 為 MoE LLM 的壓縮策略提供新方向。超級專家的發(fā)現(xiàn)不僅擴展了對 MoE LLM 內(nèi)部行為的理解,也為未來設(shè)計更加穩(wěn)健的面向 MoE LLM 壓縮方案提供了理論依據(jù)。

未來的研究將聚焦于探索超級專家在模型預(yù)訓(xùn)練過程中的形成機制,并利用超級專家開發(fā)更為高效的 MoE LLM 壓縮方法。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-08-06 08:16:05

2022-06-02 12:00:55

ClickHouse大數(shù)據(jù)字節(jié)跳動

2013-08-20 13:11:58

技術(shù)美團

2022-03-03 16:45:02

美團述職反饋

2025-02-17 03:00:00

LLMsMoELLM

2025-03-05 09:50:00

2024-11-11 13:24:02

2025-03-11 00:35:00

DeepSeektoC業(yè)務(wù)

2017-06-01 10:52:35

互聯(lián)網(wǎng)

2018-07-17 14:25:02

SQL解析美團點評MySQL

2024-01-10 16:01:28

2017-05-26 16:42:06

2023-03-28 21:33:53

面試隔離MVCC

2017-02-20 19:23:13

2022-08-09 09:18:47

優(yōu)化實踐

2018-07-20 10:18:05

走進美團工程師文化

2011-11-02 09:36:55

超級計算機中國芯神威藍光

2017-08-01 09:37:00

深度學(xué)習(xí)美團機器學(xué)習(xí)

2016-04-12 17:12:29

機器學(xué)習(xí)數(shù)據(jù)清洗美團
點贊
收藏

51CTO技術(shù)棧公眾號