偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Linear-MoE:線性注意力遇上混合專家的開源實踐

人工智能 新聞
來自上海人工智能實驗室團隊的最新成果 Linear-MoE,首次系統(tǒng)性地實現(xiàn)了線性序列建模與 MoE 的高效結(jié)合,并開源了完整的技術(shù)框架。

近年來隨著大語言模型的爆火,旨在取代 Transformer 的高效模型架構(gòu)及其預訓練成為大模型領域的研究熱點,主要包括線性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合專家(Mixture-of-Experts, MoE)兩部分。這兩部分分別都有了長足的進步,但兩者的結(jié)合卻鮮少有人研究,兩者結(jié)合后的 Linear-MoE 架構(gòu)開源實現(xiàn)更是完全缺失。

值得一提的是,近期廣受好評的 MiniMax-01 模型(使用 Lightning Attention-MoE)和騰訊混元 TurboS 模型(使用 Mamba2-MoE)均屬于 Linear-MoE 架構(gòu)。

來自上海人工智能實驗室團隊的最新成果 Linear-MoE,首次系統(tǒng)性地實現(xiàn)了線性序列建模與 MoE 的高效結(jié)合,并開源了完整的技術(shù)框架,包括 Modeling 和 Training 兩大部分,并支持層間混合架構(gòu)。為下一代基礎模型架構(gòu)的研發(fā)提供了有價值的工具和經(jīng)驗。

圖片

  • 論文標題:Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
  • 論文地址:https://arxiv.org/abs/2503.05447
  • 項目地址:https://github.com/OpenSparseLLMs/Linear-MoE

圖片

線性序列建模的崛起

過去兩年,線性序列建模技術(shù)取得了顯著進展,其核心優(yōu)勢在于線性時間復雜度的訓練和恒定內(nèi)存占用的推理。

這類模型主要分為三大類:線性注意力(Linear Attention)、狀態(tài)空間模型(SSM)和線性 RNN(Linear RNN),代表性工作包括 Lightning Attention、GLA、Mamba2、RWKV 等。

已有研究工作表明,這些模型實際上可以通過統(tǒng)一的遞歸形式進行表達,如下表所示。這也反映出,盡管三類方法分別出自不同的技術(shù)流派,但已逐漸收斂至統(tǒng)一的表達形式。

圖片

混合專家 MoE 成為事實標準

另外一方面,從國際上的 GPT-4 系列、Gemini 系列、Claude 系列到國內(nèi)的 DeepSeek 系列、Qwen 系列、騰訊混元 LLM、字節(jié)豆包、MiniMax-01、Moonshot-Kimi 等,都在步伐一致地 All in MoE。其重要性不言而喻,本文不做過多展開。

Linear-MoE:模型架構(gòu)與高效訓練

Linear-MoE 的核心貢獻在于構(gòu)建了一個從 Modeling 到 Training 的完整系統(tǒng),支持線性序列建模層與 MoE 層的靈活組合,同時兼容傳統(tǒng)的 Softmax Attention Transformer 層,支持形成混合架構(gòu)。其設計亮點包括:

  • 模塊化架構(gòu):
  • LSM 層(線性序列建模層):支持各類線性序列建模方法(如 Lightning Attention、Gated-DeltaNet、Mamba2 等)。
  • MoE 層:集成多種 MoE 實現(xiàn)(如 Qwen-MoE、DeepSeek-MoE、Mixtral-MoE),以及一種 Dense 實現(xiàn)(Llama3)。
  • 高效訓練技術(shù):
  • 基于 Megatron-Core 框架開發(fā),確保系統(tǒng)穩(wěn)定性和可擴展性。
  • 支持張量并行、流水線并行、專家并行、LASP(線性注意力序列并行)和 MegaBlocks 等優(yōu)化技術(shù),顯著提升訓練效率。

圖片

圖片

實驗驗證

大規(guī)模實驗驗證了 Linear-MoE 的優(yōu)越性:

  • 訓練穩(wěn)定:混合模型(線性 + Softmax Attention)比純線性模型表現(xiàn)出更穩(wěn)定的訓練曲線。
  • 訓練效率:借助專家并行和 MegaBlocks,系統(tǒng)在超大參數(shù)規(guī)模下仍保持高吞吐量。
  • 推理優(yōu)勢:線性模型的推理速度比傳統(tǒng)架構(gòu)快 2-5 倍,內(nèi)存占用降低 50% 以上。
  • 性能擴展:在不同規(guī)模的基準測試中,Linear-MoE 展現(xiàn)出良好的性能線性增長。

開源生態(tài)與未來展望

目前 Linear-MoE 已全面開源,支持多種主流的線性序列建模方法和 MoE 實現(xiàn)。這一工作不僅填補了線性建模與 MoE 結(jié)合的技術(shù)空白,還為社區(qū)提供了可復現(xiàn)的高效訓練方案。未來將進一步探索 Linear-MoE 在長上下文理解、Vision-Language 模型架構(gòu)中的應用潛力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-06 09:18:48

2024-01-10 16:01:28

2025-02-19 15:30:00

模型訓練數(shù)據(jù)

2025-02-17 03:00:00

LLMsMoELLM

2024-08-06 08:16:05

2024-01-10 17:37:17

概率token模型

2024-11-11 13:24:02

2024-09-19 10:07:41

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡算法

2025-02-17 13:00:00

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2011-07-07 13:12:58

移動設備端設計注意力

2025-02-10 00:00:55

MHAValue向量

2024-07-26 11:40:33

2025-03-06 09:25:00

DeepSeek模型訓練

2023-07-29 13:26:51

模型AI

2024-06-28 08:04:43

語言模型應用

2024-02-19 00:12:00

模型數(shù)據(jù)

2024-10-31 10:00:39

注意力機制核心組件

2022-03-25 11:29:04

視覺算法美團
點贊
收藏

51CTO技術(shù)棧公眾號