偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="z6a5s"></var>

<sub id="z6a5s"><rt id="z6a5s"></rt></sub>

<big id="z6a5s"><code id="z6a5s"><option id="z6a5s"></option></code></big><blockquote id="z6a5s"></blockquote>

<cite id="z6a5s"><track id="z6a5s"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析原創(chuàng)

發(fā)布于 2025-9-12 09:09

瀏覽

0收藏

編者按： 在 Transformer 架構(gòu)誕生八年之際，我們是否真的見(jiàn)證了根本性的突破，還是只是在原有設(shè)計(jì)上不斷打磨？今天我們?yōu)榇蠹規(guī)?lái)的這篇文章，作者的核心觀點(diǎn)是：盡管大語(yǔ)言模型在技術(shù)細(xì)節(jié)上持續(xù)優(yōu)化，其核心架構(gòu)仍保持延續(xù)，真正的創(chuàng)新更多體現(xiàn)在效率提升與工程實(shí)現(xiàn)上。
文章系統(tǒng)梳理了 2025 年多個(gè)主流開(kāi)源模型的架構(gòu)演進(jìn)，重點(diǎn)分析了 DeepSeek-V3/R1 的多頭潛在注意力（MLA）與混合專家模型（MoE）、OLMo 2 的歸一化層放置策略與 QK 歸一化、Gemma 3 的滑動(dòng)窗口注意力機(jī)制，以及 Mistral Small 3.1 在推理效率上的優(yōu)化。
這篇文章為我們提供了一個(gè)冷靜而深入的視角，提醒我們?cè)谧分?SOTA 榜單的同時(shí)，不應(yīng)忽視那些真正推動(dòng)技術(shù)前進(jìn)的、看似細(xì)微卻至關(guān)重要的架構(gòu)設(shè)計(jì)選擇。

作者 | Devansh and Sebastian Raschka, PhD

編譯 | 岳揚(yáng)

目錄

01 DeepSeek V3/R1

1.1 多頭潛在注意力機(jī)制（MLA）

1.2 混合專家模型（MoE）

1.3 DeepSeek 架構(gòu)總結(jié)

02 OLMo 2

2.1 歸一化層放置策略

2.2 QK-Norm

2.3 OLMo 2 架構(gòu)總結(jié)

03 Gemma 3

3.1 滑動(dòng)窗口注意力機(jī)制

3.2 Gemma 3 的歸一化層布局策略

3.3 Gemma 3 架構(gòu)總結(jié)

3.4 附加內(nèi)容：Gemma 3n

04 Mistral Small 3.1

?

自最初的 GPT 架構(gòu)問(wèn)世以來(lái)，已經(jīng)過(guò)去了七年時(shí)間。當(dāng)我們回望 GPT-2（2019 年）并展望 DeepSeek-V3 與 Llama 4（2024 - 2025年）時(shí)，可能會(huì)驚訝地發(fā)現(xiàn)這些模型在結(jié)構(gòu)上仍然如此相似。

誠(chéng)然，位置編碼已從絕對(duì)位置編碼發(fā)展為旋轉(zhuǎn)位置編碼（RoPE），多頭注意力機(jī)制已普遍被分組查詢注意力機(jī)制取代，而更高效的 SwiGLU 激活函數(shù)也替代了 GELU 等傳統(tǒng)激活函數(shù)。但在這些細(xì)微改進(jìn)之下，我們是否真正見(jiàn)證了突破性的變革？抑或只是在相同架構(gòu)基礎(chǔ)之上進(jìn)行精雕細(xì)琢？

比較不同大語(yǔ)言模型來(lái)確定影響其性能優(yōu)劣的關(guān)鍵因素歷來(lái)充滿挑戰(zhàn)：數(shù)據(jù)集、訓(xùn)練技術(shù)和超參數(shù)不僅差異巨大，且往往缺乏完整記錄。

盡管如此，我仍認(rèn)為審視架構(gòu)本身的結(jié)構(gòu)性變化極具價(jià)值 —— 這能幫助我們洞察 2025 年大語(yǔ)言模型開(kāi)發(fā)者的核心關(guān)注點(diǎn)（部分架構(gòu)如圖 1 所示）。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 1：本文涉及的部分架構(gòu)示意圖

因此，本文將聚焦定義當(dāng)今主流開(kāi)源模型的核心架構(gòu)演進(jìn)，而非基準(zhǔn)測(cè)試表現(xiàn)或訓(xùn)練算法的討論。

01 DeepSeek V3/R1

DeepSeek R1 在 2025 年 1 月發(fā)布時(shí)引起了巨大轟動(dòng)。該推理模型基于 2024 年 12 月推出的 DeepSeek V3 架構(gòu)構(gòu)建。

雖然本文主要關(guān)注 2025 年發(fā)布的模型架構(gòu)，但考慮到 DeepSeek V3 正是在 2025 年憑借 DeepSeek R1 的發(fā)布才獲得廣泛關(guān)注與應(yīng)用，將其納入討論范圍是合理的。

若您對(duì) DeepSeek R1 的訓(xùn)練細(xì)節(jié)感興趣，可參閱我今年早前的文章《Understanding Reasoning LLMs》[1]：

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

本節(jié)將重點(diǎn)解析 DeepSeek V3 中兩項(xiàng)提升計(jì)算效率的核心架構(gòu)技術(shù)（這也是其區(qū)別于其他大語(yǔ)言模型的重要特征）：

多頭潛在注意力機(jī)制（MLA）
混合專家模型（MoE）

1.1 多頭潛在注意力機(jī)制（MLA）

在探討多頭潛在注意力機(jī)制（MLA）之前，我們先簡(jiǎn)要回顧相關(guān)背景以理解其設(shè)計(jì)動(dòng)機(jī)。讓我們從分組查詢注意力機(jī)制（GQA）談起 —— 近年來(lái)它已成為替代多頭注意力機(jī)制（MHA）的新標(biāo)準(zhǔn)方案，具有更高的計(jì)算效率與參數(shù)效率。

以下是 GQA 的核心概要：與 MHA 中每個(gè)注意力頭都擁有獨(dú)立的鍵值對(duì)不同，GQA 通過(guò)讓多個(gè)注意力頭共享同一組鍵值投影來(lái)降低內(nèi)存消耗。例如，如圖 2 所示，若存在 2 個(gè)鍵值組和 4 個(gè)注意力頭，則注意力頭 1 與注意力頭 2 可能共享一組鍵值，而注意力頭 3 與注意力頭 4 共享另一組。這種方式減少了鍵值計(jì)算總量，從而降低內(nèi)存使用并提升效率（消融實(shí)驗(yàn)表明其對(duì)模型性能無(wú)明顯影響）。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 2：MHA 與 GQA 對(duì)比示意圖（組大小為 2，即每?jī)蓚€(gè)查詢頭共享一組鍵值對(duì)）

GQA 的核心思想是通過(guò)讓多個(gè)查詢頭共享鍵值頭來(lái)減少鍵值頭數(shù)量，這帶來(lái)兩大優(yōu)勢(shì)： （1）降低模型參數(shù)量；（2）推理時(shí)減少鍵值張量的內(nèi)存帶寬占用，因?yàn)樾枰鎯?chǔ)和從 KV 緩存中檢索的鍵值對(duì)更少。

（若想了解 GQA 的代碼實(shí)現(xiàn)，可參閱筆者撰寫的無(wú) KV 緩存版《GPT-2 to Llama 3 conversion guide》[2]及帶 KV 緩存的改進(jìn)版本[3]。）

盡管 GQA 本質(zhì)上是針對(duì) MHA 的計(jì)算效率優(yōu)化方案，但消融研究（包括原版 GQA 論文[4]和 Llama 2 論文[5]）表明其在 LLM 建模性能上與標(biāo)準(zhǔn) MHA 相當(dāng)。

而多頭潛在注意力機(jī)制（MLA）則提供了另一種內(nèi)存優(yōu)化策略，尤其與 KV 緩存機(jī)制高度契合。與 GQA 共享鍵值頭的思路不同，MLA 將鍵值張量壓縮至低維空間后再存入 KV 緩存。

推理時(shí)，這些壓縮張量會(huì)先通過(guò)投影恢復(fù)原始尺寸后再參與計(jì)算（如圖 3 所示）。雖然增加了矩陣乘法操作，但大大降低了內(nèi)存占用。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 3：MLA（用于 DeepSeek V3 和 R1 中）與常規(guī) MHA 的對(duì)比示意圖

（需要說(shuō)明的是，查詢向量在訓(xùn)練過(guò)程中也會(huì)被壓縮，但該操作僅適用于訓(xùn)練階段，不涉及推理過(guò)程。）

值得一提的是，MLA 并非 DeepSeek V3 首創(chuàng) —— 其前代版本 DeepSeek-V2 早已采用（甚至可以說(shuō)是由其率先引入）這項(xiàng)技術(shù)。此外，V2 論文中多項(xiàng)有趣的消融實(shí)驗(yàn)或許能解釋開(kāi)發(fā)團(tuán)隊(duì)為何選擇 MLA 而非 GQA（見(jiàn)圖 4）。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 4：帶有標(biāo)注的摘自 DeepSeek-V2 論文的表格（來(lái)源：??https://arxiv.org/abs/2405.04434）??

如圖 4 所示，GQA 的表現(xiàn)似乎遜于 MHA，而 MLA 的建模性能反而優(yōu)于 MHA —— 這很可能是 DeepSeek 團(tuán)隊(duì)舍棄 GQA 選擇 MLA 的原因。（若能同時(shí)對(duì)比 MLA 與 GQA 在“每詞元 KV 緩存”上的節(jié)省效果，或許會(huì)更有趣?。?/p>

對(duì)此部分進(jìn)行總結(jié)：MLA 是一種巧妙的 KV 緩存內(nèi)存優(yōu)化技術(shù)，其在建模性能方面甚至較 MHA 略有提升。

1.2 混合專家模型（MoE）

DeepSeek 架構(gòu)中另一個(gè)值得重點(diǎn)闡述的核心組件是其采用的混合專家模型（MoE）層。盡管 MoE 并非由 DeepSeek 首創(chuàng)，但今年該技術(shù)正迎來(lái)復(fù)興浪潮，后續(xù)將討論的諸多模型架構(gòu)也都采用了這一方案。

MoE 的核心思想是將 Transformer 模塊中的每個(gè)前饋網(wǎng)絡(luò)替換為多個(gè)專家層 —— 每個(gè)專家層本身也是前饋模塊。這意味著我們用多個(gè)前饋模塊替代單一前饋模塊，具體如圖 5 所示。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 5：DeepSeek V3/R1 采用的 MoE 模塊（右）與標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)結(jié)構(gòu)（左）對(duì)比示意圖

Transformer 模塊內(nèi)的前饋網(wǎng)絡(luò)（上圖中深灰色模塊）通常占據(jù)著模型的絕大部分參數(shù)量（需注意 Transformer 模塊及其內(nèi)含的前饋網(wǎng)絡(luò)會(huì)在 LLM 中重復(fù)多次，例如 DeepSeek-V3 中就重復(fù)了 61 次）。

因此，用多個(gè)前饋模塊替代單一前饋模塊（MoE 的實(shí)現(xiàn)方式）會(huì)大大增加模型的總參數(shù)量。但并非每個(gè) token 都會(huì)激活所有專家。相反，路由層會(huì)為每個(gè) token 僅選擇一小部分專家（由于篇幅所限，關(guān)于路由層的細(xì)節(jié)將另文詳述）。

由于每次僅激活少量專家模塊，MoE 系統(tǒng)通常被稱為稀疏架構(gòu)，這與始終使用全部參數(shù)的密集架構(gòu)形成對(duì)比。通過(guò) MoE 實(shí)現(xiàn)的龐大總參數(shù)量提升了 LLM 的容量上限，使其在訓(xùn)練過(guò)程中能吸收更多知識(shí)。而稀疏特性則保證了推理效率 —— 因?yàn)槲覀儾粫?huì)同時(shí)調(diào)用所有參數(shù)。

以 DeepSeek-V3 為例：每個(gè) MoE 模塊包含 256 個(gè)專家，總參數(shù)量達(dá) 6710 億。但在推理過(guò)程中，每次僅激活 9 個(gè)專家（1 個(gè)共享專家 + 路由層選出的 8 個(gè)專家）。這意味著每個(gè)推理步驟僅使用 370 億參數(shù)，而非全部 6710 億。

DeepSeek-V3 的 MoE 設(shè)計(jì)有一個(gè)特點(diǎn)：采用共享專家機(jī)制。這個(gè)專家會(huì)對(duì)每個(gè) token 始終保持激活狀態(tài)。 該理念并非首創(chuàng)，早在 2024 年 DeepSeek MoE 論文[6]和 2022 年 DeepSpeedMoE 論文[7]中就已提出。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 6：帶有標(biāo)注的摘自《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》的圖示，??https://arxiv.org/abs/2401.06066??

共享專家的優(yōu)勢(shì)最初在 DeepSpeedMoE 論文[7]中被指出：相比無(wú)共享專家的設(shè)計(jì)，它能提升整體建模性能。這很可能是因?yàn)槌Ｒ?jiàn)模式或重復(fù)模式無(wú)需由多個(gè)獨(dú)立專家重復(fù)學(xué)習(xí)，從而為專家們留出更多專攻特殊化模式的空間。

1.3 DeepSeek 架構(gòu)總結(jié)

總而言之，DeepSeek-V3 作為一個(gè)擁有 6710 億參數(shù)的巨型模型，在發(fā)布時(shí)性能就超越了包括 4050 億參數(shù)的 Llama 3 在內(nèi)的其他開(kāi)放權(quán)重模型。盡管參數(shù)量更大，但其推理效率卻明顯更高 —— 這得益于其混合專家系統(tǒng)（MoE）架構(gòu)的設(shè)計(jì)，該架構(gòu)使得每個(gè) token 僅激活參數(shù)總量的極小部分（僅 370 億參數(shù)）。

另一個(gè)關(guān)鍵區(qū)別在于 DeepSeek-V3 采用多頭潛在注意力機(jī)制（MLA）替代了分組查詢注意力機(jī)制（GQA）。MLA 與 GQA 都是標(biāo)準(zhǔn)多頭注意力（MHA）的高效推理替代方案，尤其在配合 KV 緩存使用時(shí)優(yōu)勢(shì)明顯。雖然 MLA 的實(shí)現(xiàn)更為復(fù)雜，但 DeepSeek-V2 論文中的研究表明，其建模性能優(yōu)于 GQA。

02 OLMo 2

非營(yíng)利組織艾倫人工智能研究所（Allen Institute for AI）推出的 OLMo 系列模型同樣值得關(guān)注，這主要得益于其在訓(xùn)練數(shù)據(jù)與工程代碼方面的高透明度，以及相對(duì)詳盡的技術(shù)報(bào)告。

雖然 OLMo 模型可能不會(huì)在各類基準(zhǔn)測(cè)試或排行榜上名列前茅，但其架構(gòu)設(shè)計(jì)清晰簡(jiǎn)潔。更重要的是，憑借完全開(kāi)源的特性，該系列模型為 LLM 的開(kāi)發(fā)提供了極佳的藍(lán)圖參考。

盡管 OLMo 模型因其透明性而廣受歡迎，但其性能表現(xiàn)同樣可圈可點(diǎn)。實(shí)際上，在今年 1 月發(fā)布時(shí)（早于 Llama 4、Gemma 3 和 Qwen 3），OLMo 2 系列模型正處于計(jì)算效率與性能的帕累托前沿【譯者注：“帕累托前沿”（Pareto Frontier）是一個(gè)起源于經(jīng)濟(jì)學(xué)和優(yōu)化理論的重要概念，它描述的是一種最優(yōu)狀態(tài)，在這種狀態(tài)下，任何一方的利益或某個(gè)目標(biāo)的提升都無(wú)法不以犧牲其他方利益或其他目標(biāo)的下降為代價(jià)?！?，如圖 7 所示。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 7：不同 LLMs 的基準(zhǔn)測(cè)試性能（越高越好）與預(yù)訓(xùn)練成本（FLOPs；越低越好）對(duì)比（這張經(jīng)過(guò)標(biāo)注的圖片源自 OLMo 2 論文，??https://arxiv.org/abs/2501.00656）??

如本文開(kāi)頭所述，為控制篇幅，我們將聚焦于 LLM 的架構(gòu)細(xì)節(jié)（暫不涉及訓(xùn)練細(xì)節(jié)與數(shù)據(jù)）。那么 OLMo 2 有哪些值得關(guān)注的架構(gòu)設(shè)計(jì)選擇？主要可歸結(jié)為歸一化技術(shù)的應(yīng)用：包括 RMSNorm 層的布局以及新增的 QK 歸一化設(shè)計(jì)（后續(xù)將詳細(xì)討論）。

另值得一提的是，OLMo 2 仍采用傳統(tǒng)多頭注意力（MHA）機(jī)制，而非 MLA 或 GQA。

2.1 歸一化層放置策略

總體而言，OLMo 2 基本遵循了原始 GPT 的架構(gòu)設(shè)計(jì)，這與當(dāng)代其他大語(yǔ)言模型相似。但其仍存在一些值得關(guān)注的差異，讓我們先從歸一化層說(shuō)起。

與 Llama、Gemma 及多數(shù)主流大語(yǔ)言模型類似，OLMo 2 也將 LayerNorm 層替換為了 RMSNorm 層。

但由于 RMSNorm 已是成熟技術(shù)（本質(zhì)上是 LayerNorm 的簡(jiǎn)化版，擁有更少的可訓(xùn)練參數(shù)），本文將不再討論 RMSNorm 與 LayerNorm 的區(qū)別（感興趣的讀者可參閱筆者撰寫的《GPT-2 to Llama conversion guide》[8]中的 RMSNorm 代碼實(shí)現(xiàn)）。

然而，RMSNorm 層的放置位置值得深入探討。原始 Transformer 架構(gòu)（出自《Attention is all you need》[9]論文）將兩個(gè)歸一化層分別放置在注意力模塊和前饋網(wǎng)絡(luò)模塊之后。

這種設(shè)計(jì)被稱為后歸一化（Post-LN 或 Post-Norm）。

而 GPT 及之后大多數(shù)大語(yǔ)言模型則將歸一化層置于注意力模塊和前饋網(wǎng)絡(luò)模塊之前，稱為前歸一化（Pre-LN 或 Pre-Norm）。兩種歸一化方式的對(duì)比如下圖所示。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 8：后歸一化、前歸一化與 OLMo 2 采用的后歸一化變體對(duì)比示意圖

2020 年，Xiong 等人通過(guò)研究[10]證明：前歸一化能使梯度在初始化階段表現(xiàn)更穩(wěn)定。研究人員還指出，前歸一化即使不配合精細(xì)的學(xué)習(xí)率預(yù)熱策略也能良好工作，而這對(duì)于后歸一化而言卻是至關(guān)重要的訓(xùn)練保障。

此處特別提及該研究是因?yàn)?OLMo 2 采用了一種后歸一化變體（但使用 RMSNorm 替代了 LayerNorm，故稱其為 Post-Norm）。

在 OLMo 2 中，歸一化層被放置在注意力層和前饋網(wǎng)絡(luò)層之后（而非之前），如上圖所示。但請(qǐng)注意：與原始 Transformer 架構(gòu)不同，這些歸一化層仍位于殘差層（跳躍連接）內(nèi)部。

那么為何要調(diào)整歸一化層的位置？原因在于這種設(shè)計(jì)能提升訓(xùn)練穩(wěn)定性，如下圖所示。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 9：前歸一化（GPT-2、Llama 3 等模型采用）與 OLMo 2 后歸一化變體的訓(xùn)練穩(wěn)定性對(duì)比圖。此帶有標(biāo)注的圖表取自 OLMo 2 論文，??https://arxiv.org/abs/2501.00656??

遺憾的是，該圖表將歸一化層重定位與 QK-Norm（另一個(gè)獨(dú)立概念）的效果合并展示，因此難以單獨(dú)判斷歸一化層位置調(diào)整的具體貢獻(xiàn)程度。

2.2 QK-Norm

既然上一節(jié)已提及 QK-Norm，且后續(xù)將討論的其他大語(yǔ)言模型（如 Gemma 2 和 Gemma 3）也采用了該技術(shù)，我們不妨簡(jiǎn)要探討一下其原理。

QK-Norm 本質(zhì)上是另一個(gè) RMSNorm 層。它被置于多頭注意力（MHA）模塊內(nèi)部，在應(yīng)用旋轉(zhuǎn)位置編碼（RoPE）之前對(duì)查詢向量（q）和鍵向量（k）進(jìn)行歸一化處理。為直觀說(shuō)明，以下內(nèi)容摘錄自我在《Qwen3 from-scratch implementation》[11]編寫的分組查詢注意力（GQA）層代碼（GQA 中的 QK-Norm 應(yīng)用方式與 OLMo 的 MHA 類似）：

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

如前文所述，QK-Norm 與后歸一化配合使用可提升訓(xùn)練穩(wěn)定性。需要注意的是，QK-Norm 并非由 OLMo 2 首創(chuàng)，其最早可追溯至 2023 年發(fā)表的《Scaling Vision Transformers》[12]論文。

2.3 OLMo 2 架構(gòu)總結(jié)

簡(jiǎn)而言之，OLMo 2 值得關(guān)注的架構(gòu)設(shè)計(jì)決策主要集中于 RMSNorm 的放置策略：將 RMSNorm 置于注意力模塊和前饋網(wǎng)絡(luò)模塊之后（一種后歸一化變體），而非之前。同時(shí)在注意力機(jī)制內(nèi)部為查詢向量和鍵向量添加 RMSNorm（即 QK-Norm）。這兩項(xiàng)改進(jìn)共同作用，有效穩(wěn)定了訓(xùn)練損失。

下圖進(jìn)一步對(duì)比了 OLMo 2 與 Llama 3 的架構(gòu)差異：可見(jiàn)除 OLMo 2 仍采用傳統(tǒng) MHA 而非 GQA 外，兩者結(jié)構(gòu)總體相似（但 OLMo 2 團(tuán)隊(duì)在三個(gè)月后發(fā)布了采用 GQA 的 320 億參數(shù)變體）。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 10：Llama 3 與 OLMo 2 的架構(gòu)對(duì)比示意圖

03 Gemma 3

Google 的 Gemma 系列模型始終保持著卓越的性能，但與 Llama 等熱門模型相比，其關(guān)注度始終略顯不足。

Gemma 的顯著特征之一是其超大的詞表規(guī)模（以便更好地支持多語(yǔ)言場(chǎng)景），以及更側(cè)重 27B 參數(shù)規(guī)格（而非 8B 或 70B）。需注意的是，Gemma 2 也提供更小規(guī)格版本：1B、4B 與 12B。

27B 規(guī)格堪稱最佳平衡點(diǎn)：性能遠(yuǎn)超 8B 模型，資源消耗卻遠(yuǎn)低于 70B 模型，甚至能在 Mac Mini 上實(shí)現(xiàn)本地流暢運(yùn)行。

那么 Gemma 3[13] 還有哪些亮點(diǎn)？如前文所述，DeepSeek-V3/R1 等模型采用 MoE 架構(gòu)在固定模型規(guī)模下降低推理內(nèi)存需求（后續(xù)討論的其他模型也采用了 MoE 方案）。

Gemma 3 則運(yùn)用了不同的技巧來(lái)減少計(jì)算開(kāi)銷 —— 即滑動(dòng)窗口注意力機(jī)制。

3.1 滑動(dòng)窗口注意力機(jī)制

通過(guò)采用滑動(dòng)窗口注意力機(jī)制（該技術(shù)最初在 2020 年由 LongFormer 論文[14]提出，Gemma 2[15] 也已采用），Gemma 3 團(tuán)隊(duì)大大降低了 KV 緩存的內(nèi)存需求，如下圖所示：

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 11：帶有標(biāo)注的 Gemma 3 論文示意圖（ ??https://arxiv.org/abs/2503.19786?? ），展示了滑動(dòng)窗口注意力機(jī)制對(duì) KV 緩存的內(nèi)存節(jié)省效果

那么什么是滑動(dòng)窗口注意力機(jī)制？如果將常規(guī)自注意力視為全局注意力機(jī)制（每個(gè)序列元素可訪問(wèn)任意其他元素），那么滑動(dòng)窗口注意力可理解為局部注意力 —— 它會(huì)限制當(dāng)前查詢位置周圍的上下文大小，具體如下圖所示：

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 12：常規(guī)注意力（左）與滑動(dòng)窗口注意力（右）對(duì)比示意圖

需要注意的是，滑動(dòng)窗口注意力可同時(shí)適用于多頭注意力和分組查詢注意力，Gemma 3 采用的是分組查詢注意力版本。

如前文所述，滑動(dòng)窗口注意力又稱為“局部注意力”，因?yàn)槠浠瑒?dòng)窗口會(huì)圍繞當(dāng)前查詢位置移動(dòng)。相比之下，常規(guī)注意力是全局性的，每個(gè)詞元都能訪問(wèn)所有其他詞元。

不過(guò)，前代架構(gòu) Gemma 2 早已采用滑動(dòng)窗口注意力。Gemma 3 的改進(jìn)在于調(diào)整了全局注意力（常規(guī)）與局部注意力（滑動(dòng)）的比例。

例如，Gemma 2 采用混合注意力機(jī)制，以 1:1 的比例結(jié)合滑動(dòng)窗口（局部）與全局注意力，每個(gè)詞元可關(guān)注附近 4K 詞元的上下文窗口。

Gemma 2 在每一層都使用滑動(dòng)窗口注意力，而 Gemma 3 將比例調(diào)整為 5:1 —— 即每 5 個(gè)滑動(dòng)窗口（局部）注意力層才設(shè)置 1 個(gè)全局注意力層。同時(shí)滑動(dòng)窗口大小從 Gemma 2 的 4096 縮減至 1024。這種設(shè)計(jì)使模型更聚焦于高效的局部計(jì)算。

根據(jù)消融實(shí)驗(yàn)，滑動(dòng)窗口注意力對(duì)建模性能的影響微乎其微，如下圖所示：

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 13：帶有標(biāo)注的 Gemma 3 論文示意圖（ ??https://arxiv.org/abs/2503.19786?? ），表明滑動(dòng)窗口注意力對(duì)大語(yǔ)言模型輸出困惑度的影響極小

雖然滑動(dòng)窗口注意力是 Gemma 3 最顯著的架構(gòu)特性，但作為前文 OLMo 2 章節(jié)的延續(xù)，我們還需簡(jiǎn)要討論其歸一化層的布局策略。

3.2 Gemma 3 的歸一化層布局策略

一個(gè)雖細(xì)微卻值得關(guān)注的設(shè)計(jì)是：Gemma 3 在其分組查詢注意力模塊周圍同時(shí)采用了前歸一化（Pre-Norm）與后歸一化（Post-Norm）的 RMSNorm 配置。

此設(shè)計(jì)雖與 Gemma 2 類似，但仍值得強(qiáng)調(diào) —— 因?yàn)樗炔煌谠?Transformer（《Attention is all you need》）采用的后歸一化，也區(qū)別于 GPT-2 推廣并被后續(xù)眾多模型架構(gòu)采用的前歸一化，同時(shí)與我們前文討論的 OLMo 2 后歸一化變體存在差異。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 14：OLMo 2 與 Gemma 3 的架構(gòu)對(duì)比圖。注意 Gemma 3 中增加的歸一化層

筆者認(rèn)為這種歸一化層布局是一種直觀而高效的方案，它融合了前歸一化和后歸一化的雙重優(yōu)勢(shì)。從實(shí)踐角度看，適當(dāng)增加的歸一化操作通常利大于弊：在最壞情況下，即便存在冗余也僅會(huì)帶來(lái)輕微的效率損失。由于 RMSNorm 在整體計(jì)算開(kāi)銷中占比極低，這種設(shè)計(jì)實(shí)際上不會(huì)產(chǎn)生明顯影響。

3.3 Gemma 3 架構(gòu)總結(jié)

Gemma 3 是一款性能優(yōu)異的開(kāi)放權(quán)重大語(yǔ)言模型，但其在開(kāi)源社區(qū)中的認(rèn)可度與其實(shí)力并不匹配。最引人注目的是其采用滑動(dòng)窗口注意力提升效率的設(shè)計(jì)（未來(lái)若能與 MoE 結(jié)合將更具想象空間）。

此外，Gemma 3 采用獨(dú)特的歸一化層布局策略，在注意力模塊和前饋網(wǎng)絡(luò)模塊前后均部署了 RMSNorm 層。

3.4 附加內(nèi)容：Gemma 3n

Gemma 3 發(fā)布數(shù)月后，谷歌推出了專為移動(dòng)設(shè)備優(yōu)化的 Gemma 3n[16] 版本，其核心目標(biāo)是實(shí)現(xiàn)在手機(jī)端高效運(yùn)行。

Gemma 3n 為提升效率做出的改進(jìn)之一是引入 Per-Layer Embedding（PLE）層。 該設(shè)計(jì)的核心思想是不將整個(gè)模型的所有參數(shù)都加載到昂貴的 GPU 內(nèi)存中，而是只保留其中最核心、最常用的一部分，而文本、音頻、視覺(jué)等模態(tài)的特定詞元層嵌入則按需從 CPU 或 SSD 動(dòng)態(tài)加載。

下圖展示了 PLE 機(jī)制的內(nèi)存優(yōu)化效果：標(biāo)準(zhǔn) Gemma 3 模型（可能指 4B 參數(shù)版本）標(biāo)注的參數(shù)量為 5.44B。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 15：經(jīng)過(guò)標(biāo)注的摘自谷歌 Gemma 3n 相關(guān)博客的示意圖（ ??https://developers.googleblog.com/en/introducing-gemma-3n/?? ），展示了 PLE 內(nèi)存優(yōu)化機(jī)制

5.44B 與 4B 參數(shù)的統(tǒng)計(jì)差異源于谷歌采用了一種特殊的參數(shù)計(jì)數(shù)方式：他們通常排除嵌入?yún)?shù)以使模型顯得更小，但在需要凸顯規(guī)模時(shí)（比如此處）又會(huì)將其計(jì)入。這種統(tǒng)計(jì)方式并非谷歌獨(dú)有，已成為行業(yè)普遍做法。

另一項(xiàng)有趣的技術(shù)是 MatFormer[17] 概念（Matryoshka Transformer 的簡(jiǎn)稱）。例如，Gemma 3n 使用一個(gè)共享的 LLM（Transformer）架構(gòu)，可以將其切割成多個(gè)更小的、獨(dú)立運(yùn)行的子模型。每個(gè)子模型經(jīng)過(guò)獨(dú)立訓(xùn)練后均能單獨(dú)運(yùn)行，因此在推理時(shí)只需調(diào)用所需的部分（無(wú)需啟動(dòng)整個(gè)大模型）。

04 Mistral Small 3.1

于 Gemma 3 發(fā)布后不久在三月問(wèn)世的 Mistral Small 3.1 24B[18] 值得關(guān)注 —— 它在多項(xiàng)基準(zhǔn)測(cè)試（除數(shù)學(xué)外）中性能超越 Gemma 3 27B，且推理速度更快。

Mistral Small 3.1 推理延遲低于 Gemma 3 的原因可能包括：定制化的分詞器、KV 緩存壓縮以及層數(shù)的精簡(jiǎn)。 其余部分則采用標(biāo)準(zhǔn)架構(gòu)（如下圖對(duì)比所示）。

2025 年大語(yǔ)言模型架構(gòu)演進(jìn)：DeepSeek V3、OLMo 2、Gemma 3 與 Mistral 3.1 核心技術(shù)剖析-AI.x社區(qū)

圖 16：Gemma 3 27B 與 Mistral 3.1 Small 24B 架構(gòu)對(duì)比示意圖

有趣的是，早期 Mistral 模型曾采用滑動(dòng)窗口注意力機(jī)制，但該設(shè)計(jì)在 Mistral Small 3.1 中被棄用。由于 Mistral 改用標(biāo)準(zhǔn)的分組查詢注意力（而非 Gemma 3 采用的滑動(dòng)窗口注意力），其或許能通過(guò)調(diào)用經(jīng)過(guò)深度優(yōu)化的底層計(jì)算代碼（如 FlashAttention）進(jìn)一步降低推理開(kāi)銷。例如，筆者推測(cè)：滑動(dòng)窗口注意力機(jī)制雖降低了內(nèi)存占用，但未必會(huì)減少推理延遲 —— 而這正是 Mistral Small 3.1 的核心優(yōu)化目標(biāo)。

END

本期互動(dòng)內(nèi)容 ??

?你是否同意“過(guò)去幾年 Transformer 架構(gòu)沒(méi)有根本性突破”這一觀點(diǎn)？為什么？

文中鏈接

[1]??https://magazine.sebastianraschka.com/p/understanding-reasoning-llms??

[2]??https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/07_gpt_to_llama/converting-llama2-to-llama3.ipynb??

[3]??https://github.com/rasbt/LLMs-from-scratch/blob/main/pkg/llms_from_scratch/llama3.py??

[4]??https://arxiv.org/abs/2305.13245??

[5]??https://arxiv.org/abs/2307.09288??

[6]??https://arxiv.org/abs/2401.06066??

[7]??https://arxiv.org/abs/2201.05596??

[8]??https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/07_gpt_to_llama/converting-gpt-to-llama2.ipynb??

[9]??https://arxiv.org/abs/1706.03762??

[10]??https://arxiv.org/abs/2002.04745??

[11]??https://github.com/rasbt/LLMs-from-scratch/tree/main/ch05/11_qwen3??

[12]??https://arxiv.org/abs/2302.05442??

[13]??https://arxiv.org/abs/2503.19786??

[14]??https://arxiv.org/abs/2004.05150??

[15]??http://arxiv.org/abs/2408.00118??

[16]??https://developers.googleblog.com/en/introducing-gemma-3n/??

[17]??https://arxiv.org/abs/2310.07707??

[18]??https://mistral.ai/news/mistral-small-3-1??

原文鏈接：

??https://artificialintelligencemadesimple.substack.com/p/a-look-through-the-seven-years-of??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

AIGC觀察者 ? 5434瀏覽 ? 0回復(fù)
給 ?大模型初學(xué)者? 的 LLaMA 3 核心技術(shù)剖析

Baihai_IDP ? 4443瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 5146瀏覽 ? 0回復(fù)
Transformers.js v3震撼發(fā)布：WebGPU加速、120種架構(gòu)支持，開(kāi)發(fā)者必備神器！

Syrupup ? 5187瀏覽 ? 0回復(fù)
DeepSeek的V3，爆火了

51CTO技術(shù)棧 ? 8929瀏覽 ? 0回復(fù)
DeepSeek-V3 模型深度剖析：架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化與性能卓越

AI論文解讀 ? 1.4w瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告

歐米伽未來(lái)研究所 ? 1.3w瀏覽 ? 0回復(fù)
DeepSeek簡(jiǎn)明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！

海因斯DK ? 1.2w瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

xuxiangda ? 7218瀏覽 ? 0回復(fù)
2025年2月五大優(yōu)秀大語(yǔ)言模型

51CTO內(nèi)容精選 ? 5207瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開(kāi)源了！

PaperAgent ? 3882瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開(kāi)源關(guān)鍵技術(shù)

amei2000go ? 1.0w瀏覽 ? 0回復(fù)
Mistral殺回來(lái)了！Small 3.1開(kāi)源發(fā)布，性能完勝Gemma 3，RTX 4090就能跑

老蛀蟲(chóng) ? 4347瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE

Baihai_IDP ? 2731瀏覽 ? 0回復(fù)
DeepSeek開(kāi)源新版V3，再次震驚國(guó)外

Aceryt ? 2942瀏覽 ? 0回復(fù)
從FP8到安全張量，DeepSeek?V3?0324 重塑大模型生態(tài)的秘密武器

xuxiangda ? 4294瀏覽 ? 0回復(fù)
DeepSeek V3 0324：就在剛剛，DeepSeek悄悄更新，700行代碼一氣呵成！

Halo咯咯 ? 4670瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeek-V3-Base 預(yù)訓(xùn)練階段解析

Baihai_IDP ? 5260瀏覽 ? 0回復(fù)
八大LLM架構(gòu)大比較總結(jié)：從DeepSeek-V3->qwen3->Kimi K2看LLM架構(gòu)設(shè)計(jì)

大模型自然語(yǔ)言處理 ? 6110瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

對(duì) GPT 5 模型路由機(jī)制的深度解析 2天前發(fā)布
AI 編程熱潮下的萬(wàn)字思考 —— 規(guī)避風(fēng)險(xiǎn)，善用其利 9天前發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

DeepSeek團(tuán)隊(duì)開(kāi)源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： MCP 是為開(kāi)發(fā)者設(shè)計(jì)的工具，而非為 LLM 而設(shè)

下一篇： AI Agents 能自己開(kāi)發(fā)工具自己使用嗎？一項(xiàng)智能體自迭代能力研究

社區(qū)精華內(nèi)容

目錄

<rp id="l7y2q"></rp>

<sub id="l7y2q"><p id="l7y2q"></p></sub>