硬核拆解大模型,從 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架構(gòu)
自首次提出 GPT 架構(gòu)以來,轉(zhuǎn)眼已經(jīng)過去了七年。
如果從 2019 年的 GPT-2 出發(fā),回顧至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不難發(fā)現(xiàn)一個有趣的現(xiàn)象:盡管模型能力不斷提升,但其整體架構(gòu)在這七年中保持了高度一致。
當(dāng)然,細(xì)節(jié)上仍有不少演進。例如,位置編碼從最初的絕對位置(Absolute Positional Encoding)發(fā)展為旋轉(zhuǎn)位置編碼(RoPE);注意力機制也從標(biāo)準(zhǔn)的多頭注意力(Multi-Head Attention)逐步過渡為更高效的分組查詢注意力(Grouped-Query Attention);而激活函數(shù)方面,則從 GELU 被更高效的 SwiGLU 所取代。
然而,這些變化中究竟有沒有「顛覆性創(chuàng)新」?七年間,大語言模型的架構(gòu)是否真正迎來了質(zhì)的飛躍,還是仍在原有框架上不斷精雕細(xì)琢?
本文博客來自于 Sebastian Raschka,知名 AI 研究者和博主、《Python 機器學(xué)習(xí)》作者。

博客詳細(xì)列舉了 8 個主流大語言模型,包含 DeepSeek 和 Kimi 等國產(chǎn)大模型,硬核拆解了每個大模型的架構(gòu)設(shè)計和革新思路,深度介紹了現(xiàn)代最新大語言模型的架構(gòu)設(shè)計以及大模型的架構(gòu)演進趨勢。

圖 1:本文所涵蓋的部分 LLM 架構(gòu)示意圖。
DeepSeek V3/R1
DeepSeek R1 在 2025 年 1 月發(fā)布時引起了巨大反響。
DeepSeek R1 是一個以 DeepSeek V3 架構(gòu)為基礎(chǔ)構(gòu)建的推理模型,而 DeepSeek V3 最初于 2024 年 12 月推出。盡管本文重點討論 2025 年發(fā)布的架構(gòu),但作者認(rèn)為應(yīng)當(dāng)將 DeepSeek V3 納入其中。
本節(jié)將重點介紹 DeepSeek V3 引入的兩項關(guān)鍵架構(gòu)技術(shù),這些技術(shù)提升了其計算效率,也使其在眾多大型語言模型中脫穎而出。
若對 DeepSeek V3 關(guān)鍵技術(shù)感興趣,請參照技術(shù)報告:

- 論文標(biāo)題:DeepSeek-V3 Technical Report
 - 論文鏈接:https://arxiv.org/abs/2412.19437
 
多頭潛在注意力機制 (MLA)
在討論多頭潛在注意力機制之前,應(yīng)從近年來被廣泛采用的分組查詢注意力機制(GQA)說起,它已成為相較于傳統(tǒng)多頭注意力機制(Multi-Head Attention, MHA)更具計算與參數(shù)效率的新標(biāo)準(zhǔn)替代方案。
下面是對 GQA 的簡要說明:與 MHA 中每個注意力頭都有自己的一組鍵(key)和值(value)不同,GQA 的做法是將多個注意力頭分組,讓它們共享相同的 key 和 value 投影,從而降低內(nèi)存使用。
如下圖 2 所示,假設(shè)有 2 組 key-value 和 4 個注意力頭,那么注意力頭 1 和 2 可以共享第一組 key 和 value,而注意力頭 3 和 4 共享第二組。這種做法減少了總的 key 和 value 計算量,降低了內(nèi)存使用,提高了效率。

圖 2:多頭注意力機制(MHA)與分組查詢注意力機制(GQA)的對比示意圖。
GQA 的核心思想是:通過讓多個 query 頭共享一組 key 和 value,從而減少 key 和 value 的總數(shù)。這帶來了兩個主要好處:
1. 降低模型參數(shù)總量;
2. 在推理時減少 KV 緩存中 key 和 value 張量的內(nèi)存帶寬使用,因為需要存取的鍵值對變少了。
接下來介紹的 多頭潛在注意力機制(MLA),則提供了一種 不同的內(nèi)存節(jié)省策略,并且它與 KV 緩存機制的配合更加緊密。
與 GQA 通過「共享鍵值頭」不同,MLA 是將 key 和 value 張量壓縮到一個低維潛在空間后再存入 KV 緩存。而在推理過程中,這些壓縮張量會被重新投影回原始維度再使用(如圖 3 所示)。這一過程中雖然引入了一次額外的矩陣乘法,但大大節(jié)省了內(nèi)存使用。

圖 3:多頭潛在注意力機制(MLA,應(yīng)用于 DeepSeek V3 和 R1)與常規(guī)多頭注意力機制(MHA)的對比。
值得說明的是,MLA 并不是 DeepSeek V3 首創(chuàng)的技術(shù),它的前代模型 DeepSeek V2 就已經(jīng)使用(甚至首次提出)了該機制。
MLA 是一種非常巧妙的技術(shù)手段,能夠在提升模型表現(xiàn)的同時,大幅降低 KV 緩存的內(nèi)存占用。相比之下,它甚至略優(yōu)于傳統(tǒng)的 MHA。接下來將進入下一個架構(gòu)模塊的分析。
Mixture-of-Experts (MoE)
DeepSeek 架構(gòu)中另一個值得重點關(guān)注的重要組成部分是它對 MoE(Mixture-of-Experts,專家混合)層的應(yīng)用。雖然 MoE 并非由 DeepSeek 首創(chuàng),但這一技術(shù)在 2025 年迎來了回歸,在后文介紹的許多架構(gòu)中也能看到它的身影。
MoE 的核心思想是:將 Transformer 中的每個前饋模塊(FeedForward)替換為多個「專家層」(每個專家層本質(zhì)上也是一個前饋網(wǎng)絡(luò))。也就是說,原本單一的前饋結(jié)構(gòu)被替換為多個并行的前饋子模塊,具體如圖 5 所示。

圖 5:右圖展示了 DeepSeek V3/R1 中 Mixture-of-Experts(MoE)模塊的結(jié)構(gòu),對比左圖中標(biāo)準(zhǔn) LLM 所使用的普通前饋模塊。
在 Transformer 塊內(nèi)部的前饋模塊(上圖中的深灰色塊)通常占據(jù)了模型總參數(shù)量的很大一部分。
因此,將一個前饋模塊替換為多個前饋模塊(即構(gòu)建 MoE 結(jié)構(gòu))會顯著增加模型的總參數(shù)量。不過,關(guān)鍵的技巧在于:并不為每個 token 啟用所有的專家模塊(experts),而是由一個「路由器(router)」為每個 token 挑選出其中一小部分進行激活。MoE 的這種設(shè)計使得模型擁有極大的參數(shù)容量,在訓(xùn)練階段能吸收更多知識;但在推理時由于稀疏激活,大幅降低了計算開銷。
舉個例子:DeepSeek-V3 每個 MoE 模塊中擁有 256 個專家,總參數(shù)量高達 6710 億。但在推理時,每個 token 實際只激活其中 9 個專家(1 個共享專家 + 路由選出的 8 個專家)
圖 6:DeepSeekMoE 的注釋圖
關(guān)于 DeepSeek MoE 的更多細(xì)節(jié),請參閱以下論文:

- 論文標(biāo)題:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
 - 論文鏈接:https://arxiv.org/abs/2401.06066
 
在 DeepSpeedMoE 論文中首次指出,引入「共享專家」(shared expert)可以顯著提升模型整體的建模性能。其原理很可能是:對于通用或重復(fù)性強的模式,不需要多個專家分別學(xué)習(xí);只需由共享專家統(tǒng)一處理,從而釋放出其他專家的容量,專注于學(xué)習(xí)更加專業(yè)的知識模式。
OLMo 2
由非營利機構(gòu) Allen Institute for AI 發(fā)布的 OLMo 系列模型,因其在訓(xùn)練數(shù)據(jù)、代碼和技術(shù)報告方面的高度透明而備受關(guān)注。
OLMo 模型結(jié)構(gòu)清晰、設(shè)計規(guī)范,更重要的是,由于極高的透明度,它們?yōu)榇笳Z言模型的開發(fā)提供了極佳的參考范式。
在 OLMo 2 中有哪些值得注意的架構(gòu)設(shè)計選擇呢?
主要集中在歸一化策略上:包括 RMSNorm 層的位置安排,以及 QK-norm(Query-Key 歸一化) 的引入。
另一個值得一提的是,OLMo 2 仍采用傳統(tǒng)的多頭注意力機制(MHA),并未采用 MLA 或 GQA 等新型注意力結(jié)構(gòu)。
關(guān)于更多 OLMo 2 的細(xì)節(jié)信息,請參照論文:

- 論文標(biāo)題:2 OLMo 2 Furious
 - 論文鏈接:https://arxiv.org/abs/2501.00656
 
歸一化層位置選擇
總體而言,OLMo 2 在架構(gòu)上大體沿用了最初 GPT 模型的設(shè)計,與當(dāng)前多數(shù)主流大型語言模型相似。但它也存在一些值得關(guān)注的不同之處,先從歸一化層的設(shè)計說起。
與 Llama、Gemma 以及大多數(shù)現(xiàn)代 LLM 一樣,OLMo 2 將歸一化方法從 LayerNorm 替換為 RMSNorm。
真正值得討論的是 RMSNorm 的位置選擇。在最初的 Transformer 架構(gòu)中,兩個歸一化層分別位于注意力模塊和前饋模塊之后,這種結(jié)構(gòu)被稱為 Post-LN 或 后歸一化(Post-Norm)。
而 GPT 及其后大多數(shù)的 LLM 模型,則將歸一化層放在注意力模塊和前饋模塊的之前,這種做法稱為 Pre-LN 或 前歸一化(Pre-Norm)。
下圖展示了 Post-Norm 與 Pre-Norm 的結(jié)構(gòu)對比:

圖 8:Post-Norm、Pre-Norm 以及 OLMo 2 采用的 Post-Norm 變體的對比圖。
早在 2020 年,Xiong 等人就指出 Pre-LN 在模型初始化時可以帶來更穩(wěn)定的梯度。此外,研究人員還提到,Pre-LN 即使在不使用學(xué)習(xí)率預(yù)熱的情況下也能正常訓(xùn)練,而這是 Post-LN 通常難以做到的。
在 OLMo 2 中,歸一化層并不是放在注意力層和前饋網(wǎng)絡(luò)之前,而是放在之后,如上圖所示。然而,與最初 Transformer 架構(gòu)不同的是,這些歸一化層仍然嵌套在殘差層內(nèi)部。
那么,他們?yōu)楹我{(diào)整歸一化層的位置呢?
原因在于這種設(shè)計有助于提升訓(xùn)練的穩(wěn)定性,這一點將在下圖中進行展示。

圖 9:展示了 Pre-Norm(如 GPT-2、Llama 3 等所采用)與 OLMo 2 所采用的 Post-Norm 變體在訓(xùn)練穩(wěn)定性方面的對比。
不過遺憾的是,這張圖展示的結(jié)果同時包含了歸一化順序調(diào)整和 QK-Norm 兩個因素,而后者是一個獨立的概念。因此很難明確判斷,歸一化位置的改變對訓(xùn)練穩(wěn)定性的提升到底貢獻了多少。
QK-Norm
QK-Norm 本質(zhì)上是另一個 RMSNorm 層,它被放置在 多頭注意力模塊內(nèi)部,在應(yīng)用旋轉(zhuǎn)位置編碼(RoPE)之前,對 Query 和 Key 進行歸一化處理。
如前所述,QK-Norm 與 Post-Norm 結(jié)合使用,有助于穩(wěn)定訓(xùn)練過程。關(guān)于 QK-Norm 更多細(xì)節(jié),請參閱以下論文:

- 論文標(biāo)題:Scaling Vision Transformers
 - 論文鏈接:https://arxiv.org/abs/2106.04560
 
簡而言之,OLMo 2 架構(gòu)中的主要設(shè)計亮點是 RMSNorm 的放置方式:將 RMSNorm 放置在注意力模塊和前饋模塊之后(屬于 Post-Norm 的一種變體),并在注意力機制中對 query 和 key 引入額外的 RMSNorm(即 QK-Norm)。這兩項改動結(jié)合使用,有助于穩(wěn)定訓(xùn)練損失。
下圖展示了 OLMo 2 與 Llama 3 的架構(gòu)對比;可以看到,除了 OLMo 2 仍使用傳統(tǒng)的 MHA 而非 GQA 外,二者在整體結(jié)構(gòu)上相對接近。

圖 10:Llama 3 與 OLMo 2 的架構(gòu)對比圖。
Gemma 3
谷歌的 Gemma 系列模型一直表現(xiàn)非常出色,但相比于 Llama 系列等熱門模型,它們的關(guān)注度似乎總是略顯不足。
Gemma 3 在架構(gòu)上使用了另一種「技巧」來降低計算成本:滑動窗口注意力(sliding window attention)。
借助滑動窗口注意力機制,Gemma 3 團隊成功大幅降低了 KV 緩存的內(nèi)存需求,具體效果如下圖所示。

圖 11:Gemma 3 的 KV 緩存內(nèi)存節(jié)省效果。
如果把常規(guī)的自注意力看作一種「全局」注意力機制,因為序列中的每個元素都可以訪問其他所有元素,那么滑動窗口注意力則可以看作是一種「局部」注意力機制,因為它限制了當(dāng)前查詢位置周圍的上下文范圍。下圖展示了這一機制的原理。

圖 12:常規(guī)注意力機制(左)與滑動窗口注意力機制(右)的對比圖。
需要注意的是,滑動窗口注意力機制既可以與多頭注意力配合使用,也可以與分組查詢注意力(GQA)一起使用;Gemma 3 就采用了 GQA。
如上所述,滑動窗口注意力也被稱為「局部注意力」,因為其關(guān)注的上下文僅限于圍繞當(dāng)前查詢位置的一個局部窗口,并且該窗口會隨著查詢位置的移動而滑動。相對地,常規(guī)注意力機制則是「全局」的,每個 token 都可以訪問所有其他 token。
雖然滑動窗口注意力是 Gemma 3 架構(gòu)中最顯著的特點,但作為對前文 OLMo 2 部分的補充,在此簡要介紹一下 Gemma 3 中歸一化層的放置方式。
一個小但有趣的細(xì)節(jié)是:Gemma 3 在其 GQA 模塊周圍同時使用了 RMSNorm 的 Pre-Norm 和 Post-Norm 形式。
這與 Gemma 2 的做法類似,但依然值得強調(diào),因為它不同于以下幾種主流做法:
1. 原始 Transformer 架構(gòu)使用的 Post-Norm;
2. 由 GPT-2 推廣、并被許多后續(xù)架構(gòu)采用的 Pre-Norm;
3. 前文在 OLMo 2 中看到的、特殊的 Post-Norm 變體。
Gemma 3 的這種雙重歸一化策略展示了一種不同尋常的歸一化設(shè)計選擇,可能與其在推理效率和訓(xùn)練穩(wěn)定性之間的權(quán)衡有關(guān)。

圖 14:OLMo 2 與 Gemma 3 的架構(gòu)對比;請注意 Gemma 3 中額外的歸一化層。
這種歸一化層的放置方式相對直觀,因為它結(jié)合了 Pre-Norm 和 Post-Norm 的優(yōu)勢。
作者認(rèn)為,多加一點歸一化并無壞處。
關(guān)于 Gemma 3 的更多細(xì)節(jié),請參閱技術(shù)報告:

- 論文標(biāo)題:Gemma 3 Technical Report
 - 論文鏈接:https://arxiv.org/abs/2503.19786
 
Mistral Small 3.1
Mistral Small 3.1 24B 于今年 3 月發(fā)布,緊隨 Gemma 3 之后。它值得關(guān)注的一個原因是,在多個基準(zhǔn)測試中,其表現(xiàn)優(yōu)于 Gemma 3 27B,同時推理速度更快。
造成 Mistral Small 3.1 推理延遲低于 Gemma 3 的主要原因,可能在于其定制的分詞器(tokenizer),以及更小的 KV 緩存和更少的層數(shù)。除此之外,它整體上采用的是標(biāo)準(zhǔn)架構(gòu),如下圖所示。

圖 16:Gemma 3 27B 與 Mistral 3.1 Small 24B 的架構(gòu)對比圖。
有趣的是,早期的 Mistral 模型曾使用滑動窗口注意力機制,但在 Mistral Small 3.1 中似乎放棄了這一設(shè)計。
與使用滑動窗口的 Gemma 3 不同,Mistral 采用了常規(guī)的 GQA。
作者推測,盡管滑動窗口注意力可以降低內(nèi)存使用,但它并不一定能降低推理延遲,而這正是 Mistral Small 3.1 所優(yōu)先關(guān)注的性能指標(biāo)。
Llama 4
前文對專家混合模型(MoE)的詳細(xì)介紹又派上用場了。
Llama 4 同樣采用了 MoE 架構(gòu),其余部分則延續(xù)了較為標(biāo)準(zhǔn)的設(shè)計,整體架構(gòu)與 DeepSeek-V3 非常相似,如下圖所示。

圖 17:DeepSeek V3(6710 億參數(shù))與 Llama 4 Maverick(4000 億參數(shù))架構(gòu)對比圖。
盡管 Llama 4 Maverick 的整體架構(gòu)看起來與 DeepSeek-V3 非常相似,但其中仍有一些值得注意的差異。
首先,Llama 4 采用了與其前代模型相同的 GQA,而 DeepSeek-V3 則使用了 MLA。
這兩款模型都是非常龐大的架構(gòu),DeepSeek-V3 的總參數(shù)量大約比 Llama 4 Maverick 多出 68%。但從實際推理中參與計算的參數(shù)數(shù)量來看,DeepSeek-V3 啟用的參數(shù)達 370 億,是 Llama 4 Maverick(170 億)的兩倍多。
在 MoE 設(shè)置方面,Llama 4 Maverick 使用的是更為傳統(tǒng)的架構(gòu):每次僅激活 2 個專家,每個專家的隱藏層維度為 8192;而 DeepSeek-V3 每次激活 9 個專家,每個專家的隱藏層維度為 2048。此外,DeepSeek 在除了前 3 層外的每個 Transformer Block 中都插入了 MoE 層,而 Llama 4 則是交替使用 MoE 模塊和密集(Dense)模塊,即每隔一個 Block 加一次 MoE。
可以明確的一點是,MoE 架構(gòu)在 2025 年迎來了顯著的發(fā)展與普及。
Qwen3
Qwen 團隊一直以來都在穩(wěn)定輸出高質(zhì)量的開源大語言模型。在 NeurIPS 2023 的 LLM 效率挑戰(zhàn)賽時,最終獲勝的方案全部基于 Qwen2 構(gòu)建。
而如今,Qwen3 系列再次成為各自參數(shù)規(guī)模下的榜單冠軍,表現(xiàn)依舊亮眼。
Qwen3 (Dense)
先來看看 Qwen3 Dense 模型架構(gòu)。截至目前,Qwen3 0.6B 可能是當(dāng)前世代中體量最小的開源權(quán)重模型之一。
在本地運行時,它具有很高的每秒生成 token 數(shù)(token/sec)和很低的顯存占用,非常適合輕量部署。而且因為參數(shù)量小,對于想在本地進行訓(xùn)練實驗(例如教學(xué)用途)的人來說,也非常友好。

圖 18:Qwen3 0.6B 與 Llama 3 1B 架構(gòu)對比圖。可以看到,Qwen3 架構(gòu)更深(有更多的 transformer 層),而 Llama 3 架構(gòu)更寬(具有更多的注意力頭)。
Qwen3 (MoE)
如前所述,Qwen3 系列還包括兩個 MoE(Sparse)變體。那么,為什么像 Qwen3 這樣的架構(gòu)會同時發(fā)布普通(Dense)和 MoE(Sparse)版本呢?
正如本文開頭所提到的,MoE 變體旨在降低大規(guī)模基礎(chǔ)模型的推理成本。提供 Dense 和 MoE 兩種版本,可以讓用戶根據(jù)不同的目標(biāo)與資源約束靈活選擇。
通過同時發(fā)布這兩類模型,Qwen3 系列能夠覆蓋更廣泛的應(yīng)用場景:致密模型強調(diào)魯棒性、簡單性和可微調(diào)性;MoE 模型則面向大規(guī)模部署中的推理效率。

圖 19:DeepSeek-V3 與 Qwen3 235B-A22B 架構(gòu)對比。
如上圖所示,DeepSeek-V3 和 Qwen3 235B-A22B 在架構(gòu)上非常相似。不過值得注意的是,Qwen3 模型取消了共享專家(此前的 Qwen2.5-MoE 等模型采用了共享專家機制)。
遺憾的是,Qwen3 團隊并未公開說明他們放棄共享專家的原因。
作者猜測,可能是因為在將專家數(shù)量從 Qwen2.5-MoE 的 2 個增加到 Qwen3 的 8 個之后,訓(xùn)練穩(wěn)定性已經(jīng)不再依賴共享專家。因此,他們選擇省略共享專家,以節(jié)省額外的計算和顯存開銷(避免從 8 個增加到 8+1 個專家)。不過,這并不能解釋為何 DeepSeek-V3 至今仍保留共享專家機制。
SmolLM3
SmolLM3 或許不像本文其他提到的大模型那樣廣為人知,但作者認(rèn)為它依然值得納入討論,因為該模型在僅有約 30 億參數(shù)的體量下,展現(xiàn)出非常出色的建模性能,定位介于 Qwen3 的 17 億參數(shù)模型與 40 億參數(shù)模型之間,如下圖所示。
此外,SmolLM3 也像 OLMo 一樣公開了大量訓(xùn)練細(xì)節(jié),這在業(yè)內(nèi)并不常見,因此尤為值得稱贊。

圖 20:SmolLM3 相較于 Qwen3 1.7B 和 4B,以及 Llama 3 3B 和 Gemma 3 4B 的勝率比較。
如下面的架構(gòu)對比圖所示,SmolLM3 的整體結(jié)構(gòu)相對標(biāo)準(zhǔn)。不過,其中最有趣的一點或許是它采用了 無位置嵌入(NoPE)機制。
圖 21:Qwen3 4B 與 SmolLM3 3B 的并排架構(gòu)對比圖。
在 LLM 的背景下,NoPE 是一種較早提出的理念,該方法旨在移除顯式的位置編碼信息注入機制,例如早期 GPT 架構(gòu)中常用的絕對位置嵌入,或當(dāng)前主流的 RoPE(旋轉(zhuǎn)位置編碼)。
在基于 Transformer 的語言模型中,位置編碼通常是必要的,因為自注意力機制默認(rèn)對輸入序列中的 token 順序不敏感,即每個 token 被獨立處理。為了解決這一問題,絕對位置嵌入通過添加一個額外的嵌入層,將位置信息與 token 嵌入相加,從而為模型提供序列順序感知能力。

圖 22:展示了絕對位置嵌入的機制。
相比之下,RoPE 通過將 Query 和 Key 向量按 token 的位置進行旋轉(zhuǎn)來注入位置信息。
而在 NoPE 層中,則完全不加入任何位置編碼信息:沒有固定的、沒有可學(xué)習(xí)的,也沒有相對位置編碼 —— 什么都沒有。
即使沒有顯式的位置編碼,模型依然可以通過因果注意力掩碼知道哪些 token 是在前面。這個掩碼會阻止每個 token 訪問其后的 token,從而保證了自回歸順序的正確性。也就是說,位于位置 t 的 token 只能「看到」位置小于等于 t 的 token。
總結(jié)來說,NoPE 不僅不需要注入位置編碼,還在序列長度泛化方面更具優(yōu)勢。也就是說,隨著輸入序列長度的增加,模型的表現(xiàn)下降幅度更小。如下圖所示:

圖 23:展示了 NoPE 在長度泛化上的優(yōu)勢表現(xiàn)。
正因如此,SmolLM3 團隊在實際應(yīng)用中,并未在每一層都使用 NoPE,而是選擇在每 4 層中使用一次 NoPE(或說每 4 層省略一次 RoPE),作為一種折中策略。
關(guān)于 NoPE 的更多細(xì)節(jié),請參閱以下論文:

- 論文標(biāo)題:The Impact of Positional Encoding on Length Generalization in Transformers
 - 論文鏈接:https://arxiv.org/abs/2305.19466
 
Kimi K2
Kimi K2 最近因其出色的性能在 AI 社區(qū)引起了巨大反響。作為一個開源權(quán)重模型,它在多個基準(zhǔn)測試中表現(xiàn)堪比 Google 的 Gemini、Anthropic 的 Claude 和 OpenAI 的 ChatGPT 等頂級閉源模型。
一個值得注意的方面是,它在訓(xùn)練中首次在此規(guī)模的生產(chǎn)級模型中使用了 Muon 優(yōu)化器的變體,而非傳統(tǒng)的 AdamW。
據(jù)作者所知,這是 Muon 優(yōu)化器首次在超大模型中應(yīng)用(此前僅在最多 160 億參數(shù)規(guī)模上展示過可擴展性)。這一選擇帶來了極為理想的訓(xùn)練損失曲線,很可能正是 Kimi K2 能在上述各項基準(zhǔn)測試中脫穎而出的重要原因。
Kimi K2 的參數(shù)規(guī)模達到了 1 萬億(1T),這無疑令人印象深刻。它可能是目前這一代中最大的 LLM(截至本文撰寫時),在不考慮尚未發(fā)布的 Llama 4 Behemoth、閉源模型以及架構(gòu)不同的 Google 1.6 萬億 Switch Transformer(其為編碼器 - 解碼器模型)前提下,Kimi K2 幾乎是無出其右的。
從架構(gòu)上看,Kimi K2 基于本文開頭提到的 DeepSeek-V3 架構(gòu),但進行了更大規(guī)模的擴展和增強,如下圖所示(圖略)。這也標(biāo)志著一種「循環(huán)回歸」:Kimi K2 將 DeepSeek-V3 的設(shè)計理念推向了極致。

如上圖所示,Kimi K2 在整體架構(gòu)上基本與 DeepSeek V3 保持一致,主要的差異在于:
- Kimi K2 在 MoE 模塊中使用了更多的專家,
 - 在 MLA 模塊中使用了更少的注意力頭(heads)。
 
在歷經(jīng)數(shù)年之后,LLM 的發(fā)布依然充滿驚喜與期待。新技術(shù)永遠(yuǎn)讓人心潮澎湃,永遠(yuǎn)期待更多的大模型架構(gòu)改進的出現(xiàn)。
更多信息請參閱原博客:
- 博客鏈接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
 















 
 
 



















 
 
 
 