偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從DeepSeek-V3到Kimi K2:八種現(xiàn)代 LLM 架構(gòu)大比較

人工智能
自最初的 GPT 架構(gòu)開發(fā)以來,已經(jīng)過去了七年。乍一看,回顧 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人們可能會(huì)驚訝于這些模型在結(jié)構(gòu)上仍然如此相似。

自最初的 GPT 架構(gòu)開發(fā)以來,已經(jīng)過去了七年。乍一看,回顧 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人們可能會(huì)驚訝于這些模型在結(jié)構(gòu)上仍然如此相似。

當(dāng)然,位置嵌入已經(jīng)從絕對嵌入演進(jìn)到旋轉(zhuǎn)嵌入(RoPE),多頭注意力機(jī)制已基本被分組查詢注意力機(jī)制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函數(shù)。但在這些細(xì)微的改進(jìn)背后,我們是否真正看到了突破性的變化,還是僅僅在打磨相同的架構(gòu)基礎(chǔ)?

LLM架構(gòu)子集:DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral Small 3.1、Llama 4、Qwen3、SmolLM3和Kimi 2

圖片圖片

一、DeepSeek V3/R1

DeepSeek V3 中引入的兩種關(guān)鍵架構(gòu)技術(shù),這些技術(shù)提高了其計(jì)算效率,并使其有別于許多其他 LLM:多頭潛在注意力(MLA)、混合專家(MoE):

1.1 多頭潛在注意力(MLA)

MLA旨在解決傳統(tǒng)多頭注意力(MHA)在大規(guī)模模型中內(nèi)存占用過高的問題。與分組查詢注意力(GQA)相比,MLA通過壓縮鍵和值張量來進(jìn)一步減少內(nèi)存使用。

MHA 與 GQA 的比較。此處,組大小為 2,其中兩個(gè)查詢共享一個(gè)鍵值對。

圖片圖片

在MLA中,鍵和值張量在存儲(chǔ)到KV緩存之前會(huì)被壓縮到一個(gè)低維空間。在推理時(shí),這些壓縮的張量會(huì)被重新投影回原始大小。這種設(shè)計(jì)雖然增加了額外的矩陣乘法操作,但顯著降低了內(nèi)存占用。

MLA(用于 DeepSeek V3 和 R1)與常規(guī) MHA 的比較。

圖片圖片

1.2 混合專家(MoE)

MoE將傳統(tǒng)的前饋模塊替換為多個(gè)專家層,每個(gè)專家層也是一個(gè)前饋模塊。在推理時(shí),一個(gè)路由器會(huì)選擇一小部分專家進(jìn)行激活。例如,DeepSeek V3有256個(gè)專家,但每次推理僅激活9個(gè)專家(1個(gè)共享專家和8個(gè)由路由器選擇的專家)。

V3/R1 中的混合專家 (MoE) 模塊(右)與具有標(biāo)準(zhǔn)前饋塊的 LLM(左)的比較圖。

圖片圖片

2. OLMo 2

2.1 歸一化層放置

OLMo 2采用后歸一化(Post-Norm)策略,與大多數(shù)LLM采用的前歸一化(Pre-Norm)不同。這種設(shè)計(jì)旨在提高訓(xùn)練穩(wěn)定性。

在OLMo 2中,歸一化層被放置在注意力模塊和前饋模塊之后,而不是之前。這種設(shè)計(jì)與原始Transformer架構(gòu)中的Post-LN類似,但使用了RMSNorm而非LayerNorm。

Post-Norm、Pre-Norm和OLMo 2的Post-Norm變體的對比圖。

圖片圖片

研究表明,后歸一化有助于訓(xùn)練穩(wěn)定性,尤其是在不使用精心設(shè)計(jì)的學(xué)習(xí)率預(yù)熱策略時(shí)。OLMo 2的訓(xùn)練損失曲線表明,這種設(shè)計(jì)在訓(xùn)練過程中表現(xiàn)更為穩(wěn)定。

Pre-Norm(如GPT-2、Llama 3和許多其他模型中使用的)與OLMo 2的Post-Norm變體的訓(xùn)練穩(wěn)定性對比圖。

圖片圖片

2.2 QK-Norm

QK-Norm是在多頭注意力模塊中引入的額外RMSNorm層,應(yīng)用于查詢(q)和鍵(k)之前。這種設(shè)計(jì)有助于在應(yīng)用RoPE之前對輸入進(jìn)行歸一化,從而減少訓(xùn)練過程中的數(shù)值不穩(wěn)定。

圖片圖片

OLMo 2 和 Llama 3;可以看出,除了 OLMo 2 仍然使用傳統(tǒng)的 MHA 而非 GQA 之外,它們的架構(gòu)在其他方面相對相似。

Llama 3 和 OLMo 2 的架構(gòu)比較。

圖片圖片

3. Gemma 3

3.1 滑動(dòng)窗口注意力

滑動(dòng)窗口注意力旨在減少KV緩存的內(nèi)存需求,同時(shí)保持模型的性能。這種設(shè)計(jì)特別適用于需要處理長序列的任務(wù)。

通過滑動(dòng)窗口注意力實(shí)現(xiàn)的KV緩存內(nèi)存節(jié)省。

圖片圖片

滑動(dòng)窗口注意力限制了每個(gè)查詢位置的上下文范圍,使其僅關(guān)注局部窗口內(nèi)的內(nèi)容。與傳統(tǒng)的全局注意力機(jī)制相比,這種設(shè)計(jì)顯著減少了KV緩存的內(nèi)存占用。例如,Gemma 3將滑動(dòng)窗口大小從Gemma 2的4096減少到1024,并調(diào)整了全局與局部注意力的比例。

常規(guī)注意力(左)和滑動(dòng)窗口注意力(右)的對比圖。

圖片圖片

研究表明,滑動(dòng)窗口注意力對模型的建模性能影響極小,但在內(nèi)存使用上帶來了顯著的優(yōu)化。這種設(shè)計(jì)使得Gemma 3在處理長序列時(shí)更加高效。

常規(guī)注意力(左)和滑動(dòng)窗口注意力(右)的對比圖。

圖片圖片

3.2 歸一化層放置

Gemma 3在注意力模塊和前饋模塊前后都放置了RMSNorm層。這種設(shè)計(jì)結(jié)合了前歸一化和后歸一化的優(yōu)點(diǎn),既保持了訓(xùn)練穩(wěn)定性,又提高了推理效率。

OLMo 2和Gemma 3的架構(gòu)對比圖;注意Gemma 3中額外的歸一化層。

圖片圖片

4. Mistral Small 3.1

Mistral Small 3.1通過自定義分詞器、縮小KV緩存和減少層數(shù)來優(yōu)化模型。此外,它放棄了滑動(dòng)窗口注意力,轉(zhuǎn)而使用更高效的FlashAttention技術(shù)。

這些優(yōu)化使得Mistral Small 3.1在推理延遲上優(yōu)于Gemma 3,同時(shí)保持了較高的性能。這種設(shè)計(jì)特別適合需要快速推理的應(yīng)用場景。

OLMo 2和Gemma 3的架構(gòu)對比圖;注意Gemma 3中額外的歸一化層。

圖片圖片

5. Llama 4

Llama 4采用了與DeepSeek V3類似的架構(gòu),但在某些細(xì)節(jié)上進(jìn)行了優(yōu)化,以提高模型的性能和效率。

深度求索V3(6710億參數(shù))和Llama 4 Maverick(4000億參數(shù))的架構(gòu)對比圖。

圖片圖片

Llama 4使用了分組查詢注意力(GQA)而非多頭潛在注意力(MLA),并且在MoE模塊中使用了更少但更大的專家。此外,Llama 4在每個(gè)Transformer塊中交替使用MoE模塊和密集模塊。

6. Qwen3

6.1 密集模型

Qwen3 0.6B和Llama 3 1B的架構(gòu)對比圖

圖片圖片

Qwen3的密集模型采用了較深的架構(gòu)(更多Transformer塊),具有更多的層,而 Llama 3 是一種更寬的架構(gòu),具有更多的注意力頭。Qwen3 的內(nèi)存占用較小,但生成速度較慢。

6.2 MoE模型

DeepSeek-V3 和 Qwen3 235B-A22B 的架構(gòu)比較。

圖片圖片

Qwen3的MoE模型采用了與DeepSeek V3類似的架構(gòu),但在某些細(xì)節(jié)上有所不同,例如不使用共享專家。這種設(shè)計(jì)使得模型在訓(xùn)練時(shí)能夠?qū)W習(xí)更多知識,而在推理時(shí)保持高效。

7. SmolLM3

SmolLM3 架構(gòu)看起來相當(dāng)標(biāo)準(zhǔn)。不過,最有趣的一點(diǎn)或許是它使用了 NoPE(無位置嵌入)。

Qwen3 4B 和 SmolLM3 3B 的架構(gòu)比較。

圖片圖片

7.1 無位置嵌入(NoPE)

NoPE不使用任何位置嵌入(絕對位置嵌入或旋轉(zhuǎn)位置嵌入),而是依賴因果注意力掩碼來保持序列的自回歸順序。這種設(shè)計(jì)使得模型在訓(xùn)練過程中能夠?qū)W習(xí)到隱式的位置信息。

絕對位置嵌入示例

圖片圖片

研究表明,NoPE在長度泛化方面表現(xiàn)更好,即在處理更長序列時(shí)性能下降較少。這種設(shè)計(jì)使得SmolLM3在處理長序列任務(wù)時(shí)表現(xiàn)優(yōu)異。

圖片圖片

8. Kimi 2

Kimi 2采用了DeepSeek V3的架構(gòu),并進(jìn)行了擴(kuò)展。它使用了Muon優(yōu)化器而非AdamW,這可能是其訓(xùn)練損失曲線表現(xiàn)優(yōu)異的原因之一。此外,Kimi 2在MoE模塊中使用了更多的專家,在MLA模塊中使用了更少的頭。

DeepSeek V3 和 Kimi K2 的架構(gòu)比較。

圖片圖片

這些設(shè)計(jì)使得Kimi 2在訓(xùn)練過程中表現(xiàn)優(yōu)異,訓(xùn)練損失曲線平滑且下降迅速。這可能有助于該模型躍居上述基準(zhǔn)測試的榜首

圖片 圖片

責(zé)任編輯:武曉燕 來源: 數(shù)據(jù)STUDIO
相關(guān)推薦

2025-07-31 01:00:00

LLM架構(gòu)模型

2025-08-08 09:23:00

2025-02-19 10:49:30

2025-07-17 08:14:22

2025-03-26 10:38:40

2025-02-12 08:30:18

2025-03-28 04:30:00

2025-07-16 09:29:39

2025-05-21 14:01:22

AIDeepSeek-V硬件

2025-07-22 11:38:38

2025-01-03 19:38:33

2025-04-02 02:17:00

2025-01-03 09:27:14

2025-02-10 09:42:14

2025-08-07 09:05:00

2025-05-28 01:20:00

DeepSeek-V大模型AI

2025-03-26 09:16:05

AI模型訓(xùn)練

2020-09-11 19:41:06

KubernetesK8SK3S

2025-02-14 00:00:35

2025-03-03 09:00:00

DeepSeekAI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號