偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="0sogf"></em>

<pre id="0sogf"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

硬核拆解大模型，從 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架構(gòu)

2025-08-08 09:23:00

人工智能新聞

如果從 2019 年的 GPT-2 出發(fā)，回顧至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不難發(fā)現(xiàn)一個有趣的現(xiàn)象：盡管模型能力不斷提升，但其整體架構(gòu)在這七年中保持了高度一致。

自首次提出 GPT 架構(gòu)以來，轉(zhuǎn)眼已經(jīng)過去了七年。

如果從 2019 年的 GPT-2 出發(fā)，回顧至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不難發(fā)現(xiàn)一個有趣的現(xiàn)象：盡管模型能力不斷提升，但其整體架構(gòu)在這七年中保持了高度一致。

當(dāng)然，細(xì)節(jié)上仍有不少演進。例如，位置編碼從最初的絕對位置（Absolute Positional Encoding）發(fā)展為旋轉(zhuǎn)位置編碼（RoPE）；注意力機制也從標(biāo)準(zhǔn)的多頭注意力（Multi-Head Attention）逐步過渡為更高效的分組查詢注意力（Grouped-Query Attention）；而激活函數(shù)方面，則從 GELU 被更高效的 SwiGLU 所取代。

然而，這些變化中究竟有沒有「顛覆性創(chuàng)新」？七年間，大語言模型的架構(gòu)是否真正迎來了質(zhì)的飛躍，還是仍在原有框架上不斷精雕細(xì)琢？

本文博客來自于 Sebastian Raschka，知名 AI 研究者和博主、《Python 機器學(xué)習(xí)》作者。

博客詳細(xì)列舉了 8 個主流大語言模型，包含 DeepSeek 和 Kimi 等國產(chǎn)大模型，硬核拆解了每個大模型的架構(gòu)設(shè)計和革新思路，深度介紹了現(xiàn)代最新大語言模型的架構(gòu)設(shè)計以及大模型的架構(gòu)演進趨勢。

圖 1：本文所涵蓋的部分 LLM 架構(gòu)示意圖。

DeepSeek V3/R1

DeepSeek R1 在 2025 年 1 月發(fā)布時引起了巨大反響。

DeepSeek R1 是一個以 DeepSeek V3 架構(gòu)為基礎(chǔ)構(gòu)建的推理模型，而 DeepSeek V3 最初于 2024 年 12 月推出。盡管本文重點討論 2025 年發(fā)布的架構(gòu)，但作者認(rèn)為應(yīng)當(dāng)將 DeepSeek V3 納入其中。

本節(jié)將重點介紹 DeepSeek V3 引入的兩項關(guān)鍵架構(gòu)技術(shù)，這些技術(shù)提升了其計算效率，也使其在眾多大型語言模型中脫穎而出。

若對 DeepSeek V3 關(guān)鍵技術(shù)感興趣，請參照技術(shù)報告：

論文標(biāo)題：DeepSeek-V3 Technical Report
論文鏈接：https://arxiv.org/abs/2412.19437

多頭潛在注意力機制 (MLA)

在討論多頭潛在注意力機制之前，應(yīng)從近年來被廣泛采用的分組查詢注意力機制（GQA）說起，它已成為相較于傳統(tǒng)多頭注意力機制（Multi-Head Attention, MHA）更具計算與參數(shù)效率的新標(biāo)準(zhǔn)替代方案。

下面是對 GQA 的簡要說明：與 MHA 中每個注意力頭都有自己的一組鍵（key）和值（value）不同，GQA 的做法是將多個注意力頭分組，讓它們共享相同的 key 和 value 投影，從而降低內(nèi)存使用。

如下圖 2 所示，假設(shè)有 2 組 key-value 和 4 個注意力頭，那么注意力頭 1 和 2 可以共享第一組 key 和 value，而注意力頭 3 和 4 共享第二組。這種做法減少了總的 key 和 value 計算量，降低了內(nèi)存使用，提高了效率。

圖 2：多頭注意力機制（MHA）與分組查詢注意力機制（GQA）的對比示意圖。

GQA 的核心思想是：通過讓多個 query 頭共享一組 key 和 value，從而減少 key 和 value 的總數(shù)。這帶來了兩個主要好處：

1. 降低模型參數(shù)總量；

2. 在推理時減少 KV 緩存中 key 和 value 張量的內(nèi)存帶寬使用，因為需要存取的鍵值對變少了。

接下來介紹的多頭潛在注意力機制（MLA），則提供了一種不同的內(nèi)存節(jié)省策略，并且它與 KV 緩存機制的配合更加緊密。

與 GQA 通過「共享鍵值頭」不同，MLA 是將 key 和 value 張量壓縮到一個低維潛在空間后再存入 KV 緩存。而在推理過程中，這些壓縮張量會被重新投影回原始維度再使用（如圖 3 所示）。這一過程中雖然引入了一次額外的矩陣乘法，但大大節(jié)省了內(nèi)存使用。

圖 3：多頭潛在注意力機制（MLA，應(yīng)用于 DeepSeek V3 和 R1）與常規(guī)多頭注意力機制（MHA）的對比。

值得說明的是，MLA 并不是 DeepSeek V3 首創(chuàng)的技術(shù)，它的前代模型 DeepSeek V2 就已經(jīng)使用（甚至首次提出）了該機制。

MLA 是一種非常巧妙的技術(shù)手段，能夠在提升模型表現(xiàn)的同時，大幅降低 KV 緩存的內(nèi)存占用。相比之下，它甚至略優(yōu)于傳統(tǒng)的 MHA。接下來將進入下一個架構(gòu)模塊的分析。

Mixture-of-Experts (MoE)

DeepSeek 架構(gòu)中另一個值得重點關(guān)注的重要組成部分是它對 MoE（Mixture-of-Experts，專家混合）層的應(yīng)用。雖然 MoE 并非由 DeepSeek 首創(chuàng)，但這一技術(shù)在 2025 年迎來了回歸，在后文介紹的許多架構(gòu)中也能看到它的身影。

MoE 的核心思想是：將 Transformer 中的每個前饋模塊（FeedForward）替換為多個「專家層」（每個專家層本質(zhì)上也是一個前饋網(wǎng)絡(luò)）。也就是說，原本單一的前饋結(jié)構(gòu)被替換為多個并行的前饋子模塊，具體如圖 5 所示。

圖 5：右圖展示了 DeepSeek V3/R1 中 Mixture-of-Experts（MoE）模塊的結(jié)構(gòu)，對比左圖中標(biāo)準(zhǔn) LLM 所使用的普通前饋模塊。

在 Transformer 塊內(nèi)部的前饋模塊（上圖中的深灰色塊）通常占據(jù)了模型總參數(shù)量的很大一部分。

因此，將一個前饋模塊替換為多個前饋模塊（即構(gòu)建 MoE 結(jié)構(gòu)）會顯著增加模型的總參數(shù)量。不過，關(guān)鍵的技巧在于：并不為每個 token 啟用所有的專家模塊（experts），而是由一個「路由器（router）」為每個 token 挑選出其中一小部分進行激活。MoE 的這種設(shè)計使得模型擁有極大的參數(shù)容量，在訓(xùn)練階段能吸收更多知識；但在推理時由于稀疏激活，大幅降低了計算開銷。

舉個例子：DeepSeek-V3 每個 MoE 模塊中擁有 256 個專家，總參數(shù)量高達 6710 億。但在推理時，每個 token 實際只激活其中 9 個專家（1 個共享專家 + 路由選出的 8 個專家）

圖 6：DeepSeekMoE 的注釋圖

關(guān)于 DeepSeek MoE 的更多細(xì)節(jié)，請參閱以下論文：

論文標(biāo)題：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
論文鏈接：https://arxiv.org/abs/2401.06066

在 DeepSpeedMoE 論文中首次指出，引入「共享專家」（shared expert）可以顯著提升模型整體的建模性能。其原理很可能是：對于通用或重復(fù)性強的模式，不需要多個專家分別學(xué)習(xí)；只需由共享專家統(tǒng)一處理，從而釋放出其他專家的容量，專注于學(xué)習(xí)更加專業(yè)的知識模式。

OLMo 2

由非營利機構(gòu) Allen Institute for AI 發(fā)布的 OLMo 系列模型，因其在訓(xùn)練數(shù)據(jù)、代碼和技術(shù)報告方面的高度透明而備受關(guān)注。

OLMo 模型結(jié)構(gòu)清晰、設(shè)計規(guī)范，更重要的是，由于極高的透明度，它們?yōu)榇笳Z言模型的開發(fā)提供了極佳的參考范式。

在 OLMo 2 中有哪些值得注意的架構(gòu)設(shè)計選擇呢？

主要集中在歸一化策略上：包括 RMSNorm 層的位置安排，以及 QK-norm（Query-Key 歸一化）的引入。

另一個值得一提的是，OLMo 2 仍采用傳統(tǒng)的多頭注意力機制（MHA），并未采用 MLA 或 GQA 等新型注意力結(jié)構(gòu)。

關(guān)于更多 OLMo 2 的細(xì)節(jié)信息，請參照論文：

論文標(biāo)題：2 OLMo 2 Furious
論文鏈接：https://arxiv.org/abs/2501.00656

歸一化層位置選擇

總體而言，OLMo 2 在架構(gòu)上大體沿用了最初 GPT 模型的設(shè)計，與當(dāng)前多數(shù)主流大型語言模型相似。但它也存在一些值得關(guān)注的不同之處，先從歸一化層的設(shè)計說起。

與 Llama、Gemma 以及大多數(shù)現(xiàn)代 LLM 一樣，OLMo 2 將歸一化方法從 LayerNorm 替換為 RMSNorm。

真正值得討論的是 RMSNorm 的位置選擇。在最初的 Transformer 架構(gòu)中，兩個歸一化層分別位于注意力模塊和前饋模塊之后，這種結(jié)構(gòu)被稱為 Post-LN 或后歸一化（Post-Norm）。

而 GPT 及其后大多數(shù)的 LLM 模型，則將歸一化層放在注意力模塊和前饋模塊的之前，這種做法稱為 Pre-LN 或前歸一化（Pre-Norm）。

下圖展示了 Post-Norm 與 Pre-Norm 的結(jié)構(gòu)對比：

圖 8：Post-Norm、Pre-Norm 以及 OLMo 2 采用的 Post-Norm 變體的對比圖。

早在 2020 年，Xiong 等人就指出 Pre-LN 在模型初始化時可以帶來更穩(wěn)定的梯度。此外，研究人員還提到，Pre-LN 即使在不使用學(xué)習(xí)率預(yù)熱的情況下也能正常訓(xùn)練，而這是 Post-LN 通常難以做到的。

在 OLMo 2 中，歸一化層并不是放在注意力層和前饋網(wǎng)絡(luò)之前，而是放在之后，如上圖所示。然而，與最初 Transformer 架構(gòu)不同的是，這些歸一化層仍然嵌套在殘差層內(nèi)部。

那么，他們?yōu)楹我{(diào)整歸一化層的位置呢？

原因在于這種設(shè)計有助于提升訓(xùn)練的穩(wěn)定性，這一點將在下圖中進行展示。

圖 9：展示了 Pre-Norm（如 GPT-2、Llama 3 等所采用）與 OLMo 2 所采用的 Post-Norm 變體在訓(xùn)練穩(wěn)定性方面的對比。

不過遺憾的是，這張圖展示的結(jié)果同時包含了歸一化順序調(diào)整和 QK-Norm 兩個因素，而后者是一個獨立的概念。因此很難明確判斷，歸一化位置的改變對訓(xùn)練穩(wěn)定性的提升到底貢獻了多少。

QK-Norm

QK-Norm 本質(zhì)上是另一個 RMSNorm 層，它被放置在多頭注意力模塊內(nèi)部，在應(yīng)用旋轉(zhuǎn)位置編碼（RoPE）之前，對 Query 和 Key 進行歸一化處理。

如前所述，QK-Norm 與 Post-Norm 結(jié)合使用，有助于穩(wěn)定訓(xùn)練過程。關(guān)于 QK-Norm 更多細(xì)節(jié)，請參閱以下論文：

論文標(biāo)題：Scaling Vision Transformers
論文鏈接：https://arxiv.org/abs/2106.04560

簡而言之，OLMo 2 架構(gòu)中的主要設(shè)計亮點是 RMSNorm 的放置方式：將 RMSNorm 放置在注意力模塊和前饋模塊之后（屬于 Post-Norm 的一種變體），并在注意力機制中對 query 和 key 引入額外的 RMSNorm（即 QK-Norm）。這兩項改動結(jié)合使用，有助于穩(wěn)定訓(xùn)練損失。

下圖展示了 OLMo 2 與 Llama 3 的架構(gòu)對比；可以看到，除了 OLMo 2 仍使用傳統(tǒng)的 MHA 而非 GQA 外，二者在整體結(jié)構(gòu)上相對接近。

圖 10：Llama 3 與 OLMo 2 的架構(gòu)對比圖。

Gemma 3

谷歌的 Gemma 系列模型一直表現(xiàn)非常出色，但相比于 Llama 系列等熱門模型，它們的關(guān)注度似乎總是略顯不足。

Gemma 3 在架構(gòu)上使用了另一種「技巧」來降低計算成本：滑動窗口注意力（sliding window attention）。

借助滑動窗口注意力機制，Gemma 3 團隊成功大幅降低了 KV 緩存的內(nèi)存需求，具體效果如下圖所示。

圖 11：Gemma 3 的 KV 緩存內(nèi)存節(jié)省效果。

如果把常規(guī)的自注意力看作一種「全局」注意力機制，因為序列中的每個元素都可以訪問其他所有元素，那么滑動窗口注意力則可以看作是一種「局部」注意力機制，因為它限制了當(dāng)前查詢位置周圍的上下文范圍。下圖展示了這一機制的原理。

圖 12：常規(guī)注意力機制（左）與滑動窗口注意力機制（右）的對比圖。

需要注意的是，滑動窗口注意力機制既可以與多頭注意力配合使用，也可以與分組查詢注意力（GQA）一起使用；Gemma 3 就采用了 GQA。

如上所述，滑動窗口注意力也被稱為「局部注意力」，因為其關(guān)注的上下文僅限于圍繞當(dāng)前查詢位置的一個局部窗口，并且該窗口會隨著查詢位置的移動而滑動。相對地，常規(guī)注意力機制則是「全局」的，每個 token 都可以訪問所有其他 token。

雖然滑動窗口注意力是 Gemma 3 架構(gòu)中最顯著的特點，但作為對前文 OLMo 2 部分的補充，在此簡要介紹一下 Gemma 3 中歸一化層的放置方式。

一個小但有趣的細(xì)節(jié)是：Gemma 3 在其 GQA 模塊周圍同時使用了 RMSNorm 的 Pre-Norm 和 Post-Norm 形式。

這與 Gemma 2 的做法類似，但依然值得強調(diào)，因為它不同于以下幾種主流做法：

1. 原始 Transformer 架構(gòu)使用的 Post-Norm；

2. 由 GPT-2 推廣、并被許多后續(xù)架構(gòu)采用的 Pre-Norm；

3. 前文在 OLMo 2 中看到的、特殊的 Post-Norm 變體。

Gemma 3 的這種雙重歸一化策略展示了一種不同尋常的歸一化設(shè)計選擇，可能與其在推理效率和訓(xùn)練穩(wěn)定性之間的權(quán)衡有關(guān)。

圖 14：OLMo 2 與 Gemma 3 的架構(gòu)對比；請注意 Gemma 3 中額外的歸一化層。

這種歸一化層的放置方式相對直觀，因為它結(jié)合了 Pre-Norm 和 Post-Norm 的優(yōu)勢。

作者認(rèn)為，多加一點歸一化并無壞處。

關(guān)于 Gemma 3 的更多細(xì)節(jié)，請參閱技術(shù)報告：

論文標(biāo)題：Gemma 3 Technical Report
論文鏈接：https://arxiv.org/abs/2503.19786

Mistral Small 3.1

Mistral Small 3.1 24B 于今年 3 月發(fā)布，緊隨 Gemma 3 之后。它值得關(guān)注的一個原因是，在多個基準(zhǔn)測試中，其表現(xiàn)優(yōu)于 Gemma 3 27B，同時推理速度更快。

造成 Mistral Small 3.1 推理延遲低于 Gemma 3 的主要原因，可能在于其定制的分詞器（tokenizer），以及更小的 KV 緩存和更少的層數(shù)。除此之外，它整體上采用的是標(biāo)準(zhǔn)架構(gòu)，如下圖所示。

圖 16：Gemma 3 27B 與 Mistral 3.1 Small 24B 的架構(gòu)對比圖。

有趣的是，早期的 Mistral 模型曾使用滑動窗口注意力機制，但在 Mistral Small 3.1 中似乎放棄了這一設(shè)計。

與使用滑動窗口的 Gemma 3 不同，Mistral 采用了常規(guī)的 GQA。

作者推測，盡管滑動窗口注意力可以降低內(nèi)存使用，但它并不一定能降低推理延遲，而這正是 Mistral Small 3.1 所優(yōu)先關(guān)注的性能指標(biāo)。

Llama 4

前文對專家混合模型（MoE）的詳細(xì)介紹又派上用場了。

Llama 4 同樣采用了 MoE 架構(gòu)，其余部分則延續(xù)了較為標(biāo)準(zhǔn)的設(shè)計，整體架構(gòu)與 DeepSeek-V3 非常相似，如下圖所示。

圖 17：DeepSeek V3（6710 億參數(shù)）與 Llama 4 Maverick（4000 億參數(shù)）架構(gòu)對比圖。

盡管 Llama 4 Maverick 的整體架構(gòu)看起來與 DeepSeek-V3 非常相似，但其中仍有一些值得注意的差異。

首先，Llama 4 采用了與其前代模型相同的 GQA，而 DeepSeek-V3 則使用了 MLA。

這兩款模型都是非常龐大的架構(gòu)，DeepSeek-V3 的總參數(shù)量大約比 Llama 4 Maverick 多出 68%。但從實際推理中參與計算的參數(shù)數(shù)量來看，DeepSeek-V3 啟用的參數(shù)達 370 億，是 Llama 4 Maverick（170 億）的兩倍多。

在 MoE 設(shè)置方面，Llama 4 Maverick 使用的是更為傳統(tǒng)的架構(gòu)：每次僅激活 2 個專家，每個專家的隱藏層維度為 8192；而 DeepSeek-V3 每次激活 9 個專家，每個專家的隱藏層維度為 2048。此外，DeepSeek 在除了前 3 層外的每個 Transformer Block 中都插入了 MoE 層，而 Llama 4 則是交替使用 MoE 模塊和密集（Dense）模塊，即每隔一個 Block 加一次 MoE。

可以明確的一點是，MoE 架構(gòu)在 2025 年迎來了顯著的發(fā)展與普及。

Qwen3

Qwen 團隊一直以來都在穩(wěn)定輸出高質(zhì)量的開源大語言模型。在 NeurIPS 2023 的 LLM 效率挑戰(zhàn)賽時，最終獲勝的方案全部基于 Qwen2 構(gòu)建。

而如今，Qwen3 系列再次成為各自參數(shù)規(guī)模下的榜單冠軍，表現(xiàn)依舊亮眼。

Qwen3 (Dense)

先來看看 Qwen3 Dense 模型架構(gòu)。截至目前，Qwen3 0.6B 可能是當(dāng)前世代中體量最小的開源權(quán)重模型之一。

在本地運行時，它具有很高的每秒生成 token 數(shù)（token/sec）和很低的顯存占用，非常適合輕量部署。而且因為參數(shù)量小，對于想在本地進行訓(xùn)練實驗（例如教學(xué)用途）的人來說，也非常友好。

圖 18：Qwen3 0.6B 與 Llama 3 1B 架構(gòu)對比圖。可以看到，Qwen3 架構(gòu)更深（有更多的 transformer 層），而 Llama 3 架構(gòu)更寬（具有更多的注意力頭）。

Qwen3 (MoE)

如前所述，Qwen3 系列還包括兩個 MoE（Sparse）變體。那么，為什么像 Qwen3 這樣的架構(gòu)會同時發(fā)布普通（Dense）和 MoE（Sparse）版本呢？

正如本文開頭所提到的，MoE 變體旨在降低大規(guī)模基礎(chǔ)模型的推理成本。提供 Dense 和 MoE 兩種版本，可以讓用戶根據(jù)不同的目標(biāo)與資源約束靈活選擇。

通過同時發(fā)布這兩類模型，Qwen3 系列能夠覆蓋更廣泛的應(yīng)用場景：致密模型強調(diào)魯棒性、簡單性和可微調(diào)性；MoE 模型則面向大規(guī)模部署中的推理效率。

圖 19：DeepSeek-V3 與 Qwen3 235B-A22B 架構(gòu)對比。

如上圖所示，DeepSeek-V3 和 Qwen3 235B-A22B 在架構(gòu)上非常相似。不過值得注意的是，Qwen3 模型取消了共享專家（此前的 Qwen2.5-MoE 等模型采用了共享專家機制）。

遺憾的是，Qwen3 團隊并未公開說明他們放棄共享專家的原因。

作者猜測，可能是因為在將專家數(shù)量從 Qwen2.5-MoE 的 2 個增加到 Qwen3 的 8 個之后，訓(xùn)練穩(wěn)定性已經(jīng)不再依賴共享專家。因此，他們選擇省略共享專家，以節(jié)省額外的計算和顯存開銷（避免從 8 個增加到 8+1 個專家）。不過，這并不能解釋為何 DeepSeek-V3 至今仍保留共享專家機制。

SmolLM3

SmolLM3 或許不像本文其他提到的大模型那樣廣為人知，但作者認(rèn)為它依然值得納入討論，因為該模型在僅有約 30 億參數(shù)的體量下，展現(xiàn)出非常出色的建模性能，定位介于 Qwen3 的 17 億參數(shù)模型與 40 億參數(shù)模型之間，如下圖所示。

此外，SmolLM3 也像 OLMo 一樣公開了大量訓(xùn)練細(xì)節(jié)，這在業(yè)內(nèi)并不常見，因此尤為值得稱贊。

圖 20：SmolLM3 相較于 Qwen3 1.7B 和 4B，以及 Llama 3 3B 和 Gemma 3 4B 的勝率比較。

如下面的架構(gòu)對比圖所示，SmolLM3 的整體結(jié)構(gòu)相對標(biāo)準(zhǔn)。不過，其中最有趣的一點或許是它采用了無位置嵌入（NoPE）機制。

圖 21：Qwen3 4B 與 SmolLM3 3B 的并排架構(gòu)對比圖。

在 LLM 的背景下，NoPE 是一種較早提出的理念，該方法旨在移除顯式的位置編碼信息注入機制，例如早期 GPT 架構(gòu)中常用的絕對位置嵌入，或當(dāng)前主流的 RoPE（旋轉(zhuǎn)位置編碼）。

在基于 Transformer 的語言模型中，位置編碼通常是必要的，因為自注意力機制默認(rèn)對輸入序列中的 token 順序不敏感，即每個 token 被獨立處理。為了解決這一問題，絕對位置嵌入通過添加一個額外的嵌入層，將位置信息與 token 嵌入相加，從而為模型提供序列順序感知能力。

圖 22：展示了絕對位置嵌入的機制。

相比之下，RoPE 通過將 Query 和 Key 向量按 token 的位置進行旋轉(zhuǎn)來注入位置信息。

而在 NoPE 層中，則完全不加入任何位置編碼信息：沒有固定的、沒有可學(xué)習(xí)的，也沒有相對位置編碼 —— 什么都沒有。

即使沒有顯式的位置編碼，模型依然可以通過因果注意力掩碼知道哪些 token 是在前面。這個掩碼會阻止每個 token 訪問其后的 token，從而保證了自回歸順序的正確性。也就是說，位于位置 t 的 token 只能「看到」位置小于等于 t 的 token。

總結(jié)來說，NoPE 不僅不需要注入位置編碼，還在序列長度泛化方面更具優(yōu)勢。也就是說，隨著輸入序列長度的增加，模型的表現(xiàn)下降幅度更小。如下圖所示：

圖 23：展示了 NoPE 在長度泛化上的優(yōu)勢表現(xiàn)。

正因如此，SmolLM3 團隊在實際應(yīng)用中，并未在每一層都使用 NoPE，而是選擇在每 4 層中使用一次 NoPE（或說每 4 層省略一次 RoPE），作為一種折中策略。

關(guān)于 NoPE 的更多細(xì)節(jié)，請參閱以下論文：

論文標(biāo)題：The Impact of Positional Encoding on Length Generalization in Transformers
論文鏈接：https://arxiv.org/abs/2305.19466

Kimi K2

Kimi K2 最近因其出色的性能在 AI 社區(qū)引起了巨大反響。作為一個開源權(quán)重模型，它在多個基準(zhǔn)測試中表現(xiàn)堪比 Google 的 Gemini、Anthropic 的 Claude 和 OpenAI 的 ChatGPT 等頂級閉源模型。

一個值得注意的方面是，它在訓(xùn)練中首次在此規(guī)模的生產(chǎn)級模型中使用了 Muon 優(yōu)化器的變體，而非傳統(tǒng)的 AdamW。

據(jù)作者所知，這是 Muon 優(yōu)化器首次在超大模型中應(yīng)用（此前僅在最多 160 億參數(shù)規(guī)模上展示過可擴展性）。這一選擇帶來了極為理想的訓(xùn)練損失曲線，很可能正是 Kimi K2 能在上述各項基準(zhǔn)測試中脫穎而出的重要原因。

Kimi K2 的參數(shù)規(guī)模達到了 1 萬億（1T），這無疑令人印象深刻。它可能是目前這一代中最大的 LLM（截至本文撰寫時），在不考慮尚未發(fā)布的 Llama 4 Behemoth、閉源模型以及架構(gòu)不同的 Google 1.6 萬億 Switch Transformer（其為編碼器 - 解碼器模型）前提下，Kimi K2 幾乎是無出其右的。

從架構(gòu)上看，Kimi K2 基于本文開頭提到的 DeepSeek-V3 架構(gòu)，但進行了更大規(guī)模的擴展和增強，如下圖所示（圖略）。這也標(biāo)志著一種「循環(huán)回歸」：Kimi K2 將 DeepSeek-V3 的設(shè)計理念推向了極致。

如上圖所示，Kimi K2 在整體架構(gòu)上基本與 DeepSeek V3 保持一致，主要的差異在于：

Kimi K2 在 MoE 模塊中使用了更多的專家，
在 MLA 模塊中使用了更少的注意力頭（heads）。

在歷經(jīng)數(shù)年之后，LLM 的發(fā)布依然充滿驚喜與期待。新技術(shù)永遠(yuǎn)讓人心潮澎湃，永遠(yuǎn)期待更多的大模型架構(gòu)改進的出現(xiàn)。

更多信息請參閱原博客：

博客鏈接：https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="uoccn"></nobr>