偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="qtdb1"></em><tt id="qtdb1"></tt><s id="qtdb1"><nav id="qtdb1"></nav></s>

<pre id="qtdb1"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepSeek-V3：硬件與模型的完美統(tǒng)協(xié)，奏響 AI 高效新樂章

作者：肆零柒 2025-05-28 01:20:00

DeepSeek-V3 通過硬件感知的模型協(xié)同設(shè)計(jì)，在 2048 個(gè) NVIDIA H800 GPU 上實(shí)現(xiàn)了成本高效的訓(xùn)練和推理，為解決大型語(yǔ)言模型（LLM）面臨的內(nèi)存、計(jì)算和通信瓶頸提供了新的思路和方法。

大家好，我是肆〇柒。DeepSeek-V3 曾經(jīng)一度備受全球矚目，從 V3 發(fā)布至今，這一開源模型已經(jīng)在眾多企業(yè)場(chǎng)景中成功落地。然而，在落地過程中，由于其復(fù)雜的工程細(xì)節(jié)，相信許多團(tuán)隊(duì)也遇到了不少挑戰(zhàn)。剛好，我最近讀到一篇論文——《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》。這篇論文相比于 DeepSeek 的技術(shù)報(bào)告，更加深入探討了 DeepSeek-V3 在硬件與模型協(xié)同設(shè)計(jì)方面的創(chuàng)新實(shí)踐，不僅揭示了 DeepSeek-V3 如何巧妙應(yīng)對(duì)大規(guī)模語(yǔ)言模型（LLM）在內(nèi)存容量、計(jì)算效率和通信帶寬等方面的挑戰(zhàn)，還為我們展示了未來(lái) AI 硬件架構(gòu)發(fā)展的新方向。

這些內(nèi)容將有助于大家更加深刻地理解 DeepSeek 的工程優(yōu)化細(xì)節(jié)，從而在進(jìn)行私有化落地時(shí)，能夠結(jié)合具體業(yè)務(wù)場(chǎng)景，更好地理解并解決遇到的問題。下面就一起來(lái)了解一下。

DeepSeek-V3 的模型架構(gòu)設(shè)計(jì)

Multi-head Latent Attention（MLA）

Multi-head Latent Attention（MLA）是 DeepSeek-V3 中一項(xiàng)關(guān)鍵的創(chuàng)新技術(shù)，它巧妙地解決了傳統(tǒng)注意力機(jī)制在處理長(zhǎng)序列和多輪對(duì)話時(shí)面臨的內(nèi)存瓶頸問題。在傳統(tǒng)的 Transformer 架構(gòu)中，注意力機(jī)制需要存儲(chǔ)大量的 Key-Value（KV）緩存，以便在生成后續(xù) token 時(shí)進(jìn)行計(jì)算。然而，這種方法在內(nèi)存消耗方面十分巨大，尤其是當(dāng)處理長(zhǎng)序列或需要多輪對(duì)話交互時(shí)，KV 緩存的存儲(chǔ)需求會(huì)呈指數(shù)級(jí)增長(zhǎng)，嚴(yán)重限制了模型的擴(kuò)展性和推理速度。

MLA 的核心思想是通過一個(gè)投影矩陣，將所有注意力頭的 KV 表示壓縮到一個(gè)更小的潛在向量中。這個(gè)潛在向量不僅能夠保留原始 KV 緩存的關(guān)鍵信息，還能在很大程度上減少內(nèi)存占用。在推理過程中，只需要緩存這個(gè)潛在向量，就可以在后續(xù)的計(jì)算中重建出所需的 KV 信息，從而大大降低了內(nèi)存消耗。

MLA 的實(shí)現(xiàn)原理可以表示為如下公式：

其中，表示潛在向量，是投影矩陣，是輸入隱藏狀態(tài)。通過這種方式，MLA 將每個(gè)注意力頭的 KV 表示壓縮到一個(gè)共享的潛在空間中。在解碼階段，根據(jù)潛在向量重建 KV 緩存的公式為：

在這里，和分別是重建 Key 和 Value 的投影矩陣。通過這種潛在向量的壓縮與重建機(jī)制，MLA 在保證模型性能的同時(shí)，顯著減少了內(nèi)存占用。

如圖表所示，在與其他模型的對(duì)比中，DeepSeek-V3 的 MLA 技術(shù)展現(xiàn)出了卓越的內(nèi)存壓縮效果。

Model	KV Cache Per Token	Multiplier
DeepSeek-V3 (MLA)	70.272 KB	1x
Qwen-2.5 72B (GQA)	327.680 KB	4.66x
LLaMA-3.1 405B (GQA)	516.096 KB	7.28x

例如，與 LLaMA-3.1 405B 相比，DeepSeek-V3 的 KV 緩存大小僅為后者的左右，這對(duì)于需要處理長(zhǎng)序列和多輪對(duì)話的場(chǎng)景來(lái)說(shuō)，無(wú)疑是一個(gè)巨大的優(yōu)勢(shì)。這不僅使得模型能夠處理更長(zhǎng)的上下文，還大大提高了推理速度，降低了對(duì)硬件內(nèi)存資源的要求。

DeepSeek-V3 的基本架構(gòu)上圖展示了 DeepSeek-V3 的基本架構(gòu)，其中融合了 DeepSeek-V2 的 MLA 和 DeepSeekMoE 架構(gòu)，并引入了多 token 預(yù)測(cè)模塊和 FP8 混合精度訓(xùn)練，以提升推理和訓(xùn)練效率。圖中還標(biāo)明了不同部分計(jì)算所使用的精度，所有組件的輸入和輸出均采用 BF16。

Mixture of Experts（MoE）架構(gòu)的原理與協(xié)同

Mixture of Experts（MoE）架構(gòu)是一種稀疏計(jì)算模型，它通過在不同的計(jì)算任務(wù)中選擇性地激活不同的專家網(wǎng)絡(luò)，從而實(shí)現(xiàn)模型規(guī)模的擴(kuò)展，同時(shí)避免了計(jì)算資源的浪費(fèi)。DeepSeek-V3 中的 MoE 架構(gòu)采用了先進(jìn)的門控機(jī)制和專家選擇策略，以確保在每個(gè) token 的處理過程中，只有最相關(guān)的專家網(wǎng)絡(luò)被激活。

MoE 架構(gòu)的算法邏輯可以分為以下幾個(gè)關(guān)鍵步驟：

1. 專家選擇（Expert Selection）

在 MoE 架構(gòu)中，輸入數(shù)據(jù)首先被傳遞到一個(gè)門控網(wǎng)絡(luò)（Gating Network）。門控網(wǎng)絡(luò)的作用是根據(jù)輸入數(shù)據(jù)的特征，計(jì)算出每個(gè)專家網(wǎng)絡(luò)的權(quán)重分?jǐn)?shù)。這些權(quán)重分?jǐn)?shù)反映了每個(gè)專家網(wǎng)絡(luò)對(duì)當(dāng)前輸入數(shù)據(jù)的適用性。具體來(lái)說(shuō)，門控網(wǎng)絡(luò)會(huì)輸出一個(gè)概率分布，表示每個(gè)專家網(wǎng)絡(luò)被選中的概率。通常，門控網(wǎng)絡(luò)會(huì)采用一個(gè) softmax 函數(shù)來(lái)生成這些概率值。例如，對(duì)于一個(gè)包含 ( N ) 個(gè)專家網(wǎng)絡(luò)的 MoE 架構(gòu)，門控網(wǎng)絡(luò)的輸出可以表示為：

其中，是輸入數(shù)據(jù)，和是門控網(wǎng)絡(luò)的權(quán)重和偏置參數(shù)，是門控網(wǎng)絡(luò)的輸出，表示每個(gè)專家網(wǎng)絡(luò)的權(quán)重分?jǐn)?shù)。

在實(shí)際應(yīng)用中，通常會(huì)選擇權(quán)重分?jǐn)?shù)最高的前個(gè)專家網(wǎng)絡(luò)進(jìn)行激活。這種方法被稱為“Top-K 選擇”。例如，如果，則每個(gè)輸入數(shù)據(jù)只會(huì)激活權(quán)重分?jǐn)?shù)最高的兩個(gè)專家網(wǎng)絡(luò)。這種稀疏激活機(jī)制大大減少了計(jì)算量，同時(shí)保留了模型的多樣性。

2. 專家處理（Expert Processing）

一旦選定了要激活的專家網(wǎng)絡(luò)，這些專家網(wǎng)絡(luò)將對(duì)輸入數(shù)據(jù)進(jìn)行處理。每個(gè)專家網(wǎng)絡(luò)是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)，通常具有相同的架構(gòu)，但權(quán)重不同。專家網(wǎng)絡(luò)的輸出可以表示為：

其中，表示第個(gè)專家網(wǎng)絡(luò)的函數(shù)，是第個(gè)專家網(wǎng)絡(luò)的輸出。每個(gè)專家網(wǎng)絡(luò)的輸出都是對(duì)輸入數(shù)據(jù)的一種解釋或表示。

3. 結(jié)果融合（Result Fusion）

在所有被激活的專家網(wǎng)絡(luò)完成處理后，需要將它們的輸出結(jié)果進(jìn)行融合，以生成最終的輸出。融合過程通?；陂T控網(wǎng)絡(luò)計(jì)算出的權(quán)重分?jǐn)?shù)進(jìn)行加權(quán)求和。具體來(lái)說(shuō)，最終輸出可以表示為：

其中，是第個(gè)專家網(wǎng)絡(luò)的權(quán)重分?jǐn)?shù)，是第個(gè)專家網(wǎng)絡(luò)的輸出。這種加權(quán)求和的方式確保了每個(gè)專家網(wǎng)絡(luò)的貢獻(xiàn)與其重要性成正比。

這種架構(gòu)與 Multi-head Latent Attention（MLA）協(xié)同工作，共同優(yōu)化了計(jì)算 - 通信權(quán)衡。MLA 在注意力機(jī)制層面減少了內(nèi)存消耗和通信開銷，而 MoE 則通過稀疏激活的方式，降低了計(jì)算復(fù)雜度和通信壓力。兩者相互配合，使得 DeepSeek-V3 在大規(guī)模訓(xùn)練和推理過程中，能夠更高效地利用硬件資源，實(shí)現(xiàn)性能的顯著提升。

從實(shí)驗(yàn)數(shù)據(jù)可以看出，MoE 架構(gòu)在參數(shù)規(guī)模和計(jì)算成本方面具有明顯的優(yōu)勢(shì)。例如，DeepSeek-V3 的參數(shù)規(guī)模達(dá)到了 671B，但每個(gè) token 激活的計(jì)算量?jī)H為 37B，遠(yuǎn)低于密集模型在相同參數(shù)規(guī)模下的計(jì)算需求。這表明 MoE 架構(gòu)能夠在保持模型性能的同時(shí)，大幅降低計(jì)算資源的消耗，提高模型的性價(jià)比和可擴(kuò)展性。

下表列出了 MoE 和密集模型的訓(xùn)練計(jì)算成本對(duì)比，在序列長(zhǎng)度為 4096 的情況下，DeepSeek-V3 的訓(xùn)練計(jì)算成本僅為每 token 250 GFLOPS，而 Qwen-72B 密集模型和 LLaMA-405B 密集模型的訓(xùn)練計(jì)算成本分別高達(dá)每 token 394 GFLOPS 和 2448 GFLOPS。

模型名稱	訓(xùn)練計(jì)算成本 (GFLOPS/Token)
DeepSeek-V3 MoE	250
Qwen-72B Dense	394
LLaMA-405B Dense	2448

FP8 混合精度訓(xùn)練

FP8 混合精度訓(xùn)練是 DeepSeek-V3 提升訓(xùn)練效率和模型性能的又一重要?jiǎng)?chuàng)新。與傳統(tǒng)的 FP16 和 FP32 精度訓(xùn)練相比，F(xiàn)P8 在內(nèi)存占用和計(jì)算速度方面具有顯著的優(yōu)勢(shì)。然而，由于其較低的精度，F(xiàn)P8 訓(xùn)練也面臨著數(shù)值穩(wěn)定性和模型收斂性等挑戰(zhàn)。

為了充分發(fā)揮 FP8 的優(yōu)勢(shì)，同時(shí)保證訓(xùn)練的穩(wěn)定性，DeepSeek-V3 采用了以下關(guān)鍵策略：

1. 高精度累積 ：在計(jì)算梯度時(shí)，采用 FP32 精度進(jìn)行累積，以避免數(shù)值下溢和上溢問題，確保訓(xùn)練過程的穩(wěn)定性。
2. 細(xì)粒度量化 ：對(duì)激活和模型權(quán)重進(jìn)行細(xì)粒度量化，采用 1x128 的 tile-wise 量化和 128x128 的 block-wise 量化策略，以減少量化誤差，提高模型精度。
3. 張量核心優(yōu)化 ：充分利用 NVIDIA GPU 的張量核心（Tensor Cores），實(shí)現(xiàn) FP8 矩陣乘法的高效計(jì)算，加速訓(xùn)練過程。

從實(shí)驗(yàn)數(shù)據(jù)來(lái)看，F(xiàn)P8 混合精度訓(xùn)練在 DeepSeek-V3 中取得了良好的平衡效果。與 FP16 相比，F(xiàn)P8 能夠?qū)?nèi)存占用減少約 50%，同時(shí)在訓(xùn)練速度上也有顯著提升。盡管在某些情況下可能會(huì)出現(xiàn)精度損失，但通過上述優(yōu)化策略，DeepSeek-V3 將相對(duì)精度損失控制在了 0.25% 以內(nèi)，幾乎不會(huì)對(duì)模型的最終性能產(chǎn)生明顯影響。這表明 FP8 混合精度訓(xùn)練是一種極具潛力的訓(xùn)練方法，能夠在保證模型質(zhì)量的前提下，大幅提高訓(xùn)練效率，降低硬件成本。

內(nèi)存效率優(yōu)化的實(shí)踐

低精度模型

低精度模型，如 FP8，在內(nèi)存消耗方面的表現(xiàn)令人矚目。與傳統(tǒng)的 BF16 模型相比，F(xiàn)P8 將內(nèi)存占用減少了一半，這對(duì)于緩解 AI 內(nèi)存墻問題具有重要意義。在現(xiàn)代 AI 系統(tǒng)中，內(nèi)存資源往往成為限制模型規(guī)模和性能的關(guān)鍵因素。通過采用低精度模型，可以在不顯著降低模型性能的情況下，大幅度減少內(nèi)存占用，提高系統(tǒng)的整體效率。

然而，低精度模型的實(shí)現(xiàn)并非一帆風(fēng)順。它需要在硬件和軟件層面進(jìn)行深入的優(yōu)化和協(xié)調(diào)。在硬件方面，需要確保 GPU 等計(jì)算設(shè)備能夠高效地支持 FP8 等低精度計(jì)算。例如，NVIDIA 的 Hopper 架構(gòu) GPU 就對(duì) FP8 計(jì)算提供了一定的支持，但這仍然需要軟件層面的進(jìn)一步優(yōu)化。在軟件方面，需要開發(fā)專門的量化算法和訓(xùn)練框架，以確保低精度模型能夠在訓(xùn)練和推理過程中保持良好的性能。

此外，低精度模型在不同硬件平臺(tái)上的適用性也需要仔細(xì)評(píng)估。例如，在某些對(duì)精度要求較高的應(yīng)用場(chǎng)景中，可能需要對(duì)低精度模型進(jìn)行進(jìn)一步的優(yōu)化和調(diào)整，以滿足特定的業(yè)務(wù)需求。同時(shí)，還需要考慮不同硬件平臺(tái)的內(nèi)存架構(gòu)和計(jì)算能力，以充分發(fā)揮低精度模型的優(yōu)勢(shì)。

下表對(duì)比了 DeepSeek-V3 與其他模型的 KV 緩存大小，在 BF16 精度下，DeepSeek-V3 的 MLA 技術(shù)顯著減少了 KV 緩存占用。DeepSeek-V3 每個(gè) token 僅需 70.272 KB，而 Qwen-2.5 72B 和 LLaMA-3.1 405B 分別需要 327.680 KB 和 516.096 KB。

模型名稱	KV 緩存大小 (KB/Token)	縮小倍數(shù)
DeepSeek-V3 (MLA)	70.272	1x
Qwen-2.5 72B (GQA)	327.680	4.66x
LLaMA-3.1 405B (GQA)	516.096	7.28x

MLA 壓縮 KV 緩存的效果量化

如論文中所述，MLA 技術(shù)在壓縮 KV 緩存方面取得了顯著的成果。通過將 KV 表示壓縮到潛在向量中，MLA 大大減少了 KV 緩存的存儲(chǔ)需求。具體來(lái)說(shuō)，DeepSeek-V3 的 MLA 實(shí)現(xiàn)將 KV 緩存大小降低到了每個(gè) token 僅需 70.272 KB，而相比之下，Qwen-2.5 72B（采用 GQA 技術(shù)）的每個(gè) token KV 緩存大小為 327.680 KB，LLaMA-3.1 405B（同樣采用 GQA 技術(shù)）的每個(gè) token KV 緩存大小更是高達(dá) 516.096 KB。這表明 MLA 在 KV 緩存壓縮方面具有明顯的優(yōu)勢(shì)。

這種 KV 緩存的壓縮對(duì)于模型的性能有著深遠(yuǎn)的影響。首先，在推理速度方面，較小的 KV 緩存意味著更少的內(nèi)存訪問和數(shù)據(jù)傳輸，從而降低了推理延遲，提高了推理速度。其次，在內(nèi)存占用方面，KV 緩存的壓縮使得模型能夠在有限的內(nèi)存資源中處理更長(zhǎng)的序列和更大的批量，提高了系統(tǒng)的整體吞吐量。此外，對(duì)于需要在資源受限環(huán)境中運(yùn)行的場(chǎng)景，如移動(dòng)端或嵌入式設(shè)備，MLA 的壓縮效果使得大型語(yǔ)言模型的部署成為可能，大大拓展了模型的應(yīng)用范圍。

其他內(nèi)存優(yōu)化方法的對(duì)比與應(yīng)用

除了 MLA 和低精度模型之外，還有其他一些內(nèi)存優(yōu)化方法在 AI 領(lǐng)域得到了廣泛的研究和應(yīng)用。例如，共享 KV（如 Grouped-Query Attention，GQA；Multi-Query Attention，MQA）通過讓多個(gè)注意力頭共享同一組 KV 對(duì)，顯著減少了 KV 存儲(chǔ)需求。這種方法在不增加太多計(jì)算復(fù)雜度的情況下，實(shí)現(xiàn)了內(nèi)存占用的有效降低，適用于多種 Transformer 架構(gòu)的變體。

窗口化 KV（Windowed KV）則針對(duì)長(zhǎng)序列場(chǎng)景，只在緩存中保留一個(gè)滑動(dòng)窗口內(nèi)的 KV 對(duì)，從而減少了存儲(chǔ)需求。然而，這種方法可能會(huì)對(duì)長(zhǎng)序列的推理能力產(chǎn)生一定的影響，因?yàn)樗鼇G棄了窗口之外的信息。在實(shí)際應(yīng)用中，需要根據(jù)具體的業(yè)務(wù)場(chǎng)景和模型需求，權(quán)衡窗口大小與推理性能之間的關(guān)系。

量化壓縮是一種更為通用的內(nèi)存優(yōu)化方法，它通過使用低比特表示（如 4 位或 8 位量化）來(lái)減少 KV 對(duì)的存儲(chǔ)需求。這種方法可以在保持模型性能基本不變的前提下，顯著降低內(nèi)存占用。量化壓縮技術(shù)的關(guān)鍵在于如何設(shè)計(jì)高效的量化算法，以最小化量化誤差對(duì)模型性能的影響。

在實(shí)際應(yīng)用中，選擇合適的內(nèi)存優(yōu)化方法需要綜合考慮多種因素，包括模型的規(guī)模、序列長(zhǎng)度、硬件資源限制以及業(yè)務(wù)場(chǎng)景對(duì)推理性能和精度的要求等。例如，在需要處理長(zhǎng)序列且對(duì)內(nèi)存占用敏感的場(chǎng)景中，可以優(yōu)先考慮 MLA 和窗口化 KV 的結(jié)合應(yīng)用；而在對(duì)推理速度要求較高且硬件資源相對(duì)有限的場(chǎng)景中，低精度模型和量化壓縮技術(shù)則可能更為合適。

降低成本與提高推理速度的策略

MoE 模型的成本效益分析

MoE 模型在降低訓(xùn)練成本方面展現(xiàn)出了巨大的優(yōu)勢(shì)。與傳統(tǒng)的密集模型相比，MoE 模型通過稀疏激活的方式，在保持模型性能的同時(shí)，大幅減少了計(jì)算資源的消耗。以 DeepSeek-V3 為例，其參數(shù)規(guī)模達(dá)到了 671B，但每個(gè) token 激活的計(jì)算量?jī)H為 37B，而相比之下，同樣規(guī)模的密集模型（如 405B 的 LLaMA-3.1）在訓(xùn)練過程中需要激活所有的參數(shù)，導(dǎo)致計(jì)算成本急劇上升。

模型名稱	訓(xùn)練計(jì)算成本 (GFLOPS/Token)
DeepSeek-V3 MoE	250
Qwen-72B Dense	394
LLaMA-405B Dense	2448

從上表中的數(shù)據(jù)可以看出，DeepSeek-V3 的訓(xùn)練計(jì)算成本為每 token 250 GFLOPS，而 72B 的 Qwen-72B 密集模型的訓(xùn)練計(jì)算成本為每 token 394 GFLOPS，405B 的 LLaMA-405B 密集模型的訓(xùn)練計(jì)算成本更是高達(dá)每 token 2448 GFLOPS。這表明 MoE 模型在大規(guī)模訓(xùn)練中具有顯著的經(jīng)濟(jì)效益，能夠在相同的硬件資源下實(shí)現(xiàn)更大的模型規(guī)模和更高的性能。

這種成本效益的提升不僅有助于降低大規(guī)模模型訓(xùn)練的門檻，還使得更多的研究團(tuán)隊(duì)和企業(yè)能夠參與到 AI 技術(shù)的創(chuàng)新中來(lái)。同時(shí)，隨著模型規(guī)模的擴(kuò)大和性能的提升，MoE 模型也能夠?yàn)楦鞣N復(fù)雜的應(yīng)用場(chǎng)景提供更強(qiáng)大的支持，推動(dòng) AI 技術(shù)在更多領(lǐng)域的廣泛應(yīng)用。

推理速度的影響因素分析

推理速度是衡量 AI 模型性能的重要指標(biāo)之一，它直接關(guān)系到用戶體驗(yàn)和系統(tǒng)的實(shí)際可用性。推理速度的影響因素可以主要從系統(tǒng)整體吞吐量和單次請(qǐng)求延遲兩個(gè)維度進(jìn)行分析。

從系統(tǒng)整體吞吐量的角度來(lái)看，提高吞吐量的關(guān)鍵在于充分利用硬件資源，減少計(jì)算和通信的空閑時(shí)間。DeepSeek-V3 通過采用雙微批處理重疊策略，巧妙地將通信延遲與計(jì)算過程重疊起來(lái)，使得 GPU 能夠始終保持高利用率。例如，在線推理系統(tǒng)中，通過將 MLA 和 MoE 的計(jì)算過程分解為兩個(gè)階段，并在兩個(gè)微批處理之間進(jìn)行交替計(jì)算和通信，實(shí)現(xiàn)了計(jì)算與通信的無(wú)縫銜接。這種策略不僅提高了系統(tǒng)的整體吞吐量，還降低了推理延遲，為用戶提供更流暢的服務(wù)體驗(yàn)。

在單次請(qǐng)求延遲方面，影響因素主要包括模型的計(jì)算復(fù)雜度、KV 緩存的訪問速度以及通信帶寬等。為了降低單次請(qǐng)求延遲，需要對(duì)模型架構(gòu)進(jìn)行優(yōu)化，減少不必要的計(jì)算和數(shù)據(jù)傳輸。例如，通過采用 MLA 技術(shù)，減少 KV 緩存的存儲(chǔ)需求和訪問時(shí)間；通過優(yōu)化 MoE 架構(gòu)中的專家選擇和通信策略，降低通信開銷；以及通過使用低精度計(jì)算和量化壓縮技術(shù)，加速計(jì)算過程。

此外，推理速度還受到硬件性能的直接影響。高性能的 GPU、高速的內(nèi)存和通信接口等硬件設(shè)施能夠顯著提高推理速度。因此，在設(shè)計(jì) AI 系統(tǒng)時(shí)，需要綜合考慮軟件優(yōu)化和硬件選型，以實(shí)現(xiàn)推理速度的最大化。

Multi-Token Prediction（MTP）技術(shù)的實(shí)證

Multi-Token Prediction（MTP）技術(shù)是 DeepSeek-V3 提高推理速度的一項(xiàng)創(chuàng)新性嘗試。傳統(tǒng)的自回歸模型在推理過程中通常一次只生成一個(gè) token，這導(dǎo)致了推理過程中的順序瓶頸，限制了推理速度的提升。而 MTP 框架通過在每次解碼步驟中同時(shí)生成多個(gè)候選 token，并在并行驗(yàn)證這些 token，從而顯著提高了推理效率。

MTP 的實(shí)現(xiàn)原理可以概括為以下幾個(gè)步驟：

多 token 預(yù)測(cè) ：在推理過程中，模型不僅預(yù)測(cè)下一個(gè) token，還會(huì)預(yù)測(cè)接下來(lái)的多個(gè) token，生成多個(gè)候選序列。
并行驗(yàn)證 ：通過輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)生成的候選序列進(jìn)行快速驗(yàn)證，篩選出最有可能的序列。
結(jié)果融合 ：將驗(yàn)證后的序列進(jìn)行融合，得到最終的輸出結(jié)果。

實(shí)際測(cè)試數(shù)據(jù)表明，MTP 技術(shù)在提高推理吞吐量方面具有顯著的效果。例如，在預(yù)測(cè)第二個(gè)后續(xù) token 時(shí)，MTP 模塊的接受率能夠達(dá)到 80% - 90%，使得生成吞吐量（TPS）相比沒有 MTP 模塊的場(chǎng)景提高了 1.8 倍。這表明 MTP 技術(shù)在一定程度上能夠有效緩解傳統(tǒng)自回歸模型在推理速度方面的限制，為實(shí)現(xiàn)更快速、更高效的 AI 服務(wù)提供了一種新的解決方案。

然而，MTP 技術(shù)也存在一定的局限性。由于其需要同時(shí)處理多個(gè)候選序列，可能會(huì)導(dǎo)致計(jì)算資源的增加和模型復(fù)雜度的提升。在某些對(duì)延遲要求極高的場(chǎng)景中，MTP 的并行驗(yàn)證過程可能會(huì)引入額外的延遲。因此，在實(shí)際應(yīng)用中，需要根據(jù)具體的業(yè)務(wù)需求和硬件條件，合理選擇和調(diào)整 MTP 技術(shù)的參數(shù)和策略，以實(shí)現(xiàn)最佳的推理性能。

網(wǎng)絡(luò)拓?fù)鋬?yōu)化的探索

Multi-Plane Network Topology 的優(yōu)勢(shì)與實(shí)現(xiàn)

Multi-Plane Network Topology 是 DeepSeek-V3 在網(wǎng)絡(luò)通信優(yōu)化方面的重要?jiǎng)?chuàng)新之一。傳統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)在處理大規(guī)模集群通信時(shí)，往往會(huì)面臨網(wǎng)絡(luò)擁塞、通信延遲高以及擴(kuò)展性差等問題。而 Multi-Plane Network Topology 通過將網(wǎng)絡(luò)劃分為多個(gè)獨(dú)立的平面，并在每個(gè)平面中采用多層 Fat-Tree 架構(gòu)，有效地解決了這些問題。

八平面雙層胖樹擴(kuò)展網(wǎng)絡(luò)：每對(duì)GPU和IB網(wǎng)卡屬于一個(gè)網(wǎng)絡(luò)平面?？缙矫媪髁勘仨毷褂昧硪粔K網(wǎng)卡以及PCIe或NVLink進(jìn)行節(jié)點(diǎn)內(nèi)轉(zhuǎn)發(fā)

DeepSeek-V3 的 Multi-Plane Network Topology 具有以下優(yōu)勢(shì)：

故障隔離與容錯(cuò)性 ：由于每個(gè)網(wǎng)絡(luò)平面獨(dú)立運(yùn)行，一個(gè)平面中的故障不會(huì)影響其他平面的正常工作，大大提高了系統(tǒng)的可靠性。例如，當(dāng)某個(gè)平面中的交換機(jī)或鏈路出現(xiàn)故障時(shí)，其他平面仍然可以繼續(xù)工作，確保了整個(gè)集群的穩(wěn)定運(yùn)行。
成本效率 ：與傳統(tǒng)的三層 Fat-Tree 拓?fù)湎啾?，Multi-Plane Network Topology 能夠在保持成本相近的情況下，支持更多的計(jì)算節(jié)點(diǎn)。如論文中的表 3 所示，采用 MPFT（Multi-Plane Fat-Tree）拓?fù)涞木W(wǎng)絡(luò)在支持 16,384 個(gè) GPU 時(shí)，其總成本與支持 10k 端點(diǎn)的兩層 Fat-Tree（FT2）網(wǎng)絡(luò)成本相近，但能夠提供更強(qiáng)大的擴(kuò)展能力和通信性能。
低延遲與高帶寬 ：通過優(yōu)化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和通信協(xié)議，Multi-Plane Network Topology 實(shí)現(xiàn)了更低的通信延遲和更高的帶寬利用率。這在需要頻繁進(jìn)行大規(guī)模數(shù)據(jù)傳輸和同步的 AI 訓(xùn)練和推理場(chǎng)景中，能夠顯著提高系統(tǒng)的整體性能。例如，在進(jìn)行模型的分布式訓(xùn)練時(shí)，低延遲的網(wǎng)絡(luò)通信能夠加快梯度同步的速度，從而縮短訓(xùn)練時(shí)間，提高訓(xùn)練效率。如下表為MPFT網(wǎng)絡(luò)與MRFT網(wǎng)絡(luò)的訓(xùn)練指標(biāo)比較數(shù)據(jù)

Metric	MPFT	MRFT
tokens/day (B)	272.80	272.52
time/step (s)	19.926	19.946
1F (s)	1.13	1.13
bubble (s)	2.06	2.03
1B (s)	1.99	1.99
1W (s)	0.48	0.48
1F1B (s)	13.95	14.00
opt (s)	0.29	0.31
TFLOPS (non-causal)	432	432
TFLOPS (causal)	385	385
MFU (non-causal)	43.73%	43.68%
MFU (causal)	38.94%	38.90%

NCCL all-to-all性能從32個(gè)GPU擴(kuò)展到128個(gè)GPU，針對(duì)MRFT和MPFT網(wǎng)絡(luò)

DeepEP在MPFT上的表現(xiàn)：EP分發(fā)和合并內(nèi)核通過全互聯(lián)方式在16到128個(gè)GPU之間通信。每個(gè)GPU處理4096個(gè)標(biāo)記。觀察到的吞吐量幾乎達(dá)到了400Gbps網(wǎng)卡帶寬的飽和狀態(tài)

為了驗(yàn)證 Multi-Plane Network Topology 的性能優(yōu)勢(shì)，研究者進(jìn)行了實(shí)際的實(shí)驗(yàn)測(cè)試。實(shí)驗(yàn)結(jié)果表明，MPFT 網(wǎng)絡(luò)在大規(guī)模分布式訓(xùn)練中的通信效率與 MRFT 網(wǎng)絡(luò)相當(dāng)，但具有更高的可擴(kuò)展性和成本效益。

在不同消息大小下，NCCL全互聯(lián)測(cè)試中MPFT網(wǎng)絡(luò)和MRFT網(wǎng)絡(luò)的延遲對(duì)比，表明它們的性能幾乎相同

下表對(duì)比了不同網(wǎng)絡(luò)拓?fù)涞某杀?，采?MPFT（多平面 Fat-Tree）拓?fù)涞木W(wǎng)絡(luò)在支持 16,384 個(gè) GPU 時(shí)，總成本為 72 百萬(wàn)美元，與支持 10k 端點(diǎn)的兩層 Fat-Tree（FT2）網(wǎng)絡(luò)成本相近，但提供了更強(qiáng)大的擴(kuò)展能力和通信性能。

拓?fù)漕愋?/span>	端點(diǎn)數(shù)	交換機(jī)數(shù)	鏈路數(shù)	成本 (百萬(wàn)美元)	每端點(diǎn)成本 (千美元)
FT2	2,048	96	2,048	9	4.39
MPFT	16,384	768	16,384	72	4.39
FT3	65,536	5,120	131,072	491	7.5
SF	32,928	1,568	32,928	146	4.4
DF	261,632	16,352	384,272	1,522	5.8

在實(shí)現(xiàn)方面，Multi-Plane Network Topology 需要對(duì)網(wǎng)絡(luò)設(shè)備和通信協(xié)議進(jìn)行深度定制和優(yōu)化。例如，每個(gè) GPU 節(jié)點(diǎn)配備多個(gè)網(wǎng)絡(luò)接口卡（NIC），每個(gè) NIC 連接到不同的網(wǎng)絡(luò)平面。同時(shí)，在通信協(xié)議棧中引入了特殊的路由機(jī)制和流量調(diào)度策略，以確保數(shù)據(jù)能夠在多個(gè)平面之間高效地傳輸和交換。此外，為了進(jìn)一步降低通信延遲，還需要對(duì)網(wǎng)絡(luò)硬件進(jìn)行優(yōu)化，如采用高速的 InfiniBand 交換機(jī)和低延遲的通信芯片等。

理想多平面網(wǎng)絡(luò)：每個(gè)網(wǎng)卡（NIC）都配備了多個(gè)物理端口，每個(gè)端口都連接到一個(gè)獨(dú)立的網(wǎng)絡(luò)平面。一個(gè)隊(duì)列對(duì)（QP）可以同時(shí)利用所有可用端口進(jìn)行數(shù)據(jù)包的發(fā)送和接收，這需要網(wǎng)卡本身支持亂序放置（out-of-order placement）

上圖描述了理想的多平面網(wǎng)絡(luò)架構(gòu)，每個(gè) NIC 配備多個(gè)物理端口，每個(gè)端口連接到不同的網(wǎng)絡(luò)平面。單個(gè)隊(duì)列對(duì)（QP）可以同時(shí)利用所有可用端口進(jìn)行數(shù)據(jù)包的發(fā)送和接收，這需要 NIC 原生支持?jǐn)?shù)據(jù)包的無(wú)序放置。然而，當(dāng)前的硬件實(shí)現(xiàn)還存在一些限制。例如，由于當(dāng)前 400G NDR InfiniBand 的限制，跨平面通信需要通過節(jié)點(diǎn)內(nèi)的轉(zhuǎn)發(fā)，這會(huì)引入額外的延遲。如果未來(lái)的硬件能夠?qū)崿F(xiàn)規(guī)模擴(kuò)展（scale-up）和擴(kuò)展出（scale-out）網(wǎng)絡(luò)的融合，這種延遲可以顯著降低，從而進(jìn)一步增強(qiáng)多平面網(wǎng)絡(luò)的可行性

低延遲通信網(wǎng)絡(luò)的實(shí)踐

低延遲通信網(wǎng)絡(luò)在大規(guī)模模型訓(xùn)練和推理中發(fā)揮著至關(guān)重要的作用。在 DeepSeek-V3 的實(shí)踐中，通過采用 InfiniBand（IB）網(wǎng)絡(luò)和一系列優(yōu)化技術(shù)，實(shí)現(xiàn)了低延遲、高帶寬的通信環(huán)境，為模型的高效訓(xùn)練和推理提供了有力支持。

Link Layer	Same Leaf	Cross Leaf
RoCE	3.6us	5.6us
InfiniBand	2.8us	3.7us
NVLink	3.33us	-

IB 網(wǎng)絡(luò)相較于 RoCE（RDMA over Converged Ethernet）等其他網(wǎng)絡(luò)技術(shù)，在延遲方面具有明顯的優(yōu)勢(shì)。如論文中的表 5 所示，在進(jìn)行 64B 數(shù)據(jù)傳輸時(shí)，IB 在相同葉節(jié)點(diǎn)和跨葉節(jié)點(diǎn)的傳輸延遲分別為 2.8us 和 3.7us，而 RoCE 的對(duì)應(yīng)延遲則為 3.6us 和 5.6us。這種低延遲特性對(duì)于需要頻繁進(jìn)行小數(shù)據(jù)包通信的 AI 應(yīng)用來(lái)說(shuō)至關(guān)重要，因?yàn)樗軌蝻@著減少通信開銷，提高系統(tǒng)吞吐量。

然而，盡管 IB 網(wǎng)絡(luò)在性能上表現(xiàn)出色，但其也存在一些局限性，如成本較高、可擴(kuò)展性相對(duì)較差等。針對(duì)這些問題，研究人員提出了一系列改進(jìn) RoCE 性能的建議，例如開發(fā)專用的低延遲 RoCE 交換機(jī)、優(yōu)化路由策略以及改進(jìn)流量隔離和擁塞控制機(jī)制等。這些改進(jìn)措施是為了提高 RoCE 網(wǎng)絡(luò)的性能，使其能夠在大規(guī)模 AI 系統(tǒng)中發(fā)揮更大的作用。

不同路由方法（ECMP、AR、靜態(tài)路由）以及不同TP維度下AllGather和ReduceScatter通信原語(yǔ)的RoCE網(wǎng)絡(luò)帶寬

通過優(yōu)化路由策略，可以顯著提高 RoCE 網(wǎng)絡(luò)在大規(guī)模分布式通信中的性能。例如，自適應(yīng)路由（AR）能夠動(dòng)態(tài)地將數(shù)據(jù)包分散到多個(gè)路徑上，從而避免網(wǎng)絡(luò)擁塞，提高通信效率。

此外，DeepSeek-V3 還采用了 InfiniBand GPUDirect Async（IBGDA）技術(shù)，進(jìn)一步降低了網(wǎng)絡(luò)通信中的延遲。通過允許 GPU 直接填充工作請(qǐng)求（WR）內(nèi)容并寫入 RDMA 門鈴 MMIO 地址，IBGDA 消除了傳統(tǒng)通信模式中 GPU 與 CPU 之間頻繁的交互開銷，提高了通信效率。這在大規(guī)模分布式訓(xùn)練和推理場(chǎng)景中，能夠顯著減少通信延遲，提高系統(tǒng)的整體性能。

以下是 H800 節(jié)點(diǎn)互連的示意圖：

H800 節(jié)點(diǎn)互連

硬件與模型的相互依賴關(guān)系

硬件特性對(duì)模型設(shè)計(jì)的塑造

硬件特性在很大程度上塑造了 DeepSeek-V3 的模型設(shè)計(jì)。例如，F(xiàn)P8 低精度計(jì)算作為一種新興的硬件特性，為模型訓(xùn)練和推理提供了更高的計(jì)算效率和更低的內(nèi)存占用。DeepSeek-V3 針對(duì) FP8 硬件特性進(jìn)行了專門的優(yōu)化，開發(fā)了一套兼容 FP8 的訓(xùn)練框架，使得模型能夠在充分利用硬件能力的同時(shí)，保持良好的訓(xùn)練穩(wěn)定性和模型精度。

此外，硬件的規(guī)模擴(kuò)展（scale-up）和擴(kuò)展出（scale-out）網(wǎng)絡(luò)特性也對(duì)模型設(shè)計(jì)產(chǎn)生了重要影響。為了避免張量并行（TP）在有限的 NVLink 帶寬下效率低下，DeepSeek-V3 在訓(xùn)練過程中盡量避免使用 TP，而在推理階段則根據(jù)實(shí)際需求選擇性地采用 TP 來(lái)降低延遲和提高 TPOT 性能。同時(shí)，通過對(duì)模型架構(gòu)進(jìn)行分解和重組，使得模型能夠更好地適應(yīng)硬件的并行計(jì)算模式，提高整體性能。

例如，DeepSeek-V3 的 Multi-Plane Network Topology 設(shè)計(jì)，充分考慮了硬件網(wǎng)絡(luò)的特性和限制。通過將網(wǎng)絡(luò)劃分為多個(gè)獨(dú)立的平面，每個(gè)平面采用多層 Fat-Tree 架構(gòu)，實(shí)現(xiàn)了故障隔離、低延遲通信和成本效益的統(tǒng)一。這種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)不僅提高了系統(tǒng)的可靠性和通信效率，還為大規(guī)模模型的分布式訓(xùn)練和推理提供了有力支持。

模型發(fā)展對(duì)硬件需求的推動(dòng)

隨著 LLMs 的不斷發(fā)展和模型規(guī)模的日益擴(kuò)大，它們對(duì)硬件的需求也在不斷增長(zhǎng)。DeepSeek-V3 的成功實(shí)踐表明，現(xiàn)有的硬件架構(gòu)在內(nèi)存容量、計(jì)算能力和通信帶寬等方面已經(jīng)難以滿足未來(lái)大規(guī)模模型的需求。因此，模型的發(fā)展推動(dòng)了下一代硬件的研發(fā)，促使硬件廠商不斷創(chuàng)新和優(yōu)化硬件技術(shù)。

例如，為了滿足模型對(duì)內(nèi)存容量和帶寬的高要求，硬件廠商正在探索新型的內(nèi)存技術(shù)，如高帶寬內(nèi)存（HBM）的進(jìn)一步升級(jí)和優(yōu)化，以及內(nèi)存語(yǔ)義通信和順序問題的改進(jìn)等。通過提高內(nèi)存的帶寬和容量，能夠更好地支持大型模型的訓(xùn)練和推理，降低內(nèi)存訪問延遲，提高系統(tǒng)性能。

在計(jì)算能力方面，硬件廠商需要進(jìn)一步提升 GPU 等計(jì)算設(shè)備的計(jì)算效率，特別是在低精度計(jì)算和混合精度計(jì)算方面。例如，開發(fā)支持更高精度累積的張量核心，以及優(yōu)化對(duì)細(xì)粒度量化技術(shù)的支持，能夠提高模型的訓(xùn)練速度和精度，滿足大規(guī)模模型的計(jì)算需求。

通信帶寬也是模型發(fā)展中的一個(gè)關(guān)鍵瓶頸。硬件廠商需要研發(fā)更高帶寬、更低延遲的網(wǎng)絡(luò)互連技術(shù)，如統(tǒng)一總線（UB）、Ultra Ethernet 等。這些新技術(shù)將有助于提高大規(guī)模集群的通信效率，減少通信延遲，為分布式模型訓(xùn)練和推理提供更強(qiáng)大的支持。

此外，模型的發(fā)展還推動(dòng)了硬件在可靠性、可擴(kuò)展性和易用性等方面的進(jìn)步。例如，為了應(yīng)對(duì)大規(guī)模集群中硬件故障的頻繁發(fā)生，硬件廠商需要開發(fā)更先進(jìn)的錯(cuò)誤檢測(cè)和糾正機(jī)制，提高系統(tǒng)的魯棒性。同時(shí)，通過優(yōu)化硬件的架構(gòu)設(shè)計(jì)和軟件工具鏈，提高硬件的可擴(kuò)展性和易用性，使得研究人員和工程師能夠更方便地開發(fā)和部署大規(guī)模模型。

以硬件驅(qū)動(dòng)模型設(shè)計(jì)

硬件特性對(duì)架構(gòu)選擇的影響

DeepSeek-V3 的架構(gòu)選擇深受硬件特性的影響，尤其是 FP8 低精度計(jì)算和網(wǎng)絡(luò)拓?fù)涮匦浴P8 低精度計(jì)算作為一種新興的硬件特性，為模型訓(xùn)練和推理提供了更高的計(jì)算效率和更低的內(nèi)存占用。DeepSeek-V3 針對(duì) FP8 硬件特性進(jìn)行了專門的優(yōu)化，開發(fā)了一套兼容 FP8 的訓(xùn)練框架，使得模型能夠在充分利用硬件能力的同時(shí)，保持良好的訓(xùn)練穩(wěn)定性和模型精度。

此外，硬件的網(wǎng)絡(luò)拓?fù)涮匦砸矊?duì)模型設(shè)計(jì)產(chǎn)生了重要影響。為了避免張量并行（TP）在有限的 NVLink 帶寬下效率低下，DeepSeek-V3 在訓(xùn)練過程中盡量避免使用 TP，而在推理階段則根據(jù)實(shí)際需求選擇性地采用 TP 來(lái)降低延遲和提高 TPOT 性能。同時(shí)，通過對(duì)模型架構(gòu)進(jìn)行分解和重組，使得模型能夠更好地適應(yīng)硬件的并行計(jì)算模式，提高整體性能。

例如，DeepSeek-V3 的 Multi-Plane Network Topology 設(shè)計(jì)，充分考慮了硬件網(wǎng)絡(luò)的特性和限制。通過將網(wǎng)絡(luò)劃分為多個(gè)獨(dú)立的平面，每個(gè)平面采用多層 Fat-Tree 架構(gòu)，實(shí)現(xiàn)了故障隔離、低延遲通信和成本效益的統(tǒng)一。這種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)不僅提高了系統(tǒng)的可靠性和通信效率，還為大規(guī)模模型的分布式訓(xùn)練和推理提供了有力支持。

硬件特性對(duì)模型性能的影響

硬件特性不僅影響了 DeepSeek-V3 的架構(gòu)選擇，還對(duì)模型的性能產(chǎn)生了深遠(yuǎn)的影響。例如，F(xiàn)P8 計(jì)算的引入顯著提高了訓(xùn)練速度，同時(shí)降低了內(nèi)存占用。通過采用 FP8 混合精度訓(xùn)練，DeepSeek-V3 在保證模型精度的前提下，將內(nèi)存占用減少約 50%，訓(xùn)練速度顯著提升。這種性能的提升使得模型能夠在更短的時(shí)間內(nèi)完成訓(xùn)練，提高了研發(fā)效率，降低了訓(xùn)練成本。

此外，硬件的內(nèi)存帶寬和計(jì)算核心數(shù)量也對(duì)模型性能產(chǎn)生了重要影響。為了充分利用 GPU 的高內(nèi)存帶寬，DeepSeek-V3 對(duì)模型的內(nèi)存訪問模式進(jìn)行了優(yōu)化，減少了內(nèi)存訪問沖突和數(shù)據(jù)傳輸延遲。同時(shí)，根據(jù) GPU 的計(jì)算核心數(shù)量和并行處理能力，對(duì)模型的計(jì)算任務(wù)進(jìn)行了合理的分配和調(diào)度，提高了計(jì)算資源的利用率，進(jìn)一步提升了模型的訓(xùn)練和推理速度。

Figure 2 展示了 H800 節(jié)點(diǎn)的互連架構(gòu)，基于 Hopper 架構(gòu)，與 H100 GPU 類似，但 NVLink 帶寬從 900 GB/s 降低到 400 GB/s，以符合監(jiān)管要求。每個(gè)節(jié)點(diǎn)配備八個(gè) 400G Infiniband (IB) CX7 NIC，增強(qiáng)擴(kuò)展出能力，彌補(bǔ)帶寬不足。

硬件與模型之間的相互依賴

硬件能力塑造模型創(chuàng)新

硬件能力的發(fā)展為模型創(chuàng)新提供了強(qiáng)大的支持，推動(dòng)了 DeepSeek-V3 等先進(jìn)模型的誕生。例如，高性能的 GPU 和高速的內(nèi)存技術(shù)使得大規(guī)模模型的訓(xùn)練和推理成為可能。同時(shí)，硬件的低延遲通信網(wǎng)絡(luò)為分布式模型的訓(xùn)練和推理提供了有力保障，使得模型能夠在大規(guī)模集群中高效運(yùn)行。

例如，DeepSeek-V3 中的 MoE 架構(gòu)能夠?qū)崿F(xiàn)稀疏激活，這得益于硬件對(duì)大規(guī)模并行計(jì)算的支持。硬件的高性能計(jì)算能力使得在每個(gè) token 的處理過程中，只有最相關(guān)的專家網(wǎng)絡(luò)被激活，從而實(shí)現(xiàn)了模型規(guī)模的擴(kuò)展，同時(shí)避免了計(jì)算資源的浪費(fèi)。這種硬件能力與模型創(chuàng)新的結(jié)合，不僅提高了模型的性能，還為未來(lái)模型的發(fā)展提供了新的方向。

模型演變需求推動(dòng)硬件發(fā)展

隨著 LLM 的不斷發(fā)展和模型規(guī)模的日益擴(kuò)大，它們對(duì)硬件的需求也在不斷增長(zhǎng)。DeepSeek-V3 的成功實(shí)踐表明，現(xiàn)有的硬件架構(gòu)在內(nèi)存容量、計(jì)算能力和通信帶寬等方面已經(jīng)難以滿足未來(lái)大規(guī)模模型的需求。因此，模型的發(fā)展推動(dòng)了下一代硬件的研發(fā)，促使硬件廠商不斷創(chuàng)新和優(yōu)化硬件技術(shù)。

例如，為了滿足模型對(duì)內(nèi)存容量和帶寬的高要求，硬件廠商正在探索新型的內(nèi)存技術(shù)，如高帶寬內(nèi)存（HBM）的進(jìn)一步升級(jí)和優(yōu)化，以及內(nèi)存語(yǔ)義通信和順序問題的改進(jìn)等。通過提高內(nèi)存的帶寬和容量，能夠更好地支持大型模型的訓(xùn)練和推理，降低內(nèi)存訪問延遲，提高系統(tǒng)性能。

此外，模型的發(fā)展還推動(dòng)了硬件在可靠性、可擴(kuò)展性和易用性等方面的進(jìn)步。例如，為了應(yīng)對(duì)大規(guī)模集群中硬件故障的頻繁發(fā)生，硬件廠商需要開發(fā)更先進(jìn)的錯(cuò)誤檢測(cè)和糾正機(jī)制，提高系統(tǒng)的魯棒性。同時(shí)，通過優(yōu)化硬件的架構(gòu)設(shè)計(jì)和軟件工具鏈，提高硬件的可擴(kuò)展性和易用性，使得研究人員和工程師能夠更方便地開發(fā)和部署大規(guī)模模型。

硬件開發(fā)未來(lái)方向

從 DeepSeek-V3 提取的硬件設(shè)計(jì)見解

DeepSeek-V3 的實(shí)踐為未來(lái)硬件設(shè)計(jì)提供了寶貴的見解。例如，F(xiàn)P8 混合精度計(jì)算的廣泛應(yīng)用表明，低精度計(jì)算將成為未來(lái)硬件發(fā)展的重要方向。硬件廠商需要進(jìn)一步優(yōu)化對(duì)低精度計(jì)算的支持，提高計(jì)算效率，降低功耗。

此外，DeepSeek-V3 的 Multi-Plane Network Topology 設(shè)計(jì)為未來(lái)網(wǎng)絡(luò)硬件的發(fā)展提供了新的思路。硬件廠商可以借鑒這種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，開發(fā)更高性能、更可靠的網(wǎng)絡(luò)互連技術(shù)，以滿足大規(guī)模模型的通信需求。

未來(lái)硬件與模型協(xié)同設(shè)計(jì)

為了實(shí)現(xiàn)硬件與模型的更好協(xié)同，未來(lái)的研究和開發(fā)方向可能包括以下幾個(gè)方面：

1. 精確低精度計(jì)算單元 ：開發(fā)支持更高精度累積的張量核心，以及優(yōu)化對(duì)細(xì)粒度量化技術(shù)的支持，能夠提高模型的訓(xùn)練速度和精度，滿足大規(guī)模模型的計(jì)算需求。
2. 規(guī)模擴(kuò)展與擴(kuò)展出的融合 ：設(shè)計(jì)更高效的并行計(jì)算架構(gòu)，實(shí)現(xiàn)規(guī)模擴(kuò)展和擴(kuò)展出的無(wú)縫融合，提高硬件資源的利用率，降低通信開銷。
3. 低延遲通信網(wǎng)絡(luò) ：研發(fā)更高帶寬、更低延遲的網(wǎng)絡(luò)互連技術(shù)，如統(tǒng)一總線（UB）、Ultra Ethernet 等，提高大規(guī)模集群的通信效率，減少通信延遲。
4. 硬件與模型的深度協(xié)同優(yōu)化 ：通過硬件意識(shí)的模型開發(fā)和軟件定義的硬件優(yōu)化，實(shí)現(xiàn)兩者在性能、功耗和成本等方面的最佳平衡。

總結(jié)

總結(jié)要點(diǎn)

通過對(duì) DeepSeek-V3 的深入理解，我們領(lǐng)略到了硬件 - 模型協(xié)同設(shè)計(jì)的無(wú)窮魅力和巨大潛力。DeepSeek-V3 作為一款在大規(guī)模 GPU 集群上成功訓(xùn)練的先進(jìn)語(yǔ)言模型，憑借其獨(dú)特的 Multi-head Latent Attention（MLA）、Mixture of Experts（MoE）架構(gòu)以及 FP8 混合精度訓(xùn)練等創(chuàng)新技術(shù)，在提高 LLM 訓(xùn)練和推理效率方面取得了顯著的成就。它不僅成功地解決了內(nèi)存效率、成本效益和推理速度等關(guān)鍵問題，還為我們展示了硬件與模型相互促進(jìn)、共同發(fā)展的良好典范。

從內(nèi)存優(yōu)化的角度來(lái)看，MLA 技術(shù)通過巧妙地壓縮 KV 緩存，大幅減少了內(nèi)存占用，使得模型能夠處理更長(zhǎng)的序列和更大的批量，提高了系統(tǒng)的吞吐量。同時(shí)，低精度模型和量化壓縮技術(shù)的廣泛應(yīng)用，也為緩解 AI 內(nèi)存墻問題提供了有效的解決方案。在降低成本方面，MoE 架構(gòu)通過稀疏激活的方式，在保持模型性能的同時(shí)，顯著降低了訓(xùn)練和推理的計(jì)算成本。此外，MTP 技術(shù)的引入，進(jìn)一步提高了推理速度，為實(shí)現(xiàn)更快速、更高效的 AI 服務(wù)開辟了新的途徑。

在網(wǎng)絡(luò)拓?fù)鋬?yōu)化方面，DeepSeek-V3 所采用的 Multi-Plane Network Topology 為我們提供了一種高效、可靠的大規(guī)模集群通信方案。它通過多個(gè)獨(dú)立的網(wǎng)絡(luò)平面，實(shí)現(xiàn)了故障隔離、低延遲通信和成本效益的統(tǒng)一，為大規(guī)模模型的分布式訓(xùn)練和推理提供了有力支持。同時(shí)，低延遲通信網(wǎng)絡(luò)的實(shí)踐和相關(guān)技術(shù)的探索，也為未來(lái)網(wǎng)絡(luò)硬件的發(fā)展指明了方向。

展望未來(lái)

基于 DeepSeek-V3 的實(shí)踐經(jīng)驗(yàn)，我們對(duì)未來(lái)的 AI 系統(tǒng)架構(gòu)設(shè)計(jì)充滿了期待。未來(lái)可能開發(fā)方向可能包括以下幾個(gè)方面：

硬件架構(gòu)的創(chuàng)新 ：隨著模型規(guī)模的不斷增長(zhǎng)，硬件廠商需要不斷探索新的架構(gòu)和技術(shù)，如存算一體芯片、新型內(nèi)存技術(shù)、更高性能的網(wǎng)絡(luò)互連等，以滿足 AI 工作負(fù)載對(duì)內(nèi)存、計(jì)算和通信的極高要求。
模型優(yōu)化算法的研發(fā) ：研究人員將致力于開發(fā)更高效的模型優(yōu)化算法，進(jìn)一步提高模型的性能和效率。例如，改進(jìn)的量化算法、更智能的稀疏激活策略以及新穎的注意力機(jī)制等，都將成為未來(lái)研究的重點(diǎn)領(lǐng)域。
硬件與模型的深度協(xié)同設(shè)計(jì) ：未來(lái)的 AI 系統(tǒng)將更加注重硬件與模型之間的深度協(xié)同設(shè)計(jì)。通過硬件意識(shí)的模型開發(fā)和軟件定義的硬件優(yōu)化，實(shí)現(xiàn)兩者在性能、功耗和成本等方面的最佳平衡。
系統(tǒng)軟件的優(yōu)化 ：為了充分發(fā)揮硬件和模型的潛力，系統(tǒng)軟件也需要進(jìn)行深度優(yōu)化。包括高效的分布式訓(xùn)練框架、智能的資源調(diào)度算法以及用戶友好的開發(fā)工具等，都將是未來(lái)系統(tǒng)軟件發(fā)展的重要方向。

DeepSeek-V3 的成功為我們展示了硬件與模型協(xié)同設(shè)計(jì)的強(qiáng)大力量。它不僅在當(dāng)前的 AI 領(lǐng)域具有重要的應(yīng)用價(jià)值，更為未來(lái) AI 系統(tǒng)的發(fā)展提供了寶貴的經(jīng)驗(yàn)和啟示。我們通過這次深入理解 DeepSeek-V3，不僅可以豐富自己的知識(shí)儲(chǔ)備，還拓寬了技術(shù)視野。

參考資料

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

https://arxiv.org/pdf/2505.09343

責(zé)任編輯：龐桂玉來(lái)源：覺察流

DeepSeek-V 大模型 AI 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)