偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek 開(kāi)源 V3/R1 架構(gòu)設(shè)計(jì)思路,原來(lái) 545% 的利潤(rùn)率,它也只是被逼無(wú)奈?

開(kāi)發(fā) 架構(gòu) 人工智能
如果所有tokens全部按照R1的定價(jià)計(jì)算,理論上DeepSeek一天的總收入為$562,027,成本利潤(rùn)率545%。

開(kāi)源周的最后一天,DeepSeek分享了DeepSeek-V3/R1的架構(gòu)設(shè)計(jì)思路,讓大家能夠更系統(tǒng)更全面的了解其推理系統(tǒng)的設(shè)計(jì)過(guò)程,以及更深刻的理解之前開(kāi)源的6個(gè)項(xiàng)目。

DeepSeek-V3/R1推理系統(tǒng)的核心目標(biāo)是什么?

通過(guò)軟件架構(gòu)的優(yōu)化,達(dá)到:

  • 更高的吞吐量;
  • 更低的延時(shí);

為什么DeepSeek要走這一條路?

曾經(jīng)AI技術(shù)發(fā)展,GPU就是瓶頸。

GPU是瓶頸的時(shí)候,有兩條路可走:

  • 其一,水平擴(kuò)展scale out:囤卡,堆GPU;
  • 其二,垂直擴(kuò)展scale up:GPU升級(jí)換代;

但這兩條路,都被死死的卡在漂亮國(guó)的手里。

卡,限制你,不讓你囤。

先進(jìn)的卡,不賣給你,誰(shuí)叫你你落后5年。

為了突破瓶頸,DeepSeek被逼無(wú)奈的走出了第三條路:通過(guò)軟件優(yōu)化架構(gòu)優(yōu)化。

為了達(dá)成目標(biāo),DeepSeek的核心方案是啥?

大規(guī)模的跨節(jié)點(diǎn)專家并行EP,Expert Parallelism。

通過(guò)提升專家并行EP的數(shù)量(batch size),提升GPU矩陣乘法的效率,提高吞吐;與此同時(shí),多專家分散在不同的GPU,每個(gè)GPU只需要計(jì)算更少的專家,訪問(wèn)更少的數(shù)據(jù),從而降低延遲。

大規(guī)模的跨節(jié)點(diǎn)專家并行EP,會(huì)對(duì)軟件架構(gòu)帶來(lái)什么新的挑戰(zhàn)?

  • EP跨節(jié)點(diǎn)傳輸,要解決傳輸與計(jì)算并行的問(wèn)題;
  • EP多節(jié)點(diǎn)聯(lián)動(dòng),要解決數(shù)據(jù)分發(fā)匯總,負(fù)載均衡等問(wèn)題;

大規(guī)模的跨節(jié)點(diǎn)專家并行EP的部署與策略是怎么樣的?

由于V3/R1的專家數(shù)量眾多,并且每層256個(gè)專家中僅激活其中8個(gè),DeepSeek采用多機(jī)多卡間的專家并行策略來(lái)達(dá)到以下目的:

  • Prefill預(yù)填充階段:路由專家EP-32、MLA和共享專家DP-32,一個(gè)部署單元是4節(jié)點(diǎn),32個(gè)冗余路由專家,每張卡9個(gè)路由專家和1個(gè)共享專家;
  • Decode解碼階段:路由專家EP-144、MLA和共享專家DP-144,一個(gè)部署單元是18節(jié)點(diǎn),32個(gè)冗余路由專家,每張卡2個(gè)路由專家和1個(gè)共享專家;

這兩個(gè)階段的負(fù)載均衡策略各不相同。

如何解決計(jì)算與傳輸并行的問(wèn)題?

多機(jī)多卡的專家并行會(huì)引入比較大的通信開(kāi)銷,所以DeepSeek使用雙向通道,提高整體吞吐。

  • 預(yù)填充階段:計(jì)算和通信交錯(cuò)進(jìn)行,一個(gè)通道計(jì)算的時(shí)候,另一個(gè)通道通信。

  • 解碼階段類似:計(jì)算與通訊交錯(cuò)進(jìn)行,通過(guò)流水線來(lái)實(shí)現(xiàn)計(jì)算和通信的重疊。

如何最大程度的負(fù)載均衡?

由于采用了很大規(guī)模的數(shù)據(jù)并行與專家并行,如果某個(gè)GPU的計(jì)算或通信負(fù)載過(guò)重,單個(gè)長(zhǎng)尾將成為整個(gè)系統(tǒng)的瓶頸。與此同時(shí)其他GPU因?yàn)榈却辙D(zhuǎn),造成整體資源利用率下降。因此必須盡可能地為每個(gè)GPU平均分配計(jì)算負(fù)載、通信負(fù)載。

預(yù)填充階段(prefilling stage):

  • 專家組分配到節(jié)點(diǎn),保證節(jié)點(diǎn)負(fù)載均衡;
  • 節(jié)點(diǎn)內(nèi)復(fù)制專家;
  • 專家分配到GPUs,保證GPUs負(fù)載均衡;

解碼階段(decoding stage):

  • 全局復(fù)制專家,不管專家在哪個(gè)組;
  • 專家分配到GPUs,保證GPUs負(fù)載均衡;

總而言之,保證負(fù)載均衡,充分發(fā)揮GPUs的潛力,提升訓(xùn)練效率,縮短訓(xùn)練時(shí)間。

其整體架構(gòu)如下:

V3/R1的所有GPU均使用H800 GPU:

  • 矩陣計(jì)算,分發(fā):采用FP8格式;
  • 核心注意力計(jì)算,合并:采用BF16格式;

同時(shí)兼顧效率與質(zhì)量。

另外,由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,因此DeepSeek實(shí)現(xiàn)了一套機(jī)制:

  • 在白天負(fù)荷高的時(shí)候,所有節(jié)點(diǎn)部署推理服務(wù);
  • 晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來(lái)做研究和訓(xùn)練;

綜上所述,如果所有tokens全部按照R1的定價(jià)計(jì)算,理論上DeepSeek一天的總收入為$562,027,成本利潤(rùn)率545%。

到這里,DeepSeek開(kāi)源周的所有7個(gè)項(xiàng)目就寫完了,最后再來(lái)個(gè)匯總:

1. 《FlashMLA:GPU告訴解碼器

2. 《DeepEP:MOE與EP通訊庫(kù)

3. 《DeepGEMM:FP8通用矩陣乘法庫(kù)

4. 《DualPipe:雙向管道并行算法

5. 《EPLB:EP動(dòng)態(tài)負(fù)載均衡算法

6. 《3FS:高性能分布式文件系統(tǒng)

7. 《V3/R1架構(gòu)設(shè)計(jì)思路(本文)》

補(bǔ)充閱讀材料:https://github.com/deepseek-ai/

官方git,可參考。

責(zé)任編輯:趙寧寧 來(lái)源: 架構(gòu)師之路
相關(guān)推薦

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-03-03 09:00:00

DeepSeekAI人工智能

2025-03-03 08:21:00

2025-02-26 11:16:18

2025-03-03 08:46:27

2025-09-02 10:17:07

2025-01-27 12:30:07

2024-12-30 20:32:36

2025-02-26 10:11:01

2025-02-26 11:13:51

2025-02-20 15:32:28

2025-02-07 13:10:06

2015-04-14 11:50:10

Info倉(cāng)庫(kù)管理

2025-04-02 09:21:00

DeepSeekAI開(kāi)源

2025-07-04 09:08:00

AI模型架構(gòu)

2012-08-16 10:07:05

思科

2025-02-06 17:00:40

2025-08-04 08:51:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)