偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek突襲公布成本利潤(rùn)率:545%

人工智能 新聞
DeepSeek官方親自揭秘了DeepSeek-V3/R1推理系統(tǒng)。

五連開(kāi)源后,DeepSeek還有One More Thing!

就在剛剛,DeepSeek官方親自揭秘了DeepSeek-V3/R1推理系統(tǒng)。

圖片

重點(diǎn)包括,優(yōu)化吞吐量和延遲的方法:

  • 跨節(jié)點(diǎn)EP驅(qū)動(dòng)的批量擴(kuò)展
  • 計(jì)算與通信重疊
  • 負(fù)載均衡

還公布了DeepSeek的在線(xiàn)服務(wù)數(shù)據(jù)統(tǒng)計(jì):

  • 每個(gè)H800節(jié)點(diǎn)每秒有73.7k/14.8k個(gè)輸入/輸出token
  • 成本利潤(rùn)率545%

更多細(xì)節(jié),一起來(lái)看官方原文↓

更大的吞吐,更低的延遲

DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是:更大的吞吐,更低的延遲。

為了實(shí)現(xiàn)這兩個(gè)目標(biāo),我們的方案是使用大規(guī)??绻?jié)點(diǎn)專(zhuān)家并行(ExpertParallelism/EP)。

首先EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。其次EP使得專(zhuān)家分散在不同的GPU上,每個(gè)GPU只需要計(jì)算很少的專(zhuān)家(因此更少的訪(fǎng)存需求),從而降低延遲。

但EP同時(shí)也增加了系統(tǒng)的復(fù)雜性。復(fù)雜性主要體現(xiàn)在兩個(gè)方面:

  • EP引入跨節(jié)點(diǎn)的傳輸。為了優(yōu)化吞吐,需要設(shè)計(jì)合適的計(jì)算流程使得傳輸和計(jì)算可以同步進(jìn)行。
  • EP涉及多個(gè)節(jié)點(diǎn),因此天然需要Data Parallelism(DP),不同的DP之間需要進(jìn)行負(fù)載均衡。

因此,本文的主要內(nèi)容是如何使用EP增大batch size,如何隱藏傳輸?shù)暮臅r(shí),如何進(jìn)行負(fù)載均衡。

大規(guī)??绻?jié)點(diǎn)專(zhuān)家并行(Expert Parallelism/EP)

由于DeepSeek-V3/R1的專(zhuān)家數(shù)量眾多,并且每層256個(gè)專(zhuān)家中僅激活其中8個(gè)。模型的高度稀疏性決定了我們必須采用很大的overall batch size,才能給每個(gè)專(zhuān)家提供足夠的expert batch size,從而實(shí)現(xiàn)更大的吞吐、更低的延時(shí)。需要大規(guī)??绻?jié)點(diǎn)專(zhuān)家并行(Expert Parallelism/EP)。

我們采用多機(jī)多卡間的專(zhuān)家并行策略來(lái)達(dá)到以下目的:

  • Prefill:路由專(zhuān)家EP32、MLA和共享專(zhuān)家DP32,一個(gè)部署單元是4節(jié)點(diǎn),32個(gè)冗余路由專(zhuān)家,每張卡9個(gè)路由專(zhuān)家和1個(gè)共享專(zhuān)家
  • Decode:路由專(zhuān)家EP144、MLA和共享專(zhuān)家DP144,一個(gè)部署單元是18節(jié)點(diǎn),32個(gè)冗余路由專(zhuān)家,每張卡2個(gè)路由專(zhuān)家和1個(gè)共享專(zhuān)家

計(jì)算通信重疊

多機(jī)多卡的專(zhuān)家并行會(huì)引入比較大的通信開(kāi)銷(xiāo),所以我們使用了雙batch重疊來(lái)掩蓋通信開(kāi)銷(xiāo),提高整體吞吐。

對(duì)于prefill階段,兩個(gè)batch的計(jì)算和通信交錯(cuò)進(jìn)行,一個(gè)batch在進(jìn)行計(jì)算的時(shí)候可以去掩蓋另一個(gè)batch的通信開(kāi)銷(xiāo);

圖片

△Prefill階段的雙batch重疊

對(duì)于decode階段,不同階段的執(zhí)行時(shí)間有所差別,所以我們把a(bǔ)ttention部分拆成了兩個(gè)stage,共計(jì)5個(gè)stage的流水線(xiàn)來(lái)實(shí)現(xiàn)計(jì)算和通信的重疊。

圖片

△Decode階段的雙batch重疊

關(guān)于更多雙batch重疊的細(xì)節(jié),可以參考我們的profiling數(shù)據(jù)的GitHub倉(cāng)庫(kù):https://github.com/deepseek-ai/profile-data。

盡可能地負(fù)載均衡

由于采用了很大規(guī)模的并行(包括數(shù)據(jù)并行和專(zhuān)家并行),如果某個(gè)GPU的計(jì)算或通信負(fù)載過(guò)重,將成為性能瓶頸,拖慢整個(gè)系統(tǒng);同時(shí)其他GPU因?yàn)榈却辙D(zhuǎn),造成整體利用率下降。因此我們需要盡可能地為每個(gè)GPU分配均衡的計(jì)算負(fù)載、通信負(fù)載。

  • Prefill Load Balancer

a.核心問(wèn)題:不同數(shù)據(jù)并行(DP)實(shí)例上的請(qǐng)求個(gè)數(shù)、長(zhǎng)度不同,導(dǎo)致core-attention計(jì)算量、dispatch發(fā)送量也不同

b.優(yōu)化目標(biāo):各GPU的計(jì)算量盡量相同(core-attention計(jì)算負(fù)載均衡)、輸入的token數(shù)量也盡量相同(dispatch發(fā)送量負(fù)載均衡),避免部分GPU處理時(shí)間過(guò)長(zhǎng)

  • Decode Load Balancer
  • 核心問(wèn)題:不同數(shù)據(jù)并行(DP)實(shí)例上的請(qǐng)求數(shù)量、長(zhǎng)度不同,導(dǎo)致core-attention計(jì)算量(與KVCache占用量相關(guān))、dispatch發(fā)送量不同
  • 優(yōu)化目標(biāo):各GPU的KVCache占用量盡量相同(core-attention計(jì)算負(fù)載均衡)、請(qǐng)求數(shù)量盡量相同(dispatch發(fā)送量負(fù)載均衡)
  • Expert-Parallel Load Balancer
  • 核心問(wèn)題:對(duì)于給定MoE模型,存在一些天然的高負(fù)載專(zhuān)家(expert),導(dǎo)致不同GPU的專(zhuān)家計(jì)算負(fù)載不均衡
  • 優(yōu)化目標(biāo):每個(gè)GPU上的專(zhuān)家計(jì)算量均衡(即最小化所有GPU的dispatch接收量的最大值)

參考架構(gòu)圖

圖片

線(xiàn)上系統(tǒng)的實(shí)際統(tǒng)計(jì)數(shù)據(jù)

DeepSeekV3和R1的所有服務(wù)均使用H800 GPU,使用和訓(xùn)練一致的精度,即矩陣計(jì)算和dispatch傳輸采用和訓(xùn)練一致的FP8格式,core-attention計(jì)算和combine傳輸采用和訓(xùn)練一致的BF16,最大程度保證了服務(wù)效果。

另外,由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,因此我們實(shí)現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時(shí)候,用所有節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來(lái)做研究和訓(xùn)練。在最近的24小時(shí)里(北京時(shí)間2025/02/27 12:00至2025/02/28 12:00),DeepSeekV3和R1推理服務(wù)占用節(jié)點(diǎn)總和,峰值占用為278個(gè)節(jié)點(diǎn),平均占用226.75個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)為8個(gè)H800 GPU)。假定GPU租賃成本為2美金/小時(shí),總成本為$87,072/天。

圖片

在24小時(shí)統(tǒng)計(jì)時(shí)段內(nèi),DeepSeekV3和R1:

輸入token總數(shù)為608B,其中342B tokens(56.3%)命中KVCache硬盤(pán)緩存。

輸出token總數(shù)為168B。平均輸出速率為20~22tps,平均每輸出一個(gè)token的KVCache長(zhǎng)度是4989。

平均每臺(tái)H800的吞吐量為:對(duì)于prefill任務(wù),輸入吞吐約73.7k tokens/s(含緩存命中);對(duì)于decode任務(wù),輸出吞吐約14.8k tokens/s。

以上統(tǒng)計(jì)包括了網(wǎng)頁(yè)、APP和API的所有負(fù)載。如果所有tokens全部按照DeepSeek R1的定價(jià)*計(jì)算,理論上一天的總收入為$562,027,成本利潤(rùn)率545%。

*DeepSeek R1的定價(jià):$0.14/百萬(wàn)輸入tokens(緩存命中),$0.55/百萬(wàn)輸入tokens(緩存未命中),$2.19/百萬(wàn)輸出tokens。

當(dāng)然我們實(shí)際上沒(méi)有這么多收入,因?yàn)閂3的定價(jià)更低,同時(shí)收費(fèi)服務(wù)只占了一部分,另外夜間還會(huì)有折扣。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-03-20 09:00:00

DeepSeek架構(gòu)V3/R1

2025-03-03 08:46:27

2025-03-03 09:00:00

DeepSeekAI人工智能

2009-05-26 09:26:13

2012-07-05 15:39:28

互聯(lián)網(wǎng)手機(jī)小米

2012-08-16 10:07:05

思科

2015-04-14 11:50:10

Info倉(cāng)庫(kù)管理

2015-06-11 09:57:06

2013-12-24 09:22:17

甲骨文商品云

2012-04-13 13:24:36

2011-11-25 10:20:50

云計(jì)算服務(wù)器

2022-02-16 16:40:36

AI人工智能通信服務(wù)

2023-03-30 14:22:41

2015-12-22 12:00:05

SDN云服務(wù)

2009-02-26 16:56:07

虛擬化ITVMware

2015-07-29 20:21:58

IT世界網(wǎng)

2014-01-23 18:36:16

聯(lián)想IBM低端服務(wù)器

2015-12-31 15:29:56

蘋(píng)果2015

2012-07-25 09:49:17

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)