偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<menuitem id="nhv0t"><mark id="nhv0t"></mark></menuitem><em id="nhv0t"><tfoot id="nhv0t"></tfoot></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepSeek 開(kāi)源 V3/R1 架構(gòu)設(shè)計(jì)思路，原來(lái) 545% 的利潤(rùn)率，它也只是被逼無(wú)奈？

作者：架構(gòu)師之路 2025-03-20 09:00:00

開(kāi)發(fā) 架構(gòu) 人工智能

如果所有tokens全部按照R1的定價(jià)計(jì)算，理論上DeepSeek一天的總收入為$562,027，成本利潤(rùn)率545%。

開(kāi)源周的最后一天，DeepSeek分享了DeepSeek-V3/R1的架構(gòu)設(shè)計(jì)思路，讓大家能夠更系統(tǒng)更全面的了解其推理系統(tǒng)的設(shè)計(jì)過(guò)程，以及更深刻的理解之前開(kāi)源的6個(gè)項(xiàng)目。

DeepSeek-V3/R1推理系統(tǒng)的核心目標(biāo)是什么？

通過(guò)軟件架構(gòu)的優(yōu)化，達(dá)到：

更高的吞吐量；
更低的延時(shí)；

為什么DeepSeek要走這一條路？

曾經(jīng)AI技術(shù)發(fā)展，GPU就是瓶頸。

GPU是瓶頸的時(shí)候，有兩條路可走：

其一，水平擴(kuò)展scale out：囤卡，堆GPU；
其二，垂直擴(kuò)展scale up：GPU升級(jí)換代；

但這兩條路，都被死死的卡在漂亮國(guó)的手里。

卡，限制你，不讓你囤。

先進(jìn)的卡，不賣給你，誰(shuí)叫你你落后5年。

為了突破瓶頸，DeepSeek被逼無(wú)奈的走出了第三條路：通過(guò)軟件優(yōu)化架構(gòu)優(yōu)化。

為了達(dá)成目標(biāo)，DeepSeek的核心方案是啥？

大規(guī)模的跨節(jié)點(diǎn)專家并行EP，Expert Parallelism。

通過(guò)提升專家并行EP的數(shù)量（batch size），提升GPU矩陣乘法的效率，提高吞吐；與此同時(shí)，多專家分散在不同的GPU，每個(gè)GPU只需要計(jì)算更少的專家，訪問(wèn)更少的數(shù)據(jù)，從而降低延遲。

大規(guī)模的跨節(jié)點(diǎn)專家并行EP，會(huì)對(duì)軟件架構(gòu)帶來(lái)什么新的挑戰(zhàn)？

EP跨節(jié)點(diǎn)傳輸，要解決傳輸與計(jì)算并行的問(wèn)題；
EP多節(jié)點(diǎn)聯(lián)動(dòng)，要解決數(shù)據(jù)分發(fā)匯總，負(fù)載均衡等問(wèn)題；

大規(guī)模的跨節(jié)點(diǎn)專家并行EP的部署與策略是怎么樣的？

由于V3/R1的專家數(shù)量眾多，并且每層256個(gè)專家中僅激活其中8個(gè)，DeepSeek采用多機(jī)多卡間的專家并行策略來(lái)達(dá)到以下目的：

Prefill預(yù)填充階段：路由專家EP-32、MLA和共享專家DP-32，一個(gè)部署單元是4節(jié)點(diǎn)，32個(gè)冗余路由專家，每張卡9個(gè)路由專家和1個(gè)共享專家；
Decode解碼階段：路由專家EP-144、MLA和共享專家DP-144，一個(gè)部署單元是18節(jié)點(diǎn)，32個(gè)冗余路由專家，每張卡2個(gè)路由專家和1個(gè)共享專家；

這兩個(gè)階段的負(fù)載均衡策略各不相同。

如何解決計(jì)算與傳輸并行的問(wèn)題？

多機(jī)多卡的專家并行會(huì)引入比較大的通信開(kāi)銷，所以DeepSeek使用雙向通道，提高整體吞吐。

預(yù)填充階段：計(jì)算和通信交錯(cuò)進(jìn)行，一個(gè)通道計(jì)算的時(shí)候，另一個(gè)通道通信。

解碼階段類似：計(jì)算與通訊交錯(cuò)進(jìn)行，通過(guò)流水線來(lái)實(shí)現(xiàn)計(jì)算和通信的重疊。

如何最大程度的負(fù)載均衡？

由于采用了很大規(guī)模的數(shù)據(jù)并行與專家并行，如果某個(gè)GPU的計(jì)算或通信負(fù)載過(guò)重，單個(gè)長(zhǎng)尾將成為整個(gè)系統(tǒng)的瓶頸。與此同時(shí)其他GPU因?yàn)榈却辙D(zhuǎn)，造成整體資源利用率下降。因此必須盡可能地為每個(gè)GPU平均分配計(jì)算負(fù)載、通信負(fù)載。

預(yù)填充階段（prefilling stage）：

專家組分配到節(jié)點(diǎn)，保證節(jié)點(diǎn)負(fù)載均衡；
節(jié)點(diǎn)內(nèi)復(fù)制專家；
專家分配到GPUs，保證GPUs負(fù)載均衡；

解碼階段（decoding stage）：

全局復(fù)制專家，不管專家在哪個(gè)組；
專家分配到GPUs，保證GPUs負(fù)載均衡；

總而言之，保證負(fù)載均衡，充分發(fā)揮GPUs的潛力，提升訓(xùn)練效率，縮短訓(xùn)練時(shí)間。

其整體架構(gòu)如下：

V3/R1的所有GPU均使用H800 GPU：

矩陣計(jì)算，分發(fā)：采用FP8格式；
核心注意力計(jì)算，合并：采用BF16格式；

同時(shí)兼顧效率與質(zhì)量。

另外，由于白天的服務(wù)負(fù)荷高，晚上的服務(wù)負(fù)荷低，因此DeepSeek實(shí)現(xiàn)了一套機(jī)制：

在白天負(fù)荷高的時(shí)候，所有節(jié)點(diǎn)部署推理服務(wù)；
晚上負(fù)荷低的時(shí)候，減少推理節(jié)點(diǎn)，以用來(lái)做研究和訓(xùn)練；

綜上所述，如果所有tokens全部按照R1的定價(jià)計(jì)算，理論上DeepSeek一天的總收入為$562,027，成本利潤(rùn)率545%。

到這里，DeepSeek開(kāi)源周的所有7個(gè)項(xiàng)目就寫完了，最后再來(lái)個(gè)匯總：

1. 《FlashMLA：GPU告訴解碼器》

2. 《DeepEP：MOE與EP通訊庫(kù)》

3. 《DeepGEMM：FP8通用矩陣乘法庫(kù)》

4. 《DualPipe：雙向管道并行算法》

5. 《EPLB：EP動(dòng)態(tài)負(fù)載均衡算法》

6. 《3FS：高性能分布式文件系統(tǒng)》

7. 《V3/R1架構(gòu)設(shè)計(jì)思路（本文）》

補(bǔ)充閱讀材料：https://github.com/deepseek-ai/

官方git，可參考。

責(zé)任編輯：趙寧寧來(lái)源：架構(gòu)師之路

DeepSeek 架構(gòu)V3/R1

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="kbevx"><p id="kbevx"></p></pre>

<style id="kbevx"></style>

<rt id="kbevx"></rt>

<ruby id="kbevx"><menuitem id="kbevx"><source id="kbevx"></source></menuitem></ruby>

<em id="kbevx"></em>

<abbr id="kbevx"></abbr>

<pre id="kbevx"><span id="kbevx"></span></pre>