偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepSeek 到底用了多少 GPU 呢？

原創(chuàng) 精選

作者：曹洪偉 2025-02-10 00:20:00

DeepSeek 的 GPU 需求突出了有效的人工智能基礎(chǔ)設(shè)施規(guī)劃的必要性。通過(guò)使用智能工作負(fù)載分配、量化和動(dòng)態(tài) GPU 分配，業(yè)務(wù)可以顯著降低計(jì)算成本，同時(shí)保持高性能。

半導(dǎo)體研究機(jī)構(gòu)SemiAnalysis認(rèn)為，DeepSeek囤積了6萬(wàn)張英偉達(dá)GPU卡，其中包括1萬(wàn)張A100、1萬(wàn)張H100、1萬(wàn)張“特供版”H800、3萬(wàn)張“特供版”H20。馬斯克認(rèn)為DeepSeek實(shí)際使用的GPU數(shù)量可能接近5萬(wàn)個(gè)Nvidia H100 GPU。但是，據(jù)論文顯示，DeepSeek-V3開(kāi)源基礎(chǔ)模型的訓(xùn)練在2048塊英偉達(dá)H800 GPU集群上完成。

什么是真實(shí)的？什么是在炒作呢？

架構(gòu)的影響

DeepSeek的架構(gòu)是一個(gè)開(kāi)源的專家混合 (MoE) 語(yǔ)言模型，使用一個(gè)創(chuàng)新的 Transformer 體系結(jié)構(gòu)設(shè)計(jì)，用于經(jīng)濟(jì)的訓(xùn)練和有效的推理，其核心可能是多頭潛在注意 (MLA) 和 DeepSeekMoE。

圖片

多頭注意力 (MHA) 中的鍵值 (KV) 緩存是 LLM 推理的一個(gè)重要瓶頸。分組查詢注意力 (GQA) 和多查詢注意力 (MQA) 等方法試圖緩解這一問(wèn)題，但往往會(huì)影響性能。MLA 通過(guò)利用低級(jí)關(guān)鍵值聯(lián)合壓縮來(lái)解決這個(gè)問(wèn)題。實(shí)證結(jié)果表明，MLA 不僅優(yōu)于傳統(tǒng)的 MHA，而且顯著降低了 KV 緩存，從而提高了推理效率。

MLA 的主要目標(biāo)是通過(guò)將鍵和值壓縮成比原始表示尺寸小得多的潛在向量，從而減小 KV 緩存的大小。這些被壓縮的潛在 KV 向量存儲(chǔ)在 KV 緩存中，然后在生成階段 (通過(guò)上投影) 被解壓縮到原始維度，以便進(jìn)行多頭注意力的計(jì)算。這種優(yōu)化維護(hù)甚至可以增強(qiáng)模型的準(zhǔn)確性，同時(shí)將緩存大小降低到與 GQA 所達(dá)到的大小相當(dāng)?shù)乃?。事?shí)上，這種緩存減少方法可以與 MQA (最積極的緩存減少方案) 相媲美，同時(shí)提供與傳統(tǒng) MHA 相當(dāng)甚至更高的模型精度。

DeepSeekMoE 引入了兩項(xiàng)關(guān)鍵創(chuàng)新，以最大限度地實(shí)現(xiàn)專家的專業(yè)性：

細(xì)粒度專家細(xì)分：將專家細(xì)分為更細(xì)的粒度，以實(shí)現(xiàn)更高的專業(yè)化和更精確的知識(shí)獲取。
共享專家隔離：隔離專門(mén)的專家以減少路由專家之間的知識(shí)冗余。

使用相同數(shù)量的激活參數(shù)和全部專家參數(shù)，DeepSeekMoE 的性能明顯優(yōu)于 GShard 等傳統(tǒng) MoE 架構(gòu)。

另外. DeepSeek 還采用了多令牌預(yù)測(cè) (MTP) 。MTP 沒(méi)有嚴(yán)格地逐個(gè)生成令牌，而是訓(xùn)練模型一次處理多個(gè)令牌。這種方法提高了吞吐量，也是 DeepSeek-V3 比 DeepSeek-V2 快三倍生成文本的部分原因。

通過(guò)整合這些創(chuàng)新，DeepSeek提供了強(qiáng)大的性能、成本效益高的培訓(xùn)、大量的 KV 緩存減少和高推理吞吐量。

DeepSeek 與其他大模型的對(duì)比

下面表格提供了一個(gè) DeepSeek 比較其他領(lǐng)先的人工智能語(yǔ)言模型的簡(jiǎn)要說(shuō)明。它強(qiáng)調(diào)了 DeepSeek 與 ChatGPT、 Gemini、 Claude 和 Llama 之間的關(guān)鍵區(qū)別，側(cè)重于性能、效率和培訓(xùn)成本等方面。

圖片

簡(jiǎn)單而言，

DeepSeek 正在通過(guò)成本效益高的培訓(xùn)和具有競(jìng)爭(zhēng)力的性能 / 資源比例，打動(dòng)人工智能市場(chǎng)，在 DeepSeek 與 Openai ChatGPT 的對(duì)比中提供了一個(gè)令人信服的案例。
OpenAI (ChatGPT-4) 仍然占據(jù)主導(dǎo)地位，但 DeepSeek 的崛起引入了一個(gè)新的玩家，能夠以更低的成本提供類(lèi)似的功能。DeepSeek VS ChatGPT 目前成為了一種趨勢(shì)。
谷歌 Gemini 與搜索的整合使其在實(shí)時(shí)更新方面功能強(qiáng)大，而 DeepSeek 的多語(yǔ)言專注可能使其成為強(qiáng)大的替代品。
Anthropic Claude 優(yōu)先考慮人工智能的安全性，將自己定位為一個(gè)值得信賴的模型，但它可能缺乏 DeepSeek 的可擴(kuò)展性和適應(yīng)性。
Meta 的Llama是開(kāi)源的，允許定制，但它可能還沒(méi)有達(dá)到 DeepSeek 在多語(yǔ)言和結(jié)構(gòu)化人工智能響應(yīng)方面的表現(xiàn)。據(jù)報(bào)道，Meta建立了四個(gè)作戰(zhàn)室來(lái)調(diào)查深度搜索的發(fā)展趨勢(shì)。

就性能指標(biāo)而言，

“DeepSeek” 無(wú)疑是一個(gè)戲劇性的入口，引發(fā)了一場(chǎng)關(guān)于人工智能未來(lái)的全球?qū)υ?。它的?chuàng)新方法和令人印象深刻的能力既令人興奮又令人關(guān)切，突出了技術(shù)進(jìn)步與地緣政治考慮之間復(fù)雜的相互作用。

DeepSeek 的各模型對(duì)比：V3，R1 和R1-Zero

DeepSeek R1 專為高級(jí)推理任務(wù)設(shè)計(jì)，利用強(qiáng)化學(xué)習(xí)技術(shù)提高其性能，在復(fù)雜的推理任務(wù)中脫穎而出。這個(gè)模型在需要邏輯推理和問(wèn)題解決的場(chǎng)景中特別有效。

圖片

相比之下，DeepSeek V3 是為自然語(yǔ)言處理任務(wù)的多功能性而構(gòu)建的，側(cè)重于使用混合專家體系結(jié)構(gòu)的可伸縮自然語(yǔ)言處理，使其能夠有效地處理各種應(yīng)用程序?？紤]一個(gè)場(chǎng)景，其中 DeepSeek-V3 的任務(wù)是根據(jù)用戶提示詞生成文本。該模型對(duì)輸入進(jìn)行評(píng)估，僅激活與提示的具體上下文最相關(guān)的專家，從而優(yōu)化其處理能力。例如，如果提示此與技術(shù)編碼有關(guān)，那么專門(mén)研究編程語(yǔ)言的專家將被激活，而其他專家子系統(tǒng)將保持休眠狀態(tài)，從而節(jié)省計(jì)算資源。

圖片

最后，DeepSeek R1-Zero 代表了一種創(chuàng)新的方法，它只通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行培訓(xùn)，而不需要事先監(jiān)督微調(diào)。這個(gè)模型已經(jīng)顯示出有前途的推理能力，但可能需要與可讀性和連貫性做斗爭(zhēng)。

圖片

雖然它只保留了在推理過(guò)程中激活 370 億個(gè)參數(shù)的效率，但它強(qiáng)調(diào)了在不同任務(wù)之間的泛化，而不需要大量的微調(diào)或特定于任務(wù)的訓(xùn)練數(shù)據(jù)。在推理和數(shù)學(xué)相關(guān)任務(wù)方面，DeepSeek r 1 始終優(yōu)于 DeepSeek r 1-zero，更適合需要精確計(jì)算和邏輯推理的應(yīng)用。

回到本文開(kāi)始提出的問(wèn)題，那么DeepSeek 模型訓(xùn)練真正的成本是什么？使用了多少GPU呢？

成本的計(jì)算分析

根據(jù)可用數(shù)據(jù)，我們可以計(jì)算分析，得到可能的結(jié)果。

首先，我們假設(shè)使用了50000個(gè)GPU，訓(xùn)練了60天相當(dāng)于1440個(gè)小時(shí)，則總的訓(xùn)練時(shí)長(zhǎng)=50000 X 1440 = 72000000 GPU小時(shí)。

再假設(shè)每個(gè)GPU小時(shí)的成本=3美元，那么訓(xùn)練成本= 72000000 X 3 = 246000000 美元。一般地，其他附加成本約占訓(xùn)練成本的10～20%，我們假設(shè)附加成本約占訓(xùn)練成本的15%，則訓(xùn)練的總成本為 246000000 x 115% = 248400000 美元，與傳說(shuō)中的2.48億美元吻合。

我們知道如何訓(xùn)練的總成本=總的GPU小時(shí) x 單個(gè)GPU小時(shí)的成本，則總的GPU小時(shí) =訓(xùn)練的總成本/ 單個(gè)GPU小時(shí)的成本，如果訓(xùn)練的總成本是500萬(wàn)美元，單個(gè)GPU小時(shí)的成本的成本是3美元的話，則總的GPU小時(shí)= 5000000/3=1666667 GPU小時(shí)。

既然知道了訓(xùn)練的總GPU小時(shí)數(shù)，就可以估算總的訓(xùn)練時(shí)長(zhǎng)了。

已知總的GPU小時(shí) = GPU個(gè)數(shù) X 小時(shí)為單位的訓(xùn)練時(shí)長(zhǎng)，則小時(shí)為單位的訓(xùn)練時(shí)長(zhǎng)= 總的GPU小時(shí) /GPU個(gè)數(shù)，如果使用了50000個(gè)GPU的話，所以總的訓(xùn)練時(shí)長(zhǎng)= 1666667 /50000 = 33.33 小時(shí)，約為1.39天。

如果使用了2000個(gè)GPU的話，總的訓(xùn)練時(shí)長(zhǎng)= 1666667 /2000 = 833.33 小時(shí)，約為34.72天。

因此， 500 萬(wàn)美元可能更貼近于真實(shí)，這只是訓(xùn)練成本，即~35天內(nèi) 2000 個(gè) NVIDIA H800 GPU。2.48 億美元的估計(jì)則是基于 50000 個(gè) GPU 60 天的訓(xùn)練，這種設(shè)置可能只是一種謠傳。DeepSeek 擁有它們，但該項(xiàng)目只使用了 2000 個(gè) GPU，實(shí)現(xiàn)了智能優(yōu)化。

以DeepSeek R1 為例，有人推薦了如下的GPU配置：

圖片

一旦經(jīng)過(guò)了訓(xùn)練，DeepSeek 大模型推理階段的硬件需求明顯降低，即使在功能較差的 GPU 上部署也是可行的。

更少的 GPU 需求：推理可以在像 NVIDIA RTX 4090 (24 GB VRAM) 或企業(yè)級(jí) A100 這樣的 GPU 上執(zhí)行，而不是大規(guī)模集群。
更低的 VRAM 使用：使用 4 位和 8 位量化，DeepSeek 降低了高達(dá) 75% 的 VRAM 消耗，允許高效的模型服務(wù)。
能源節(jié)?。合啾扔谟?xùn)練推理的能源消耗降低了超過(guò) 50% 能源消耗。
實(shí)時(shí)處理：優(yōu)化的執(zhí)行管道允許低延遲推斷，這對(duì)于聊天機(jī)器人和自動(dòng)化等 AI 驅(qū)動(dòng)的應(yīng)用程序至關(guān)重要。

問(wèn)題是：“DeepSeek” 是一個(gè)轉(zhuǎn)瞬即逝的現(xiàn)象，還是一股將重塑人工智能世界的力量呢？

一句話小結(jié)

DeepSeek 的 GPU 需求突出了有效的人工智能基礎(chǔ)設(shè)施規(guī)劃的必要性。通過(guò)使用智能工作負(fù)載分配、量化和動(dòng)態(tài) GPU 分配，業(yè)務(wù)可以顯著降低計(jì)算成本，同時(shí)保持高性能。DeepSeek R1 顯示了大模型領(lǐng)域上的創(chuàng)新，一些的復(fù)現(xiàn)版本也證明了這一點(diǎn)。

ps. 需要注意的是，那些“精簡(jiǎn)版”的R1 版本并不是模型的全部。完整模型為 671B 參數(shù)，每個(gè)實(shí)例需要 ~16 個(gè) 80GB GPU。而且，托管版本可能會(huì)使用用戶的數(shù)據(jù)進(jìn)行訓(xùn)練，所以在上傳敏感內(nèi)容之前請(qǐng)仔細(xì)檢查。

責(zé)任編輯：武曉燕來(lái)源：喔家ArchiSelf

DeepSeek GPU 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)