偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek 到底用了多少 GPU 呢?

原創(chuàng) 精選
人工智能
DeepSeek 的 GPU 需求突出了有效的人工智能基礎(chǔ)設(shè)施規(guī)劃的必要性。通過(guò)使用智能工作負(fù)載分配、量化和動(dòng)態(tài) GPU 分配,業(yè)務(wù)可以顯著降低計(jì)算成本,同時(shí)保持高性能。

半導(dǎo)體研究機(jī)構(gòu)SemiAnalysis認(rèn)為,DeepSeek囤積了6萬(wàn)張英偉達(dá)GPU卡,其中包括1萬(wàn)張A100、1萬(wàn)張H100、1萬(wàn)張“特供版”H800、3萬(wàn)張“特供版”H20。馬斯克認(rèn)為DeepSeek實(shí)際使用的GPU數(shù)量可能接近5萬(wàn)個(gè)Nvidia H100 GPU。但是,據(jù)論文顯示,DeepSeek-V3開(kāi)源基礎(chǔ)模型的訓(xùn)練在2048塊英偉達(dá)H800 GPU集群上完成。

什么是真實(shí)的?什么是在炒作呢?

架構(gòu)的影響

DeepSeek的架構(gòu)是一個(gè)開(kāi)源的專家混合 (MoE) 語(yǔ)言模型,使用一個(gè)創(chuàng)新的 Transformer 體系結(jié)構(gòu)設(shè)計(jì),用于經(jīng)濟(jì)的訓(xùn)練和有效的推理,其核心可能是多頭潛在注意 (MLA) 和 DeepSeekMoE。

圖片圖片

多頭注意力 (MHA) 中的鍵值 (KV) 緩存是 LLM 推理的一個(gè)重要瓶頸。分組查詢注意力 (GQA) 和多查詢注意力 (MQA) 等方法試圖緩解這一問(wèn)題,但往往會(huì)影響性能。MLA 通過(guò)利用低級(jí)關(guān)鍵值聯(lián)合壓縮來(lái)解決這個(gè)問(wèn)題。實(shí)證結(jié)果表明,MLA 不僅優(yōu)于傳統(tǒng)的 MHA,而且顯著降低了 KV 緩存,從而提高了推理效率。

MLA 的主要目標(biāo)是通過(guò)將鍵和值壓縮成比原始表示尺寸小得多的潛在向量,從而減小 KV 緩存的大小。這些被壓縮的潛在 KV 向量存儲(chǔ)在 KV 緩存中,然后在生成階段 (通過(guò)上投影) 被解壓縮到原始維度,以便進(jìn)行多頭注意力的計(jì)算。這種優(yōu)化維護(hù)甚至可以增強(qiáng)模型的準(zhǔn)確性,同時(shí)將緩存大小降低到與 GQA 所達(dá)到的大小相當(dāng)?shù)乃?。事?shí)上,這種緩存減少方法可以與 MQA (最積極的緩存減少方案) 相媲美,同時(shí)提供與傳統(tǒng) MHA 相當(dāng)甚至更高的模型精度。

DeepSeekMoE 引入了兩項(xiàng)關(guān)鍵創(chuàng)新,以最大限度地實(shí)現(xiàn)專家的專業(yè)性:

  • 細(xì)粒度專家細(xì)分:將專家細(xì)分為更細(xì)的粒度,以實(shí)現(xiàn)更高的專業(yè)化和更精確的知識(shí)獲取。
  • 共享專家隔離:隔離專門(mén)的專家以減少路由專家之間的知識(shí)冗余。

使用相同數(shù)量的激活參數(shù)和全部專家參數(shù),DeepSeekMoE 的性能明顯優(yōu)于 GShard 等傳統(tǒng) MoE 架構(gòu)。

另外. DeepSeek 還采用了多令牌預(yù)測(cè) (MTP) 。MTP 沒(méi)有嚴(yán)格地逐個(gè)生成令牌,而是訓(xùn)練模型一次處理多個(gè)令牌。這種方法提高了吞吐量,也是 DeepSeek-V3 比 DeepSeek-V2 快三倍生成文本的部分原因。

通過(guò)整合這些創(chuàng)新,DeepSeek提供了強(qiáng)大的性能、成本效益高的培訓(xùn)、大量的 KV 緩存減少和高推理吞吐量。

DeepSeek 與其他大模型的對(duì)比

下面表格提供了一個(gè) DeepSeek 比較其他領(lǐng)先的人工智能語(yǔ)言模型的簡(jiǎn)要說(shuō)明。它強(qiáng)調(diào)了 DeepSeek 與 ChatGPT、 Gemini、 Claude 和 Llama 之間的關(guān)鍵區(qū)別,側(cè)重于性能、效率和培訓(xùn)成本等方面。

圖片圖片

簡(jiǎn)單而言,

  • DeepSeek 正在通過(guò)成本效益高的培訓(xùn)和具有競(jìng)爭(zhēng)力的性能 / 資源比例,打動(dòng)人工智能市場(chǎng),在 DeepSeek 與 Openai ChatGPT 的對(duì)比中提供了一個(gè)令人信服的案例。
  • OpenAI (ChatGPT-4) 仍然占據(jù)主導(dǎo)地位,但 DeepSeek 的崛起引入了一個(gè)新的玩家,能夠以更低的成本提供類(lèi)似的功能。DeepSeek VS ChatGPT 目前成為了一種趨勢(shì)。
  • 谷歌 Gemini 與搜索的整合使其在實(shí)時(shí)更新方面功能強(qiáng)大,而 DeepSeek 的多語(yǔ)言專注可能使其成為強(qiáng)大的替代品。
  • Anthropic Claude 優(yōu)先考慮人工智能的安全性,將自己定位為一個(gè)值得信賴的模型,但它可能缺乏 DeepSeek 的可擴(kuò)展性和適應(yīng)性。
  • Meta 的Llama是開(kāi)源的,允許定制,但它可能還沒(méi)有達(dá)到 DeepSeek 在多語(yǔ)言和結(jié)構(gòu)化人工智能響應(yīng)方面的表現(xiàn)。據(jù)報(bào)道,Meta建立了四個(gè)作戰(zhàn)室來(lái)調(diào)查深度搜索的發(fā)展趨勢(shì)。

就性能指標(biāo)而言,

“DeepSeek” 無(wú)疑是一個(gè)戲劇性的入口,引發(fā)了一場(chǎng)關(guān)于人工智能未來(lái)的全球?qū)υ?。它的?chuàng)新方法和令人印象深刻的能力既令人興奮又令人關(guān)切,突出了技術(shù)進(jìn)步與地緣政治考慮之間復(fù)雜的相互作用。

DeepSeek 的各模型對(duì)比:V3,R1 和R1-Zero

DeepSeek R1 專為高級(jí)推理任務(wù)設(shè)計(jì),利用強(qiáng)化學(xué)習(xí)技術(shù)提高其性能,在復(fù)雜的推理任務(wù)中脫穎而出。這個(gè)模型在需要邏輯推理和問(wèn)題解決的場(chǎng)景中特別有效。

圖片圖片

相比之下,DeepSeek V3 是為自然語(yǔ)言處理任務(wù)的多功能性而構(gòu)建的,側(cè)重于使用混合專家體系結(jié)構(gòu)的可伸縮自然語(yǔ)言處理,使其能夠有效地處理各種應(yīng)用程序??紤]一個(gè)場(chǎng)景,其中 DeepSeek-V3 的任務(wù)是根據(jù)用戶提示詞生成文本。該模型對(duì)輸入進(jìn)行評(píng)估,僅激活與提示的具體上下文最相關(guān)的專家,從而優(yōu)化其處理能力。例如,如果提示此與技術(shù)編碼有關(guān),那么專門(mén)研究編程語(yǔ)言的專家將被激活,而其他專家子系統(tǒng)將保持休眠狀態(tài),從而節(jié)省計(jì)算資源。

圖片圖片

最后,DeepSeek R1-Zero 代表了一種創(chuàng)新的方法,它只通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行培訓(xùn),而不需要事先監(jiān)督微調(diào)。這個(gè)模型已經(jīng)顯示出有前途的推理能力,但可能需要與可讀性和連貫性做斗爭(zhēng)。

圖片圖片

雖然它只保留了在推理過(guò)程中激活 370 億個(gè)參數(shù)的效率,但它強(qiáng)調(diào)了在不同任務(wù)之間的泛化,而不需要大量的微調(diào)或特定于任務(wù)的訓(xùn)練數(shù)據(jù)。在推理和數(shù)學(xué)相關(guān)任務(wù)方面,DeepSeek r 1 始終優(yōu)于 DeepSeek r 1-zero,更適合需要精確計(jì)算和邏輯推理的應(yīng)用。

回到本文開(kāi)始提出的問(wèn)題,那么DeepSeek 模型訓(xùn)練真正的成本是什么?使用了多少GPU呢? 

成本的計(jì)算分析

根據(jù)可用數(shù)據(jù),我們可以計(jì)算分析,得到可能的結(jié)果。

首先,我們假設(shè)使用了50000個(gè)GPU,訓(xùn)練了60天相當(dāng)于1440個(gè)小時(shí),則總的訓(xùn)練時(shí)長(zhǎng)=50000 X 1440 = 72000000 GPU小時(shí)。

再假設(shè)每個(gè)GPU小時(shí)的成本=3美元,那么訓(xùn)練成本= 72000000 X 3 = 246000000 美元。一般地,其他附加成本約占訓(xùn)練成本的10~20%,我們假設(shè)附加成本約占訓(xùn)練成本的15%,則訓(xùn)練的總成本為 246000000 x 115% = 248400000 美元,與傳說(shuō)中的2.48億美元吻合。

我們知道如何訓(xùn)練的總成本=總的GPU小時(shí) x 單個(gè)GPU小時(shí)的成本,則總的GPU小時(shí) =訓(xùn)練的總成本/ 單個(gè)GPU小時(shí)的成本,如果訓(xùn)練的總成本是500萬(wàn)美元,單個(gè)GPU小時(shí)的成本的成本是3美元的話,則總的GPU小時(shí)= 5000000/3=1666667 GPU小時(shí)。

既然知道了訓(xùn)練的總GPU小時(shí)數(shù),就可以估算總的訓(xùn)練時(shí)長(zhǎng)了。

已知總的GPU小時(shí) = GPU個(gè)數(shù) X 小時(shí)為單位的訓(xùn)練時(shí)長(zhǎng),則 小時(shí)為單位的訓(xùn)練時(shí)長(zhǎng)= 總的GPU小時(shí) /GPU個(gè)數(shù),如果使用了50000個(gè)GPU的話,所以總的訓(xùn)練時(shí)長(zhǎng)= 1666667 /50000 = 33.33 小時(shí),約為1.39天。

如果使用了2000個(gè)GPU的話, 總的訓(xùn)練時(shí)長(zhǎng)= 1666667 /2000 = 833.33 小時(shí),約為34.72天。

因此, 500 萬(wàn)美元可能更貼近于真實(shí),這只是訓(xùn)練成本,即~35天內(nèi) 2000 個(gè) NVIDIA H800 GPU。2.48 億美元的估計(jì)則是基于 50000 個(gè) GPU 60 天的訓(xùn)練,這種設(shè)置可能只是一種謠傳。DeepSeek 擁有它們,但該項(xiàng)目只使用了 2000 個(gè) GPU,實(shí)現(xiàn)了智能優(yōu)化 。

以DeepSeek R1 為例, 有人推薦了如下的GPU配置:

圖片圖片

一旦經(jīng)過(guò)了訓(xùn)練,DeepSeek 大模型推理階段的硬件需求明顯降低,即使在功能較差的 GPU 上部署也是可行的。

  • 更少的 GPU 需求:推理可以在像 NVIDIA RTX 4090 (24 GB VRAM) 或企業(yè)級(jí) A100 這樣的 GPU 上執(zhí)行,而不是大規(guī)模集群。
  • 更低的 VRAM 使用:使用 4 位和 8 位量化,DeepSeek 降低了高達(dá) 75% 的 VRAM 消耗,允許高效的模型服務(wù)。
  • 能源節(jié)?。合啾扔谟?xùn)練推理的能源消耗降低了超過(guò) 50% 能源消耗。
  • 實(shí)時(shí)處理:優(yōu)化的執(zhí)行管道允許低延遲推斷,這對(duì)于聊天機(jī)器人和自動(dòng)化等 AI 驅(qū)動(dòng)的應(yīng)用程序至關(guān)重要。

問(wèn)題是:“DeepSeek” 是一個(gè)轉(zhuǎn)瞬即逝的現(xiàn)象,還是一股將重塑人工智能世界的力量呢?

一句話小結(jié)

DeepSeek 的 GPU 需求突出了有效的人工智能基礎(chǔ)設(shè)施規(guī)劃的必要性。通過(guò)使用智能工作負(fù)載分配、量化和動(dòng)態(tài) GPU 分配,業(yè)務(wù)可以顯著降低計(jì)算成本,同時(shí)保持高性能。DeepSeek R1 顯示了大模型領(lǐng)域上的創(chuàng)新,一些的復(fù)現(xiàn)版本也證明了這一點(diǎn)。

ps. 需要注意的是,那些“精簡(jiǎn)版”的R1 版本并不是模型的全部。完整模型為 671B 參數(shù),每個(gè)實(shí)例需要 ~16 個(gè) 80GB GPU。而且,托管版本可能會(huì)使用用戶的數(shù)據(jù)進(jìn)行訓(xùn)練,所以在上傳敏感內(nèi)容之前請(qǐng)仔細(xì)檢查。

責(zé)任編輯:武曉燕 來(lái)源: 喔家ArchiSelf
相關(guān)推薦

2009-09-07 09:10:24

Windows 7占用空間

2024-12-06 08:00:00

K8s

2009-08-18 09:19:12

Windows 7占用空間Windows 7體積

2025-02-17 09:03:26

DeepSeekAI工具人工智能

2024-11-06 08:49:46

2018-02-06 12:48:12

人工智能深度學(xué)習(xí)AI芯片

2025-01-08 08:49:50

2024-05-30 07:37:30

2024-01-16 12:42:00

2022-09-06 07:29:33

微服務(wù)方式函數(shù)

2010-03-22 16:02:50

云計(jì)算

2013-11-06 15:01:51

Linux命令內(nèi)存

2016-01-13 09:15:48

Java對(duì)象占空間

2021-03-08 21:57:29

手機(jī)科技數(shù)碼

2009-09-18 15:58:08

CCIE認(rèn)證費(fèi)用

2022-09-27 09:43:08

物聯(lián)網(wǎng)設(shè)備物聯(lián)網(wǎng)

2025-01-06 05:00:00

人工智能GPU深度學(xué)習(xí)

2025-02-20 14:52:02

2020-07-17 17:11:22

HTTPS對(duì)稱非對(duì)稱
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)