偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AMD的GPU跑AI模型終于Yes了?PK英偉達(dá)H100不帶怕的

人工智能 新聞
近日,專注計算硬件的科技媒體 The Information 發(fā)布了一份對比評測報告,聲稱是首個直接對比 AMD 和英偉達(dá) AI 集群的基準(zhǔn)評測。該報告的數(shù)據(jù)來自 MLCommons,這是一個由供應(yīng)商主導(dǎo)的評測機(jī)構(gòu)。

AMD vs 英偉達(dá)絕對算是一個長盛不衰的話題 —— 從玩游戲用哪家強(qiáng)到如今訓(xùn)練 AI 哪個更高效?原因也很簡單:它們的 GPU 產(chǎn)品存在直接競爭關(guān)系。

當(dāng)然,答案通常都偏向于英偉達(dá),尤其是在 AI 算力方面,正如前些天李沐在上海交大演講時談到的那樣:「算力這塊,你可以用別的芯片,但是這些芯片用來做推理還 OK,做訓(xùn)練的話還要等幾年的樣子,英偉達(dá)還是處在一個壟斷的地位?!?/span>

但基于實證的對比研究卻往往又會給出不一樣的答案,比如在同一個演講中,李沐還提到了這兩家 GPU 的內(nèi)存情況,對此他表示:「在這一塊,雖然英偉達(dá)是領(lǐng)先者,但其實英偉達(dá)是不如 AMD 的,甚至不如 Google 的 TPU?!?/span>

實際上,不少業(yè)內(nèi)人士都表達(dá)過對 AMD 占據(jù)更大市場份額的信心,比如 Transformer 作者及生成式 AI 初創(chuàng)公司 Cohere 創(chuàng)始人之一艾丹?戈麥斯(Aidan Gomez)前些天說:「我認(rèn)為 AMD 和 Tranium 這些平臺很快也將做好真正進(jìn)入主流市場的準(zhǔn)備。」

近日,專注計算硬件的科技媒體 The Information 發(fā)布了一份對比評測報告,聲稱是首個直接對比 AMD 和英偉達(dá) AI 集群的基準(zhǔn)評測。該報告的數(shù)據(jù)來自 MLCommons,這是一個由供應(yīng)商主導(dǎo)的評測機(jī)構(gòu)。

他們構(gòu)建了一套 MLPerf AI 訓(xùn)練和推理基準(zhǔn)。AMD Instinct 「Antares」 MI300X GPU 以及英偉達(dá)的「Hopper」H100 和 H200 和「Blackwell」B200 GPU 都得到了評估。The Information 對比了這些評估數(shù)據(jù)。

結(jié)果表明:在 AI 推理基準(zhǔn)上,MI300X GPU 絕對能比肩 H100 GPU,而根據(jù) The Information 對 GPU 成本及系統(tǒng)總成本的估計,說 MI300X GPU 能媲美 H100 和 H200 GPU 也不為過。但是,也需要說明這些測試存在局限:僅使用了一種模型,即來自 Meta 的 Llama 2 70B。希望未來能看到這些測試中使用更多不同的 AI 模型。

對 MI300X 及 AMD 未來的 GPU 來說,這個結(jié)果很是不錯。

但到今年年底時,考慮到英偉達(dá) Blackwell B100 和 B200 GPU 的預(yù)期價格,似乎英偉達(dá)將與 AMD MI300X 加速器開始比拼性價比。另外,也許 AMD 會在今年晚些時候推出 MI325X GPU。

重點關(guān)注推理

AMD 的數(shù)據(jù)直到上周才發(fā)布。業(yè)內(nèi)有傳言說 AMD 簽了一些大訂單,會把 MI300X 出售給超大規(guī)模計算公司和云構(gòu)建商,以支撐他們的推理工作負(fù)載。無怪乎 AMD 直到上周才發(fā)布 MLPerf Inference v4.1 測試結(jié)果。

對 MLPerf 推理結(jié)果的分析表明,在使用 Llama 2 70B 模型執(zhí)行推理任務(wù)時,MI300X 在性能和成本上確實能與 H100 比肩。但和 H200 相比就差點了,畢竟 H200 有更大的 HBM 內(nèi)存(141GB)和更高的帶寬。如果 Blackwell 的定價符合預(yù)期,那么今年晚些時候推出的 MI325 為了具備競爭力,就必須得擁有更大的內(nèi)存、更高的帶寬和更激進(jìn)的價格才行。

下面是最新發(fā)布的 MLPerf 基準(zhǔn)評測結(jié)果:

圖片

英偉達(dá)的 MLPerf 基準(zhǔn)評測結(jié)果來自英偉達(dá)自身,其中也包括使用 Llama 2 70B 模型在單臺 Blackwell B200 SXM 上的結(jié)果,詳情可訪問這篇博客:https://blogs.nvidia.com/blog/mlperf-inference-benchmark-blackwell/

The information 提取了所有英偉達(dá)的結(jié)果,并新增了 Juniper Networks 在包含 2 個和 4 個節(jié)點的 HGX H100 集群上得到的結(jié)果(總共 8 和 16 臺 H100)。

AMD 在配備一對當(dāng)前的「Genoa」Epyc 9004 系列處理器和八臺 Antares MI300X GPU 的服務(wù)器節(jié)點中測試了標(biāo)準(zhǔn)通用基板(UBB),還測試了一臺將 Genoa CPU 換成即將推出的「Turin」Epyc 9005 系列 CPU 的機(jī)器,該系列 CPU 預(yù)計將在下個月左右推出。

圖片

AMD 還向 The Next Platform 提供了一張圖表,其中展示了在 Genoa 盒子上測試一臺 MI300X GPU 的性能,這可以顯示節(jié)點內(nèi) GPU 的擴(kuò)展性能:

圖片

讓我們先看性能,然后再看性價比。

對于性能,我們想知道,在執(zhí)行 Llama 2 推理時,AMD 和英偉達(dá)設(shè)備所具備的潛在峰值浮點性能有多少會被實際用于生成 token。但并沒有這方面的具體數(shù)據(jù),因為 GPU 利用率和內(nèi)存利用率不在基準(zhǔn)測試中。不過我們可以根據(jù)已有數(shù)據(jù)進(jìn)行推斷。

AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 軟件庫和 runtimes,它類似于英偉達(dá)的 CUDA 堆棧。在 MI300X 的張量核心上的峰值 FP16 性能為 1307.4 TFlops,但這是在服務(wù)器模式下運(yùn)行的(也就是使用在現(xiàn)實世界中看到的一種隨機(jī)查詢),可知在運(yùn)行 Llama 2 70B 模型時,單臺 MI300X 每秒生成 2530.7 個 token。因此,Llama 2 性能與假設(shè)峰值 Flops 之比為 1.94。當(dāng)擴(kuò)展到 8 臺 MI300X 設(shè)備并換用更高速的 CPU,則這一比值會略微升至 2.01 到 2.11。

我們知道,H100 GPU 的 HBM 內(nèi)存僅有 80GB,啟動帶寬也較低,這是因為缺少 HBM3 和 HBM3E 內(nèi)存導(dǎo)致的內(nèi)存配置不足。MI300X 也是類似。大家都在拉低 GPU 的內(nèi)存配置,這樣不僅是為了多賣些設(shè)備,而且也因為在 GPU 芯片附近堆疊 HBM 的難度很大,并且還有封裝制造工藝的問題。

再看看英偉達(dá)測試的 H100 系統(tǒng),每秒服務(wù)器 token 與峰值 FP16 Flops 的比值是 2.6 或 2.73,這比 AMD 的更好,這可能要歸結(jié)于軟件調(diào)整。針對 H100,CUDA 堆棧和 TensorRT 推理引擎進(jìn)行了大量調(diào)整,現(xiàn)在你明白為什么 AMD 如此渴望收購人工智能咨詢公司 Silo AI 了吧?這筆交易幾周前剛剛完成。

由于切換到了 HBM3E,H200 的 HBM 內(nèi)存將大幅提升至 141 GB,帶寬也將從 3.35 TB/s 提升至 4.8 TB/s。于是這個比值將增至 4.25,而英偉達(dá)自己的基準(zhǔn)測試表明,只需在完全相同的 Hopper GH100 GPU 上添加內(nèi)存容量和帶寬,AI 工作負(fù)載就能提升 1.6 至 1.9 倍。

MI300X 應(yīng)該具有什么樣的內(nèi)存容量和帶寬才能平衡其在推理(可能還有訓(xùn)練)工作負(fù)載方面的浮點性能呢?這一點很難估計。但 The Information 給出了一個直覺估計:MI325X 將具有 6 TB/s 的帶寬(MI300 為 5.3 TB/s)和 288 GB 的 HBM3E( HBM3 為 192 GB)—— 這是朝著正確方向邁出的一大步。另外,MI325X 的 FP16 浮點性能似乎還是 1.31 Pflops。

不過明年的 MI350 的浮點性能可能會大幅提升,據(jù)信其會有新迭代的 CDNA 架構(gòu):CDNA 4。其不同于 Antares MI300A、MI300X 和 MI325X 中使用的 CDNA 3 架構(gòu)。MI350 將轉(zhuǎn)向臺積電的 3 納米工藝,并增加 FP6 和 FP4 數(shù)據(jù)類型。據(jù)推測,將有一個全 GPU 的 MI350X 版本,也許還有一個帶有 Turin CPU 核心的 MI350A 版本。

你可能傾向于相信 AMD MI300X 和英偉達(dá) H100 之間的性能差異是因為:一致性互連將 GPU 綁定到其各自 UBB 和 HGX 板上的共享內(nèi)存復(fù)合體中。AMD 機(jī)器上的是 Infinity Fabric,而英偉達(dá)機(jī)器上的是 NVSwitch。Infinity Fabric 的每臺 GPU 的雙向帶寬為 128 GB/s,而 NVLink 4 端口和 NVSwitch 3 交換機(jī)的帶寬為 900 GB/s,因此英偉達(dá)機(jī)器在內(nèi)存一致性節(jié)點結(jié)構(gòu)上的帶寬高 7 倍。

這可能是 Llama 2 工作負(fù)載性能差異的一部分原因,但 The Information 認(rèn)為不是。原因如下。

單臺 MI300X 的峰值性能為 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且沒有稀疏矩陣重新調(diào)整,吞吐量翻倍。MI300X 的內(nèi)存是 H100 的 2.4 倍,但 Llama 2 推理工作性能僅比 H100 多 7%,并且推理負(fù)載僅為 H200 的 60%。根據(jù)英偉達(dá)進(jìn)行的測試,相比于配備 180 GB 內(nèi)存的 Blackwell B200,該設(shè)備的工作性能僅為其 23.5%。

據(jù)信 B200 的內(nèi)存也會受限,因此根據(jù) 6 月份發(fā)布的英偉達(dá)路線圖,B200 和 B100(可能)將在 2025 年進(jìn)行內(nèi)存升級,容量可能會提升到 272 GB 左右。H200 的內(nèi)存升級會領(lǐng)先于 MI300X,后者的升級將在今年晚些時候體現(xiàn)在 MI32X 上,并會在內(nèi)存方面領(lǐng)先 B200 Blackwell Ultra 六到九個月。

圖片

The Information 表示:「如果我們要買 GPU,我們會等 Hopper Ultra (H200)、Blackwell Ultra (B200+) 和 Antares Ultra (MI325X)。擁有更多 HBM 的數(shù)據(jù)中心 GPU 更劃算。」

當(dāng)然,你也可以等,用你現(xiàn)有的 GPU 參加這場生成式 AI 大戰(zhàn)。

當(dāng)然,上面的數(shù)據(jù)圍繞著推理,至于 AI 訓(xùn)練方面的數(shù)據(jù),AMD 可能會在今年秋季發(fā)布。

實際應(yīng)用的性價比

MI300X 與英偉達(dá)的 Hopper 和 Blackwell 的性價比如何呢?

今年早些時候,英偉達(dá)聯(lián)合創(chuàng)始人兼 CEO 黃仁勛在 Blackwell 發(fā)布后表示:這些設(shè)備的價格將在 3.5 至 4 萬美元之間。Hopper GPU 的價格可能為 2.25 萬美元,具體取決于配置。黃仁勛在 2023 年時曾表示,一套配置完成的 HGX H100 系統(tǒng)板的價格售價 20 萬美元。至于 H200,如果單獨購買,價格應(yīng)該是 3 萬美元。MI300X 的售價大概是 2 萬美元,但這基本基于猜測。具體還要看消費(fèi)者和市場情況。

當(dāng)然,大量購買應(yīng)該還有折扣,正如黃仁勛喜歡說的那樣:「買得越多,省得越多?!梗═he More You Buy, The More You Save)

粗略估計,將這些 GPU 變成服務(wù)器(兩臺 CPU、大量主內(nèi)存、網(wǎng)卡和一些閃存)的成本約為 15 萬美元,并且可以插入英偉達(dá)的 HGX 板或 AMD 的 UBB 板來構(gòu)建八路機(jī)器。考慮到之前計算的單臺 GPU 的性能,于是這里便以這一成本的八分之一進(jìn)行計算。

綜合這些成本,可以看到 MI300X 與 H100 一樣非常燒錢。

我們已經(jīng)知道,對于 Llama 2 70B 推理任務(wù),H100 系統(tǒng)中平均每臺 GPU 每秒可輸出 2700 個 token,這比 MI300X 好 7%。H200 的內(nèi)存是 141 GB,是原來的兩倍多,而其推理性能提升了 56%,但 GPU 的價格僅上漲了 33%,因此其 GPU 和系統(tǒng)層面的性價比都得到了提升。

如果 B200 的價格如黃仁勛所說的那樣為 4 萬美元,那么在 Llama 2 70B 測試中,其在 GPU 層面上每單位推理的成本將降低近一半,在系統(tǒng)層面上則會略多于一半。

考慮到 Blackwell 的短缺以及希望在給定空間和給定熱范圍內(nèi)容納更多 AI 計算的需求,因此也可以推斷英偉達(dá)可能為每臺 B200 GPU 定價 5 萬美元 —— 很多人都這樣預(yù)計。

當(dāng)然,具體如何,還要看今年晚些時候 AMD MI325 的定價以及產(chǎn)能。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-14 12:08:51

2023-11-21 09:14:33

微軟Azure AI

2025-04-22 09:47:07

2023-08-10 13:54:36

GPUAI

2023-08-06 13:01:34

AI開發(fā)

2024-04-10 09:10:27

Gaudi 3芯片英特爾

2024-03-14 14:49:34

Meta人工智能

2023-11-14 08:59:25

英偉達(dá)AI

2023-08-14 08:07:46

ChatGPTAI

2023-08-13 07:44:18

GPU模型英偉達(dá)

2024-02-29 13:54:00

數(shù)據(jù)訓(xùn)練

2023-10-18 13:17:12

AI芯片英偉達(dá)美國

2023-08-24 14:26:00

數(shù)據(jù)中心利潤AI

2023-07-31 21:34:53

Agents英偉達(dá)模型

2024-08-28 13:34:13

2023-09-14 13:23:00

AI芯片

2024-04-10 12:58:00

數(shù)據(jù)訓(xùn)練

2024-08-05 08:20:00

馬斯克AI

2023-09-10 12:40:01

英偉達(dá)GPU

2023-09-10 12:37:38

模型英偉達(dá)
點贊
收藏

51CTO技術(shù)棧公眾號