AMD跑DeepSeek性能超H200！128并發(fā)Token間延遲不超50ms，吞吐量達(dá)H200五倍

作者：量子位 2025-03-25 12:59:01

AITER可以用來(lái)加速GPU訓(xùn)練和推理，AMD副總裁Emad Barsoum直接喊出了AITER is all you need。

DeepSeek-R1掀起新一輪購(gòu)卡潮的同時(shí)，AMD的含金量也上升了。

在AMD的MI300X上跑FP8滿(mǎn)血R1，性能全面超越了英偉達(dá)H200——

相同延遲下吞吐量最高可達(dá)H200的5倍，相同并發(fā)下則比H200高出75%。

這個(gè)結(jié)果，一方面歸功于SGLang框架，另一方面則是得益于AMD新優(yōu)化的AI內(nèi)核庫(kù)AITER。

AITER可以用來(lái)加速GPU訓(xùn)練和推理，AMD副總裁Emad Barsoum直接喊出了AITER is all you need。

還有網(wǎng)友表示，英偉達(dá)CUDA的護(hù)城河要終結(jié)了。

之前著名黑客George Hotz也曾表示自己非常看好AMD，認(rèn)為只要有好的軟件MI300X表現(xiàn)就能超越H100。

結(jié)果MI300X超額實(shí)現(xiàn)了George的期待，直接把H200給超了。

吞吐翻倍、延遲更低

AMD的測(cè)試結(jié)果顯示，MI300X在延遲相似的情況下實(shí)現(xiàn)了H200五倍的吞吐量，超過(guò)了每秒7k Tokens。

如果固定并發(fā)數(shù)量，MI300X相同并發(fā)下的吞吐量比H200高75%，延遲降低 60%。

如果需要Token間延遲不超過(guò)50毫秒，一個(gè)H200節(jié)點(diǎn)可以處理16個(gè)并發(fā)請(qǐng)求，MI300X節(jié)點(diǎn)則可以處理128個(gè)。

除了AMD自己，也有第三方對(duì)H100和MI300X進(jìn)行了對(duì)比測(cè)試。

結(jié)果除了首個(gè)Token延遲出現(xiàn)了一些不穩(wěn)定之外，其余的速度和延遲指標(biāo)都是MI300X全面超過(guò)了H100。

看到MI300X的表現(xiàn)，有人拿出了老黃經(jīng)典的那句“買(mǎi)的越多省的越多”，表示現(xiàn)在這句話(huà)該讓AMD來(lái)說(shuō)了。

那么，在這些成績(jī)的背后，AMD都用了那些技術(shù)呢？

軟件框架層面，R1在MI300X上取得優(yōu)異表現(xiàn)的關(guān)鍵，是SGLang框架。

SGLang是一個(gè)開(kāi)源大模型推理框架，是開(kāi)源社區(qū)協(xié)作的一項(xiàng)成果，發(fā)起者是LMSYS，也就是搞大模型競(jìng)技場(chǎng)的那個(gè)組織。

SGLang在GitHub上擁有超過(guò)1.2萬(wàn)星標(biāo)，并且不論AMD還是隔壁英偉達(dá)，以及馬斯克的xAI，都非常青睞這個(gè)框架，此外AMD還是SGLang的主要貢獻(xiàn)者之一。

在稍早一些的測(cè)試當(dāng)中，使用SGLang在MI300X上運(yùn)行DeepSeek-R1，僅過(guò)了兩周就相比于day 0時(shí)性能提升到了4倍，吞吐量達(dá)到了每秒5921 Tokens。

前面提到的第三方，也在MI300X上分別用SGLang和vLLM進(jìn)行了測(cè)試，結(jié)果SGLang完勝。

實(shí)際上，SGLang一直是DeepSeek模型的一個(gè)最佳拍檔，不僅對(duì)于AMD，在英偉達(dá)H200上，也能帶來(lái)類(lèi)似的性能提升。

而在硬件層面，MI300X高效運(yùn)行R1的關(guān)鍵，是AMD為ROCm（可以理解為AMD版CUDA）打造的AI張量引擎AITER。

AITER是一個(gè)包含大量高性能AI算子的集中式存儲(chǔ)庫(kù)，也是一個(gè)統(tǒng)一平臺(tái)，可以輕松找到優(yōu)化的算子并將其集成到現(xiàn)有框架中。

AITER的基礎(chǔ)架構(gòu)建立在多種底層技術(shù)之上，包括 Triton、CK（計(jì)算內(nèi)核）、ASM（匯編）和 HIP（異構(gòu)可移植性接口）。

它支持各種計(jì)算任務(wù)，例如推理工作負(fù)載、訓(xùn)練內(nèi)核、GEMM（通用矩陣乘法）運(yùn)算和通信內(nèi)核。

它可以讓GEMM的性能提升2倍、MoE性能提升3倍、MLA解碼性能提升17倍、MHA預(yù)填充性能提升14倍。

開(kāi)啟AITER后，MI300X上DeepSeek-V3的吞吐量是開(kāi)啟前的兩倍多。

除了框架和硬件的適配，AMD還進(jìn)行了超參數(shù)調(diào)整。

AMD發(fā)現(xiàn)，當(dāng)運(yùn)行具有大量線(xiàn)程（例如128個(gè)或更多）的程序時(shí)，由于預(yù)填充吞吐量緩慢，帶來(lái)了系統(tǒng)的性能瓶頸。

于是AMD提高了chunked_prefill_size參數(shù)的大小，用更高的內(nèi)存占用換取了預(yù)填充過(guò)程的加速。

不過(guò)考慮到內(nèi)存容量大本就是MI300X的一大特色，這種選擇也不失為一種更優(yōu)的結(jié)果。

那么，你覺(jué)得這次AMD是不是又Yes了呢？

責(zé)任編輯：張燕妮來(lái)源：量子位