全球AI算力報告出爐,LLM最愛A100!谷歌坐擁超100萬H100等效算力
AI的物質(zhì)基礎(chǔ)是機器學(xué)習(xí)硬件,例如圖形處理單元(GPU)和張量處理單元(TPU)。
據(jù)不完全統(tǒng)計,目前全球超過140款A(yù)I加速器,用于開發(fā)和部署深度學(xué)習(xí)時代的機器學(xué)習(xí)模型。
Epoch AI帶來了全球算力的估計報告,利用公開信息估計了全球機器學(xué)習(xí)硬件的現(xiàn)狀和趨勢。

除了傳統(tǒng)硬件廠商英偉達、AMD等紛紛推出加速卡,一些新興勢力開始「造芯」,算力持續(xù)提升。

2008至2024年全球機器學(xué)習(xí)硬件的計算能力示意圖
除了GPU,硬件類型也豐富了起來。比如,出現(xiàn)了專門處理張量計算的TPU(張量處理單元,Tensor Processing Unit)。
報告的主要結(jié)論,總結(jié)如下:
- 總量每年增長43%,價格下降30%。
- 低精度計算成為主流。
- 頂級硬件能效每1.9年翻一番。
- 八年間,訓(xùn)練大型模型所需的處理器數(shù)量增加了20多倍。
- 全球NVIDIA支持的計算能力平均每10個月翻一番。
關(guān)鍵發(fā)現(xiàn):ML硬件的「摩爾定律」
ML硬件每年增長43%
以16位浮點運算衡量,機器學(xué)習(xí)硬件的性能以每年43%的速度增長,每1.9年翻一番。32位性能也存在類似的趨勢。
優(yōu)化機器學(xué)習(xí)數(shù)字格式和張量核心提供了額外的改進。
驅(qū)動因素還包括晶體管數(shù)量的增加和其他半導(dǎo)體制造技術(shù)的進步,以及針對AI工作負(fù)載的專門設(shè)計。這種改進降低了每FLOP的成本,提高了能源效率,并實現(xiàn)了大規(guī)模人工智能訓(xùn)練。

機器學(xué)習(xí)硬件在不同精度下的峰值計算性能
性價比每年提升30%
每美元性能提升迅速,并且任何給定精度和固定性能水平的硬件每年都會便宜30%。與此同時,制造商不斷推出更強大、更昂貴的硬件。

單位時間單位價格下的FLOP
低精度格式是趨勢
在使用針對人工智能計算優(yōu)化的張量核心和數(shù)據(jù)格式時,GPU通常速度更快。
與使用非張量FP32相比,TF32、張量FP16和張量INT8在總體性能趨勢中平均提供約6倍、10倍和12倍的性能提升。
一些芯片甚至實現(xiàn)了更大的加速。例如,H100在INT8時的速度比在FP32時快59倍。
自推出以來,這些改進約占整體性能趨勢改進的一半。隨著開發(fā)人員利用這種性能提升,使用較低精度格式(尤其是張量FP16)訓(xùn)練的模型已經(jīng)變得很常見。

能效每1.9年翻一番
根據(jù)歷史數(shù)據(jù),頂級GPU和TPU的能效每1.9年翻一番。
就tensor-FP16格式而言,效率最高的加速器是Meta的MTIA(每瓦高達2.1x10^12FLOP/s)和NVIDIA H100(每瓦高達1.4x10^12FLOP/s)。即將推出的Blackwell系列處理器可能會更有效率,具體取決于其功耗。

模型也各有所愛
在Epoch的數(shù)據(jù)集中,NVIDIA A100是用于高引用或最先進人工智能模型的最常用的硬件,自發(fā)布以來已用于65個著名ML模型。
其次是NVIDIA V100,用于訓(xùn)練55個著名模型,其次是谷歌的TPU v3,用于47個。
然而,估計NVIDIA H100到2023年底的銷量已超過A100,因此它可能在不久的將來成為訓(xùn)練模型最受歡迎的GPU。

不同加速器訓(xùn)練的知名模型數(shù)量

2019年至今,不同領(lǐng)域大模型訓(xùn)練所需算力比較
訓(xùn)練集群規(guī)模猛增
用于訓(xùn)練大型語言模型(LLMs)的處理器數(shù)量的顯著增長。
- Google NASv3 RL網(wǎng)絡(luò)(2016):使用了800個GPU進行訓(xùn)練。
- Meta Llama 3.1 405B(2024):使用了16,384個H100 GPU進行訓(xùn)練。
這意味著在短短八年間,訓(xùn)練大型模型所需的處理器數(shù)量增加了20多倍。

四大「算力帝國」?
谷歌、微軟、Meta和亞馬遜擁有相當(dāng)于數(shù)十萬個NVIDIA H100的AI算力。
這些計算資源既用于他們內(nèi)部的AI開發(fā),也用于云客戶,包括許多頂級AI實驗室,如OpenAI和Anthropic。
谷歌可能擁有相當(dāng)于超過一百萬個H100的計算能力,主要來自他們的TPU。
微軟可能擁有最大的NVIDIA加速器庫存,約為50萬個H100當(dāng)量。
大量的AI計算能力由這四家公司以外的集團共同擁有,包括其他云公司如Oracle和CoreWeave,計算用戶如特斯拉和xAI,以及各國政府。
之所以重點介紹谷歌、微軟、Meta和亞馬遜,因為他們可能擁有最多的計算能力,而其他公司的數(shù)據(jù)公開較少。
初步工作發(fā)現(xiàn),截至2024年中,谷歌TPU的總算力大約是英偉達芯片的30%。

英偉達每年不止翻一番
自2019年以來,NVIDIA芯片的總可用計算能力大約每年增長2.3倍,從而能夠訓(xùn)練越來越大的模型。
也就是說,全球NVIDIA組成的計算能力平均每10個月翻一番。
Hopper這一代NVIDIA AI芯片目前占其所有AI硬件總計算能力的77%。按照這種增長速度,舊的芯片型號在其推出后大約4年左右,對累計計算量的貢獻往往會低于一半。
請注意,此分析不包括TPU或其他專用AI加速器,因為這方面的數(shù)據(jù)較少。TPU可能提供與NVIDIA芯片相當(dāng)?shù)目傆嬎隳芰Α?/span>

按芯片型號分解,發(fā)現(xiàn)目前大約77%的NVIDIA FLOP/s來自Hopper代際的GPU,如H100。
目前估計NVIDIA GPU可提供4e21 FLOP/s的計算能力,約相當(dāng)于400萬個H100。

注意:這些估計基于NVIDIA的收入申報文件,并假設(shè)不同時代芯片的分布隨時間變化的模式與AI集群數(shù)據(jù)集中的模式相同。

英偉達23-24年季度財報
此外,報告發(fā)現(xiàn)自2019年以來,計算能力的累計總和(考慮折舊)每年增長2.3 倍。
但僅考慮數(shù)據(jù)中心銷售額,而忽略NVIDIA收入報告中「游戲」(Gaming)銷售額帶來的計算能力。
公開數(shù)據(jù)集
Epoch同時公布了機器學(xué)習(xí)硬件數(shù)據(jù)集和數(shù)據(jù)分析源代碼。

https://epoch.ai/data/machine-learning-hardware-documentation#overview
詳細數(shù)據(jù)分析流程,參見下列NoteBook。

https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing




































