偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達競品來了,訓(xùn)練比H100快70%,英特爾發(fā)最新AI加速卡

人工智能 新聞
今天凌晨,英特爾在 Vision 2024 大會上展示了 Gaudi 3,這是其子公司 Habana Labs 的最新一代高性能人工智能加速器。

英偉達的 AI 加速卡,現(xiàn)在有了旗鼓相當?shù)膶κ帧?/span>

今天凌晨,英特爾在 Vision 2024 大會上展示了 Gaudi 3,這是其子公司 Habana Labs 的最新一代高性能人工智能加速器。

圖片

Gaudi 3 將于 2024 年第三季度推出,英特爾現(xiàn)已開始向客戶提供樣品。憑借 1835 TFLOPS 的 FP8 計算吞吐量,英特爾相信它足以在廣闊的(且昂貴的)AI 計算領(lǐng)域中分得一杯羹。

根據(jù)內(nèi)部基準測試,英特爾估計 Gaudi 3 性能部分超過了英偉達的 H100,并且具有更好的能耗比。在一些關(guān)鍵的大型語言模型中,Gaudi 3 能夠擊敗英偉達的旗艦 H100/H200 Hopper 架構(gòu) GPU。

在當前這個科技領(lǐng)域搶購英偉達 GPU 的時刻,Gaudi 3 或許能為英特爾在 AI 加速器市場打開一扇門。

Gaudi 3 的發(fā)布也正值英特爾對其 AI 加速器產(chǎn)品的定位發(fā)生變化之際:當前,Gaudi 系列已升級為英特爾旗艦 AI 加速器。

圖片

Gaudi 3 是 Gaudi 2 硬件的直接演變。Habana Labs 在這一代沒有對架構(gòu)進行大規(guī)模修改(這將在 Falcon Shores 中進行)。

上一代 Gaudi 2 加速器基于臺積電 7nm 工藝打造,在 Gaudi 3 上 Habana 引入了更先進的 5nm 工藝。Gaudi 3 芯片又添加了適量的計算硬件,從 2 個矩陣數(shù)學(xué)引擎和 24 個張量核心擴展到 4 個矩陣數(shù)學(xué)引擎和 32 個張量核心。鑒于 Gaudi 3 的架構(gòu)變化有限,我們或許可以假設(shè)這些張量核心仍然是 256 字節(jié)寬的 VLIW SIMD 單元。

圖片來自 Anandtech

Habana 團隊罕見地公開了 Gaudi 3 芯片 FP8 精度的總吞吐量:1835 TFLOPS,這讓 Gaudi 3 使用 8 位浮點計算產(chǎn)生的 AI 算力是 Gaudi 2 的兩倍,BFloat 16 格式的算力提升則達到了四倍。

在大語言模型的實際處理上,英特爾預(yù)計用 Gaudi 3 訓(xùn)練 GPT-3 175B 大型語言模型的時間比 H100 要快 40%,Llama2 的 70 億和 80 億參數(shù)版本的訓(xùn)練結(jié)果甚至比這個數(shù)字還要好。

在推理方面,兩者性能各有勝負,新芯片為兩個版本的 Llama 提供了 H100 95% 至 170% 的性能。而對于 Falcon 180B 型號來說,Gaudi 3 卻取得了四倍的優(yōu)勢。不出所料,與 Nvidia H200 相比,英特爾芯片的優(yōu)勢較小 ——Llama 為 80% 至 110%,F(xiàn)alcon 為 3.8 倍。

英特爾聲稱在測量能效時獲得了更引人注目的結(jié)果,預(yù)計 H100 在 Llama 上的優(yōu)勢高達 220%,在 Falcon 上的數(shù)字則是 230%。

雖然英特爾沒有透露 Gaudi 3 芯片的晶體管總數(shù),但新硬件的面積足夠小,以至于英特爾能夠?qū)蓚€ die 封裝到單個芯片上,從而使完整的 Gaudi 3 加速器成為雙芯配置。與英偉達最近發(fā)布的 Blackwell 類似,兩塊相同的芯片被封裝在一起,并通過高帶寬鏈路連接,以便為芯片提供統(tǒng)一的內(nèi)存地址空間。

據(jù)英特爾稱,組合后的芯片將像單個芯片一樣工作,但英偉達沒有透露連接鏈路的任何重要細節(jié)。

奇怪的是,與芯片匹配的是有點「過時」的 HBM2e 內(nèi)存控制器,與 Gaudi 2 支持的內(nèi)存類型相同。由于堅持使用 HBM2e,可用的最高容量堆棧為 16GB,為加速器提供了總共 128GB 的內(nèi)存。其時鐘頻率為 3.7Gbps/pin,總內(nèi)存帶寬為 3.7TB / 秒。每塊 Gaudi 3 芯片均提供 4 個 HBM2e PHY,使芯片總數(shù)達到 8 個內(nèi)存堆棧。

同時,每個 Gaudi 3 芯片都具有 48MB 板載 SRAM,為整個芯片提供 96MB SRAM。英特爾稱,SRAM 總帶寬為 12.8TB / 秒。英特爾沒有透露 Gaudi 3 加速器的時鐘速度。鑒于現(xiàn)有硬件數(shù)量增加了一倍多,這里或許會考慮整體較低的時鐘速度。

在這一點上,基本風(fēng)冷式 Gaudi 3 加速器的 TDP 為 900 瓦,比其前身的 600 瓦限制高出 50%。英特爾在這里使用 OAM 2.0 外形尺寸,它提供比 OAM 1.x (700W) 更高的功率限制。不過,英特爾還在開發(fā)并驗證 Gaudi 3 的液冷版本,它將提供更高的性能,以換取更高的 TDP。所有形式的 Gaudi 3 都將使用 PCIe 連接其主機 CPU。

網(wǎng)絡(luò)連接

除了 Gaudi 3 的核心架構(gòu)之外,Habana 對 Gaudi 3 的另一項重大技術(shù)升級是在 I/O 方面?;氐?Gaudi 的早期,Habana 的芯片就依賴于全以太網(wǎng)架構(gòu),使用以太網(wǎng)進行節(jié)點內(nèi)芯片到芯片連接和橫向擴展節(jié)點到節(jié)點連接。它本質(zhì)上與英偉達所做的相反 —— 是將以太網(wǎng)擴展到芯片級別,而不是將 NVLink 擴展到機架級別。

上一代的 Gaudi 2 每塊芯片提供 24 個 100Gb 以太網(wǎng)鏈路,Gaudi 3 將這些鏈路的帶寬增加了一倍,達到 200Gb / 秒,使芯片的外部以太網(wǎng) I/O 總帶寬達到 8.4TB / 秒。

與此同時,每塊芯片的剩余 3 個鏈路將用于為六組 800Gb 八路小型可插拔 (OSFP) 以太網(wǎng)鏈路提供信號。通過使用重定時器,端口將被分成兩個塊,然后在 5 個加速器上進行平衡。

最終,英特爾希望提升 Gaudi 3 的可擴展性。由于先進大語言模型需要將許多節(jié)點鏈接在一起形成一個集群,以提供訓(xùn)練所需的內(nèi)存和計算性能,一直以來,英特爾都希望通過采用純以太網(wǎng)配置來贏得那些不想投資 InfiniBand 等專有 / 替代互連技術(shù)的客戶。

英特爾已經(jīng)開發(fā)了多達 512 個節(jié)點的網(wǎng)絡(luò)拓撲,使用 48 個主干交換機連接多達 32 個集群,每個集群包含 16 個節(jié)點。據(jù)英特爾稱,Gaudi 3 還可以進一步擴展,達到數(shù)千個節(jié)點。

性能對比

英特爾表示,與目前業(yè)內(nèi)先進的 AI 加速器英偉達 H100 相比,Gaudi 3 在 16 個加速器集群中以 FP8 精度訓(xùn)練 Llama2-13B 時,性能比 H100 快 70%。盡管 H100 已經(jīng)問世 2 年,但如果 Gaudi 3 成功的話,在任何訓(xùn)練方面都大幅擊敗 H100 對于英特爾來說將是一個巨大的勝利。

圖片

與此同時,英特爾預(yù)計采用 Gaudi 3 的 H200/H100 的推理性能將提高 1.3 倍至 1.5 倍,也許最值得注意的是,功耗比將提高多至 2.3 倍。

當然,在這些推理工作負載中,英特爾有時仍然會輸給 H100,尤其是那些沒有 2K 輸出的工作負載,因此 Gaudi 3 還遠未橫掃一切。

不過值得贊揚的是,英特爾是迄今為止唯一一家提供 MLPerf 結(jié)果的主要硬件制造商。因此,無論 Gaudi 3 的表現(xiàn)如何(以及 Gaudi 2 目前的表現(xiàn)),他們在發(fā)布行業(yè)標準測試結(jié)果方面比大多數(shù)人都光明正大得多。

樣品第二季度出貨

總而言之,英特爾將在下個季度發(fā)布首款 Gaudi 3 產(chǎn)品。該公司已經(jīng)在其實驗室中擁有風(fēng)冷版本的 OEAM 加速器以進行資格認證,并向客戶提供樣品,同時液冷版本將于本季度提供樣品。

最后,對于 Gaudi 團隊來說,英特爾還將首次提供采用更傳統(tǒng) PCIe 外形規(guī)格的 Gaudi 3 版本。HL-338 卡是一款 10.5 英寸全高雙槽 PCIe 卡。它提供與 OAM Gaudi 3 相同的所有硬件,甚至可達到 1835 TFLOPS FP8 的峰值性能。然而,它將配備對 PCIe 插槽更友好的 600 瓦 TDP,比 OAM 卡低 300 瓦,因此持續(xù)性能應(yīng)該會明顯降低。

盡管英特爾 Keynote 中未有展示,但 PCIe 卡提供了兩個 400Gb 以太網(wǎng)端口,用于橫向擴展配置。與此同時,英特爾將為 PCIe 卡提供一個「頂板」,類似于英偉達的 NVLink 橋,可以連接最多 4 個 PCIe 卡以進行卡間通信。OAM 外形尺寸仍將是實現(xiàn)每個加速器最高性能和最大化橫向擴展?jié)摿Φ耐緩?,但對于需要在傳統(tǒng) PCIe 插槽中即插即用的客戶來說,現(xiàn)在也有了一個選擇。

PCIe 版本的 Gaudi 3 將于今年第四季度推出,同時推出液冷版本的 OAM 模塊。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-04-10 09:28:23

2024-04-10 09:10:27

Gaudi 3芯片英特爾

2024-02-02 09:15:10

AI芯片

2009-12-10 16:20:52

英特爾變革

2023-07-13 23:16:19

英偉達GPU

2025-04-22 09:47:07

2025-09-19 09:05:00

2021-12-06 12:49:14

汽車智能技術(shù)

2023-12-18 19:02:46

英特爾芯片AI芯片

2023-11-21 09:14:33

微軟Azure AI

2024-03-14 14:49:34

Meta人工智能

2023-11-27 09:59:52

英偉達AI芯片

2023-10-16 10:16:14

芯片英偉達

2021-08-19 15:11:20

FacebookAI圖形

2024-07-25 13:36:32

2023-07-14 14:19:28

英偉達芯片

2023-05-11 08:48:58

谷歌超級計算機

2024-09-05 14:10:00

AI計算

2023-08-14 08:07:46

ChatGPTAI
點贊
收藏

51CTO技術(shù)棧公眾號