英特爾至強6獨享MRDIMM,內(nèi)存帶寬飆升,加速推理達2.4倍!
之前的文章中,有業(yè)者預測至強6性能核處理器每顆計算單元芯片中的內(nèi)核數(shù)量為43,加上每個計算單元有兩組雙通道內(nèi)存控制器各占一個網(wǎng)格,那么總共占用43+2=45個網(wǎng)格,可以由5×9的布局構(gòu)成。
但這個假設(shè)有一個問題,要構(gòu)成128核的6980P,三顆芯片只屏蔽1個內(nèi)核,這良率要求比較高啊。

至今還未在公開渠道看到至強6性能核處理器的Die shot或架構(gòu)圖,但英特爾發(fā)布了晶圓照片作為宣傳素材。
雖然晶圓照片并不能提供每顆芯片的清晰信息,但隱約能感覺到,網(wǎng)格構(gòu)成更像是5×10,而不是5×9或6×8。
另外,左上角和左下角疑似內(nèi)存控制器的區(qū)域面積比預想的要大得多,每一側(cè)占了三個網(wǎng)格。
如果接受了兩組內(nèi)存控制器共占用6個網(wǎng)格的設(shè)定,那么每個芯片中就是50-6=44個內(nèi)核,在構(gòu)成6980P的時候分別屏蔽一到兩個核即可,感覺就合理多了。

在獲得相對可信的內(nèi)核數(shù)量后,新的疑惑就是:為什么至強6性能核的內(nèi)存控制器這么占地——這個區(qū)域有其他未知功能?還是因為增加了MRDIMM(Multiplexed Rank DIMM)的支持?
畢竟在此之前,英特爾的雙通道DDR5、三通道DDR4內(nèi)存控制器只占一個網(wǎng)格,甚至,連信號規(guī)模更大、帶寬更高的HBM控制器(至強CPU Max處理器)也是一個網(wǎng)格。
至強CPU Max處理器的HBM2e是工作在3,200MT/s,那么每個控制器帶寬是410GB/s,整顆CPU有超過2TB/s的HBM帶寬。
雖然對疑似內(nèi)存控制器區(qū)域所占芯片面積的疑惑未解,還需要進一步解惑,但我們至少可以確定,英特爾在這一代至強的內(nèi)存控制器上是下了大本錢的。
至少在相當一段時間內(nèi),它是可以「獨占」MRDIMM的優(yōu)勢了。
至強6性能核的NUMA與集群模式
談服務(wù)器的內(nèi)存就繞不過NUMA(Non-Uniform Memory Access,非統(tǒng)一內(nèi)存訪問)。因為隨著CPU內(nèi)核數(shù)量的增加,各內(nèi)核的內(nèi)存訪問請求沖突會迅速增加。
NUMA是一個有效的解決方案,將內(nèi)核分為若干組,分別擁有相對獨立的緩存、內(nèi)存空間。規(guī)模縮小后,沖突就會減少。
一般來說,NUMA劃分的原則是讓物理上臨近某內(nèi)存控制器的內(nèi)核為一個子集。這個子集被英特爾稱為SUB-NUMA Clustering,簡稱SNC。同一SNC的內(nèi)核綁定了末級緩存(LLC)和本地內(nèi)存,訪問時的時延最小。
譬如,在第三代至強可擴展處理器中,一個CPU內(nèi)可劃分兩個SNC域,每個SNC對應(yīng)一組三通道DDR4內(nèi)存控制器。如果關(guān)閉NUMA,那么整個CPU的內(nèi)存將對稱訪問。

而第四代至強可擴展處理器使用了4顆芯粒的封裝,可以被劃分為2個或4個SNC域。
如果希望每個內(nèi)核可以訪問所有的緩存代理和內(nèi)存,可以將第四代至強可擴展處理器設(shè)置為Hemisphere Mode或者Quadrant Mode,默認是后者。
第五代至強可擴展處理器是2顆芯粒,可以劃分為兩個SNC域。


在至強6性能核中,可以將每個計算單元芯片作為一個SNC,每個域擁有4個內(nèi)存通道,這被稱為SNC3 Mode。
如果要通過其他芯粒的緩存代理訪問所有內(nèi)存,那就是HEX Mode。

根據(jù)英特爾提供的數(shù)據(jù),幾種不同模式的內(nèi)存訪問時延差異較大,與內(nèi)核、內(nèi)存控制器之間的「距離」直接相關(guān)。
至強6性能核的內(nèi)核規(guī)模、內(nèi)存控制器數(shù)量增加之后,相應(yīng)的訪問時延也會上升。
例如,根據(jù)我們前面的觀察,至強6性能核內(nèi)每個計算單元芯片中,內(nèi)核與內(nèi)存控制器的最遠距離為10列,而第四代/第五代至強可擴展處理器無NUMA的為8列。這反映在英特爾的數(shù)據(jù)上,就是至強6900P在SNC3 Mode的時延略高于上一代至強處理器的Quad Mode。
如果至強6900P設(shè)為HEX Mode,那么內(nèi)核與內(nèi)存控制器的最遠距離將達到13甚至15列,時延增加會比較明顯。
整體而言,由于SNC3 Mode時延低,其將成為至強6服務(wù)器的默認模式。這種模式主要是適合虛擬化/容器化這類常見云應(yīng)用,以及并行化程度高的計算(如編解碼)等。
當然,HEX Mode可以直接訪問更大規(guī)模的內(nèi)存,這對于大型數(shù)據(jù)庫,尤其是以O(shè)LTP為代表的應(yīng)用來說更為有利。
Oracle和SQL通常建議關(guān)閉NUMA以獲得更佳的性能。Apache Cassandra 5.0這類引入向量搜索的數(shù)據(jù)庫也能從HEX Mode顯著獲益。部分科學計算也更適合HEX Mode,譬如通過偏微分方程建模的PETSs、分子動力學軟件NAMD等。
HEX Mode的另一個典型場景是配合CXL內(nèi)存使用。
譬如英特爾在今年12月11日發(fā)布的一篇利用CXL內(nèi)存優(yōu)化系統(tǒng)內(nèi)存帶寬的論文中,使用了至強6900P搭配12條64GB DDR5 6400以及8個128GB CXL內(nèi)存模塊,其中至強6900P本地的768GB DDR5內(nèi)存在HEX Mode下配置為NUMA0,所有的1TB CXL內(nèi)存配置為NUMA1,采用優(yōu)化交錯配置(Interleaving Strategy)。
測試表明,在內(nèi)存帶寬敏感的應(yīng)用中,使用CXL內(nèi)存擴展可以提升20%~30%的性能。

MRDIMM領(lǐng)跑者
對于至強6性能核處理器而言,提升內(nèi)存帶寬最直接的方法莫過于MRDIMM。這也是這款處理器相比其他同類產(chǎn)品比較獨占的一項能力,近期看不到任何其他CPU廠商有明確支持MRDIMM的時間表,更不要說推出實際產(chǎn)品了。
相對而言,內(nèi)存廠商對MRDIMM的支持比較積極,美光、SK海力士、威剛都推出了相應(yīng)的產(chǎn)品,包括高尺寸(Tall formfactor,TFF)。
第一代DDR5 MRDIMM的目標速率為8,800 MT/s,未來會逐步提升至12,800 MT/s、17,600 MT/s。
MRDIMM增加了多路復用數(shù)據(jù)緩沖器(MDB),改進了寄存時鐘驅(qū)動器(MRCD)。
MDB布置在內(nèi)存金手指附近,與主機側(cè)的CPU內(nèi)存控制器通訊。MDB主機側(cè)的運行速度是DRAM側(cè)的雙倍,DRAM側(cè)的數(shù)據(jù)接口是主機側(cè)的雙倍。
MRCD可以生成4個獨立的芯片選擇信號(標準的RCD是兩個,對應(yīng)兩個Rank)。
MDB可通過兩個數(shù)據(jù)接口將兩個Rank分別讀入緩沖區(qū),再從緩沖區(qū)一次性傳輸?shù)紺PU的內(nèi)存控制器,由此實現(xiàn)了帶寬翻倍。

由于MRCD可以支持4個Rank,也意味著可以支持雙倍的內(nèi)存顆粒。已經(jīng)展示的MRDIMM普遍引入更高的板型(TFF),單條容量也由此倍增。
由于至強6900P插座尺寸大增,導致雙路機型的內(nèi)存槽數(shù)量從上一代的32條減少到24條。要能夠繼續(xù)擴展內(nèi)存容量,增加內(nèi)存條的面積(增加高度)確實是最簡單直接的手段。
通過使用256GB的MRDIMM,雙路至強6900P機型可以獲得6TB內(nèi)存容量。除了更大的內(nèi)存帶寬,更高的內(nèi)存容量也非常有利于AI訓練、大型數(shù)據(jù)庫等應(yīng)用的需求,進一步強化至強6900P在AI機頭領(lǐng)域的優(yōu)勢。
與DDR5 6,400MT/s相比,MRDIMM 8,800MT/s的實際運行頻率略低(4,400MT/s),導致輕量級的應(yīng)用不能從內(nèi)存帶寬的增加當中明顯獲益。
其實類似的問題在內(nèi)存代際轉(zhuǎn)換之初均會存在,能夠充分利用更大內(nèi)存帶寬的主要還是計算密集的應(yīng)用,譬如加密、科學計算、信號處理、AI訓練和推理等。從目前的測試看,對MRDIMM受益最大的應(yīng)用主要包括HPCG(High Performance Conjugate Gradient)、AMG(Algebraic Multi-Grid)、Xcompact3d這些科學計算類的應(yīng)用,以及大語言模型推理。
內(nèi)存帶寬與大模型推理
上一節(jié)有提到,并非所有應(yīng)用都能充分利用MRDIMM的內(nèi)存帶寬收益。
就本節(jié)重點要談的推理應(yīng)用而言,根據(jù)目前所見的測試數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)為代表的傳統(tǒng)推理任務(wù)在MRDIMM中獲得的收益就比較小,不到10%的水平。
而在大語言模型推理當中,MRDIMM的帶寬優(yōu)勢將得到充分的發(fā)揮,性能提升在30%以上,因為大模型是確定性的渴求顯存/內(nèi)存容量和帶寬的應(yīng)用場景。
在這里就得提一下英特爾至強6性能核處理器發(fā)布會資料中的另一個細節(jié):在多種工作負載的性能對比中,AI部分的提升幅度最為明顯,而且僅用了96核的型號(至強6972P)。

也就是說,至強6972P使用了至強8592+的1.5倍內(nèi)核,獲得了至少2.4倍的大語言模型推理性能。其中,右側(cè)的是Llama3 8B,int8精度,那么模型將占用約8GB的內(nèi)存空間。
以目前雙路24通道MRDIMM 8,800MT/s約1,690GB/s的總內(nèi)存帶寬而言,可以算出來每秒token數(shù)理論上限是211。
而雙路8592+是16通道DDR5 5,600MT/s,內(nèi)存總帶寬為717GB/s,token理論上限是接近90。二者的理論上限正好相差大約2.4倍。
在這個例子當中,內(nèi)存帶寬的增長幅度明顯大于CPU內(nèi)核數(shù)量的增長。也就是說,在假設(shè)算力不是瓶頸的情況下,內(nèi)存或顯存容量決定了模型的規(guī)模上限,而帶寬決定了token輸出的上限。
一般來說,在控制模型參數(shù)量并進行低精度量化(int8甚至int5、int4)之后,大語言模型推理時的算力瓶頸已經(jīng)不太突出,決定并發(fā)數(shù)量和token響應(yīng)速度的,主要還是內(nèi)存的容量和帶寬。通過MRDIMM,以及CXL內(nèi)存擴展帶寬將是提升推理性能最有效的方式。
這也是目前CPU推理依舊受到重視的原因,除了可獲得性、資源彈性外,在內(nèi)存容量及帶寬的擴展上要比VRAM便宜的多。
結(jié)語
隨著掌握更多的信息,至強6性能核處理器在內(nèi)存帶寬上的優(yōu)勢和潛力顯得愈發(fā)清晰了。
MDRIMM不但能夠大幅提升內(nèi)存帶寬,還能使可部署的內(nèi)存容量翻倍,顯著利好傳統(tǒng)的重負荷領(lǐng)域,如科學計算、大型數(shù)據(jù)庫、商業(yè)分析等,對于新興的向量數(shù)據(jù)庫也大有裨益。CXL還能夠進一步起到錦上添花的作用。
過去幾年,增長迅猛的大模型推理需求,讓至強可擴展處理器(從第四代開始)利用GPU缺貨的契機證明了在AMX的加持下,純CPU推理也有不錯的性能,而且易于采購和部署。
隨著應(yīng)用深入,部分互聯(lián)網(wǎng)企業(yè)還挖掘了CPU推理的資源彈性,與傳統(tǒng)業(yè)務(wù)同構(gòu)的硬件更易于進行峰谷調(diào)度。
至強6性能核處理器在核數(shù)、內(nèi)存帶寬均大幅提升的加持下,推理性能激增,進一步提升了推理的性價比。
在解決了「能或不能」的問題之后,推理成本是大語言模型落地后最關(guān)鍵的挑戰(zhàn)?;蛟S在這方面,至強6性能核處理器配MRDIMM的組合,將會帶來一些新的解題思路。




















