偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華為CloudMatrix重磅論文披露AI數(shù)據(jù)中心新范式,推理效率超NV H100

人工智能 新聞
華為發(fā)布了一篇60頁(yè)的重磅論文,提出了他們的下一代AI數(shù)據(jù)中心架構(gòu)設(shè)計(jì)構(gòu)想——Huawei CloudMatrix,以及該構(gòu)想的第一代產(chǎn)品化的實(shí)現(xiàn)CloudMatrix384。相對(duì)于簡(jiǎn)單的“堆卡”,華為CloudMatrix給出的架構(gòu)設(shè)計(jì)原則是,高帶寬全對(duì)等互連和細(xì)粒度資源解耦。

今年,AI大廠采購(gòu)GPU的投入又雙叒瘋狂加碼——

馬斯克xAI打算把自家的10萬(wàn)卡超算擴(kuò)增10倍,Meta也計(jì)劃投資100億建設(shè)一個(gè)130萬(wàn)卡規(guī)模的數(shù)據(jù)中心……

GPU的數(shù)量,已經(jīng)成為了互聯(lián)網(wǎng)企業(yè)AI實(shí)力的直接代表。

圖片

的確,建設(shè)AI算力,這種堆卡模式是最簡(jiǎn)單粗暴的,但實(shí)際上,AI集群卻并非是卡越多就越好用。

GPU雖然計(jì)算性能好,但是在集群化的模式下依然有很多挑戰(zhàn),即便強(qiáng)如英偉達(dá),也面臨通信瓶頸、內(nèi)存碎片化、資源利用率波動(dòng)等問(wèn)題。

簡(jiǎn)單說(shuō)就是,由于通信等原因的限制,GPU的功力沒(méi)辦法完全發(fā)揮出來(lái)。

所以,建設(shè)AI時(shí)代的云數(shù)據(jù)中心,不是把卡堆到機(jī)柜里就能一勞永逸,現(xiàn)有數(shù)據(jù)中心的不足,需要用架構(gòu)的創(chuàng)新才能解決。

最近,華為發(fā)布了一篇60頁(yè)的重磅論文,提出了他們的下一代AI數(shù)據(jù)中心架構(gòu)設(shè)計(jì)構(gòu)想——Huawei CloudMatrix,以及該構(gòu)想的第一代產(chǎn)品化的實(shí)現(xiàn)CloudMatrix384。相對(duì)于簡(jiǎn)單的“堆卡”,華為CloudMatrix給出的架構(gòu)設(shè)計(jì)原則是,高帶寬全對(duì)等互連和細(xì)粒度資源解耦。

這篇論文干貨滿滿,不僅展示了CloudMatrix384的詳細(xì)硬件設(shè)計(jì),并介紹了基于CloudMatrix384進(jìn)行DeepSeek推理的最佳實(shí)踐方案——CloudMatrix-Infer。

圖片

那么,華為提出的CloudMatrix384到底有多強(qiáng)?簡(jiǎn)單地說(shuō),可以概括成三個(gè)方面——

  • 夠高效:預(yù)填充吞吐量達(dá)6688 token/s/NPU,解碼階段1943 token/s/NPU;計(jì)算效率方面,預(yù)填充達(dá)4.45 token/s/TFLOPS,解碼階段1.29 token/s/TFLOPS,均超過(guò)業(yè)績(jī)?cè)贜VIDIA H100/H800上實(shí)現(xiàn)的性能;
  • 夠準(zhǔn)確:DeepSeek-R1模型在昇騰NPU上INT8量化的基準(zhǔn)測(cè)試精度與官方API一致;
  • 夠靈活:支持動(dòng)態(tài)調(diào)整推理時(shí)延SLO,在15ms嚴(yán)格延遲約束下仍維持538 token/s解碼吞吐量。

圖片

AI數(shù)據(jù)中心架構(gòu),華為云提前邁出了一步

在深入剖析這篇重磅論文之前,我們有必要先來(lái)了解一下“Why we need CloudMatrix384”。

若是一句話來(lái)概括,就是滿足不了當(dāng)下AI發(fā)展的算力需求。

因?yàn)閭鹘y(tǒng)的AI集群,它內(nèi)部運(yùn)行的過(guò)程更像是“分散的小作坊”,每個(gè)服務(wù)器(節(jié)點(diǎn))有種各玩各的感覺(jué);算力、內(nèi)存和網(wǎng)絡(luò)資源等等,都是被固定分配的。

在這種傳統(tǒng)模式下,AI集群一旦遇到超大規(guī)模的模型,就會(huì)出現(xiàn)各種問(wèn)題,例如算力不夠、內(nèi)存帶寬卡脖子、節(jié)點(diǎn)間通信慢如蝸牛等等。

而華為在這篇論文中要做的事情,就是提出一種新的模式,把這種“小作坊”改成“超級(jí)算力工廠”——

以CloudMatrix(首個(gè)生產(chǎn)級(jí)實(shí)現(xiàn)CloudMatrix384)為代表的華為云下一代AI數(shù)據(jù)中心架構(gòu)。

圖片

它最鮮明的一大特點(diǎn)就是,所有的資源是可以統(tǒng)一調(diào)度的:CloudMatrix384把384個(gè)NPU、192個(gè)CPU以及其它硬件都集成到了一個(gè)超級(jí)節(jié)點(diǎn)當(dāng)中。

因此在這里,像剛才提到的算力、內(nèi)存、網(wǎng)絡(luò)資源等等,會(huì)像工廠里的流水線一樣被統(tǒng)一管理起來(lái),哪里需要就調(diào)哪里。

并且數(shù)據(jù)在CloudMatrix384里,就像是搭乘了工廠里的高速傳送帶,因?yàn)樗行酒倪B接都是由超高帶寬、低延遲的統(tǒng)一總線(UB)網(wǎng)絡(luò)完成,數(shù)據(jù)在芯片之間是“全對(duì)等”直接傳輸,這就避免了傳統(tǒng)網(wǎng)絡(luò)“堵車”的問(wèn)題。

也正因如此,無(wú)論CloudMatrix384是遇到多大參數(shù)規(guī)模的大模型,亦或是需要頻繁訪問(wèn)緩存的推理任務(wù),都能通過(guò)動(dòng)態(tài)分配資源,高效完成計(jì)算。

圖片

△華為CloudMatrix架構(gòu)愿景

在了解完下一代AI數(shù)據(jù)中心的設(shè)計(jì)愿景之后,我們繼續(xù)深扒一下細(xì)節(jié)創(chuàng)新技術(shù)和獨(dú)特優(yōu)勢(shì)。

全對(duì)等互聯(lián):華為提前邁出的重要的一步

全對(duì)等互聯(lián)(Peer-to-Peer),可以說(shuō)是CloudMatrix384在硬件架構(gòu)設(shè)計(jì)上的一大創(chuàng)新之處。

因?yàn)閭鹘y(tǒng)的AI集群中,CPU相當(dāng)于扮演一個(gè)“領(lǐng)導(dǎo)”的角色,NPU等其它硬件更像是“下屬”,數(shù)據(jù)傳輸?shù)倪^(guò)程中就需要CPU“審批簽字”,效率自然就會(huì)大打折扣。

尤其是在處理大規(guī)模模型的時(shí)候,通信開(kāi)銷甚至可以占整體任務(wù)時(shí)長(zhǎng)的40%!

但在CloudMatrix384中,情況就截然不同了。

CPU和NPU等硬件更像是一個(gè)“扁平化管理的團(tuán)隊(duì)”,它們之間的地位比較平等,直接通過(guò)UB網(wǎng)絡(luò)通信,省去了“領(lǐng)導(dǎo)傳話”的時(shí)間。

圖片

△CloudMatrix384全對(duì)等互聯(lián)硬件架構(gòu)設(shè)計(jì)

而實(shí)現(xiàn)如此“扁平化管理團(tuán)隊(duì)”的關(guān)鍵,就是我們剛才提到的UB網(wǎng)絡(luò),是一種無(wú)阻塞全連接拓?fù)洹?/span>

它采用Clos架構(gòu)設(shè)計(jì),16個(gè)機(jī)架中的L1/L2交換機(jī)形成多層級(jí)無(wú)阻塞網(wǎng)絡(luò),可以確保任意兩個(gè)NPU/CPU間通信帶寬恒定。

而在傳統(tǒng)集群中,節(jié)點(diǎn)間是通過(guò)RoCE網(wǎng)絡(luò)來(lái)通信,帶寬通常僅為200Gbps(約25GB/s),并且還存在 “南北向帶寬瓶頸”(如數(shù)據(jù)中心核心交換機(jī)負(fù)載過(guò)高)。

但在UB網(wǎng)絡(luò)的加持下,每個(gè)NPU可以提供392GB/s的單向帶寬,相當(dāng)于每秒能傳48部1080P電影,數(shù)據(jù)傳輸又快又穩(wěn)。

除此之外,傳統(tǒng)NPU之間通信還依賴SDMA引擎(類似 “快遞中轉(zhuǎn)站”),它的缺點(diǎn)就是啟動(dòng)延遲比較高(約10微秒)。

為此,全對(duì)等互聯(lián)引入了AIV直連(AIV-Direct)的機(jī)制,它可以直接通過(guò)UB網(wǎng)絡(luò)寫(xiě)入遠(yuǎn)程N(yùn)PU內(nèi)存,跳過(guò)SDMA的中轉(zhuǎn),傳輸啟動(dòng)延遲從10微秒降至1微秒以內(nèi)。

這個(gè)機(jī)制就非常適合MoE中token分發(fā)等高頻通信的場(chǎng)景,把單次通信耗時(shí)縮短70%以上。

但除了硬件上的設(shè)計(jì)之外,軟件層面的加持對(duì)于CloudMatrix384的高效率也是起到了功不可沒(méi)的作用。

例如UB網(wǎng)絡(luò)通過(guò)結(jié)合內(nèi)存池化技術(shù),實(shí)現(xiàn)了CloudMatrix384的“全局內(nèi)存視圖”,即所有NPU/CPU可直接訪問(wèn)跨節(jié)點(diǎn)內(nèi)存,無(wú)需關(guān)心數(shù)據(jù)物理位置。

解碼階段的NPU可直接讀取預(yù)填充階段NPU生成的KV緩存,不用再通過(guò)CPU中轉(zhuǎn)或磁盤存儲(chǔ),數(shù)據(jù)訪問(wèn)延遲從毫秒級(jí)降至微秒級(jí),緩存命中率提升至56%以上。

再以671B的DeepSeek-R1為例,通過(guò)FusedDispatch融合算子與AIV直連,token分發(fā)延遲從800微秒降至300微秒。預(yù)填充計(jì)算效率提升4.45 token/秒/TFLOPS,超越了英偉達(dá)H100的3.75 token/秒/TFLOPS。

并且在TPOT<50ms的約束下,解碼吞吐量達(dá)到了1943 token/秒/每NPU,即使收緊至TPOT<15ms,仍能維持538 token/秒,這就驗(yàn)證了全對(duì)等互聯(lián)在嚴(yán)苛延遲場(chǎng)景下的穩(wěn)定性。

圖片

因?yàn)樵圃翰挥藐P(guān)心硬件細(xì)節(jié),華為云上開(kāi)箱即用

除了“全對(duì)等互聯(lián)”之外,這篇重磅論文的第二個(gè)技術(shù)關(guān)鍵詞,非“云”莫屬了。

簡(jiǎn)單來(lái)說(shuō),這是一套面向云的基礎(chǔ)設(shè)施軟件棧,它就像一個(gè)“智能管家團(tuán)隊(duì)”,可以把復(fù)雜的硬件設(shè)備變成人人能用的 “云端算力超市”。

值得一提的是,早在CloudMatrix384問(wèn)世之前,華為云團(tuán)隊(duì)早早地就敲定下一代AI數(shù)據(jù)中心要以“面向云”為基礎(chǔ),這就體現(xiàn)了華為在技術(shù)戰(zhàn)略布局上的前瞻性。

并且團(tuán)隊(duì)通過(guò)兩年多時(shí)間的打磨,已經(jīng)讓部署CloudMatrix384這事變成“零門檻”,用戶無(wú)需關(guān)心硬件細(xì)節(jié)直接可以部署。

圖片

△部署CloudMatrix384的華為云基礎(chǔ)設(shè)施軟件棧

整體來(lái)看,這套面向云的基礎(chǔ)設(shè)施軟件棧主要包含以下幾大模塊:MatrixResource、MatrixLink、MatrixCompute、MatrixContainer,以及頂層的ModelArts平臺(tái),它們之間可以說(shuō)是分工明確且相互協(xié)作。

首先我們來(lái)看下MatrixResource。

它在軟件棧中起到的是“資源分配管家”的作用,主要負(fù)責(zé)超級(jí)節(jié)點(diǎn)內(nèi)物理資源的供應(yīng),包括基于拓?fù)涓兄挠?jì)算實(shí)例分配。

通過(guò)運(yùn)行在每個(gè)計(jì)算節(jié)點(diǎn)擎天卡上的MatrixResource代理,動(dòng)態(tài)管理NPU、CPU等硬件資源的分配,確保資源按拓?fù)浣Y(jié)構(gòu)高效調(diào)度,避免跨節(jié)點(diǎn)通信瓶頸。

MatrixLink則是一位“網(wǎng)絡(luò)通信管家”。

它為UB和RDMA網(wǎng)絡(luò)提供服務(wù)化功能,支持QoS保障、動(dòng)態(tài)路由及網(wǎng)絡(luò)感知的工作負(fù)載放置??梢詢?yōu)化超節(jié)點(diǎn)內(nèi)384個(gè)NPU及跨節(jié)點(diǎn)間的通信效率,例如在推理場(chǎng)景中通過(guò)并行傳輸和多路徑負(fù)載均衡技術(shù),輔助提升推理效率20%。

MatrixCompute的角色像是“邏輯超節(jié)點(diǎn)管家”。

它的任務(wù)是管理超節(jié)點(diǎn)的 “生老病死”,從開(kāi)機(jī)啟動(dòng)到故障修復(fù)全負(fù)責(zé),包括裸金屬供應(yīng)、自動(dòng)擴(kuò)縮容、故障恢復(fù)等。

具體實(shí)現(xiàn)的方式是跨物理節(jié)點(diǎn)編排資源,將分散的硬件組件構(gòu)建為緊密耦合的邏輯超級(jí)節(jié)點(diǎn)實(shí)例,實(shí)現(xiàn)資源的彈性擴(kuò)展和高可用性。

MatrixContainer是“容器部署管家”。

它的作用是讓用戶的AI應(yīng)用能像 “快遞包裹” 一樣輕松部署到超節(jié)點(diǎn)上:基于Kubernetes容器技術(shù),把復(fù)雜的AI程序打包成標(biāo)準(zhǔn)化容器,用戶只需“點(diǎn)擊部署”,它就會(huì)自動(dòng)安排到合適的硬件上運(yùn)行。

最后,就是ModelArts這位“AI全流程管家”了。

它位于整個(gè)軟件棧的頂層,提供從模型開(kāi)發(fā)、訓(xùn)練到部署的全流程服務(wù),包括ModelArts Lite(裸金屬/容器化硬件訪問(wèn))、ModelArts Standard(完整MLOps流水線)、ModelArts Studio(模型即服務(wù),MaaS)。

新手可以用ModelArts Lite直接調(diào)用硬件算力;進(jìn)階用戶可以用ModelArts Standard管理訓(xùn)練、優(yōu)化、部署全流程;企業(yè)用戶則可以用ModelArts Studio把模型變成API服務(wù)(如聊天機(jī)器人),一鍵發(fā)布。

由此可見(jiàn),在CloudMatrix384本身高效的基礎(chǔ)上,面向云的基礎(chǔ)設(shè)施軟件棧起到了“如虎添翼”的作用,使得部署這件事變得更加便捷。

軟硬一體:高效、便捷的同時(shí),也夠靈活

除了“全對(duì)等互聯(lián)”和“云原生”這兩個(gè)關(guān)鍵詞,論文中也還涉及到了二者“軟硬一體”結(jié)合下,在靈活性上體現(xiàn)出來(lái)的優(yōu)勢(shì)。

例如剛才我們提到的“用戶無(wú)需關(guān)注底層硬件細(xì)節(jié),只需調(diào)用API”這方面,具體而言,是華為云EMS(彈性內(nèi)存服務(wù))通過(guò)內(nèi)存池化技術(shù),將CPU連接的DRAM聚合為共享內(nèi)存池,NPU可直接訪問(wèn)遠(yuǎn)程內(nèi)存,實(shí)現(xiàn)KV緩存復(fù)用,使首Token時(shí)延降低 80%,同時(shí)減少NPU購(gòu)買量約50%。

以及MatrixCompute支持超節(jié)點(diǎn)實(shí)例的自動(dòng)擴(kuò)縮容,例如根據(jù)工作負(fù)載動(dòng)態(tài)調(diào)整預(yù)填充/解碼集群的NPU數(shù)量,在嚴(yán)苛的15ms TPOT約束下仍能維持538 token/秒的解碼吞吐量。

通過(guò)確定性運(yùn)維服務(wù)和昇騰云腦技術(shù),還可以實(shí)現(xiàn)萬(wàn)卡集群故障10分鐘內(nèi)恢復(fù),HBM和網(wǎng)絡(luò)鏈路故障場(chǎng)景下恢復(fù)時(shí)間挑戰(zhàn)30秒,例如光模塊故障影響降低96%,保障訓(xùn)練/推理任務(wù)的連續(xù)性。

軟件棧還支持超節(jié)點(diǎn)資源的多租戶切分,不同用戶可共享硬件資源但邏輯隔離,例如通過(guò)命名空間隔離不同模型的緩存數(shù)據(jù),確保數(shù)據(jù)安全與資源公平分配。

通過(guò)智能化調(diào)度實(shí)現(xiàn)“朝推夜訓(xùn)”,白天運(yùn)行推理任務(wù),夜間利用閑置算力進(jìn)行模型訓(xùn)練,節(jié)點(diǎn)在訓(xùn)練/推理間切換<5分鐘,提升算力利用率。

據(jù)了解,CloudMatrix384已經(jīng)在華為云烏蘭察布、和林格爾、貴安、蕪湖四大節(jié)點(diǎn)上線,用戶可按需開(kāi)通算力,無(wú)需自行搭建硬件環(huán)境,10毫秒時(shí)延圈覆蓋全國(guó)19個(gè)城市群,支持低延遲訪問(wèn)。

并且CloudMatrix384還提供全棧智能運(yùn)維的能力,例如昇騰云腦的故障知識(shí)庫(kù)已經(jīng)覆蓋了95%的常見(jiàn)場(chǎng)景,一鍵診斷的準(zhǔn)確率達(dá)到了80%、網(wǎng)絡(luò)故障診斷<10分鐘,可以說(shuō)是把運(yùn)維的門檻也打了下去。

打破“不可能三角”

看到這里,我們可以做個(gè)簡(jiǎn)單總結(jié)了。

華為的CloudMatrix384通過(guò)“全對(duì)等架構(gòu)+軟硬協(xié)同”的模式,打破了傳統(tǒng)上算力、延遲和成本之間的“不可能三角”。

硬件層面,它的全對(duì)等UB總線實(shí)現(xiàn)392GB/s卡間帶寬,讓384張NPU能夠高效協(xié)同工作,在EP320專家并行模式下,token分發(fā)延遲控制在100微秒以內(nèi)。

軟件層面的CloudMatrix-Infer采用全對(duì)等推理架構(gòu)、大EP并行、昇騰定制融合算子、UB驅(qū)動(dòng)的分離式內(nèi)存池等,最大化發(fā)揮硬件效率。

這種設(shè)計(jì)讓高算力、低延遲、可控成本同時(shí)成為可能,總之有了CloudMatrix384,云端的大模型部署方案變得更香了。

云端可以在數(shù)據(jù)中心級(jí)別進(jìn)行統(tǒng)一規(guī)劃,構(gòu)建專門的高速網(wǎng)絡(luò)拓?fù)?,突破單一企業(yè)的物理限制。

更關(guān)鍵的是,云端支持彈性擴(kuò)縮容,企業(yè)可以根據(jù)業(yè)務(wù)需求動(dòng)態(tài)調(diào)整資源規(guī)模,從幾十張卡擴(kuò)展到數(shù)百?gòu)埧?,而無(wú)需對(duì)物理設(shè)施進(jìn)行改動(dòng)。

而且,選擇云也意味著不需要用戶自己找專業(yè)團(tuán)隊(duì)去處理模型優(yōu)化、分布式訓(xùn)練、故障處理等復(fù)雜問(wèn)題。

CloudMatrix384的運(yùn)維自動(dòng)化設(shè)計(jì)更是將故障影響降低96%,萬(wàn)卡集群故障恢復(fù)時(shí)間控制在5分鐘以內(nèi),這種專業(yè)化運(yùn)維能力是大部分企業(yè)無(wú)法自建的。

更重要的,CloudMatrix384代表的云端AI服務(wù)模式為中國(guó)企業(yè)提供了一個(gè)更現(xiàn)實(shí)的AI落地路徑。

比如DeepSeek-R1從模型遷移到上線僅用72小時(shí),相比傳統(tǒng)方案的2周時(shí)間,效率提升顯著。

這種成本和效率優(yōu)勢(shì)讓更多企業(yè)能夠嘗試AI應(yīng)用,而不需要承擔(dān)巨額的基礎(chǔ)設(shè)施投入風(fēng)險(xiǎn)。

CloudMatrix384證明了國(guó)產(chǎn)云端方案不只是“能用”,更是在性能和成本效益上都具備競(jìng)爭(zhēng)優(yōu)勢(shì)。

AI基礎(chǔ)設(shè)施正在重新被定義

CloudMatrix384代表的不只是一臺(tái)更強(qiáng)的AI超算,還是對(duì)“什么是AI基礎(chǔ)設(shè)施”的重新定義。

技術(shù)上,它通過(guò)UB顛覆了過(guò)往以CPU為中心的層級(jí)式設(shè)計(jì),將整個(gè)超級(jí)節(jié)點(diǎn)變成了一個(gè)統(tǒng)一的計(jì)算實(shí)體。

面向未來(lái),華為論文中也給出了兩條發(fā)展路徑——一方面繼續(xù)擴(kuò)大節(jié)點(diǎn)規(guī)模,另一方面進(jìn)行更強(qiáng)力的解耦。

擴(kuò)大規(guī)模容易理解,未來(lái)LLM參數(shù)規(guī)模更大,需要更緊密耦合的計(jì)算資源。

而解耦,可以分別從資源和應(yīng)用兩個(gè)維度來(lái)看。

資源上,CPU和NPU資源物理將分離為專用資源池,從邏輯解耦將走向物理解耦,實(shí)現(xiàn)更好的資源利用率。

應(yīng)用中,大模型的推理過(guò)程中內(nèi)存密集型注意力計(jì)算將從解碼路徑解耦,注意力和專家組件也會(huì)分離為獨(dú)立執(zhí)行服務(wù)。

總之,作者描繪了一個(gè)完全解耦、自適應(yīng)、異構(gòu)的AI數(shù)據(jù)中心架構(gòu),這種架構(gòu)將進(jìn)一步提升可擴(kuò)展性、靈活性、效率和性能。

未來(lái),計(jì)算資源將不再是固定的物理設(shè)備,而是可以動(dòng)態(tài)編排的抽象能力。

通過(guò)CloudMatrix384和其未來(lái)暢想,我們正在見(jiàn)證又一次新的技術(shù)迭代,也在見(jiàn)證整個(gè)AI數(shù)據(jù)中心范式的深刻變革。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2012-05-25 14:38:30

蘋果綠色數(shù)據(jù)中心

2023-07-12 17:13:40

數(shù)據(jù)中心綜合布線

2025-04-22 09:47:07

2025-05-29 03:00:00

混合推理模型LHRMAI

2021-01-21 16:28:04

AI人工智能數(shù)據(jù)中心

2024-04-10 09:28:23

2012-05-15 09:50:35

數(shù)據(jù)中心

2025-04-10 18:42:47

2023-07-19 16:12:53

2018-06-22 09:28:22

數(shù)據(jù)中心可用性效率

2022-10-13 16:45:04

微軟年度技術(shù)大會(huì)

2024-06-26 13:15:40

2025-02-17 09:06:00

AI算力模型

2025-01-20 07:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)