英偉達(dá)閹割版B200A曝光!最強(qiáng)芯片架構(gòu)Blackwell難產(chǎn):產(chǎn)能不夠,刀法來(lái)湊
英偉達(dá)最強(qiáng)芯片B200被迫推遲三個(gè)月,傳聞鬧的沸沸揚(yáng)揚(yáng)。
老黃的對(duì)策來(lái)了:閹割版芯片B200A曝光。
這難道就是“產(chǎn)能不夠,刀法來(lái)湊”?
沒(méi)錯(cuò),根據(jù)SemiAnalysis分析,B200遇到的主要問(wèn)題正是產(chǎn)能不足,更具體來(lái)說(shuō)是臺(tái)積電的新封裝工藝CoWoS-L產(chǎn)能不足。
閹割版的B200A將先用于滿足中低端AI系統(tǒng)的需求。
閹割版B200A,內(nèi)存帶寬縮水
為什么說(shuō)B200A是閹割版?
指標(biāo)上主要體現(xiàn)在內(nèi)存帶寬,4TB/s,比年初發(fā)布會(huì)上B200宣傳的8TB/s直接縮水一半。
這背后就是封裝工藝由CoWoS-L退回CoWoS-S了,甚至B200A據(jù)稱(chēng)也兼容三星等其他非臺(tái)積電的2.5D封裝技術(shù)。
總的來(lái)說(shuō)CoWoS先進(jìn)封裝目前有三個(gè)變體,CoWoS-S、CoWoS-R和CoWoS-L,主要區(qū)別在中介層(interposer)的方案。
中介層介于芯片晶圓和印刷電路板之間,實(shí)現(xiàn)芯片與封裝基板之間的信息交換,同時(shí)提供機(jī)械支撐和散熱能力。
CoWoS-S結(jié)構(gòu)最簡(jiǎn)單,中介層就相當(dāng)于一片硅板。
CoWoS-R使用了RDL技術(shù)(Redistribution layer,再分布層),中介層是多層結(jié)構(gòu)的薄金屬材料。
CoWoS-L最復(fù)雜,在RDL中介層中加入了一種LSI芯片(Local Silicon Interconnect,局部硅互聯(lián)),可以實(shí)現(xiàn)更高布線密度,也可以做成更大尺寸。
臺(tái)積電推出CoWoS-L,是出于舊版技術(shù)在尺寸和性能繼續(xù)增長(zhǎng)上面臨困難。
比如在AMD的AI加速芯片MI300上,CoWoS-S中介層已經(jīng)擴(kuò)大到了原標(biāo)準(zhǔn)的3.5倍,但仍難以滿足未來(lái)AI芯片性能增長(zhǎng)需求。
但現(xiàn)在,有消息稱(chēng)CoWoS-L在產(chǎn)能攀升中遇到一些問(wèn)題,可能出現(xiàn)硅、中介層和基片之間的熱膨脹系數(shù)不匹配,從而導(dǎo)致彎曲,需要重新設(shè)計(jì)。
過(guò)去臺(tái)積電建立了大量的CoWoS-S產(chǎn)能,英偉達(dá)占據(jù)了最大份額。現(xiàn)在英偉達(dá)的需求可以迅速轉(zhuǎn)向CoWoS-L,但臺(tái)積電需要時(shí)間才能把產(chǎn)能轉(zhuǎn)換到新工藝。
另外有消息稱(chēng),B200A的核心(內(nèi)部型號(hào)B102)將來(lái)也會(huì)用來(lái)造特別版B20,具體不展開(kāi)了,懂得都懂。
B200訓(xùn)大模型,還面臨其他挑戰(zhàn)
Blackwell主推的規(guī)格是“新一代計(jì)算單元”GB200 NVL72,一個(gè)機(jī)柜就有36塊CPU+72塊GPU。
算力很到位,一個(gè)機(jī)柜在FP8精度的訓(xùn)練算力就高達(dá)720PFlops,直逼H100時(shí)代一個(gè)DGX SuperPod超級(jí)計(jì)算機(jī)集群(1000 PFlops)。
但耗電也很到位,據(jù)Semianalysis估算,功率密度約為每個(gè)機(jī)柜125kW,前所未有。在供電、散熱、網(wǎng)絡(luò)設(shè)計(jì)、并行、可靠性等方面帶來(lái)挑戰(zhàn)。
事實(shí)上,已經(jīng)用于大模型訓(xùn)練的H100萬(wàn)卡集群,業(yè)界也還沒(méi)有完全馴服好。
比如Llama 3.1系列的技術(shù)報(bào)告就指出,訓(xùn)練期間平均3小時(shí)故障一次,其中GPU導(dǎo)致的問(wèn)題占了58.7%。
總計(jì)419次故障中,148 次是由各種GPU故障(包括NVLink故障)引起,72次可以具體到是由HBM3內(nèi)存故障引起。
所以總的來(lái)看,就算老黃最終發(fā)貨了B200,AI巨頭真正建好B200集群投入大模型訓(xùn)練,也還需要更多時(shí)間。
目前已經(jīng)開(kāi)始訓(xùn)練或接近完成的GPT-5、Claude 3.5 Opus、Llama 4等怕是用不上了,要到下下代模型才能見(jiàn)證Blackwell的威力。
One More Thing
針對(duì)B200推遲的傳聞,英偉達(dá)給出了官方回應(yīng):
Hopper的需求強(qiáng)勁,Blackwell的樣品試用已廣泛開(kāi)始,產(chǎn)量有望下半年增加。
具體會(huì)不會(huì)延遲三個(gè)月,不做具體答復(fù)。
不過(guò)摩根士丹利在最新報(bào)告中比較樂(lè)觀,認(rèn)為生產(chǎn)僅會(huì)暫停約兩周。