老黃再出奇招!首推「特供版」GB20服務(wù)器,或?qū)⒚髂晟鲜?/h1>
英偉達(dá)與美國商務(wù)部的角力又升級(jí)了!
在美國出口管制之下,老黃不斷拿出變通之策,一場貓鼠游戲正在上演。
出口管制新規(guī)實(shí)施以后,沒少耽誤老黃在中國市場賺錢。
截至今年1月,出口新規(guī)恰好實(shí)施一年,中國市場占英偉達(dá)收入的比例下降至17%。兩年前,這個(gè)數(shù)字還是25%+。
面對(duì)監(jiān)管,英偉達(dá)連續(xù)推出為中國定制的「特供版」芯片,然而這些性能削弱的芯片往往銷路不暢。
此前出師不利的H20銷量剛剛見漲,英偉達(dá)卻驚聞噩耗——
杰富瑞分析師在上周的一份研究報(bào)告中透露,美國商務(wù)部將于10月份對(duì)半導(dǎo)體出口限制進(jìn)行年度評(píng)估,可能會(huì)禁止H20芯片的出口。
監(jiān)管不斷升級(jí),這一次,老黃徹底拼了。
不僅推出了新旗艦AI芯片B20,擔(dān)心它不夠好用,還推出了配套服務(wù)器GB20。
從命名就不難猜出,B20是英偉達(dá)今年三月發(fā)布的Blackwell B200的一個(gè)變體。
作為迄今為止最快的GPU, B200在某些任務(wù)上的處理速度可以達(dá)到前代產(chǎn)品的30倍。(eg.讓聊天機(jī)器人生成答案)
可惜,這與「特供版」B20芯片可以說是毫無關(guān)系……
在美國出口管制政策限制下誕生的B20,注定會(huì)是一款入門級(jí)產(chǎn)品,與具備行業(yè)領(lǐng)先AI性能的B200形成鮮明對(duì)比。
但據(jù)爆料人表示,雖然B20在處理AI計(jì)算時(shí)會(huì)比B200慢一些,但在GB20服務(wù)器中將大量芯片安裝在一起,可以部分彌補(bǔ)這種缺陷。
這將確保英偉達(dá)在與中國產(chǎn)品交鋒時(shí),保有一定的競爭力,同時(shí)也符合美國出口管制規(guī)定的芯片計(jì)算能力上限。
管制之下,上演「貓鼠游戲」
自2022年年底以來,英偉達(dá)多次重新配置面向中國市場的芯片,瞄準(zhǔn)了中國客戶需要芯片來開發(fā)LLM的需求,試圖在符合美國法規(guī)的同時(shí),保持對(duì)中國客戶的吸引力。
2022年10月,美國政府禁止銷售英偉達(dá)的A100和H100(當(dāng)時(shí)是其最先進(jìn)的人工智能芯片)。
幾個(gè)月后,英偉達(dá)就針對(duì)中國市場推出了兩款替代產(chǎn)品A800和H800。
此后不到一年,美國商務(wù)部再次更新了出口管制措施,對(duì)這兩款芯片實(shí)施了限制。
英偉達(dá)反應(yīng)迅速,僅僅在幾周后,就推出了H20,與之一同推出的還有L20 PCle和L2 PCle。
其中,H20芯片性能有限但連接速度更高,憑借高帶寬內(nèi)存和成熟的軟件支撐,帶來了較優(yōu)的性能。
雖然初期銷量不濟(jì),但比較之下,越來越多的中國客戶選擇購買這款芯片。
據(jù)四位直接參與英偉達(dá)芯片在中國銷售的人士透露,中國公司已經(jīng)訂購了50多萬顆H20芯片,總價(jià)值近58億美元,將于2024年交付。
研究機(jī)構(gòu)SemiAnalysis也做出了樂觀的估計(jì),英偉達(dá)今年將在中國銷售超100萬顆H20芯片,價(jià)值超過120億美元。
但正如前文所述,這項(xiàng)業(yè)務(wù)面臨商務(wù)部新的威脅。等到年底法規(guī)調(diào)整,H20或?qū)⒔邸?/span>
該禁令可能會(huì)采用多種形式,包括針對(duì)特定產(chǎn)品的禁令、降低芯片的計(jì)算能力或限制其內(nèi)存容量。
畢竟宏觀背景如此,外界普遍預(yù)計(jì)美國將繼續(xù)對(duì)半導(dǎo)體相關(guān)出口管制施加壓力。
消息人士稱,美國希望荷蘭和日本進(jìn)一步限制向中國提供芯片制造設(shè)備。
在不斷加強(qiáng)的管制之下,可能會(huì)有越來越多的「特供版」出現(xiàn)。
有傳言稱,英偉達(dá)還在開發(fā)一款新的旗艦游戲顯卡 RTX 5090D。
該顯卡將專為中國市場設(shè)計(jì),是首款面向消費(fèi)者并符合出口標(biāo)準(zhǔn)的顯卡 RTX 4090D 的后續(xù)產(chǎn)品。
芯片性能不夠,服務(wù)器來湊
B20的具體規(guī)格還未確定,但可以確定的是,絕對(duì)不會(huì)打破美國GPU出口政策「天花板」。
就像它的老前輩——之前推出的H20、L20和L2,這3個(gè)芯片的性能都可謂是「史詩級(jí)」大縮水,不僅性能是殘血的,而且還只配備了殘血版的NVLink連接。
TPP & PD兩大指標(biāo)鎖喉
美國對(duì)中國GPU出口有嚴(yán)格的性能規(guī)定,采用一種名為「總計(jì)算性能」(Total Processing Power,TPP)的指標(biāo)。
該指標(biāo)將GPU計(jì)算能力的TFLOPS和精度納入考量。具體來說,將TFLOPS(不含稀疏性)乘以精度(以位為單位)即可得出TPP。
當(dāng)前的限制設(shè)定在4800 TPP,這意味著什么呢?
以英偉達(dá)之前的產(chǎn)品為參考:Hopper H100和H200已經(jīng)遠(yuǎn)遠(yuǎn)超過了這一標(biāo)準(zhǔn),兩款GPU的TPP均達(dá)到了16000,是規(guī)定上限的3倍不止。
即使是RTX 4090,其660.6 TFLOPS的FP8計(jì)算能力也超過了限制。
保持在4800 TPP限制內(nèi)的最強(qiáng)大的英偉達(dá)桌面GPU是 RTX 4090D,它是專門為遵守出口限制而構(gòu)建的。
Blackwell在計(jì)算性能方面樹立了新的標(biāo)桿,其雙芯片解決方案可能會(huì)輸出約4500 TFLOPS的FP8計(jì)算能力,這將是出口限制的7.5倍。
換言之,B20的性能將不足Blackwell B200性能的1/7!
不僅如此,B20還面臨額外的限制——「性能密度」(Performance Density,PD)限制。
這是美國對(duì)數(shù)據(jù)中心GPU專門實(shí)施的限制,消費(fèi)級(jí)GPU不受此影響。
將TPP分?jǐn)?shù)除以芯片尺寸即可得到PD指標(biāo),對(duì)中國出口的GPU的PD不得高于6.0。
按照這個(gè)指標(biāo),RTX 40系列GPU(Ada Lovelace 架構(gòu))已經(jīng)不可被用于數(shù)據(jù)中心使用。
而Blackwell在密度和性能上,明顯要優(yōu)于Ada Lovelace。
也就是說,英偉達(dá)需要嚴(yán)格限制B20的性能,或使用更大比例的芯片,以符合相關(guān)規(guī)定。
據(jù)Tom's Hardware預(yù)計(jì),B20將成為英偉達(dá) A30和H20入門級(jí)AI GPU的繼任者。
以H20為例,其FP16計(jì)算能力僅為296 TFLOPS,TPP為2368,PD僅為2.90,而H100/H200則為1979 TFLOPS。
與此同時(shí),A30的TPP評(píng)分為2640,PD評(píng)分為3.20,比H20略有提升。
由此可見,英偉達(dá)為中國市場打造的AI GPU在性能上有一定進(jìn)步空間,但空間很有限。
最好的情況是,英偉達(dá)可能會(huì)尋求創(chuàng)建一個(gè)TPP在4000到4500之間,芯片尺寸為800平方毫米的GPU。
GB20:全力挽救B20的性能
為了提高即將推出的B20的效率,英偉達(dá)正在采用H20曾經(jīng)使用過的策略,例如升級(jí)內(nèi)存容量,因?yàn)閮?nèi)存芯片不受當(dāng)前出口管制的限制。
據(jù)參與開發(fā)服務(wù)器的兩位人士透露,英偉達(dá)正在努力提高內(nèi)存與B20處理器之間的數(shù)據(jù)傳輸速度,從而可以更快地處理大型能數(shù)據(jù)集。
不僅如此,英偉達(dá)還將在GB20機(jī)架設(shè)計(jì)中采用其NVLINK技術(shù)(可實(shí)現(xiàn)不同芯片之間的快速通信)和冷卻方案。
兩人補(bǔ)充道,這有望提高B20芯片的利用率和GB20計(jì)算集群在為人工智能提供動(dòng)力方面的有效性。
GB20系統(tǒng)將使客戶能夠通過更高效地并行運(yùn)行多個(gè)芯片來進(jìn)行人工智能訓(xùn)練和推理。
在GB20被曝出之前,Tom's Hardware曾大膽預(yù)測,B20將是一款難以銷售的芯片。
但現(xiàn)在有了GB20的加持,似乎又有了新的希望。