中國(guó)有望使用最強(qiáng)Blackwell架構(gòu)!英偉達(dá)拼了!突破拜登政府芯片出口限制,為中國(guó)定制旗艦版B20!美商務(wù)部長(zhǎng):第二天就會(huì)反制
原創(chuàng) 精選編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
英偉達(dá)最強(qiáng)算力架構(gòu)Blackwell,有望來(lái)中國(guó)銷(xiāo)售了!
英偉達(dá)真的很拼,對(duì)于中國(guó)AI市場(chǎng),總是不遺余力,甚至為突破美國(guó)對(duì)中的出口限制,絞盡腦汁。
7 月 22 日,據(jù)四位知情人士稱(chēng),Nvidia 正在為中國(guó)市場(chǎng)開(kāi)發(fā)一款新的旗艦 AI 芯片,該芯片設(shè)計(jì)是為了突破當(dāng)前的美國(guó)商務(wù)部出口管制政策。
1.英偉達(dá)推“合規(guī)旗艦版”AI芯片為中國(guó)市場(chǎng)再次一博
作為當(dāng)之無(wú)愧的 AI 芯片巨頭,英偉達(dá)于 3 月推出了“Blackwell”芯片系列,該系列將于今年晚些時(shí)候量產(chǎn)。新處理器結(jié)合了兩塊硅片,大小與該公司之前的產(chǎn)品相同。在該系列中,B200 在某些任務(wù)(如提供聊天機(jī)器人的答案)上的速度比其前代產(chǎn)品快 30 倍。
美國(guó)針對(duì)向中國(guó)出售AI加速器的貿(mào)易限制,并沒(méi)有阻止英偉達(dá)將其最新的Blackwell架構(gòu)帶到中國(guó)。
據(jù)悉,這塊為中國(guó)市場(chǎng)定制的芯片,名為B20,將基于這家GPU巨頭在春季GTC上宣布的Blackwell架構(gòu)。與之前的Hopper架構(gòu)相比,Nvidia聲稱(chēng)其基于Blackwell的芯片在原始浮點(diǎn)精度方面快了2.5~5倍。
而至于分銷(xiāo)方面,據(jù)外媒說(shuō)法,英偉達(dá)已選擇“浪潮”作為該芯片的主要分銷(xiāo)商,據(jù)稱(chēng)將于明年第二季度開(kāi)始發(fā)貨,這一點(diǎn)小編認(rèn)為存疑,因?yàn)槔顺币苍诿绹?guó)實(shí)體管制名單之列。
2.對(duì)華一禁再禁,出口限制究竟限制啥
然而,既有的出口管制可能會(huì)限制英偉達(dá)下一批中國(guó)市場(chǎng)芯片的性能功效。這是因?yàn)镠20是目前英偉達(dá)在該地區(qū)無(wú)需許可即可銷(xiāo)售的最強(qiáng)大的芯片,其性能已經(jīng)接近出口限制的極限。
早在2022年10月,美國(guó)政府就頒布了全面限制措施,目的就是為了遏制中國(guó)芯片行業(yè)發(fā)展。不過(guò)當(dāng)時(shí)英偉達(dá)就迅速應(yīng)對(duì),僅用了一個(gè)月不到的時(shí)間就為中國(guó)市場(chǎng)研發(fā)了一款新型先進(jìn)芯片,目的是在“不違規(guī)”的情況下繼續(xù)在中國(guó)市場(chǎng)提供服務(wù)。
不過(guò)時(shí)隔一年,拜登政府“變本加厲”地收緊了管制要求。去年10月實(shí)施的美國(guó)出口管制對(duì)“總處理能力”和“性能密度”設(shè)定了上限。這些規(guī)定實(shí)際上禁止了許多英偉達(dá)數(shù)據(jù)中心卡的銷(xiāo)售,并一度阻止了面向消費(fèi)者的RTX 4090的銷(xiāo)售,直到為中國(guó)市場(chǎng)推出特別型號(hào)后才恢復(fù)。
然而,在規(guī)則生效的一個(gè)月內(nèi),就已有三款旨在突破這些限制的削減版顯卡的傳言浮出水面。其中最強(qiáng)的是96GB的H20,其FP8性能高達(dá)296 teraFLOPS。
據(jù)介紹,B20加速器的性能上限將與H20相同,至少在FP8性能方面是如此。Blackwell引入了FP4數(shù)據(jù)類(lèi)型的支持,因此,預(yù)計(jì)其公布的teraFLOPS數(shù)值將是H20的兩倍,盡管它們之間不能直接比較。
3.面向中國(guó)市場(chǎng)的芯片性能上限
到目前為止,對(duì)出口到受關(guān)注國(guó)家(即中國(guó))的圖形處理單元(GPU)和人工智能加速器的主要性能上限主要集中在互連帶寬上。這指的是處理器之間相互通信的速度。去年的規(guī)定限制了雙向互連帶寬超過(guò)600GB/s的芯片的出口,除非獲得特別許可證。
為此,英偉達(dá)和英特爾都對(duì)其最新的GPU進(jìn)行了調(diào)整,降低了互連速度,以規(guī)避商務(wù)部的限制。我們之前提到的H800系列就是一個(gè)很好的例子。
拜登政府現(xiàn)在更進(jìn)一步,實(shí)施了一系列性能密度的上限。根據(jù)本周工業(yè)和安全局(BIS)提交的文件[PDF],這些規(guī)定中第一個(gè)也是最重要的一個(gè)限制了對(duì)以下產(chǎn)品的出口:
“具有一個(gè)或多個(gè)數(shù)字處理單元的集成電路具有以下任一特性:a.1. ‘總處理能力’為4800或更高,或a.2. ‘總處理能力’為1600或更高,且‘性能密度’為5.92或更高。”
計(jì)算任何給定GPU或加速器的總處理能力(TPP)分?jǐn)?shù)是一個(gè)相對(duì)直接的任務(wù)。首先,將每秒最大密集型萬(wàn)億次操作(無(wú)論是浮點(diǎn)還是整數(shù))的數(shù)量乘以2,然后再乘以操作的位長(zhǎng)度。如果針對(duì)不同精度(如INT4、FP8、FP16和FP32)宣傳了多個(gè)性能指標(biāo),則使用最高的TPP分?jǐn)?shù)。
以英偉達(dá)的L40S為例,計(jì)算公式大致如下:
2 x 733萬(wàn)億次浮點(diǎn)運(yùn)算/秒 x 8位 = TPP為11,728
11728 TPP/609 mm2=性能密度為19.25
結(jié)果明顯遠(yuǎn)高于新規(guī)則規(guī)定的5.92性能密度限制,所以就不能對(duì)中國(guó)出售。
圖片
更詳細(xì)的計(jì)算方式不再贅述,目前英偉達(dá)受規(guī)則影響的GPU列表如下:A100、A800、H100、H800、L40、L40S和RTX 4090。
4.在性能限制邊緣試探B20性能會(huì)有哪些提升?
盡管美國(guó)的出口管制意味著這些芯片的浮點(diǎn)性能和計(jì)算密度仍然受到限制,但這并不意味著B(niǎo)20不能在性能上實(shí)現(xiàn)代際提升。在運(yùn)行預(yù)訓(xùn)練的大型語(yǔ)言模型時(shí),性能(通常以每秒處理的令牌數(shù)來(lái)衡量)更多地受到內(nèi)存帶寬的限制,而不是芯片能推動(dòng)多少FLOPS或TOPS。
因此,與H20相比,內(nèi)存帶寬的任何增加(顯然能夠達(dá)到4TB/s)都會(huì)帶來(lái)可觀的性能提升,至少在推理方面是這樣。這些收益的實(shí)際大小將取決于芯片的架構(gòu)以及它與多少HBM堆棧配對(duì)。
因此,像英偉達(dá)的H20這樣的芯片,即使在與大名鼎鼎的H100相比時(shí),對(duì)于像運(yùn)行AI聊天機(jī)器人(而不是訓(xùn)練)這樣計(jì)算要求較低的工作負(fù)載來(lái)說(shuō),仍然非常強(qiáng)大。
英偉達(dá)拒絕了The Register對(duì)B20的置評(píng)請(qǐng)求。
5.拜登政府的態(tài)度“第二天就會(huì)反制”
美國(guó)商務(wù)部長(zhǎng)吉娜·雷蒙多(Gina Raimondo)對(duì)英偉達(dá)和其他接近出口限制邊緣的芯片制造商并不太感冒,這已不是秘密。
“我告訴你們,如果你們圍繞一條特定的分界線(xiàn)重新設(shè)計(jì)芯片,使其能夠進(jìn)行人工智能操作,我將在第二天就對(duì)其進(jìn)行控制,”她在去年年底的一次國(guó)防論壇上明確提到了英偉達(dá)。
圖片
美媒報(bào)道,拜登政府將在未來(lái)幾個(gè)月內(nèi)實(shí)施更嚴(yán)格的出口管制,以扼殺中國(guó)的人工智能發(fā)展。
然而,這樣的措施并不能阻止中國(guó)國(guó)內(nèi)加速器的發(fā)展,比如摩爾線(xiàn)程、華為等公司開(kāi)發(fā)的加速器。為了遏制這里的發(fā)展,據(jù)報(bào)道,拜登政府正在考慮實(shí)施一項(xiàng)名為“外國(guó)直接產(chǎn)品規(guī)則”的措施,這將使其能夠?qū)κ褂妹绹?guó)技術(shù)的任何產(chǎn)品的銷(xiāo)售實(shí)施控制。
圖片
6.內(nèi)存帶寬也可能會(huì)受限制
媒體預(yù)測(cè),接下來(lái)的內(nèi)存帶寬上限可能會(huì)嚴(yán)重限制美國(guó)芯片向中國(guó)的銷(xiāo)售。無(wú)論發(fā)生什么,任何額外的限制無(wú)疑都會(huì)對(duì)英偉達(dá)的業(yè)務(wù)產(chǎn)生重大影響,因?yàn)橹袊?guó)仍占該公司年收入的17%左右。
具體來(lái)講,內(nèi)存帶寬將直接影響芯片在給定時(shí)間內(nèi)能夠輸出的AI tokens(即單詞、短語(yǔ)、標(biāo)點(diǎn)符號(hào)或數(shù)字)的數(shù)量。同時(shí),內(nèi)存容量決定了單個(gè)GPU或加速器上可以部署的模型大小。
考慮到內(nèi)存帶寬和容量對(duì)人工智能聊天機(jī)器人性能的巨大影響,相信未來(lái)美國(guó)還會(huì)對(duì)內(nèi)存帶寬上限進(jìn)行更為嚴(yán)格的限制。
7.英偉達(dá)在中國(guó)市場(chǎng)更多變數(shù)
事實(shí)上,自美國(guó)收緊了對(duì)中國(guó)尖端半導(dǎo)體出口的控制以來(lái),英偉達(dá)已經(jīng)專(zhuān)門(mén)為中國(guó)市場(chǎng)設(shè)計(jì)了數(shù)款A(yù)I芯片。例如,HGX H20、L20 PCle和L2 PCle等。
早在去年,TrendForce在一份研究報(bào)告中表示:“英偉達(dá)也可能試圖將其目前稀缺的資源,如H800,分配給中國(guó)客戶(hù)使用?!?/p>
該公司CEO黃仁勛在第一財(cái)季的財(cái)報(bào)會(huì)議上表示,由于種種限制,中國(guó)數(shù)據(jù)中心業(yè)務(wù)已經(jīng)顯著降低,公司將繼續(xù)盡最大可能服務(wù)中國(guó)客戶(hù)。
“我們有值得尊敬的客戶(hù),我們會(huì)盡最大努力服務(wù)好每一位客戶(hù)。我們?cè)谥袊?guó)的業(yè)務(wù)確實(shí)比過(guò)去的水平下滑很多。由于限制,現(xiàn)在中國(guó)的競(jìng)爭(zhēng)更加激烈。這些都是事實(shí)。但英偉達(dá)將繼續(xù)盡最大努力為中國(guó)市場(chǎng)的客戶(hù)提供服務(wù),會(huì)盡最大努力做到最好?!?/p>
不過(guò)英偉達(dá)的卡的確好用,也是全球的AI芯片的龍頭,好在,在美新規(guī)定生效之前,國(guó)內(nèi)許多互聯(lián)網(wǎng)巨頭,如字節(jié)跳動(dòng)、百度、阿里巴巴和騰訊等囤積了“澎湃”的GPU算力。
但這次,最新的Blackwell架構(gòu)能否順利在華發(fā)貨,可能要取決于英偉達(dá)推出B20的時(shí)間,能否快于拜登政府更嚴(yán)厲的管制規(guī)定的出臺(tái)。