英偉達年終大禮,最強AI GPU曝光!全新B300讓o1/o3推理性能上天算力爆表
多虧了老黃,圣誕節(jié)如期而至。
盡管Blackwell GPU多次因硅片、封裝和底板問題而推遲發(fā)布,但這并不能阻擋他們前進的腳步。
距離GB200和B200的發(fā)布才剛剛過去幾個月,英偉達便推出了全新一代的AI GPU——GB300和B300。
更為有趣的是,這次看似普通的更新背后,實則內(nèi)含玄機。其中最為突出的,便是模型的推理和訓(xùn)練性能得到了大幅增強。
而隨著B300的推出,整個供應(yīng)鏈正在進行重組和轉(zhuǎn)型,贏家將從中獲益(獲得禮物),而輸家則處境不妙(收到煤炭)。

這正是英偉達送給所有超大規(guī)模云計算供應(yīng)商、特定供應(yīng)鏈合作伙伴、內(nèi)存供應(yīng)商以及投資者的特別「圣誕禮物」
不過就在上周,天風(fēng)國際分析師郭明錤卻在研報中曝出,B300/GB300的DrMOS存在嚴(yán)重的過熱問題!
而這,很可能會影響B(tài)300/GB300的量產(chǎn)進度。

具體分析如下——

這已經(jīng)不是Blackwell第一次被曝出存在設(shè)計問題了
B300和GB300:絕不僅是一次小升級
根據(jù)SemiAnalysis的最新爆料,B300 GPU對計算芯片的設(shè)計進行了優(yōu)化,并采用了全新的TSMC 4NP工藝節(jié)點進行流片。
相比于B200,其性能的提升主要在以下兩個方面:
1. 算力
- FLOPS性能提升50%
- 功耗增加200W(GB300和B300 HGX的TDP分別達到1.4KW和1.2KW;前代則為1.2KW和1KW)
- 架構(gòu)改進和系統(tǒng)級增強,例如CPU和GPU之間的動態(tài)功率分配(power sloshing)
2. 內(nèi)存
- HBM容量增加50%,從192GB提升至288GB
- 堆疊方案從8層HBM3E升級為12層
- 針腳速率保持不變,帶寬仍為8TB/s
專為「推理模型」優(yōu)化
序列長度的增加,導(dǎo)致KV Cache也隨之?dāng)U大,從而限制了關(guān)鍵批處理大小和延遲。
因此,顯存的改進對于OpenAI o3這類大模型的訓(xùn)練和推理至關(guān)重要。
下圖展示了英偉達H100和H200在處理1,000個輸入token和19,000個輸出token時的效能提升,這與OpenAI的o1和o3模型中的思維鏈(CoT)模式相似。

H100和H200的Roofline模擬,通過FP8精度的Llama 405B模型完成
H100到H200的升級,主要在于更大、更快的顯存:
- 更高的帶寬使交互性能普遍提升了43%(H200為4.8TB/s,而H100為3.35TB/s)
- 更大的批處理規(guī)模,使每秒token生成量提升了3倍,進而使成本也降低了約3倍
而對運營商而言,這H100和H200之間的性能與經(jīng)濟差異,遠(yuǎn)遠(yuǎn)超過技術(shù)參數(shù)的數(shù)字那么簡單。
首先,此前的推理模型時常因請求響應(yīng)時間長而影響體驗,而現(xiàn)在有了更快的推理速度后,用戶的使用意愿和付費傾向都將顯著提高。
其次,成本降低3倍的效益,可是極為可觀的。僅通過中期顯存升級,硬件就能實現(xiàn)3倍性能提升,這種突破性進展遠(yuǎn)遠(yuǎn)超過了摩爾定律、黃氏定律或任何已知的硬件進步速度。
最后,性能最頂尖、具有顯著差異化優(yōu)勢的模型,能因此獲得更高溢價。
SOTA模型的毛利率已經(jīng)超過70%,而面臨開源競爭的次級模型利潤率僅有20%以下。推理模型可突破單一思維鏈限制,通過擴展搜索功能提升性能(如o1 Pro和o3),從而使模型更智能地解決問題,提高GPU收益。
當(dāng)然,英偉達并非唯一能提供大容量顯存的廠商。
ASIC和AMD都具備這樣的能力。而AMD更是憑借更大的顯存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占據(jù)了優(yōu)勢地位。
不過,老黃手里還有一張「絕對王牌」——NVLink。
NVL72在推理領(lǐng)域的核心優(yōu)勢在于,它能讓72個GPU以超低延遲協(xié)同工作、共享顯存。
而這也是全球唯一具備全連接交換(all-to-all switched connectivity)和全規(guī)約運算(all reduce)能力的加速器系統(tǒng)。
英偉達的GB200 NVL72和GB300 NVL72,對以下這些關(guān)鍵能力的實現(xiàn)極其重要——
- 更高交互性,實現(xiàn)更低思維鏈延遲
- 72個GPU分散KV Cache,支持更長思維鏈,提升智能水平
- 相比傳統(tǒng)8 GPU服務(wù)器,具備更優(yōu)批處理擴展性
- 支持更多樣本并行搜索,提升準(zhǔn)確性和模型性能
總體而言,NVL72可以在經(jīng)濟效益上實現(xiàn)10倍以上提升,尤其是在長推理鏈場景中。
而且,NVL72還是目前唯一能在高批處理下,將推理長度擴展至10萬以上token的解決方案。
供應(yīng)鏈重構(gòu)
此前GB200時期,英偉達提供完整的Bianca主板(包含Blackwell GPU、Grace CPU、512GB LPDDR5X內(nèi)存以及集成在同一PCB上的電壓調(diào)節(jié)模塊VRM),同時還提供交換機托盤和銅質(zhì)背板。
但隨著GB300的推出,供應(yīng)鏈的結(jié)構(gòu)和產(chǎn)品內(nèi)容,將發(fā)生重大調(diào)整。

在新方案GB300中行,英偉達只提供三個核心組件的供應(yīng):
- 搭載在「SXM Puck」模塊上的B300
- BGA封裝的Grace CPU
- 由美國初創(chuàng)企業(yè)Axiado提供的基板管理控制器(HMC),取代了原有的Aspeed方案
終端客戶將需要直接采購計算板上的其他組件。同時,第二級內(nèi)存方案,從焊接式LPDDR5X改為可更換的LPCAMM模塊,主要由美光供應(yīng)。交換機托盤和銅質(zhì)背板仍由英偉達全權(quán)負(fù)責(zé)。

相比此前僅有緯創(chuàng)和富士康工業(yè)互聯(lián)網(wǎng)(FII)能夠制造Bianca計算板的局面,SXM Puck方案打破了原有的市場格局。
它的采用為更多OEM和ODM廠商參與計算托盤制造創(chuàng)造了機會:
- 緯創(chuàng)在ODM領(lǐng)域受影響最大,Bianca主板份額顯著下降
- 富士康工業(yè)互聯(lián)網(wǎng)通過獨家生產(chǎn)SXM Puck及其插座,抵消了Bianca主板業(yè)務(wù)的損失
- 英偉達正在尋求Puck和插座的其他供應(yīng)商,但目前尚未確定新訂單
其次,是VRM供應(yīng)鏈。
盡管SXM Puck上仍保留部分VRM組件,但主要的板載VRM將由超大規(guī)模數(shù)據(jù)中心運營商和OEM直接從供應(yīng)商采購:
- Monolithic Power Systems的市場份額將因商業(yè)模式轉(zhuǎn)變而下降
- 市場格局重塑為新供應(yīng)商創(chuàng)造了更多的機會
第三,英偉達在互聯(lián)技術(shù)也取得了突破。
GB300平臺搭載了800G ConnectX-8網(wǎng)絡(luò)接口卡,可在InfiniBand和以太網(wǎng)上提供雙倍的擴展帶寬。
相較于上一代ConnectX-7,ConnectX-8具有多項顯著優(yōu)勢:
- 帶寬提升100%
- PCIe通道數(shù)從32增至48,支持空冷MGX B300A等創(chuàng)新性架構(gòu)設(shè)計
- 原生支持SpectrumX,無需借助效率較低的Bluefield 3 DPU(此前400G產(chǎn)品的方案)
對超算中心的影響
在2024年第三季度,受GB200和GB300發(fā)布延遲影響,大量訂單轉(zhuǎn)向了英偉達價格更高的新一代GPU。
截至上周,所有超算中心均已決定采用GB300方案。這一決策基于兩個因素:
- GB300提供更高的FLOPS算力和更大的顯存容量
- 客戶擁有更多系統(tǒng)定制自主權(quán)
此前,由于上市時間壓力以及機架、散熱和供電密度的重大調(diào)整,超算中心此前難以對GB200服務(wù)器進行深度定制。
這迫使Meta完全放棄了同時向博通和英偉達采購網(wǎng)絡(luò)接口卡的計劃,轉(zhuǎn)而完全依賴英偉達。類似地,谷歌也放棄了自研網(wǎng)絡(luò)接口卡方案,轉(zhuǎn)而采用英偉達的解決方案。
對于那些一向精于優(yōu)化從處理器到網(wǎng)絡(luò)設(shè)備,甚至到螺絲和鈑金等各個環(huán)節(jié)成本的超算中心數(shù)千人研發(fā)團隊來說,為其帶去了極大的困擾。
另外,亞馬遜的案例最具代表性。他們選擇了一個次優(yōu)配置,導(dǎo)致總擁有成本(TCO)超過了參考設(shè)計。
由于使用PCIe交換機和需要風(fēng)冷的低效200G彈性網(wǎng)絡(luò)適配器,亞馬遜無法像Meta、谷歌、微軟、甲骨文、xAI和Coreweave那樣部署NVL72機架。
受限于其內(nèi)部網(wǎng)卡方案,亞馬遜被迫采用NVL36架構(gòu),卻因更高的背板和交換機成本推高了每個GPU的支出。
總體而言,因定制化受限,導(dǎo)致亞馬遜的配置方案并不理想。
GB300的推出,為超算中提供了更大自主權(quán),比如可以自主定制主板、散熱系統(tǒng)等。
這使得亞馬遜能夠開發(fā)自己的定制主板,將此前需要風(fēng)冷的組件(如Astera Labs PCIe交換機)整合進水冷系統(tǒng)。
隨著更多組件采用水冷設(shè)計,加上K2V6 400G網(wǎng)卡將在2025年第三季度實現(xiàn)規(guī)?;慨a(chǎn),亞馬遜有望重返NVL72架構(gòu),顯著提升TCO效率。
然而這也帶來了一個顯著挑戰(zhàn):超算中心需要投入更多資源進行設(shè)計、驗證和確認(rèn)工作。
這無疑是超算中心面臨的最復(fù)雜系統(tǒng)設(shè)計項目(除谷歌TPU外)。部分超算中心能夠快速完成設(shè)計,但設(shè)計團隊較慢的機構(gòu)則明顯落后。
盡管市場傳聞有公司取消訂單,但SemiAnalysis觀察到由于設(shè)計進度較慢,微軟可能是最晚部署GB300的機構(gòu)之一,他們在第四季度仍在采購GB200。
隨著部分組件從英偉達轉(zhuǎn)移到原始設(shè)計制造商(ODM),客戶的總采購成本出現(xiàn)較大差異。
這不僅影響了ODM的收入,更重要的是導(dǎo)致英偉達全年的毛利率產(chǎn)生波動。下面將更詳細(xì)分析這些變動對英偉達利潤產(chǎn)生的影響。
值得一提的是,三星在未來至少9個月內(nèi),都無法進入GB200或GB300的供應(yīng)鏈。
對英偉達利潤的影響
懷著「圣誕精神」的英偉達,在新的定價策略上也頗有看點——這將直接影響B(tài)lackwell系列的利潤。
隨著顯存方案從SK海力士和美光的8層HBM3E堆棧升級至12層HBM3E堆棧,顯存容量獲得了顯著提升。
這一升級,直接導(dǎo)致英偉達芯片級物料清單(BOM)成本增加約2,500美元。
成本的增加主要來自——
- 更高的容量
- 堆棧層數(shù)增加帶來的每GB顯存溢價
- 封裝良率下降帶來的額外成本
第三點也反映出高帶寬顯存(HBM)在物料成本中的主導(dǎo)地位(隨著推理模型對顯存容量和帶寬需求增加,這一趨勢將持續(xù)加強)。
總體而言,GB300的平均售價較GB200提高約4,000美元,其中HBM成本增加約2,500美元,而增量利潤率不足40%,而GB200整體的利潤率維持在70%的中低水平。
然而,由于前述內(nèi)容變化,英偉達減少了整體供應(yīng)內(nèi)容,轉(zhuǎn)由超算中心自行采購,由此,英偉達實現(xiàn)了成本平衡。
首先,英偉達不再提供每個Grace CPU配套的512GB LPDDR5X內(nèi)存,這抵消了大部分額外的HBM成本支出。
其次,PCB的成本節(jié)省最為顯著。
綜合各項因素,在平均銷售價格提升4,000美元的同時,英偉達的物料成本僅增加略超1,000美元。
GB300相對于GB200的增量毛利率達到73%,這意味著在良率保持穩(wěn)定的情況下,該產(chǎn)品的利潤水平基本持平。
這一結(jié)果雖然看似平常,但值得注意的是,HBM升級周期通常會導(dǎo)致利潤率下降(例如H200、MI325X的情況),而這次這一慣例被打破了。
此外,隨著各項工程技術(shù)問題的逐步解決,良率將會提升,在度過Blackwell初期的產(chǎn)能爬升期后,利潤率預(yù)計會在年內(nèi)逐步改善。





































