剛剛,全球首個GB300巨獸救場!一年燒光70億,OpenAI內(nèi)斗GPU慘烈
過去一年,OpenAI在算力上斥資70億美元。
其中,大模型研發(fā)占了最大頭——50億美元,而推理計算僅用了20億美元。
圖片
可見,LLM訓(xùn)練正吞噬無盡的算力,這也是OpenAI最近一直在大舉擴展超算建設(shè)與合作的重要原因。
采訪中,OpenAI總裁Greg Brockman坦言,「內(nèi)部如何分配GPU,簡直就是一場痛苦與煎熬」。
OpenAI各個團隊爭搶GPU,那叫一個激烈。最頭疼的是,如何去合理分配。

如今,甲骨文、英偉達、AMD等芯片巨頭/云服務(wù)巨頭,紛紛與OpenAI聯(lián)結(jié),能夠解其燃眉之急。
這不,就連曾經(jīng)最大的「金主爸爸」微軟也上陣了。
納德拉官宣,全球首個配備4600+ GB300的超算率先上線,專攻OpenAI。預(yù)計,未來將擴展到十萬塊GPU。
圖片
英偉達稱,這一算力巨獸,可以讓OpenAI不用數(shù)周,僅在數(shù)天內(nèi)訓(xùn)練萬億參數(shù)模型。

全球首臺GB300超算數(shù)天訓(xùn)出萬億LLM
就在昨天,微軟Azure宣布成功交付了,全球首個生產(chǎn)級超大規(guī)模AI集群。
它搭載了超4600個GB300 NVL72,配備通過下一代InfiniBand網(wǎng)絡(luò)互聯(lián)的Blackwell Ultra GPU。
圖片
今年早些時候,微軟曾推出GB200 v6虛擬機(VM),通過大規(guī)模GB200 NVL2集群,已在OpenAI內(nèi)部訓(xùn)練部署得到應(yīng)用。
這一次,GB300 v6虛擬機再次樹立了行業(yè)標桿。
該系統(tǒng)基于機架級設(shè)計,每個機架包含18個虛擬機,共計72個GPU:
- 72個Blackwell Ultra GPU,搭配36個Grace CPU
 - 通過下一代Quantum-X800 InfiniBand,實現(xiàn)每GPU 800 Gb/s的跨機架橫向擴展帶寬(2x GB200 NVL72)
 - 機架內(nèi)130 TB/s的NVLink帶寬
 - 37TB高速內(nèi)存
 - 高達1,440 PFLOPS的FP4 Tensor Core性能
 
圖片
全新設(shè)計,為大規(guī)模AI超算而生
為打造出最強超算,微軟對計算、內(nèi)存、網(wǎng)絡(luò)、數(shù)據(jù)中心、散熱和供電等技術(shù)棧的每一層,都進行了重新設(shè)計。
機架層:低延遲高吞吐
通過NVLink和NVSwitch,GB300 v6在機架層面實現(xiàn)了高達130TB/s的機架內(nèi)數(shù)據(jù)傳輸速率,連接了總計37TB的高速內(nèi)存,由此消除了內(nèi)存和帶寬瓶頸。
在大模型和長上下文場景下,推理吞吐量大幅提升,為AI智能體和多模態(tài)AI帶來前所未有的響應(yīng)速度和擴展性。
同時,Azure部署了采用當(dāng)今最快網(wǎng)絡(luò) fabric——Quantum-X800 Gbp/s InfiniBand——的全連接胖樹(fat-tree)無阻塞架構(gòu),能夠跨機架擴展數(shù)萬個GPU。
此外,Azure散熱系統(tǒng)采用獨立的「散熱器單元」和「設(shè)施級冷卻方案」。
在為GB300 NVL72這類高密度、高性能集群保持熱穩(wěn)定性的同時,最大限度地減少了水資源消耗。
軟件層:全面優(yōu)化
不僅如此,微軟為存儲、編排和調(diào)度重構(gòu)的軟件棧也經(jīng)過全面優(yōu)化,能夠在超算規(guī)模上充分利用計算、網(wǎng)絡(luò)、存儲和數(shù)據(jù)中心基礎(chǔ)設(shè)施,提供前所未有的高性能和高效率。

OpenAI GPU爭奪戰(zhàn)一場「痛苦與煎熬」
在OpenAI內(nèi)部,正上演一場GPU激烈爭奪戰(zhàn)。
圖片
上周四,Greg在一期「Matthew Berman」播客節(jié)目中,自曝管理算力資源分配的過程,令人揪心且筋疲力盡。
這太難了,你總能看到各種絕妙的點子,然后又有人帶著另一個絕妙的點子來找你,你心想,這個也太棒了。
在OpenAI內(nèi)部,將算力資源主要分配給「研究」和「應(yīng)用產(chǎn)品」兩個方向。
圖片
為了應(yīng)對算力分配的挑戰(zhàn),OpenAI建立了一套相對清晰的資源分配機制:
- 高層決策:由奧特曼和Fidji Simo組成的領(lǐng)導(dǎo)團隊,決定研究團隊與應(yīng)用團隊之間的總體算力劃分;
 - 研究團隊內(nèi)部協(xié)調(diào):首席科學(xué)家和研究負責(zé)人,決定研究團隊資源分配;
 - 運營層:由Kevin Park領(lǐng)導(dǎo)的小型內(nèi)部團隊負責(zé)GPU的具體分配和調(diào)動。
 
OpenAI復(fù)雜算力關(guān)系網(wǎng)絡(luò)圖
Greg提到,當(dāng)一個項目接近尾聲時,Kevin會重新分配硬件資源,以支持新啟動的項目。
算力驅(qū)動著整個團隊的生產(chǎn)力,此事干系重大。
大家對此都非常在意。人們對「我能否分到算力」這件事所投入的精力與情感強度遠超想象。
一直以來,OpenAI多次公開表達其對算力永不滿足的需求。
OpenAI首席產(chǎn)品官Kevin Weil曾表示,「我們每次拿到新的 GPU,它們都會被立刻投入使用」。
OpenAI對算力的需求邏輯很簡單——
GPU的數(shù)量直接決定了AI應(yīng)用的能力上限。獲得的GPU越多,所有人就能使用越多的AI。
圖片
不僅OpenAI,整個行業(yè)科技巨頭也在加碼算力投入。小扎透露,Meta正將「人均算力」打造為核心競爭優(yōu)勢。

上個月,奧特曼稱,OpenAI正在推出「算力密集型服務(wù)」。
當(dāng)我們以當(dāng)前模型的成本,將海量算力投入到有趣的新想法上時,能創(chuàng)造出怎樣的可能性?
這場算力爭奪戰(zhàn)中,誰手握最多的算力,將決定誰在AI競賽中脫穎而出。
參考資料:
https://x.com/satyanadella/status/1976322455288545343
https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/















 
 
 










 
 
 
 