偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

剛剛,全球首個GB300巨獸救場!一年燒光70億,OpenAI內(nèi)斗GPU慘烈

人工智能
為了爭奪有限的GPU,OpenAI內(nèi)部一度打得不可開交。2024年總算力投入70億美元,但算力需求依舊是無底洞。恰恰,微軟發(fā)布了全球首臺GB300超算,專供OpenAI讓萬億LLM數(shù)天訓(xùn)完。

過去一年,OpenAI在算力上斥資70億美元。

其中,大模型研發(fā)占了最大頭——50億美元,而推理計算僅用了20億美元。

圖片圖片

可見,LLM訓(xùn)練正吞噬無盡的算力,這也是OpenAI最近一直在大舉擴展超算建設(shè)與合作的重要原因。

采訪中,OpenAI總裁Greg Brockman坦言,「內(nèi)部如何分配GPU,簡直就是一場痛苦與煎熬」。

OpenAI各個團隊爭搶GPU,那叫一個激烈。最頭疼的是,如何去合理分配。

圖片

如今,甲骨文、英偉達、AMD等芯片巨頭/云服務(wù)巨頭,紛紛與OpenAI聯(lián)結(jié),能夠解其燃眉之急。

這不,就連曾經(jīng)最大的「金主爸爸」微軟也上陣了。

納德拉官宣,全球首個配備4600+ GB300的超算率先上線,專攻OpenAI。預(yù)計,未來將擴展到十萬塊GPU。

圖片圖片

英偉達稱,這一算力巨獸,可以讓OpenAI不用數(shù)周,僅在數(shù)天內(nèi)訓(xùn)練萬億參數(shù)模型。

圖片

全球首臺GB300超算數(shù)天訓(xùn)出萬億LLM

就在昨天,微軟Azure宣布成功交付了,全球首個生產(chǎn)級超大規(guī)模AI集群。

它搭載了超4600個GB300 NVL72,配備通過下一代InfiniBand網(wǎng)絡(luò)互聯(lián)的Blackwell Ultra GPU。

圖片圖片

今年早些時候,微軟曾推出GB200 v6虛擬機(VM),通過大規(guī)模GB200 NVL2集群,已在OpenAI內(nèi)部訓(xùn)練部署得到應(yīng)用。

這一次,GB300 v6虛擬機再次樹立了行業(yè)標桿。

該系統(tǒng)基于機架級設(shè)計,每個機架包含18個虛擬機,共計72個GPU:

  • 72個Blackwell Ultra GPU,搭配36個Grace CPU
  • 通過下一代Quantum-X800 InfiniBand,實現(xiàn)每GPU 800 Gb/s的跨機架橫向擴展帶寬(2x GB200 NVL72)
  • 機架內(nèi)130 TB/s的NVLink帶寬
  • 37TB高速內(nèi)存
  • 高達1,440 PFLOPS的FP4 Tensor Core性能

圖片圖片

全新設(shè)計,為大規(guī)模AI超算而生

為打造出最強超算,微軟對計算、內(nèi)存、網(wǎng)絡(luò)、數(shù)據(jù)中心、散熱和供電等技術(shù)棧的每一層,都進行了重新設(shè)計。

機架層:低延遲高吞吐

通過NVLink和NVSwitch,GB300 v6在機架層面實現(xiàn)了高達130TB/s的機架內(nèi)數(shù)據(jù)傳輸速率,連接了總計37TB的高速內(nèi)存,由此消除了內(nèi)存和帶寬瓶頸。

在大模型和長上下文場景下,推理吞吐量大幅提升,為AI智能體和多模態(tài)AI帶來前所未有的響應(yīng)速度和擴展性。

同時,Azure部署了采用當(dāng)今最快網(wǎng)絡(luò) fabric——Quantum-X800 Gbp/s InfiniBand——的全連接胖樹(fat-tree)無阻塞架構(gòu),能夠跨機架擴展數(shù)萬個GPU。

此外,Azure散熱系統(tǒng)采用獨立的「散熱器單元」和「設(shè)施級冷卻方案」。

在為GB300 NVL72這類高密度、高性能集群保持熱穩(wěn)定性的同時,最大限度地減少了水資源消耗。

軟件層:全面優(yōu)化

不僅如此,微軟為存儲、編排和調(diào)度重構(gòu)的軟件棧也經(jīng)過全面優(yōu)化,能夠在超算規(guī)模上充分利用計算、網(wǎng)絡(luò)、存儲和數(shù)據(jù)中心基礎(chǔ)設(shè)施,提供前所未有的高性能和高效率。

圖片

OpenAI GPU爭奪戰(zhàn)一場「痛苦與煎熬」

在OpenAI內(nèi)部,正上演一場GPU激烈爭奪戰(zhàn)。

圖片圖片

上周四,Greg在一期「Matthew Berman」播客節(jié)目中,自曝管理算力資源分配的過程,令人揪心且筋疲力盡。

這太難了,你總能看到各種絕妙的點子,然后又有人帶著另一個絕妙的點子來找你,你心想,這個也太棒了。

在OpenAI內(nèi)部,將算力資源主要分配給「研究」和「應(yīng)用產(chǎn)品」兩個方向。

圖片圖片

為了應(yīng)對算力分配的挑戰(zhàn),OpenAI建立了一套相對清晰的資源分配機制:

  • 高層決策:由奧特曼和Fidji Simo組成的領(lǐng)導(dǎo)團隊,決定研究團隊與應(yīng)用團隊之間的總體算力劃分;
  • 研究團隊內(nèi)部協(xié)調(diào):首席科學(xué)家和研究負責(zé)人,決定研究團隊資源分配;
  • 運營層:由Kevin Park領(lǐng)導(dǎo)的小型內(nèi)部團隊負責(zé)GPU的具體分配和調(diào)動。

OpenAI復(fù)雜算力關(guān)系網(wǎng)絡(luò)圖OpenAI復(fù)雜算力關(guān)系網(wǎng)絡(luò)圖

Greg提到,當(dāng)一個項目接近尾聲時,Kevin會重新分配硬件資源,以支持新啟動的項目。

算力驅(qū)動著整個團隊的生產(chǎn)力,此事干系重大。  

大家對此都非常在意。人們對「我能否分到算力」這件事所投入的精力與情感強度遠超想象。

一直以來,OpenAI多次公開表達其對算力永不滿足的需求。

OpenAI首席產(chǎn)品官Kevin Weil曾表示,「我們每次拿到新的 GPU,它們都會被立刻投入使用」。

OpenAI對算力的需求邏輯很簡單——

GPU的數(shù)量直接決定了AI應(yīng)用的能力上限。獲得的GPU越多,所有人就能使用越多的AI。

圖片圖片

不僅OpenAI,整個行業(yè)科技巨頭也在加碼算力投入。小扎透露,Meta正將「人均算力」打造為核心競爭優(yōu)勢。

圖片

上個月,奧特曼稱,OpenAI正在推出「算力密集型服務(wù)」。

當(dāng)我們以當(dāng)前模型的成本,將海量算力投入到有趣的新想法上時,能創(chuàng)造出怎樣的可能性?

這場算力爭奪戰(zhàn)中,誰手握最多的算力,將決定誰在AI競賽中脫穎而出。

參考資料:

https://x.com/satyanadella/status/1976322455288545343 

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/  

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-03-19 09:37:25

2025-09-23 08:46:55

2025-06-10 16:24:59

AI人工智能OpenAI

2012-02-20 09:41:08

IT預(yù)算削減

2009-06-09 11:17:54

2011-11-23 17:42:21

OperaOpera Mini瀏覽器

2013-01-07 10:55:19

移動應(yīng)用微軟蘋果

2025-10-27 08:50:00

2024-09-09 14:35:00

訓(xùn)練數(shù)據(jù)

2024-12-19 11:32:59

2025-05-08 16:40:27

OpenAICEOFacebook

2025-10-22 07:59:49

2021-05-30 22:34:15

憑證填充攻擊數(shù)據(jù)泄露

2018-12-24 09:47:06

2023-12-04 08:33:05

2013-05-16 14:51:15

Android安卓google

2015-06-29 15:13:28

閑置服務(wù)器數(shù)據(jù)中心

2023-08-30 19:06:58

2012-11-27 10:50:14

移動應(yīng)用市場營收

2024-12-27 12:23:46

點贊
收藏

51CTO技術(shù)棧公眾號