120天復(fù)制馬斯克速度!119塊「樂高」搭出算力工廠,破局Scaling Law算力差
120天,119個(gè)集裝箱,一座算力工廠拔地而起。
馬斯克速度,竟被國內(nèi)這家公司完美復(fù)刻了!

上面這座算力工廠,采用了浪潮信息專為AI時(shí)代提出的預(yù)制化AIDC解決方案。
他們以「搭積木」方式,向世界詮釋了驚人的基建速度。

它不僅將長達(dá)18個(gè)月的建設(shè)周期,大幅縮短至4個(gè)月,甚至還實(shí)現(xiàn)了高效節(jié)能、彈性擴(kuò)容、按需定制、便捷運(yùn)維等技術(shù)創(chuàng)新。
更為重要的是,這座算力工廠能夠完全滿足scaling大模型的算力需求。
不論是訓(xùn)練,還是應(yīng)用部署,預(yù)制化AIDC解決方案全面支持了AI大模型創(chuàng)新研發(fā)和應(yīng)用。
而現(xiàn)在,這座元腦「算力工廠」正式投入運(yùn)營。
AI猛吞算力,還需破局之道
算力,就是這個(gè)AI時(shí)代的「命門」。眾所周知,AI大模型對(duì)算力的需求,遠(yuǎn)超乎所有人的想象。
不論是OpenAI、微軟,還是谷歌等科技巨頭們堅(jiān)信的是,scaling law仍在繼續(xù)。
2024年12月,堪稱過去一年AI含金量最高的一個(gè)月,從中便可瞥見一二。
OpenAI十二天Devday連更,為所有人送上了滿血版o1、o1 Pro、Sora、高級(jí)語音功能,以及初次亮相的o3系模型。

大批網(wǎng)友上線直接把ChatGPT搞崩了
與之激烈對(duì)打的谷歌,更是戰(zhàn)績連連,憑借Gemni 2.0 Flash、Veo 2直接殺出重圍。
邁入2025年,Grok 3、Llama 4、完整版Gemni 2.0等眾多模型,也即將迎來新一輪大戰(zhàn)。
可以預(yù)見的是,每一代新模型都在瘋狂「吃」算力,訓(xùn)練參數(shù)呈指數(shù)級(jí)增長。這種瘋狂擴(kuò)張的態(tài)勢,讓人不禁要問:我們的數(shù)據(jù)中心基建,還能支撐多久?
實(shí)際上,當(dāng)前的數(shù)據(jù)中心正面臨著最核心的「三重困境」。
1. 建設(shè)周期長,無法及時(shí)彌補(bǔ)高算力需求
作為算力的核心載體,數(shù)據(jù)中心的建設(shè)非一蹴而就。
一般來說,傳統(tǒng)數(shù)據(jù)中心的建設(shè)是一個(gè)復(fù)雜的工程,需要經(jīng)過設(shè)計(jì)、土建、機(jī)電安裝、調(diào)試等多個(gè)階段。其中,光規(guī)劃和建設(shè)就要3-5年時(shí)間,占到了整個(gè)生命周期的約1/3。

老黃同樣說過,「建造一個(gè)超算通常需要3年的規(guī)劃時(shí)間,外加1年設(shè)備交付和調(diào)試時(shí)間」。
而我們所看到的,馬斯克10萬塊GPU建設(shè)速度,甚至即將要建的100萬塊GPU搭建的超算,也只是個(gè)例。

3年,這一時(shí)間跨度,對(duì)于快速發(fā)展的AI時(shí)代顯得尤為漫長。
比如,3年前規(guī)劃的數(shù)據(jù)中心普遍采用5-10kW/標(biāo)準(zhǔn)柜,而如今單臺(tái)AI服務(wù)器的功耗就已突破10kW。
顯而易見,AI迭代與基建建設(shè)的速度,嚴(yán)重不匹配,導(dǎo)致數(shù)據(jù)中心還未建成就已落后于時(shí)代。
同時(shí),這種「建設(shè)慢,需求快」的矛盾,不僅影響了產(chǎn)業(yè)發(fā)展速度,還直接影響了投資方資金回報(bào)周期,形成了惡性循環(huán)。

2. 功耗攀升,能源利用率低
其次,隨著算力需求的暴增,數(shù)據(jù)中心的能耗問題也愈發(fā)突出。
AI大模型訓(xùn)練的耗電量,堪比一個(gè)小城市的用電量。而這樣比比皆是的報(bào)道,也早已家喻戶曉。
平均而言,ChatGPT查詢所需的電力是谷歌搜索的近10倍。高盛研究估計(jì),到2030年,數(shù)據(jù)中心的電力需求將增長160%。

從2023年-2030年,AI數(shù)據(jù)中心功耗的增長將達(dá)到每年200Twh。
。另一方面,數(shù)據(jù)中心功耗也面臨著巨大的挑戰(zhàn)。
從芯片設(shè)計(jì)方面來看,CPU熱設(shè)計(jì)功率(TDP)在過去十年幾乎翻倍,GPU熱設(shè)計(jì)功耗從2008年不足200W飆升至現(xiàn)如今1000W。
再加上,集群越來越大,高密度服務(wù)器部署來帶的散熱壓力,與日俱增。
與此同時(shí),信通院發(fā)布的《中國綠色算力發(fā)展研究報(bào)告(2024年)》顯示,我國數(shù)據(jù)中心的平均電能利用效率(PUE)在2023年時(shí)為1.48,而新的國家政策規(guī)定,新建數(shù)據(jù)中心的PUE不得超過1.25。
如何保持高性能計(jì)算的同時(shí),達(dá)到節(jié)能標(biāo)準(zhǔn),已經(jīng)成為一大難題。
而當(dāng)前,智算中心需要探索的是,與綠色電力深度融合,實(shí)現(xiàn)能源高效利用,讓算力向智力有效轉(zhuǎn)化。

3. 擴(kuò)容難題,升級(jí)有限,無法第一時(shí)間進(jìn)行升級(jí)
不僅如此,AI快速迭代對(duì)數(shù)據(jù)中心的靈活性,提出了更高的要求。
然而,傳統(tǒng)數(shù)據(jù)中心的固定架構(gòu),限制了升級(jí)空間,無法及時(shí)采用新一代技術(shù),難以快速響應(yīng)業(yè)務(wù)需求的變化。
另一方面,數(shù)據(jù)中心還將面臨建成即落后、供不應(yīng)求的窘境,投資回報(bào)率難以保障。
針對(duì)這些挑戰(zhàn),這些年,一些企業(yè)打造的預(yù)制模塊化數(shù)據(jù)中心應(yīng)用而生,并將成為主流模式。
根據(jù)規(guī)模不同,可分為單元級(jí)(Unit)、包間級(jí)(Pod)、建筑級(jí)(Stack Cube)、園區(qū)級(jí)(Base)等細(xì)粒度。
在AI時(shí)代下,我們就需要專為AI而生的預(yù)制化AIDC。
浪潮信息,便是這個(gè)方案的引領(lǐng)者。

算力工廠,全方位為AI而生
算力工廠是一種創(chuàng)新的數(shù)據(jù)中心全生命周期服務(wù)模式,核心是通過規(guī)(劃)、建(設(shè))、運(yùn)(營)一體化的「交鑰匙」工程。
其總體架構(gòu)自下而上,由算力底座、算力支撐、算力運(yùn)營三部分組成。
算力底座
首先,算力底座,就是我們可以直觀看到的算力中心。
元腦「算力工廠」這座智算中心采用創(chuàng)新的預(yù)制化AIDC解決方案,僅需119個(gè)預(yù)制化集裝箱單層拼接,4個(gè)箱體即可實(shí)現(xiàn)千卡規(guī)模AI算力。
正如之前所述,它書寫了驚人搭建速度的傳奇,直接將同等規(guī)模數(shù)據(jù)中心的建設(shè)周期,從18個(gè)月縮減至4個(gè)月。
這種創(chuàng)新方案,可以說完全顛覆了行業(yè)常規(guī)。
具體來說,它具備了以下幾點(diǎn)優(yōu)勢:
- 快速交付,工期可縮短80%左右
因?yàn)椴捎昧祟A(yù)制化集裝箱建設(shè)方式,同等規(guī)模數(shù)據(jù)中心的建設(shè)周期從18個(gè)月縮減至4個(gè)月,工期縮短了近80%。
- 高效節(jié)能,PUE可低至1.1以下
因?yàn)閯?chuàng)新地應(yīng)用了液冷、光伏、儲(chǔ)能、余熱回收等節(jié)能技術(shù),提高了散熱及能源利用效率,PUE可降至1.1以下,全年節(jié)省電費(fèi)近2億元,運(yùn)營成本大幅降低。
- 靈活擴(kuò)展,最高可擴(kuò)容至5層,實(shí)現(xiàn)全場景覆蓋
預(yù)制模塊化疊箱體系建設(shè)模式可根據(jù)業(yè)務(wù)規(guī)模,分期高效地進(jìn)行水平及豎向擴(kuò)容,有效節(jié)省前期投入成本。

同時(shí),八種模塊化的功能箱體可根據(jù)不同場景、規(guī)模靈活組合,并按照功率區(qū)段分區(qū)部署,實(shí)現(xiàn)風(fēng)冷/液冷、AI/通用/高密度等多種形態(tài)靈活兼容,匹配智算算力、通用算力、邊緣算力等多種應(yīng)用場景。
元腦算力工廠包含了數(shù)據(jù)處理、AI大模型、業(yè)務(wù)應(yīng)用、研發(fā)測試等多個(gè)集群,為全球服務(wù)器壓力測試、大模型開發(fā)應(yīng)用等多種業(yè)務(wù)應(yīng)用,提供了綠色高效的算力支撐。
算力運(yùn)營
如前所述,在大模型時(shí)代,算力需求呈爆發(fā)式增長,但高效運(yùn)營AI算力卻面臨著諸多的挑戰(zhàn)。
該如何調(diào)度資源?如何控制成本?如何保障算力平臺(tái)穩(wěn)定性和可用性?如何讓AI算力性能持續(xù)優(yōu)化?
在大規(guī)模AI訓(xùn)練場景下,算力資源調(diào)度堪稱一大難題。
一方面,不同AI任務(wù)對(duì)于算力需求各不相同;另一方面,如何在多用戶、多任務(wù)場景在實(shí)現(xiàn)資源最優(yōu)分配,避免算力的浪費(fèi),都是亟待解決的問題。
不僅如此,隨著算力規(guī)模的擴(kuò)大,運(yùn)營成本也會(huì)隨之攀升。諸如電力消耗、運(yùn)維人員等各方面成本,都是企業(yè)面臨的挑戰(zhàn)。
另外,對(duì)于企業(yè)級(jí)AI應(yīng)用來說,對(duì)算力平臺(tái)穩(wěn)定性提出了高標(biāo)準(zhǔn)、高要求。
然而,集群規(guī)模擴(kuò)大管理只會(huì)愈加復(fù)雜,硬件出現(xiàn)故障的風(fēng)險(xiǎn)就會(huì)增加,隨之帶來的是系統(tǒng)性能波動(dòng)頻繁,數(shù)據(jù)安全隱患增高。
還有需要考慮到的一點(diǎn)是,AI算力性能必須持續(xù)優(yōu)化。這當(dāng)中也涉及到了多個(gè)層面,比如硬件協(xié)同優(yōu)化、軟件架構(gòu)改進(jìn)、算法效率提升等等。
為了應(yīng)對(duì)這些挑戰(zhàn),元腦算力工廠為企業(yè)提供了全方位的運(yùn)營方案。

- AI基礎(chǔ)設(shè)施管理平臺(tái)
AI基礎(chǔ)設(shè)施管理平臺(tái)面向金融、通信、互聯(lián)網(wǎng)等多行業(yè)的數(shù)據(jù)中心,可實(shí)現(xiàn)前所未有的一體化管理。
平臺(tái)突破性解決了IT基礎(chǔ)設(shè)施管理與動(dòng)力環(huán)境管理割裂的痛點(diǎn),帶來了全新的管理體驗(yàn)。
首先,它實(shí)現(xiàn)了智算中心全生命周期的統(tǒng)一納管,運(yùn)維效率提升100%。
平臺(tái)還創(chuàng)新實(shí)現(xiàn)了高密單排微模塊2D/3D、核心制冷部件遠(yuǎn)程調(diào)控等5大功能,安全性能飆升30%,為超大規(guī)模數(shù)據(jù)中心穩(wěn)定高效運(yùn)行提供重要保障。
- 人工智能開發(fā)平臺(tái)AIStation
作為深度學(xué)習(xí)開發(fā)平臺(tái),AIStation能夠?yàn)槠髽I(yè)客戶提供強(qiáng)大的開發(fā)支持。
比如,統(tǒng)一管理和精細(xì)調(diào)度AI計(jì)算資源,全面整合計(jì)算資源、訓(xùn)練數(shù)據(jù)和開發(fā)工具。
不僅如此,AIStation還提供了完整的AI軟件棧和敏捷標(biāo)準(zhǔn)化的開發(fā)流程,降低資源投入同時(shí),大大提升開發(fā)效率。
基于系列平臺(tái)的創(chuàng)新與整合,對(duì)于企業(yè)來說,算力的高效穩(wěn)定運(yùn)營也不再是難題。
大規(guī)模AI訓(xùn)練與應(yīng)用
既然有了這樣一個(gè)堪稱「黑科技」含量最高的解決方案,對(duì)于大模型時(shí)代下的訓(xùn)練和部署,意味著什么?
當(dāng)前,AI大模型正在經(jīng)歷著前所未有的進(jìn)化:從單一語言模型走向多模態(tài);突破長文本限制;引入MoE架構(gòu);強(qiáng)化學(xué)習(xí)能力不斷提升。
不僅如此,大模型進(jìn)化Scaling Law仍在繼續(xù),老黃還在CES大會(huì)上首次提出了AI時(shí)代三個(gè)Scaling Law。

這暗示著,大模型的突破未來有著更加廣闊的空間,唯一的限制,就是如何構(gòu)建出強(qiáng)大的算力基礎(chǔ)設(shè)施。
如今,AI大模型的參數(shù)規(guī)模已經(jīng)從千億級(jí)別攀升到了萬億級(jí)別。AI大模型廠商紛紛投建大規(guī)模算力資源,壓縮大模型訓(xùn)練周期。
顯而易見的是,隨著算力規(guī)模的不斷擴(kuò)展,單顆芯片的性能瓶頸愈發(fā)明顯,整個(gè)AI系統(tǒng)的通信效率成為焦點(diǎn)之一。

大型AI模型訓(xùn)練過程中,網(wǎng)絡(luò)通信通常占據(jù)整體訓(xùn)練時(shí)間的20%到40%,這造成了大量算力資源浪費(fèi),優(yōu)化網(wǎng)絡(luò)通信效率,成為AI大模型發(fā)展的關(guān)鍵議題。
然而,目前的傳統(tǒng)RoCE網(wǎng)絡(luò)面臨著網(wǎng)絡(luò)性能不足、難以滿足多樣化AI系統(tǒng)網(wǎng)絡(luò)需求、部署周期長、可靠性低、管理難度大等問題。
對(duì)此,元腦算力工廠采用了專門面向生成式AI打造的超級(jí)AI以太網(wǎng)交換機(jī)——X400,大幅降低網(wǎng)絡(luò)通信占比,革命性地提升了大規(guī)模GPU訓(xùn)練性能;同時(shí),采用浪潮信息 ICE智能云引擎,實(shí)現(xiàn)智能化的網(wǎng)絡(luò)管控。
這,就成為了新型的AI訓(xùn)練網(wǎng)絡(luò)解決方案,打造業(yè)界領(lǐng)先的AI Fabric。
超級(jí)AI以太網(wǎng)交換機(jī)X400,采用AR自適應(yīng)路由、RTT CC擁塞控制、亞毫秒級(jí)故障自愈等技術(shù),擁有高性能(高吞吐量、高帶寬、低延遲)、高可靠性、快速部署、靈活拓展等核心優(yōu)勢。同時(shí),它還具備多租戶隔離、多業(yè)務(wù)并發(fā)支持的能力,以應(yīng)對(duì)AI模型訓(xùn)練的復(fù)雜需求。
性能方面,X400的吞吐量達(dá)到了業(yè)界最高的51.2T,較上一代產(chǎn)品提升了4倍。在4U空間可提供128個(gè)400Gb/s的高速網(wǎng)絡(luò)端口,相比傳統(tǒng)RoCE網(wǎng)絡(luò)性能提升了1.6倍。
值得一提的是,其對(duì)AI網(wǎng)絡(luò)的帶寬利用率可達(dá)95%以上,同時(shí)還可將通信時(shí)延降低30%。
綜上,X400的應(yīng)用將大幅提升大模型的訓(xùn)練效率,縮短訓(xùn)練時(shí)長,降低訓(xùn)練成本。
此外,在 AIGC 時(shí)代,網(wǎng)絡(luò)管理已不再是傳統(tǒng)的設(shè)備配置與監(jiān)控,而是面向未來的智能化、自動(dòng)化以及可視化的平臺(tái)。
浪潮信息ICE智能云引擎正是這一趨勢下的先行者,基于數(shù)字孿生技術(shù),打造網(wǎng)絡(luò)虛擬仿真和優(yōu)化驗(yàn)證平臺(tái),并利用人工智能技術(shù)實(shí)現(xiàn)自動(dòng)化管理和智能化監(jiān)控,提升管理效率與故障響應(yīng)速度,讓企業(yè)在復(fù)雜環(huán)境中實(shí)現(xiàn)高效、可靠的網(wǎng)絡(luò)運(yùn)維,助力企業(yè)充分釋放AIGC潛能。
系統(tǒng)性創(chuàng)新,三層無縫銜接
算力基礎(chǔ)設(shè)施有了之后,如何解決算力與應(yīng)用之間斷層問題?
在此之前,浪潮信息早已給出了完美的解決方案——企業(yè)大模型開發(fā)平臺(tái)「元腦企智」EPAI。
它猶如一座「橋梁」,通過提供軟件棧及綜合服務(wù),賦能算力挖潛、模型優(yōu)化和應(yīng)用開發(fā)。
這次,元腦算力工廠直接搭載了EPAI,連接了多元算力、多元模型、應(yīng)用層,直接加速LLM應(yīng)用落地。

元腦企智EPAI的完整架構(gòu)
EPAI可實(shí)現(xiàn)百萬token、千億參數(shù)、領(lǐng)域大模型的高效微調(diào),可以更好地適應(yīng)具體行業(yè)場景下的任務(wù)需求,快速打造領(lǐng)域LLM。
與此同時(shí),它還提供面向多元多模的計(jì)算框架,讓LLM應(yīng)用在跨算力平臺(tái)上無感遷移。
這個(gè)過程,就降低了多模、多元的適配與試錯(cuò)成本,為企業(yè)用戶根據(jù)實(shí)際場景需求,選擇開發(fā)部署適合自己的大模型,提供了極大便利。
通過EPAI,企業(yè)可以高效地開發(fā)部署生成式AI應(yīng)用,打造智能生產(chǎn)力。
在AI時(shí)代浪潮下,算力基建正成為決定創(chuàng)新速度、深度的關(guān)鍵要素。
基于預(yù)制化AIDC解決方案的算力工廠,不僅僅是一次技術(shù)創(chuàng)新,更是對(duì)這整個(gè)產(chǎn)業(yè)發(fā)展模式的革新。
算力工廠重新定義了算力釋放的價(jià)值與效率,實(shí)現(xiàn)了基建與算力的強(qiáng)綁定,是以算力為中心來確定建設(shè)模式和內(nèi)部的算力模組,所有設(shè)計(jì)都是算力的一部分,實(shí)現(xiàn)了投入即產(chǎn)出。
這一次,浪潮信息向世界真正展現(xiàn)了,中國速度與中國智慧的完美融合。
算力工廠的模式將成為智算中心建設(shè)的主流。




























