超大規(guī)模 AI 基礎(chǔ)設(shè)施建設(shè)實(shí)踐,極致釋放算力效能
大家下午好,今天我將基于百度智能云在基礎(chǔ)設(shè)施等方面的技術(shù)能力,以混合云的業(yè)務(wù)實(shí)踐為案例,向大家描述我們?cè)诮ㄔO(shè)諸如 3.2 萬卡全國產(chǎn)智算集群這樣的超大規(guī)模集群時(shí),都面臨了哪些挑戰(zhàn),以及在此期間我們做了怎樣的探索,去解決這些問題。
在過去幾年,隨著國家大力推進(jìn)智算中心高質(zhì)量發(fā)展,我國的智能算力實(shí)現(xiàn)跨越式增長,從百卡、千卡,向萬卡、十萬卡規(guī)模擴(kuò)展。在這個(gè)進(jìn)程中要具備兩方面能力:
一方面如何把大規(guī)模算力建好,另一方面在建好的同時(shí)如何使這些算力得到有效使用、極致發(fā)揮。
百度智能云混合云深度參與了這個(gè)進(jìn)程,也成功打造并且運(yùn)營了多個(gè)大規(guī)模實(shí)踐案例。剛才提到的 3.2 萬卡超大規(guī)模智算集群正是綜合應(yīng)用了我們積累的各項(xiàng)技術(shù)能力,主要有以下特點(diǎn):
- 首先是硬核底座,采用國產(chǎn)算力昆侖芯,實(shí)現(xiàn)核心技術(shù)的自主創(chuàng)新;
- 其次,整個(gè)集群提供了超萬 P 算力,并實(shí)現(xiàn)了萬卡有效訓(xùn)練率 98%;
- 在能效方面,整個(gè)集群的 PUE 做到了 1.199;
- 最后是建成后的運(yùn)行情況,我們拿到了唯一的萬卡規(guī)模智算集群服務(wù)穩(wěn)定性的五星級(jí)認(rèn)證。
圖片
接下來我將基于這個(gè)實(shí)際案例做一些具體的分享。
在去年,為了應(yīng)對(duì)大規(guī)模智算集群建設(shè)的趨勢(shì),我們推出了「智算原生混合云」的產(chǎn)品方案,把智算的核心技術(shù)與混合云的彈性、安全與擴(kuò)展能力進(jìn)行了融合,通過軟硬協(xié)同、一體化交付的方式構(gòu)建智算基礎(chǔ)設(shè)施。主要包含四層核心產(chǎn)品:
- 底層的高效智算中心 AIDC;
- 基于 AIDC 的高性能智算云底座 ABC Stack;
- 基于云底座之上的百度百舸 AI 計(jì)算平臺(tái);
- 以及多集群之間的算力運(yùn)營平臺(tái) BHCMP。
基于整套方案,我們目前已成功落地多個(gè)超大規(guī)模集群。在這個(gè)過程中,由于算力規(guī)模攀升所帶來的挑戰(zhàn)主要在于兩個(gè)方面:
其一,是算力規(guī)模本身帶來的基礎(chǔ)設(shè)施難題。特別是在電力和散熱方面的瓶頸、網(wǎng)絡(luò)互聯(lián)和通信的效率,訓(xùn)推過程當(dāng)中的并行計(jì)算以及使用性能。
其二是在集群建成之后,如何實(shí)現(xiàn)高質(zhì)量使用同樣關(guān)鍵,包括智能運(yùn)維與安全保障、算力協(xié)同與高效運(yùn)營。

首先,在 IDC 基礎(chǔ)設(shè)施方面,相較于中小型的智算中心,超大規(guī)模集群在基礎(chǔ)設(shè)施的部署與算能協(xié)同方面,面臨更為嚴(yán)峻的挑戰(zhàn)。具體包括幾點(diǎn):
- 電力保障:隨著單芯片、單服務(wù)器的功耗飆升,算力規(guī)模提升,顯存容量、通信帶寬增長,模型訓(xùn)練以及模型集群化推理業(yè)務(wù),相較于傳統(tǒng)互聯(lián)網(wǎng)業(yè)務(wù)而言,對(duì)整個(gè)集群的電力容量需求大幅提升;
- 散熱壓力:風(fēng)冷散熱能力接近極限,傳統(tǒng)散熱方式無法滿足新一代芯片要求;
- 空間布局:GPU 并行計(jì)算帶來的低延時(shí)數(shù)據(jù)傳輸要求,需要從配套電力到空間布局等全套的動(dòng)態(tài)靈活調(diào)整機(jī)制來實(shí)現(xiàn)良好的配比。
針對(duì)以上挑戰(zhàn),在產(chǎn)品層面我們推出了更高算力密度和更高運(yùn)行效率的昆侖芯超節(jié)點(diǎn)產(chǎn)品,并且基于昆侖芯超節(jié)點(diǎn)及傳統(tǒng) 8 卡服務(wù)器的風(fēng)冷、液冷形態(tài),構(gòu)建了大規(guī)模 AIDC 的技術(shù)方案。
- 供電體系上,我們引入「一體化 + 儲(chǔ)能」架構(gòu),應(yīng)用 750V 高壓直流、源網(wǎng)荷儲(chǔ)及綠電直供等技術(shù),提升系統(tǒng)供電效率、可靠性與靈活性。
- 制冷系統(tǒng)上,采用「度冰川」+「度靈溪」的分布式架構(gòu),結(jié)合超節(jié)點(diǎn) 2.0 整機(jī)柜,實(shí)現(xiàn)冷源池化與風(fēng)液兼容。在異構(gòu)算力場(chǎng)景中,依托風(fēng)液同源和復(fù)合式冷源架構(gòu),更有效地提供了散熱能力支撐。
- 空間布局上,為進(jìn)一步應(yīng)對(duì)單棟建筑體量限制,我們推動(dòng)更高功率密度與多建筑協(xié)同布局策略。在萬卡甚至更大規(guī)模的場(chǎng)景中,必須將所有的算力節(jié)點(diǎn)到網(wǎng)絡(luò)核心節(jié)點(diǎn)的通信延遲,控制在一個(gè)穩(wěn)定的波動(dòng)范圍之內(nèi)。對(duì)此,我們從傳統(tǒng)并行布局改成以網(wǎng)絡(luò)為核心的向心布局——從同一樓層的平面向心,到單棟建筑多層環(huán)境下的空間向心,以及跨樓宇的園區(qū)向心。

通過 AIDC 解決園區(qū)基礎(chǔ)設(shè)施資源容量問題之后,算力集群對(duì)組網(wǎng)方案、路由策略以及網(wǎng)絡(luò)的負(fù)載均衡也提出了極高的要求。
受電力與物理空間限制,超萬卡的機(jī)柜一般需要多機(jī)房協(xié)同承載,為此我們推出了跨園區(qū) RDMA 長傳方案。這個(gè)方案包括硬件和軟件兩部分:
- 硬件層面,通過百度智能云自研的高性能大緩存交換機(jī)和優(yōu)化的 RDMA 協(xié)議實(shí)現(xiàn)跨園區(qū)的高效互聯(lián)互通,保障了長距離 RDMA 無損傳輸;
- 軟件層面,通過百舸 5.0 高效調(diào)度算法,對(duì)模型并行策略進(jìn)行優(yōu)化。比如把對(duì)延時(shí)敏感度高,數(shù)據(jù)通信密度相對(duì)更高的專家并行、張量并行放在單一集群里面,而對(duì)延時(shí)敏感度相對(duì)較低,通信頻率要求較低的數(shù)據(jù)并行,放在跨園區(qū)多集群之間進(jìn)行通信。通信軟件硬件配合方式,把長距離 RDMA 通信帶來的性能影響降到最低。

同時(shí)在超大規(guī)模集群中,傳統(tǒng)的組網(wǎng)方案面臨路由爆炸、擴(kuò)展性受限、可靠性差等問題。
我們通過路由聚合技術(shù)將大規(guī)模智算集群的 POD 內(nèi)路由數(shù)量壓縮到了 4000 多條,有效地緩解了交換機(jī)路由表項(xiàng)的壓力。
同時(shí)我們將主機(jī)側(cè)的 AR 自適應(yīng)路由技術(shù)和端側(cè)多平面組網(wǎng)架構(gòu)進(jìn)行了深度的結(jié)合:一方面通過端側(cè)多平面組網(wǎng)提供更大的橫向拓展能力,將二層組網(wǎng)規(guī)模從傳統(tǒng)單 POD 8000 卡基礎(chǔ)之上拓展到最大規(guī)??蛇_(dá) 13 萬卡,且延時(shí)比三層組網(wǎng)更低。二是通過自適應(yīng)路由實(shí)現(xiàn)了逐包哈希:對(duì)大象流產(chǎn)生的網(wǎng)絡(luò)擁塞問題,我們會(huì)把流分拆成包,按單包分配到端側(cè)不同網(wǎng)卡,再基于交換機(jī)協(xié)議在另一側(cè)實(shí)現(xiàn)包重組,形成從包到流的重新匯聚,通過這種方式吞吐性能較傳統(tǒng)的逐流哈希提升了20%;三是通過端側(cè)多平面提供了更多的冗余鏈路,配合自適應(yīng)路由技術(shù),能夠?qū)崿F(xiàn)秒級(jí)的鏈路故障切換,從而極大提高網(wǎng)絡(luò)可靠性。
整體上看,通過這些 HPN 關(guān)鍵技術(shù),我們?yōu)榇笠?guī)模智算集群打造了一套高性能、高可靠、高擴(kuò)展的組網(wǎng)架構(gòu)。

說完組網(wǎng),整個(gè)集群上線運(yùn)營之后,我們將面臨一個(gè)最核心的問題——建完之后如何把算力更有效地發(fā)揮出來?
在這個(gè)過程當(dāng)中,我們從基礎(chǔ)設(shè)施層、資源管理層、AI 任務(wù)層入手,解決整個(gè)資源利用率使用問題。
- 基礎(chǔ)設(shè)施層中,在產(chǎn)品層面我們通過把原來在單機(jī) 8 卡內(nèi)使用的 NVLink 傳輸能力進(jìn)一步 Scale-up 到超節(jié)點(diǎn)內(nèi) 32 卡乃至 64 卡(基于 XPU Link),去提升超節(jié)點(diǎn)內(nèi)卡間通信效率。同時(shí),利用高性能網(wǎng)絡(luò)和存儲(chǔ),做機(jī)間網(wǎng)絡(luò)擴(kuò)展,使萬卡網(wǎng)絡(luò)帶寬有效性大于 90%,單數(shù)據(jù)節(jié)點(diǎn)讀吞吐大于 15 GiB/s;
- 資源管理層中,通過在控制面定向優(yōu)化,我們可以支持單集群管理達(dá)到 12,500 節(jié)點(diǎn)的規(guī)模,并且實(shí)現(xiàn)了高并發(fā)場(chǎng)景下,查詢變更等操作的響應(yīng)時(shí)間在毫秒級(jí);提交上百任務(wù)時(shí),調(diào)度周期在分鐘級(jí)。
最后是面向模型特點(diǎn),尤其是最近火熱的 MoE 架構(gòu),為整個(gè)訓(xùn)練推理過程帶來了大量的 Alltoall 通信開銷。針對(duì)這種場(chǎng)景,除了從網(wǎng)絡(luò)拓?fù)鋵用鏈p少 Alltoall 通信的交換機(jī)跳數(shù),以及降低多對(duì)一通信的時(shí)延外,我們對(duì) Alltoall 算子也進(jìn)行了優(yōu)化,相比開源方案,大幅提升 Prefill 和 Decode 的 Alltoall 通信性能。從效果上看,針對(duì) batch size 級(jí)別的動(dòng)態(tài)冗余專家編排,我們可以將專家均衡度優(yōu)化至 1.08,確保集群中所有加速卡的通信時(shí)間大致相同。同時(shí)通過最大程度的計(jì)算和通信 overlap,整體吞吐提升 20% 以上。

我們具體看一下在訓(xùn)練、推理兩個(gè)場(chǎng)景中算力效率的提升實(shí)踐。
訓(xùn)練方面,得益于過往在 GPU 上對(duì)模型加速經(jīng)驗(yàn)的大量積累,我們快速在國產(chǎn)芯上建立了全套優(yōu)化體系,并面向 MoE 場(chǎng)景進(jìn)行了新的優(yōu)化,包括任務(wù)調(diào)度的易用性、并行策略、計(jì)算、顯存、通信等不同維度的優(yōu)化方向,貫穿產(chǎn)品、框架、編譯器、算子、系統(tǒng)軟件層面的整個(gè) AI Infra 軟件棧。具體手段上,我們?cè)谧詣?dòng)并行策略搜索、Alltoall 通信算子優(yōu)化、計(jì)算通信 overlap 等基礎(chǔ)上,還有算子融合、混合精度、顯存 offload、通信壓縮、優(yōu)化 CPU 調(diào)用等細(xì)粒度的優(yōu)化手段,從而能夠在國產(chǎn)萬卡集群 MFU 達(dá)到 50% 以上。
推理方面,我們將 PD 分離落地到國產(chǎn)芯生產(chǎn)環(huán)境中,通過采用推拉共存模式,可以同時(shí)兼顧小流量高性能、大流量高并發(fā)場(chǎng)景。我們還針對(duì)大模型注意力緩存機(jī)制的特點(diǎn),實(shí)現(xiàn)了分布式 KV Cache 存儲(chǔ)引擎(即 Attention Store)。該引擎可利用 SSD 和內(nèi)存的超大容量,作為顯存容量的補(bǔ)充,實(shí)現(xiàn) KVCache 從顯存到內(nèi)存,再到 SSD 的多級(jí)緩存。在此之上,我們通過 PD 調(diào)度器實(shí)現(xiàn)了一種新的調(diào)度策略:通過對(duì)各層能力的緩存感知(即 Cache Aware),將 KV Cache 訪問進(jìn)行優(yōu)化調(diào)度,提升推理性能。
通過這一系列的手段,最終可以提升整個(gè) Prefix Cache 命中率,從原始狀態(tài)提升 30%~50%。在萬卡集群典型推理場(chǎng)景下,TTFT 可以降低 37%。

AI 基礎(chǔ)設(shè)施進(jìn)入運(yùn)營狀態(tài)后,就面臨如何將算力穩(wěn)定、高效、安全地轉(zhuǎn)化為服務(wù)的挑戰(zhàn)。這其中的關(guān)鍵在于,此時(shí)運(yùn)維的核心從傳統(tǒng)的「保障單節(jié)點(diǎn)和單模塊穩(wěn)定」轉(zhuǎn)向「保障算力使用效率」,在實(shí)踐當(dāng)中,我們聚焦在算力與 AI 任務(wù)的協(xié)同上,圍繞 AI 任務(wù)構(gòu)建了全棧運(yùn)維體系:
首先在基礎(chǔ)設(shè)施上,我們?cè)谒械脑O(shè)備部署前,會(huì)采用全面的軟硬件質(zhì)檢與壓力測(cè)試,提前排除隱患;在訓(xùn)推任務(wù)過程中,會(huì)采用百度自研硬件感知平臺(tái),從算力到網(wǎng)絡(luò)及安全設(shè)備,進(jìn)行全鏈路監(jiān)控;運(yùn)行后也會(huì)進(jìn)行定期的軟硬件巡檢?;诨A(chǔ)設(shè)施全閉環(huán)的運(yùn)維鏈條保障交付健康度 100% 以及系統(tǒng)運(yùn)行的穩(wěn)定性。目前,我們的硬件感知平臺(tái)已經(jīng)可以識(shí)別 280 多種 GPU 卡故障,并根據(jù)模式匹配到對(duì)應(yīng)的故障類型,給出相對(duì)應(yīng)的自動(dòng)化容錯(cuò)方案。通過這種方式,基礎(chǔ)故障召回率可以達(dá)到 98%。
第二在基礎(chǔ)設(shè)施監(jiān)控指標(biāo)基礎(chǔ)之上,我們提供了針對(duì)訓(xùn)練任務(wù)的全生命周期運(yùn)維管理:通過在統(tǒng)一監(jiān)控層實(shí)時(shí)采集日志、事件等相關(guān)信息,而后在訓(xùn)練保障層(如圖所示綠色部分),對(duì)多維指標(biāo)進(jìn)行聚合分析,來判斷當(dāng)前任務(wù)執(zhí)行的效率,這樣可以預(yù)先識(shí)別集群中的潛在「軟故障」,并提前進(jìn)行相關(guān)的自動(dòng)化容錯(cuò)處理,保障任務(wù)能夠有效運(yùn)行;最終通過全局可視化平臺(tái)對(duì)底層基礎(chǔ)指標(biāo)以及任務(wù)粒度的運(yùn)行狀態(tài)進(jìn)行全面且清晰的呈現(xiàn)。
最后在安全風(fēng)險(xiǎn)方面,通過加強(qiáng)基礎(chǔ)設(shè)施、數(shù)據(jù)及模型的安全合規(guī)管理,保障敏感數(shù)據(jù)得到有效的管控;其次是搭建適應(yīng)算力集群的安全運(yùn)營體系,閉環(huán)安全風(fēng)險(xiǎn)事件。

除了面向單一集群建設(shè)和使用外,隨著更多算力集群的上線使用,多集群之間的算力協(xié)同調(diào)度也成為一個(gè)核心問題,主要體現(xiàn)在三個(gè)方面:
- 第一,地域上,我們東西部算力資源不均衡,東部需求密集,而西部資源充裕;
- 第二,行業(yè)上,頭部企業(yè)算力充裕而中小企業(yè)接入困難;
- 第三,場(chǎng)景上,高帶寬、低延遲等多元需求難以被單一策略適配。
為此,我們構(gòu)建了一套高效靈活的算力運(yùn)營平臺(tái),能夠?qū)Ξ悩?gòu)資源,異網(wǎng)資源、異地資源進(jìn)行統(tǒng)一調(diào)度,推動(dòng)算力資源向普惠方向發(fā)展。這套算力運(yùn)營平臺(tái)包括兩個(gè)方面:
一是算力接入層,通過算力的一鍵接入機(jī)制,在 3 分鐘內(nèi)就可以完成一個(gè)新的智算池接入到算力體系中,大幅降低跨地域的資源整合門檻。同時(shí)針對(duì)異構(gòu)資源,通過自研的資源標(biāo)準(zhǔn)化管理接口,屏蔽底層硬件、協(xié)議的差異,實(shí)現(xiàn)即插即用,打破資源孤島。
二是算力感知和資源調(diào)度環(huán)節(jié),我們通過實(shí)時(shí)采集集群負(fù)載、時(shí)延等核心指標(biāo),構(gòu)建「全局算力資源畫像」,實(shí)現(xiàn)從需求到策略、再到資源的精準(zhǔn)綁定。
舉個(gè)例子,當(dāng)一個(gè)實(shí)時(shí)應(yīng)答的推理任務(wù),需要在峰值時(shí)段對(duì)外提供服務(wù)時(shí),我們會(huì)按照低時(shí)延優(yōu)先、低負(fù)載優(yōu)先的策略命中最優(yōu)資源池跑這個(gè)任務(wù),并把結(jié)果反饋出去。
當(dāng)前,我們已經(jīng)建成了覆蓋全國五大地域的算力網(wǎng)絡(luò),為全域用戶提供高質(zhì)量的算力服務(wù),并將持續(xù)聯(lián)手算力供應(yīng)伙伴,借助算力運(yùn)營平臺(tái)進(jìn)一步打造出覆蓋面更廣、資源供給更充足、可支撐更復(fù)雜任務(wù)的新型算力資源池。

我們常說技術(shù)賦能產(chǎn)品,產(chǎn)品成就方案,而方案的價(jià)值,最終必須交由實(shí)踐檢驗(yàn)。百度混合云具備從 AIDC 建設(shè)到底層芯片算力、平臺(tái)軟件,全棧的產(chǎn)品能力和技術(shù)。我們不但在實(shí)踐中總結(jié)出了從建設(shè)、管理、使用到運(yùn)維運(yùn)營的全流程方案,也通過在廠內(nèi)廠外多個(gè)項(xiàng)目中實(shí)踐、迭代,已經(jīng)形成了非常成熟的方案和建設(shè)體系。
我們的 3.2 萬卡智算集群,是全國首個(gè)成功點(diǎn)亮的自研萬 P 算力集群,這個(gè)集群匯集了我們所有的技術(shù)能力,也在建設(shè)和運(yùn)行方面創(chuàng)下了多個(gè)紀(jì)錄:90 天內(nèi)完成動(dòng)環(huán)施工,1 個(gè)月內(nèi)完成萬卡點(diǎn)亮,4 個(gè)月完成 3 萬卡的投產(chǎn)運(yùn)營,集群 MFU 超過 50%。

百度智能云混合云,愿意成為大家在國產(chǎn)化智算新基建路上的同行者,共同探索 AI 創(chuàng)新,共同為我國數(shù)字經(jīng)濟(jì)的發(fā)展,貢獻(xiàn)力量。




























