偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量) 原創(chuàng) 精華

發(fā)布于 2025-9-30 11:30
瀏覽
1收藏

編者按: 在大規(guī)模人工智能模型訓(xùn)練日益依賴分布式 GPU 集群的今天,我們是否真正理解支撐這些系統(tǒng)高效運(yùn)行的網(wǎng)絡(luò)架構(gòu)?數(shù)據(jù)如何從存儲(chǔ)設(shè)備抵達(dá) GPU?訓(xùn)練過(guò)程中不同并行策略又如何對(duì)網(wǎng)絡(luò)提出截然不同的挑戰(zhàn)?

我們今天為大家?guī)?lái)的文章,作者的核心觀點(diǎn)是:現(xiàn)代 AI 訓(xùn)練系統(tǒng)必須通過(guò)嚴(yán)格區(qū)分前端與后端網(wǎng)絡(luò),并針對(duì)數(shù)據(jù)并行、流水線并行和專家并行等不同通信模式進(jìn)行協(xié)同優(yōu)化,才能有效應(yīng)對(duì)日益復(fù)雜的網(wǎng)絡(luò)擁塞與延遲問(wèn)題。

文章首先厘清了“前端網(wǎng)絡(luò)”與“后端網(wǎng)絡(luò)”的功能邊界,強(qiáng)調(diào)將關(guān)鍵訓(xùn)練流量隔離在高性能后端網(wǎng)絡(luò)中的必要性;接著深入剖析了三種主流并行訓(xùn)練策略 —— 數(shù)據(jù)并行帶來(lái)的全局同步壓力、流水線并行對(duì)拓?fù)涓兄{(diào)度的依賴,以及專家并行引發(fā)的非均勻突發(fā)流量;最后以 DeepSeek-V3 混合專家模型為例,展示了如何通過(guò)算法、通信內(nèi)核與硬件協(xié)同設(shè)計(jì),實(shí)現(xiàn)計(jì)算與通信的高效重疊,從而突破跨節(jié)點(diǎn)訓(xùn)練的瓶頸。

作者 | Austin Lyons

編譯 | 岳揚(yáng)

01 前端網(wǎng)絡(luò) vs 后端網(wǎng)絡(luò)

上次我們探討了大語(yǔ)言模型預(yù)訓(xùn)練中的 GPU 間通信,重點(diǎn)分析了與鄰近 GPU 的高速高帶寬連接(如通過(guò) NVLink),以及通過(guò) InfiniBand 或以太網(wǎng)經(jīng)網(wǎng)絡(luò)交換機(jī)與遠(yuǎn)端節(jié)點(diǎn)的稍慢速、低帶寬連接。

這套 GPU 間通信網(wǎng)絡(luò)被稱為后端網(wǎng)絡(luò)。

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

后端網(wǎng)絡(luò)包含節(jié)點(diǎn)內(nèi)與節(jié)點(diǎn)間的 GPU 通信鏈路,例如 NVLink 和 InfiniBand

這些重要的 GPU 互聯(lián)技術(shù)雖然常成為行業(yè)焦點(diǎn),但其實(shí)只是整個(gè)網(wǎng)絡(luò)體系的一部分。

試著想一想訓(xùn)練數(shù)據(jù)是如何抵達(dá) GPU 的。大語(yǔ)言模型需要從存儲(chǔ)設(shè)備(SSD)吞食數(shù)萬(wàn)億計(jì)的詞元供神經(jīng)網(wǎng)絡(luò)訓(xùn)練。這類通信通過(guò)獨(dú)立的、基于以太網(wǎng)的前端網(wǎng)絡(luò)完成。

許多其他的工作負(fù)載也會(huì)經(jīng)過(guò)前端網(wǎng)絡(luò),例如集群管理軟件[1]、開(kāi)發(fā)人員遠(yuǎn)程訪問(wèn)集群進(jìn)行調(diào)試等。

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

為簡(jiǎn)潔起見(jiàn),僅列舉流經(jīng)前端網(wǎng)絡(luò)的部分工作負(fù)載。實(shí)際場(chǎng)景中還包含作業(yè)調(diào)度器、編排系統(tǒng)、遙測(cè)數(shù)據(jù)、工程師的筆記本電腦等。

前端網(wǎng)絡(luò)被刻意與后端隔離,以防止相互干擾和擁塞。 像加載數(shù)據(jù)、記錄日志這類常規(guī)任務(wù),都會(huì)被隔離在高速 GPU 網(wǎng)絡(luò)之外,從而確保非關(guān)鍵流量不會(huì)干擾昂貴訓(xùn)練任務(wù)所依賴的網(wǎng)絡(luò)環(huán)境。

由于前端設(shè)備可能位于數(shù)據(jù)中心之外,通常需要防火墻和訪問(wèn)分段策略(access segmentation policies)來(lái)隔離后端網(wǎng)絡(luò)與前端流量。這種做法是可行的,因?yàn)榍岸肆髁客ǔ?duì)延遲具有較高的容忍度。

02 南北向流量 vs 東西向流量

GPU 與前端網(wǎng)絡(luò)設(shè)備間的通信被稱為南北向流量。

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

可視化圖表總能幫我記住南北向流量這類術(shù)語(yǔ)??

這種南北向流量通過(guò)以太網(wǎng)傳輸。

為何選擇以太網(wǎng)?因?yàn)槠涑杀镜土覠o(wú)處不在。前端設(shè)備本就基于標(biāo)準(zhǔn)以太網(wǎng)構(gòu)建,數(shù)據(jù)中心運(yùn)維人員也熟悉并喜歡以太網(wǎng)技術(shù)。

能猜到后端網(wǎng)絡(luò)內(nèi)部的流量被稱為什么嗎?

沒(méi)錯(cuò),就是東西向流量。

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

東西向流量針對(duì) GPU 間縱向擴(kuò)展與橫向擴(kuò)展通信進(jìn)行了延遲優(yōu)化。在超大規(guī)模訓(xùn)練中,后端網(wǎng)絡(luò)甚至可跨越多個(gè)數(shù)據(jù)中心!??

正如前文所言,實(shí)際場(chǎng)景遠(yuǎn)比這些簡(jiǎn)化的示意圖復(fù)雜??

但你現(xiàn)在理解的這個(gè)簡(jiǎn)化版本非常重要,是繼續(xù)深入學(xué)習(xí)、應(yīng)對(duì)更復(fù)雜情況的起點(diǎn)和基石。

2.1 設(shè)置檢查點(diǎn)與直連存儲(chǔ)

在大語(yǔ)言模型預(yù)訓(xùn)練過(guò)程中,設(shè)置模型檢查點(diǎn)是指定期將模型參數(shù)快照保存至持久存儲(chǔ)的做法。這些檢查點(diǎn)能確保當(dāng)硬件發(fā)生故障時(shí),訓(xùn)練任務(wù)可以從最后一個(gè)確認(rèn)無(wú)誤的狀態(tài)繼續(xù)運(yùn)行,同時(shí)它們也提供了帶版本標(biāo)記的模型文件。

若每次高達(dá)數(shù)十或數(shù)百 GB 的大規(guī)模檢查點(diǎn)寫(xiě)入操作通過(guò)前端以太網(wǎng)傳輸,可能與其他非關(guān)鍵流量沖突,引發(fā)擁塞并導(dǎo)致不必要的訓(xùn)練中斷。為避免這種問(wèn)題,AI 訓(xùn)練集群可將專用的高速存儲(chǔ)直接接入后端網(wǎng)絡(luò):

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

當(dāng)訓(xùn)練系統(tǒng)直接依賴于特定系統(tǒng)時(shí),將其部署在后端網(wǎng)絡(luò)是合理的舉動(dòng)

在這種架構(gòu)下,檢查點(diǎn)相關(guān)操作作為附加的東西向流量,全程在后端網(wǎng)絡(luò)內(nèi)傳輸。

03 混合專家模型訓(xùn)練與網(wǎng)絡(luò)影響

我們通過(guò)一個(gè)真實(shí)案例來(lái)鞏固理解。

訓(xùn)練大語(yǔ)言模型需要密集的東西向通信,因?yàn)楣ぷ髫?fù)載會(huì)分布在數(shù)萬(wàn)甚至數(shù)十萬(wàn)個(gè) GPU 上。 這些 GPU 需要頻繁交換梯度更新,以確保模型的學(xué)習(xí)進(jìn)程保持一致,并最終收斂到準(zhǔn)確的輸出結(jié)果。

這種多并行方法的典型代表是 DeepSeek-V3 混合專家模型。

DeepSeek 通過(guò)組合使用數(shù)據(jù)并行、流水線并行和專家并行等策略來(lái)分配訓(xùn)練負(fù)載。

數(shù)據(jù)并行將數(shù)據(jù)拆分到多個(gè) GPU 上,每個(gè) GPU 獨(dú)立處理其數(shù)據(jù)分片后,再同步更新到共享模型:

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

Source:??https://www.anyscale.com/blog/what-is-distributed-training?? ,可將“worker”視為一組 GPU

流水線并行將模型拆分到多個(gè) GPU 上,每個(gè) GPU 負(fù)責(zé)處理一部分網(wǎng)絡(luò)層并傳遞中間結(jié)果:

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

Source:??https://colossalai.org/docs/concepts/paradigms_of_parallelism/??

專家并行將模型劃分為多個(gè)專家(即神經(jīng)網(wǎng)絡(luò)的子模塊),并將這些專家分布到不同的 GPU 上。在處理每個(gè)詞元時(shí),只激活其中的少數(shù)幾個(gè)專家,以此來(lái)減少計(jì)算量:

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

Source:??https://aihub.hkuspace.hku.hk/2024/05/24/accelerate-mixtral-8x7b-pre-training-with-expert-parallelism-on-amazon-sagemaker/??

我們可以從中得出什么結(jié)論?

每種策略都將問(wèn)題分解,使得每個(gè) GPU 僅處理部分網(wǎng)絡(luò)和訓(xùn)練數(shù)據(jù)。因此需要頻繁的 GPU 間通信來(lái)保持同步,確保模型更新的一致性。

另外——現(xiàn)實(shí)情況十分復(fù)雜!數(shù)據(jù)并行、流水線并行和專家并行的相互作用會(huì)產(chǎn)生重疊通信,必須仔細(xì)管理以避免阻塞。

每種策略都會(huì)產(chǎn)生獨(dú)特的東西向流量模式。我們來(lái)逐層分析其帶來(lái)的網(wǎng)絡(luò)壓力。

3.1 數(shù)據(jù)并行:全局同步

在數(shù)據(jù)并行中,每個(gè) GPU 處理一個(gè)不同的數(shù)據(jù) mini-batch,在每個(gè)訓(xùn)練步之后,都會(huì)將其學(xué)習(xí)進(jìn)度與其他 GPU 共享。因此,這些 GPU 必須執(zhí)行一次“全歸約”操作,來(lái)平均梯度和同步權(quán)重 —— 這是一個(gè)集合通信操作,需要每個(gè) GPU 都交換數(shù) GB 的數(shù)據(jù)。

由于此操作在每一步都會(huì)發(fā)生且阻塞訓(xùn)練進(jìn)程,其對(duì)延遲極其敏感。

你可以想象,在每一個(gè)訓(xùn)練步結(jié)束后,當(dāng)數(shù)據(jù)同時(shí)通過(guò)后端網(wǎng)絡(luò)進(jìn)行傳輸時(shí),這會(huì)給整個(gè)系統(tǒng)帶來(lái)多大的網(wǎng)絡(luò)壓力:

GPU 網(wǎng)絡(luò)基礎(chǔ),Part 2(MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn);什么是前、后端網(wǎng)絡(luò);什么是東西向、南北向流量)-AI.x社區(qū)

每個(gè)節(jié)點(diǎn)都需與其他所有節(jié)點(diǎn)通信 —— 這意味著大量經(jīng)由交換機(jī)的通信

這種網(wǎng)絡(luò)壓力催生了技術(shù)創(chuàng)新。英偉達(dá)的 InfiniBand 技術(shù)結(jié)合 SHARP[2](Scalable Hierarchical Aggregation and Reduction Protocol),支持在網(wǎng)絡(luò)內(nèi)部完成數(shù)據(jù)聚合運(yùn)算,從而最大限度地減少網(wǎng)絡(luò)流量和延遲。這是網(wǎng)絡(luò)交換機(jī)本身在執(zhí)行計(jì)算任務(wù)!

可參考英偉達(dá)這段精彩的兩分鐘解析:??https://youtu.be/uzYZP_z_5WE??

通過(guò)讓交換機(jī)執(zhí)行計(jì)算任務(wù)來(lái)減少網(wǎng)絡(luò)流量,是英偉達(dá)系統(tǒng)級(jí)思維的典范 —— 即在人工智能數(shù)據(jù)中心層面進(jìn)行創(chuàng)新。

總之,數(shù)據(jù)并行顯然是網(wǎng)絡(luò)密集型的訓(xùn)練方式,需要健壯、低延遲、高吞吐的網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)高效擴(kuò)展。

3.2 流水線并行:鏈?zhǔn)揭蕾?/h3>

流水線并行將模型按網(wǎng)絡(luò)層拆分到多個(gè) GPU 上,每個(gè) GPU 負(fù)責(zé)前向傳播和反向傳播的不同階段。激活值逐級(jí)向前傳遞,而梯度則沿相反方向流動(dòng)。這就形成了一系列嚴(yán)格的依賴關(guān)系:每個(gè) GPU 必須等待前一階段的輸入才能開(kāi)始計(jì)算,隨后將結(jié)果傳遞至下一階段。

網(wǎng)絡(luò)擁塞造成的任何延遲都會(huì)阻塞整個(gè)流水線。為最大限度避免此問(wèn)題,流水線各階段必須部署在物理位置鄰近的節(jié)點(diǎn)上,以減少跳數(shù)并避開(kāi)擁堵的網(wǎng)絡(luò)路徑。因此,流水線并行依賴拓?fù)涓兄{(diào)度(topology-aware scheduling)來(lái)維持穩(wěn)定的吞吐量。

3.3 專家并行:非均勻流量

專家并行引入了不同的通信模式:它將單個(gè)詞元路由到少數(shù)特定的專家。這些專家是位于不同 GPU 上的子神經(jīng)網(wǎng)絡(luò),每個(gè)輸入僅激活其中少數(shù)幾個(gè)。一個(gè)詞元可能被分發(fā)到專家 3 和專家 12,而這兩個(gè)專家可能位于不同節(jié)點(diǎn)的 GPU 上。

這種設(shè)置會(huì)導(dǎo)致不規(guī)則且突發(fā)的通信模式。部分 GPU 可能接收大量詞元,而其他 GPU 則基本處于閑置狀態(tài)。由此產(chǎn)生的流量具有非均勻特性,且隨每批數(shù)據(jù)動(dòng)態(tài)變化。

由于通信行為非確定性,這也增加了系統(tǒng)規(guī)劃與調(diào)試的復(fù)雜度。

軟件層面需進(jìn)行大量工作以實(shí)現(xiàn)專家間的負(fù)載均衡。深度求索分享了其策略與代碼[3]:

如 DeepSeek-V3 論文所述,我們采用冗余專家策略對(duì)高負(fù)載專家進(jìn)行復(fù)制,并通過(guò)啟發(fā)式方法將復(fù)制的專家分配至 GPU,確保不同 GPU 間的負(fù)載均衡。此外,得益于 DeepSeek-V3 使用的分組限制專家路由(group-limited expert routing)機(jī)制,我們盡可能將同組專家部署在同一節(jié)點(diǎn),以減少節(jié)點(diǎn)間的數(shù)據(jù)流量。

3.4 整體協(xié)同

每種并行策略本身都對(duì)系統(tǒng)有著嚴(yán)苛的要求。后端網(wǎng)絡(luò)必須同時(shí)支撐三種不同類型的壓力:

  • 全局性的集合通信操作(數(shù)據(jù)并行)
  • 同步鏈?zhǔn)搅鳎魉€并行)
  • 稀疏的、突發(fā)性的跨 GPU 調(diào)度(專家并行)

這些網(wǎng)絡(luò)任務(wù)會(huì)同時(shí)發(fā)生:激活值在流水線中逐級(jí)傳遞,梯度全還原操作同步啟動(dòng),而被選定要參與計(jì)算的存放著專家模型的 GPU 會(huì)主動(dòng)請(qǐng)求獲取它們需要處理的詞元數(shù)據(jù)。后端網(wǎng)絡(luò)必須能吸納這種混亂的并發(fā)流量,且不降低性能。

04 理解 DeepSeek 的技術(shù)突破

理解了 MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn),我們便能體會(huì) DeepSeek 如何通過(guò)精密的系統(tǒng)設(shè)計(jì)來(lái)規(guī)避擁塞的深思熟慮。

從其 V3 技術(shù)報(bào)告中可見(jiàn):

通過(guò)算法、框架與硬件的協(xié)同設(shè)計(jì),我們克服了跨節(jié)點(diǎn) MoE 訓(xùn)練中的通信瓶頸,實(shí)現(xiàn)了計(jì)算與通信的近乎完全重疊。這大大提升了訓(xùn)練效率,同時(shí)降低了成本,使我們能夠在不增加額外開(kāi)銷的前提下進(jìn)一步擴(kuò)展模型規(guī)模。

他們是如何做到的呢?還記得我們上次探討的那些計(jì)算與通信創(chuàng)新[4]嗎?再次引用 DeepSeek 的分享:

為高效訓(xùn)練 DeepSeek-V3,我們實(shí)施了精細(xì)的工程優(yōu)化。首先,我們?cè)O(shè)計(jì)了 DualPipe 算法來(lái)優(yōu)化流水線并行。與現(xiàn)有 PP 方法相比,DualPipe 的流水線氣泡(譯者注:指的是在流水線并行處理中,由于階段之間未能完全緊密銜接而出現(xiàn)的空閑等待時(shí)間,是影響大規(guī)模分布式訓(xùn)練效率的關(guān)鍵瓶頸之一。)更少。更重要的是,它通過(guò)重疊前后向過(guò)程的計(jì)算與通信階段,解決了跨節(jié)點(diǎn)專家并行帶來(lái)的沉重通信開(kāi)銷挑戰(zhàn)。其次,我們開(kāi)發(fā)了高效的跨節(jié)點(diǎn)全交換通信內(nèi)核,充分利用 IB 和 NVLink 帶寬,并節(jié)省專用于通信的流式多處理器資源。最后,我們精細(xì)優(yōu)化了訓(xùn)練期間的顯存占用,使得無(wú)需使用昂貴的張量并行也能訓(xùn)練 DeepSeek-V3。

其他 AI 實(shí)驗(yàn)室必然也在全力攻克網(wǎng)絡(luò)擁塞難題。盡管它們不像 DeepSeek 那樣受限于 H800 的帶寬約束,但同樣要應(yīng)對(duì)復(fù)雜的并行策略與網(wǎng)絡(luò)壓力。不過(guò)我們還是要特別向 DeepSeek 致敬,因?yàn)樗麄儫o(wú)私分享了這些技術(shù)洞見(jiàn)。

END

本期互動(dòng)內(nèi)容 ??

?你覺(jué)得在未來(lái),是算力會(huì)先遇到天花板,還是網(wǎng)絡(luò)通信會(huì)先成為 AI 發(fā)展的最大瓶頸?

文中鏈接

[1]??https://developer.nvidia.com/cluster-management??

[2]??https://resources.nvidia.com/en-us-accelerated-networking-resource-library/network-computing-nvidia-sharp??

[3]??https://github.com/deepseek-ai/EPLB??

[4]??https://www.chipstrat.com/p/dispelling-deepseek-myths-studying??

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請(qǐng)聯(lián)系獲取授權(quán)。

原文鏈接:

??https://www.chipstrat.com/p/gpu-networking-basics-part-2??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
1
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦