偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...) 原創(chuàng)

發(fā)布于 2025-9-26 10:15
瀏覽
0收藏

編者按: 當(dāng)我們談?wù)撚?xùn)練萬億參數(shù)的大語言模型時,除了驚嘆于其算力需求,是否曾深入思考過:如何讓成千上萬甚至數(shù)十萬塊 GPU 高效協(xié)同工作,像超級大腦般實時共享信息?

本文以訓(xùn)練大語言模型對海量算力的迫切需求為切入點,深入剖析了大規(guī)模 GPU 集群網(wǎng)絡(luò)設(shè)計的核心挑戰(zhàn)與解決方案:首先揭示了理想化“全互聯(lián)”架構(gòu)的不可行性,進(jìn)而引入網(wǎng)絡(luò)交換機(jī)及分層“葉脊拓?fù)洹苯Y(jié)構(gòu)。接著系統(tǒng)對比了兩種關(guān)鍵擴(kuò)展策略——通過增加節(jié)點實現(xiàn)橫向擴(kuò)展與通過提升單節(jié)點算力密度實現(xiàn)縱向擴(kuò)展,并重點強(qiáng)調(diào)節(jié)點內(nèi)通信(如 NVLink/Infinity Fabric)憑借極短物理距離和專用互連技術(shù),其速度與帶寬遠(yuǎn)超節(jié)點間通信。最后結(jié)合神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程(前向/反向傳播、梯度更新),點明全歸約(AllReduce) 等集合通信操作在梯度同步中的核心地位及其延遲對訓(xùn)練效率的直接影響,并提及軟件優(yōu)化(如通信與計算重疊)的重要性。

作者 | Austin Lyons

編譯 | 岳揚(yáng)

本系列文章將用輕松的方式聊聊網(wǎng)絡(luò)與 GPU。這個話題很重要,但可能顯得有些枯燥或深奧。請耐心聽我道來!

01 訓(xùn)練動機(jī)

訓(xùn)練大語言模型需要海量的浮點運算(FLOPs):

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

Source: ??https://chamath.substack.com/p/deep-dive-the-current-state-of-ai??

這些模型要訓(xùn)練多久?

假設(shè)單個 GPU 每秒能完成 2 PetaFLOP/s(即 2 * 10^15 次浮點運算),而一天共有 86,400 秒,那么單日運算量約為 1.7 x 10^20 FLOPS。在最理想的情況下,使用單個 GPU 訓(xùn)練達(dá)到 10^24 FLOPs 需要整整 16 年。

16年!誰等得起啊!

如何才能在數(shù)月或數(shù)周內(nèi)完成訓(xùn)練?我們需要讓大量 GPU 協(xié)同工作。

這些 GPU 還需要相互通信,實時共享訓(xùn)練進(jìn)度和訓(xùn)練結(jié)果。它們?nèi)绾螌崿F(xiàn)通信?靠網(wǎng)絡(luò)!

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

不,不是這種社交網(wǎng)絡(luò)。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

對,這才是我們要說的網(wǎng)絡(luò)!??

連接 GPU 其實是個非常有趣的技術(shù)難題。想想 xAI 需要協(xié)調(diào) 20 萬個 GPU 之間的通信!

02 網(wǎng)絡(luò)交換機(jī)

以 xAI 的 20 萬塊 GPU 集群為例:如何實現(xiàn)互聯(lián)?

在理想狀態(tài)下,每塊 GPU 都能以最高速率與其他所有 GPU 直接通信。

最直接的想法是:能否直接連接所有 GPU?

無需交換機(jī)或其他中轉(zhuǎn)設(shè)備,理論上這種方案速度最快!

這就是“全互聯(lián)(full mesh)”網(wǎng)絡(luò)架構(gòu)。

但全互聯(lián)架構(gòu)在實際的大規(guī)模部署中存在諸多問題。

例如:若要實現(xiàn) GPU 兩兩直連,每塊 GPU 需配備 199,999 個端口,總共需要約 200 億條線纜!這顯然太荒謬。

如果引入網(wǎng)絡(luò)交換機(jī)呢?網(wǎng)絡(luò)交換機(jī)是專門用于在多設(shè)備(此處指 GPU)間高效路由數(shù)據(jù)的硬件設(shè)備。

無需將所有 GPU 直接相連,而是讓 GPU 連接到交換機(jī),由交換機(jī)統(tǒng)一管理通信鏈路。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

網(wǎng)絡(luò)交換機(jī)連接這些 GPU,使它們能夠相互通信

若采用單臺交換機(jī)連接 20 萬塊 GPU,線纜數(shù)量可降至每塊 GPU 1 條,從 200 億條驟減至 20 萬條!

但這樣的交換機(jī)仍需具備 20 萬個端口,顯然不可實現(xiàn)。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

需要的端口數(shù)量相當(dāng)于這個交換機(jī)的 8000 倍 ??

顯然單臺巨型交換機(jī)無法滿足需求,這就需要采用分層交換架構(gòu)(hierarchical switching)。

03 葉脊拓?fù)浣Y(jié)構(gòu)

無需采用一個巨型交換機(jī)連接所有 GPU,我們可以將網(wǎng)絡(luò)組織為多層級交換機(jī)結(jié)構(gòu):

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

層級結(jié)構(gòu)中的每個交換機(jī)只需連接部分 GPU,其尺寸和成本更易管控。

這種方案下,GPU 不再需要成千上萬的直連端口,交換機(jī)也是如此!

但代價是:當(dāng)不同分支的 GPU 需要通信時,數(shù)據(jù)必須經(jīng)過多個交換機(jī)中轉(zhuǎn),這會增加額外延遲。

舉例說明:若兩塊 GPU 未連接至同一交換機(jī),它們的通信需先上傳至高層級的交換機(jī),再下傳至目標(biāo) GPU 所在的交換機(jī)。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

網(wǎng)絡(luò)跳轉(zhuǎn)會增加數(shù)據(jù)傳輸耗時

這種雙層架構(gòu)通常稱為葉脊架構(gòu)或雙層 Clos 網(wǎng)絡(luò)。

葉交換機(jī)直接連接計算單元,脊交換機(jī)則負(fù)責(zé)連接葉交換機(jī):

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

04 橫向擴(kuò)展

如何實現(xiàn)數(shù)千塊 GPU 的互聯(lián)?

橫向擴(kuò)展(或稱水平擴(kuò)展)是指通過增加更多 GPU 和網(wǎng)絡(luò)交換機(jī)來擴(kuò)大集群規(guī)模。 這種方式將訓(xùn)練工作負(fù)載分?jǐn)偟礁嘤布希瑥亩s短大語言模型的訓(xùn)練周期。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

只需不斷復(fù)制粘貼網(wǎng)絡(luò)結(jié)構(gòu)……即可實現(xiàn)橫向擴(kuò)展!

這些 GPU 與交換機(jī)之間如何通信?橫向擴(kuò)展采用以太網(wǎng)或 InfiniBand 技術(shù),兩者都能為 GPU 間通信提供所需的高速網(wǎng)絡(luò)環(huán)境。

InfiniBand 是英偉達(dá)的專有技術(shù)(通過收購 Mellanox 獲得),因其比高性能以太網(wǎng)變體(如 RoCE —— 基于融合以太網(wǎng)的 RDMA[1])具有更低的延遲和更高的帶寬,歷來被大規(guī)模 AI 集群優(yōu)先選用。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

如果您覺得這不像以太網(wǎng)線,那就對了!1.5m (5ft) 英偉達(dá)(NVIDIA)/邁絡(luò)思(Mellanox)MCP4Y10-N01A兼容 800G OSFP NDR InfiniBand 頂部帶散熱片高速線纜,用于 Quantum-2 交換機(jī)。圖片來源[2]

新建的訓(xùn)練集群正越來越傾向于選擇以太網(wǎng)。正如黃仁勛在近期英偉達(dá) GTC 主題演講中所述,埃隆的 xAI 采用英偉達(dá) Spectrum X 以太網(wǎng)構(gòu)建了全球最大的訓(xùn)練集群(Colossus[3])。

05 縱向擴(kuò)展

橫向擴(kuò)展雖能短期見效,但終究會受到物理定律和經(jīng)濟(jì)規(guī)律的制約。設(shè)備與交換機(jī)數(shù)量的增加會導(dǎo)致延遲增加、能耗攀升及成本上漲。發(fā)展到某個階段,單純依靠橫向擴(kuò)展就不再是最優(yōu)解。

這便引出了另一種方案:縱向擴(kuò)展(或稱垂直擴(kuò)展)。

縱向擴(kuò)展是指提升單個節(jié)點的算力密度,而非單純增加節(jié)點數(shù)量。

葉交換機(jī)無需直接連接單塊 GPU,而是連接至每臺搭載多塊 GPU(例如八塊)的服務(wù)器。此舉大大減少了所需直接聯(lián)網(wǎng)的交換機(jī)數(shù)量和線纜規(guī)模:

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

每個服務(wù)器節(jié)點容納 8 塊 GPU;單臺交換機(jī)可覆蓋更多 GPU

類比早期的網(wǎng)絡(luò)擴(kuò)展:快速發(fā)展的公司會先通過增加 CPU 核心和內(nèi)存來升級單臺服務(wù)器(縱向擴(kuò)展);當(dāng)單機(jī)性能不足時,再通過添加服務(wù)器和負(fù)載均衡器分流流量(橫向擴(kuò)展)。

敏銳的讀者可能會問:這些縱向擴(kuò)展的 GPU 如何通信?它們?nèi)孕枰ㄟ^網(wǎng)絡(luò)交換機(jī)連接嗎?這與橫向擴(kuò)展有何區(qū)別?

問得非常好!

節(jié)點內(nèi)通信 vs 節(jié)點間通信

同一服務(wù)器節(jié)點內(nèi)的通信稱為節(jié)點內(nèi)通信。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

不同服務(wù)器間 GPU 的通信稱為節(jié)點間通信。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

事實證明,相鄰 GPU 的節(jié)點內(nèi)通信速度與帶寬遠(yuǎn)勝于使用 Infiniband 或以太網(wǎng)的節(jié)點間通信。

為何如此?

這主要歸功于 GPU 之間緊密的物理距離以及所采用的專用互連技術(shù)。這些技術(shù)利用了直接的、短距的且經(jīng)過優(yōu)化的信號布線,它們通常直接集成在同一塊電路板上或同一個物理封裝外殼內(nèi),從而縮短信號傳輸距離并最大限度地降低延遲。

例如 AMD 在 2018 年 IEEE 國際固態(tài)電路會議(ISSCC)[4]公布的 Infinity Fabric 布線方案:

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

亮色連接線(跡線)表示計算單元間的金屬連接,可視為封裝基板中的“導(dǎo)線”

由于服務(wù)器內(nèi) GPU 采用直連方式,可規(guī)避大部分節(jié)點間通信的開銷。封裝外殼內(nèi)布線通過縮短跡線長度、減少傳播延遲和信號衰減來提升效率。

而 Infiniband 與以太網(wǎng)等外部連接需依賴中繼器、重定時器、糾錯機(jī)制等信號完整性保障組件來保障遠(yuǎn)距離傳輸?shù)目煽啃?,這些都會增加額外的延遲和功耗。

不妨將 NVLink、InfinityFabric 等節(jié)點內(nèi)通信比作德國高速公路[5]:專為高速內(nèi)無中斷的通行設(shè)計。

節(jié)點間通信則像雙車道公路:速度更慢、通行量有限,還可能因春耕秋收的拖拉機(jī)導(dǎo)致降速(即應(yīng)對擁堵)。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

注意,前方可能有交警蹲守!

06 訓(xùn)練中的通信環(huán)節(jié)

理解神經(jīng)網(wǎng)絡(luò)如何訓(xùn)練,有助于我們了解其中的通信挑戰(zhàn)。

在每個訓(xùn)練周期中,網(wǎng)絡(luò)首先執(zhí)行前向傳播:輸入數(shù)據(jù)流經(jīng)網(wǎng)絡(luò)各層生成預(yù)測結(jié)果。隨后通過損失函數(shù)將預(yù)測值與正確答案對比,量化誤差幅度。

學(xué)習(xí)的核心發(fā)生在反向傳播階段。通過反向傳播算法,系統(tǒng)計算網(wǎng)絡(luò)中每個權(quán)重對誤差的貢獻(xiàn)程度。利用這些信息,梯度下降算法會沿著減少誤差的方向調(diào)整所有權(quán)重 —— 這本質(zhì)上就如同轉(zhuǎn)動數(shù)十億個“旋鈕”,逐步提升網(wǎng)絡(luò)的預(yù)測精度。每次迭代中的細(xì)微調(diào)整,都讓神經(jīng)網(wǎng)絡(luò)在新數(shù)據(jù)上的預(yù)測更趨可靠。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

Source:??https://www.researchgate.net/figure/The-Forward-Propagation-Process-of-Neural-Network_fig4_382298512??

每塊 GPU 根據(jù)前向傳播的誤差計算權(quán)重更新的梯度,但由于各 GPU 處理不同的數(shù)據(jù)子集,這些梯度僅是局部結(jié)果。為確保所有 GPU 應(yīng)用相同的參數(shù)更新并保持同步,必須跨所有 GPU 對梯度進(jìn)行聚合與求平均。

這個過程稱為全歸約通信(all-reduce communication),它使得各 GPU 在更新本地模型前能夠交換并分發(fā)最終計算值。通過維持全局一致性,該機(jī)制可避免模型漂移,確保分布式訓(xùn)練的有效性。

全歸約通信的延遲直接影響訓(xùn)練效率。

此外還存在其他集合通信操作,例如英偉達(dá) NCCL 軟件庫[6]支持的:全歸約(AllReduce)、廣播(Broadcast)、歸約(Reduce)、全聚合(AllGather)、散射規(guī)約(ReduceScatter)。

因此理想情況下,訓(xùn)練集群需采用最高帶寬和最低延遲的通信方案。

正如我們在 DeepSeek V3 中所見[7],還可通過軟件方法實現(xiàn)通信與計算的重疊執(zhí)行,減少 GPU 空閑時間,降低通信限制的影響。

07 Conclusion

本文的第一部分到此結(jié)束。當(dāng)然還有更多內(nèi)容可以探討。實際的大規(guī)模集群并非全互聯(lián)結(jié)構(gòu),其架構(gòu)要復(fù)雜得多。

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

Source:??https://www.youtube.com/watch?v=wLW3UzUw5rY&t=452s??

該系列文章后續(xù)還將涵蓋推理的通信需求(及其與訓(xùn)練的差異)、前端網(wǎng)絡(luò)與后端網(wǎng)絡(luò)、光通信等主題。

但希望目前的內(nèi)容已足以讓您在看到技術(shù)圖表(例如英偉達(dá) SuperPOD 計算架構(gòu)圖[8])時,能建立基礎(chǔ)的認(rèn)知框架,并通過提問填補(bǔ)知識空白:

GPU 網(wǎng)絡(luò)通信基礎(chǔ),Part 1(橫向與縱向擴(kuò)展;訓(xùn)練中的通信環(huán)節(jié)...)-AI.x社區(qū)

上圖中可以看到脊交換機(jī)和葉交換機(jī)助力實現(xiàn)橫向擴(kuò)展,而 B200 服務(wù)器則體現(xiàn)了縱向擴(kuò)展。

從表格數(shù)據(jù)可知,每個可擴(kuò)展單元包含 32 個節(jié)點,每個節(jié)點配備 8 塊 GPU。這正是橫向擴(kuò)展(32 節(jié)點)與縱向擴(kuò)展(單節(jié)點 8 GPU)的結(jié)合。不必糾結(jié)“移除 DGX 以適配 UFM 連接”這類細(xì)節(jié) —— 關(guān)鍵是你現(xiàn)在已經(jīng)能理解整體框架了!

END

本期互動內(nèi)容 ??

?你覺得在未來,是算力會先遇到天花板,還是網(wǎng)絡(luò)通信會先成為 AI 發(fā)展的最大瓶頸?

文中鏈接

[1]??https://techdocs.broadcom.com/us/en/storage-and-ethernet-connectivity/ethernet-nic-controllers/bcm957xxx/adapters/RDMA-over-Converged-Ethernet.html??

[2]??https://www.fs.com/products/204997.html?now_cid=3908??

[3]??https://x.ai/colossus??

[4]??https://ieeexplore.ieee.org/xpl/conhome/8304413/proceeding??

[5]??https://www.german-way.com/travel-and-tourism/driving-in-europe/driving/autobahn/??

[6]??https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/usage/collectives.html??

[7]??https://www.chipstrat.com/i/158842573/dualpipe-algorithm-and-computation-communication-overlap??

[8]??https://docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-b200/latest/network-fabrics.html??

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。

原文鏈接:

??https://www.chipstrat.com/p/gpu-networking-basics-part-1??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦