偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<meter id="xbuwj"><fieldset id="xbuwj"></fieldset></meter>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）原創(chuàng)

發(fā)布于 2025-9-26 10:15

瀏覽

0收藏

編者按： 當(dāng)我們談?wù)撚?xùn)練萬億參數(shù)的大語言模型時，除了驚嘆于其算力需求，是否曾深入思考過：如何讓成千上萬甚至數(shù)十萬塊 GPU 高效協(xié)同工作，像超級大腦般實時共享信息？
本文以訓(xùn)練大語言模型對海量算力的迫切需求為切入點，深入剖析了大規(guī)模 GPU 集群網(wǎng)絡(luò)設(shè)計的核心挑戰(zhàn)與解決方案：首先揭示了理想化“全互聯(lián)”架構(gòu)的不可行性，進(jìn)而引入網(wǎng)絡(luò)交換機(jī)及分層“葉脊拓?fù)洹苯Y(jié)構(gòu)。接著系統(tǒng)對比了兩種關(guān)鍵擴(kuò)展策略——通過增加節(jié)點實現(xiàn)橫向擴(kuò)展與通過提升單節(jié)點算力密度實現(xiàn)縱向擴(kuò)展，并重點強(qiáng)調(diào)節(jié)點內(nèi)通信（如 NVLink/Infinity Fabric）憑借極短物理距離和專用互連技術(shù)，其速度與帶寬遠(yuǎn)超節(jié)點間通信。最后結(jié)合神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程（前向/反向傳播、梯度更新），點明全歸約（AllReduce）等集合通信操作在梯度同步中的核心地位及其延遲對訓(xùn)練效率的直接影響，并提及軟件優(yōu)化（如通信與計算重疊）的重要性。

作者 | Austin Lyons

編譯 | 岳揚(yáng)

本系列文章將用輕松的方式聊聊網(wǎng)絡(luò)與 GPU。這個話題很重要，但可能顯得有些枯燥或深奧。請耐心聽我道來！

01 訓(xùn)練動機(jī)

訓(xùn)練大語言模型需要海量的浮點運算（FLOPs）：

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

Source: ??https://chamath.substack.com/p/deep-dive-the-current-state-of-ai??

這些模型要訓(xùn)練多久？

假設(shè)單個 GPU 每秒能完成 2 PetaFLOP/s（即 2 * 10^15 次浮點運算），而一天共有 86,400 秒，那么單日運算量約為 1.7 x 10^20 FLOPS。在最理想的情況下，使用單個 GPU 訓(xùn)練達(dá)到 10^24 FLOPs 需要整整 16 年。

16年！誰等得起啊！

如何才能在數(shù)月或數(shù)周內(nèi)完成訓(xùn)練？我們需要讓大量 GPU 協(xié)同工作。

這些 GPU 還需要相互通信，實時共享訓(xùn)練進(jìn)度和訓(xùn)練結(jié)果。它們?nèi)绾螌崿F(xiàn)通信？靠網(wǎng)絡(luò)！

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

不，不是這種社交網(wǎng)絡(luò)。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

對，這才是我們要說的網(wǎng)絡(luò)！??

連接 GPU 其實是個非常有趣的技術(shù)難題。想想 xAI 需要協(xié)調(diào) 20 萬個 GPU 之間的通信！

02 網(wǎng)絡(luò)交換機(jī)

以 xAI 的 20 萬塊 GPU 集群為例：如何實現(xiàn)互聯(lián)？

在理想狀態(tài)下，每塊 GPU 都能以最高速率與其他所有 GPU 直接通信。

最直接的想法是：能否直接連接所有 GPU？

無需交換機(jī)或其他中轉(zhuǎn)設(shè)備，理論上這種方案速度最快！

這就是“全互聯(lián)（full mesh）”網(wǎng)絡(luò)架構(gòu)。

但全互聯(lián)架構(gòu)在實際的大規(guī)模部署中存在諸多問題。

例如：若要實現(xiàn) GPU 兩兩直連，每塊 GPU 需配備 199,999 個端口，總共需要約 200 億條線纜！這顯然太荒謬。

如果引入網(wǎng)絡(luò)交換機(jī)呢？網(wǎng)絡(luò)交換機(jī)是專門用于在多設(shè)備（此處指 GPU）間高效路由數(shù)據(jù)的硬件設(shè)備。

無需將所有 GPU 直接相連，而是讓 GPU 連接到交換機(jī)，由交換機(jī)統(tǒng)一管理通信鏈路。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

網(wǎng)絡(luò)交換機(jī)連接這些 GPU，使它們能夠相互通信

若采用單臺交換機(jī)連接 20 萬塊 GPU，線纜數(shù)量可降至每塊 GPU 1 條，從 200 億條驟減至 20 萬條！

但這樣的交換機(jī)仍需具備 20 萬個端口，顯然不可實現(xiàn)。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

需要的端口數(shù)量相當(dāng)于這個交換機(jī)的 8000 倍 ??

顯然單臺巨型交換機(jī)無法滿足需求，這就需要采用分層交換架構(gòu)（hierarchical switching）。

03 葉脊拓?fù)浣Y(jié)構(gòu)

無需采用一個巨型交換機(jī)連接所有 GPU，我們可以將網(wǎng)絡(luò)組織為多層級交換機(jī)結(jié)構(gòu)：

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

層級結(jié)構(gòu)中的每個交換機(jī)只需連接部分 GPU，其尺寸和成本更易管控。

這種方案下，GPU 不再需要成千上萬的直連端口，交換機(jī)也是如此！

但代價是：當(dāng)不同分支的 GPU 需要通信時，數(shù)據(jù)必須經(jīng)過多個交換機(jī)中轉(zhuǎn)，這會增加額外延遲。

舉例說明：若兩塊 GPU 未連接至同一交換機(jī)，它們的通信需先上傳至高層級的交換機(jī)，再下傳至目標(biāo) GPU 所在的交換機(jī)。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

網(wǎng)絡(luò)跳轉(zhuǎn)會增加數(shù)據(jù)傳輸耗時

這種雙層架構(gòu)通常稱為葉脊架構(gòu)或雙層 Clos 網(wǎng)絡(luò)。

葉交換機(jī)直接連接計算單元，脊交換機(jī)則負(fù)責(zé)連接葉交換機(jī)：

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

04 橫向擴(kuò)展

如何實現(xiàn)數(shù)千塊 GPU 的互聯(lián)？

橫向擴(kuò)展（或稱水平擴(kuò)展）是指通過增加更多 GPU 和網(wǎng)絡(luò)交換機(jī)來擴(kuò)大集群規(guī)模。 這種方式將訓(xùn)練工作負(fù)載分?jǐn)偟礁嘤布希瑥亩s短大語言模型的訓(xùn)練周期。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

只需不斷復(fù)制粘貼網(wǎng)絡(luò)結(jié)構(gòu)……即可實現(xiàn)橫向擴(kuò)展！

這些 GPU 與交換機(jī)之間如何通信？橫向擴(kuò)展采用以太網(wǎng)或 InfiniBand 技術(shù)，兩者都能為 GPU 間通信提供所需的高速網(wǎng)絡(luò)環(huán)境。

InfiniBand 是英偉達(dá)的專有技術(shù)（通過收購 Mellanox 獲得），因其比高性能以太網(wǎng)變體（如 RoCE —— 基于融合以太網(wǎng)的 RDMA[1]）具有更低的延遲和更高的帶寬，歷來被大規(guī)模 AI 集群優(yōu)先選用。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

如果您覺得這不像以太網(wǎng)線，那就對了！1.5m (5ft) 英偉達(dá)（NVIDIA）/邁絡(luò)思（Mellanox）MCP4Y10-N01A兼容 800G OSFP NDR InfiniBand 頂部帶散熱片高速線纜，用于 Quantum-2 交換機(jī)。圖片來源[2]

新建的訓(xùn)練集群正越來越傾向于選擇以太網(wǎng)。正如黃仁勛在近期英偉達(dá) GTC 主題演講中所述，埃隆的 xAI 采用英偉達(dá) Spectrum X 以太網(wǎng)構(gòu)建了全球最大的訓(xùn)練集群（Colossus[3]）。

05 縱向擴(kuò)展

橫向擴(kuò)展雖能短期見效，但終究會受到物理定律和經(jīng)濟(jì)規(guī)律的制約。設(shè)備與交換機(jī)數(shù)量的增加會導(dǎo)致延遲增加、能耗攀升及成本上漲。發(fā)展到某個階段，單純依靠橫向擴(kuò)展就不再是最優(yōu)解。

這便引出了另一種方案：縱向擴(kuò)展（或稱垂直擴(kuò)展）。

縱向擴(kuò)展是指提升單個節(jié)點的算力密度，而非單純增加節(jié)點數(shù)量。

葉交換機(jī)無需直接連接單塊 GPU，而是連接至每臺搭載多塊 GPU（例如八塊）的服務(wù)器。此舉大大減少了所需直接聯(lián)網(wǎng)的交換機(jī)數(shù)量和線纜規(guī)模：

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

每個服務(wù)器節(jié)點容納 8 塊 GPU；單臺交換機(jī)可覆蓋更多 GPU

類比早期的網(wǎng)絡(luò)擴(kuò)展：快速發(fā)展的公司會先通過增加 CPU 核心和內(nèi)存來升級單臺服務(wù)器（縱向擴(kuò)展）；當(dāng)單機(jī)性能不足時，再通過添加服務(wù)器和負(fù)載均衡器分流流量（橫向擴(kuò)展）。

敏銳的讀者可能會問：這些縱向擴(kuò)展的 GPU 如何通信？它們?nèi)孕枰ㄟ^網(wǎng)絡(luò)交換機(jī)連接嗎？這與橫向擴(kuò)展有何區(qū)別？

問得非常好！

節(jié)點內(nèi)通信 vs 節(jié)點間通信

同一服務(wù)器節(jié)點內(nèi)的通信稱為節(jié)點內(nèi)通信。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

不同服務(wù)器間 GPU 的通信稱為節(jié)點間通信。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

事實證明，相鄰 GPU 的節(jié)點內(nèi)通信速度與帶寬遠(yuǎn)勝于使用 Infiniband 或以太網(wǎng)的節(jié)點間通信。

為何如此？

這主要歸功于 GPU 之間緊密的物理距離以及所采用的專用互連技術(shù)。這些技術(shù)利用了直接的、短距的且經(jīng)過優(yōu)化的信號布線，它們通常直接集成在同一塊電路板上或同一個物理封裝外殼內(nèi)，從而縮短信號傳輸距離并最大限度地降低延遲。

例如 AMD 在 2018 年 IEEE 國際固態(tài)電路會議（ISSCC）[4]公布的 Infinity Fabric 布線方案：

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

亮色連接線（跡線）表示計算單元間的金屬連接，可視為封裝基板中的“導(dǎo)線”

由于服務(wù)器內(nèi) GPU 采用直連方式，可規(guī)避大部分節(jié)點間通信的開銷。封裝外殼內(nèi)布線通過縮短跡線長度、減少傳播延遲和信號衰減來提升效率。

而 Infiniband 與以太網(wǎng)等外部連接需依賴中繼器、重定時器、糾錯機(jī)制等信號完整性保障組件來保障遠(yuǎn)距離傳輸?shù)目煽啃?，這些都會增加額外的延遲和功耗。

不妨將 NVLink、InfinityFabric 等節(jié)點內(nèi)通信比作德國高速公路[5]：專為高速內(nèi)無中斷的通行設(shè)計。

節(jié)點間通信則像雙車道公路：速度更慢、通行量有限，還可能因春耕秋收的拖拉機(jī)導(dǎo)致降速（即應(yīng)對擁堵）。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

注意，前方可能有交警蹲守！

06 訓(xùn)練中的通信環(huán)節(jié)

理解神經(jīng)網(wǎng)絡(luò)如何訓(xùn)練，有助于我們了解其中的通信挑戰(zhàn)。

在每個訓(xùn)練周期中，網(wǎng)絡(luò)首先執(zhí)行前向傳播：輸入數(shù)據(jù)流經(jīng)網(wǎng)絡(luò)各層生成預(yù)測結(jié)果。隨后通過損失函數(shù)將預(yù)測值與正確答案對比，量化誤差幅度。

學(xué)習(xí)的核心發(fā)生在反向傳播階段。通過反向傳播算法，系統(tǒng)計算網(wǎng)絡(luò)中每個權(quán)重對誤差的貢獻(xiàn)程度。利用這些信息，梯度下降算法會沿著減少誤差的方向調(diào)整所有權(quán)重 —— 這本質(zhì)上就如同轉(zhuǎn)動數(shù)十億個“旋鈕”，逐步提升網(wǎng)絡(luò)的預(yù)測精度。每次迭代中的細(xì)微調(diào)整，都讓神經(jīng)網(wǎng)絡(luò)在新數(shù)據(jù)上的預(yù)測更趨可靠。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

Source:??https://www.researchgate.net/figure/The-Forward-Propagation-Process-of-Neural-Network_fig4_382298512??

每塊 GPU 根據(jù)前向傳播的誤差計算權(quán)重更新的梯度，但由于各 GPU 處理不同的數(shù)據(jù)子集，這些梯度僅是局部結(jié)果。為確保所有 GPU 應(yīng)用相同的參數(shù)更新并保持同步，必須跨所有 GPU 對梯度進(jìn)行聚合與求平均。

這個過程稱為全歸約通信（all-reduce communication），它使得各 GPU 在更新本地模型前能夠交換并分發(fā)最終計算值。通過維持全局一致性，該機(jī)制可避免模型漂移，確保分布式訓(xùn)練的有效性。

全歸約通信的延遲直接影響訓(xùn)練效率。

此外還存在其他集合通信操作，例如英偉達(dá) NCCL 軟件庫[6]支持的：全歸約（AllReduce）、廣播（Broadcast）、歸約（Reduce）、全聚合（AllGather）、散射規(guī)約（ReduceScatter）。

因此理想情況下，訓(xùn)練集群需采用最高帶寬和最低延遲的通信方案。

正如我們在 DeepSeek V3 中所見[7]，還可通過軟件方法實現(xiàn)通信與計算的重疊執(zhí)行，減少 GPU 空閑時間，降低通信限制的影響。

07 Conclusion

本文的第一部分到此結(jié)束。當(dāng)然還有更多內(nèi)容可以探討。實際的大規(guī)模集群并非全互聯(lián)結(jié)構(gòu)，其架構(gòu)要復(fù)雜得多。

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

Source:??https://www.youtube.com/watch?v=wLW3UzUw5rY&t=452s??

該系列文章后續(xù)還將涵蓋推理的通信需求（及其與訓(xùn)練的差異）、前端網(wǎng)絡(luò)與后端網(wǎng)絡(luò)、光通信等主題。

但希望目前的內(nèi)容已足以讓您在看到技術(shù)圖表（例如英偉達(dá) SuperPOD 計算架構(gòu)圖[8]）時，能建立基礎(chǔ)的認(rèn)知框架，并通過提問填補(bǔ)知識空白：

GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）-AI.x社區(qū)

上圖中可以看到脊交換機(jī)和葉交換機(jī)助力實現(xiàn)橫向擴(kuò)展，而 B200 服務(wù)器則體現(xiàn)了縱向擴(kuò)展。

從表格數(shù)據(jù)可知，每個可擴(kuò)展單元包含 32 個節(jié)點，每個節(jié)點配備 8 塊 GPU。這正是橫向擴(kuò)展（32 節(jié)點）與縱向擴(kuò)展（單節(jié)點 8 GPU）的結(jié)合。不必糾結(jié)“移除 DGX 以適配 UFM 連接”這類細(xì)節(jié) —— 關(guān)鍵是你現(xiàn)在已經(jīng)能理解整體框架了！

END

本期互動內(nèi)容 ??

?你覺得在未來，是算力會先遇到天花板，還是網(wǎng)絡(luò)通信會先成為 AI 發(fā)展的最大瓶頸？

文中鏈接

[1]??https://techdocs.broadcom.com/us/en/storage-and-ethernet-connectivity/ethernet-nic-controllers/bcm957xxx/adapters/RDMA-over-Converged-Ethernet.html??

[2]??https://www.fs.com/products/204997.html?now_cid=3908??

[3]??https://x.ai/colossus??

[4]??https://ieeexplore.ieee.org/xpl/conhome/8304413/proceeding??

[5]??https://www.german-way.com/travel-and-tourism/driving-in-europe/driving/autobahn/??

[6]??https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/usage/collectives.html??

[7]??https://www.chipstrat.com/i/158842573/dualpipe-algorithm-and-computation-communication-overlap??

[8]??https://docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-b200/latest/network-fabrics.html??

本文經(jīng)原作者授權(quán)，由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文，請聯(lián)系獲取授權(quán)。

原文鏈接：

??https://www.chipstrat.com/p/gpu-networking-basics-part-1??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

用大語言模型控制交通信號燈，有效緩解擁堵！

pangguiyu ? 5046瀏覽 ? 0回復(fù)
阿里 C4：通信驅(qū)動加速大規(guī)模并行訓(xùn)練效率

amei2000go ? 9805瀏覽 ? 0回復(fù)
LLaMA 3 背后的大規(guī)模 GPU 集群 RoCE 網(wǎng)絡(luò)建設(shè)

amei2000go ? 6862瀏覽 ? 0回復(fù)
華為集合通信庫開源鏈接、拓?fù)渌惴?、常用接?/a>

愛串門的小馬駒 ? 5536瀏覽 ? 0回復(fù)
DHelix：跨 Micro-Batch 的通信隱藏，SOTA LLM 訓(xùn)練性能

amei2000go ? 5603瀏覽 ? 0回復(fù)
美團(tuán) Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 7602瀏覽 ? 0回復(fù)
美團(tuán) Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 4555瀏覽 ? 0回復(fù)
分布式訓(xùn)練通信優(yōu)化，重疊通信，參數(shù)子集同步，低精度外梯度量化

AI研究前瞻 ? 3973瀏覽 ? 0回復(fù)
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU

duhorse ? 4505瀏覽 ? 0回復(fù)
DeepSeek開源優(yōu)化并行策略，提升訓(xùn)練和通信效率

Aceryt ? 4672瀏覽 ? 0回復(fù)
字節(jié) TileLink：編譯生成高效的計算和通信 Overlap Kernel

amei2000go ? 5721瀏覽 ? 0回復(fù)
AI Agent"社交網(wǎng)絡(luò)"來了！最新研究揭示AI Agent通信協(xié)議全景圖

sbf_2000 ? 2755瀏覽 ? 0回復(fù)
面向未來通信的大語言模型綜述：基礎(chǔ)、應(yīng)用與挑戰(zhàn)

AIRoobt ? 6250瀏覽 ? 0回復(fù)
FedMRG: 通過大模型高效通信異構(gòu)聯(lián)邦學(xué)習(xí)驅(qū)動的醫(yī)療報告生成

知識圖譜科技 ? 2651瀏覽 ? 0回復(fù)
從互聯(lián)網(wǎng)架構(gòu)視角，重新審視AI智能體通信的挑戰(zhàn)與機(jī)遇

arnoldzhw ? 1515瀏覽 ? 0回復(fù)
GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）

Baihai_IDP ? 2461瀏覽 ? 0回復(fù)
GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 3（LLM 訓(xùn)練過程的網(wǎng)絡(luò)通信；InfiniBand 真的是“封閉”技術(shù)嗎？）

Baihai_IDP ? 649瀏覽 ? 0回復(fù)
智能輔助駕駛模型訓(xùn)練的關(guān)鍵環(huán)節(jié)

數(shù)智飛輪 ? 1963瀏覽 ? 0回復(fù)
GPU 網(wǎng)絡(luò)基礎(chǔ)：訓(xùn)練中的通信、橫向擴(kuò)展、縱向擴(kuò)展、網(wǎng)絡(luò)架構(gòu)、交換機(jī)等

玄姐聊AGI ? 693瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

對 GPT 5 模型路由機(jī)制的深度解析 2天前發(fā)布
AI 編程熱潮下的萬字思考 —— 規(guī)避風(fēng)險，善用其利 9天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：在 AI 領(lǐng)域，2025 年你最需要掌握的技能：上下文工程

下一篇： GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）

社區(qū)精華內(nèi)容

目錄