偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）原創(chuàng) 精華

發(fā)布于 2025-9-30 11:30

瀏覽

1收藏

編者按： 在大規(guī)模人工智能模型訓(xùn)練日益依賴分布式 GPU 集群的今天，我們是否真正理解支撐這些系統(tǒng)高效運(yùn)行的網(wǎng)絡(luò)架構(gòu)？數(shù)據(jù)如何從存儲(chǔ)設(shè)備抵達(dá) GPU？訓(xùn)練過(guò)程中不同并行策略又如何對(duì)網(wǎng)絡(luò)提出截然不同的挑戰(zhàn)？
我們今天為大家?guī)?lái)的文章，作者的核心觀點(diǎn)是：現(xiàn)代 AI 訓(xùn)練系統(tǒng)必須通過(guò)嚴(yán)格區(qū)分前端與后端網(wǎng)絡(luò)，并針對(duì)數(shù)據(jù)并行、流水線并行和專家并行等不同通信模式進(jìn)行協(xié)同優(yōu)化，才能有效應(yīng)對(duì)日益復(fù)雜的網(wǎng)絡(luò)擁塞與延遲問(wèn)題。
文章首先厘清了“前端網(wǎng)絡(luò)”與“后端網(wǎng)絡(luò)”的功能邊界，強(qiáng)調(diào)將關(guān)鍵訓(xùn)練流量隔離在高性能后端網(wǎng)絡(luò)中的必要性；接著深入剖析了三種主流并行訓(xùn)練策略 —— 數(shù)據(jù)并行帶來(lái)的全局同步壓力、流水線并行對(duì)拓?fù)涓兄{(diào)度的依賴，以及專家并行引發(fā)的非均勻突發(fā)流量；最后以 DeepSeek-V3 混合專家模型為例，展示了如何通過(guò)算法、通信內(nèi)核與硬件協(xié)同設(shè)計(jì)，實(shí)現(xiàn)計(jì)算與通信的高效重疊，從而突破跨節(jié)點(diǎn)訓(xùn)練的瓶頸。

作者 | Austin Lyons

編譯 | 岳揚(yáng)

01 前端網(wǎng)絡(luò) vs 后端網(wǎng)絡(luò)

上次我們探討了大語(yǔ)言模型預(yù)訓(xùn)練中的 GPU 間通信，重點(diǎn)分析了與鄰近 GPU 的高速高帶寬連接（如通過(guò) NVLink），以及通過(guò) InfiniBand 或以太網(wǎng)經(jīng)網(wǎng)絡(luò)交換機(jī)與遠(yuǎn)端節(jié)點(diǎn)的稍慢速、低帶寬連接。

這套 GPU 間通信網(wǎng)絡(luò)被稱為后端網(wǎng)絡(luò)。

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

后端網(wǎng)絡(luò)包含節(jié)點(diǎn)內(nèi)與節(jié)點(diǎn)間的 GPU 通信鏈路，例如 NVLink 和 InfiniBand

這些重要的 GPU 互聯(lián)技術(shù)雖然常成為行業(yè)焦點(diǎn)，但其實(shí)只是整個(gè)網(wǎng)絡(luò)體系的一部分。

試著想一想訓(xùn)練數(shù)據(jù)是如何抵達(dá) GPU 的。大語(yǔ)言模型需要從存儲(chǔ)設(shè)備（SSD）吞食數(shù)萬(wàn)億計(jì)的詞元供神經(jīng)網(wǎng)絡(luò)訓(xùn)練。這類通信通過(guò)獨(dú)立的、基于以太網(wǎng)的前端網(wǎng)絡(luò)完成。

許多其他的工作負(fù)載也會(huì)經(jīng)過(guò)前端網(wǎng)絡(luò)，例如集群管理軟件[1]、開(kāi)發(fā)人員遠(yuǎn)程訪問(wèn)集群進(jìn)行調(diào)試等。

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

為簡(jiǎn)潔起見(jiàn)，僅列舉流經(jīng)前端網(wǎng)絡(luò)的部分工作負(fù)載。實(shí)際場(chǎng)景中還包含作業(yè)調(diào)度器、編排系統(tǒng)、遙測(cè)數(shù)據(jù)、工程師的筆記本電腦等。

前端網(wǎng)絡(luò)被刻意與后端隔離，以防止相互干擾和擁塞。 像加載數(shù)據(jù)、記錄日志這類常規(guī)任務(wù)，都會(huì)被隔離在高速 GPU 網(wǎng)絡(luò)之外，從而確保非關(guān)鍵流量不會(huì)干擾昂貴訓(xùn)練任務(wù)所依賴的網(wǎng)絡(luò)環(huán)境。

由于前端設(shè)備可能位于數(shù)據(jù)中心之外，通常需要防火墻和訪問(wèn)分段策略（access segmentation policies）來(lái)隔離后端網(wǎng)絡(luò)與前端流量。這種做法是可行的，因?yàn)榍岸肆髁客ǔ?duì)延遲具有較高的容忍度。

02 南北向流量 vs 東西向流量

GPU 與前端網(wǎng)絡(luò)設(shè)備間的通信被稱為南北向流量。

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

可視化圖表總能幫我記住南北向流量這類術(shù)語(yǔ)??

這種南北向流量通過(guò)以太網(wǎng)傳輸。

為何選擇以太網(wǎng)？因?yàn)槠涑杀镜土覠o(wú)處不在。前端設(shè)備本就基于標(biāo)準(zhǔn)以太網(wǎng)構(gòu)建，數(shù)據(jù)中心運(yùn)維人員也熟悉并喜歡以太網(wǎng)技術(shù)。

能猜到后端網(wǎng)絡(luò)內(nèi)部的流量被稱為什么嗎？

沒(méi)錯(cuò)，就是東西向流量。

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

東西向流量針對(duì) GPU 間縱向擴(kuò)展與橫向擴(kuò)展通信進(jìn)行了延遲優(yōu)化。在超大規(guī)模訓(xùn)練中，后端網(wǎng)絡(luò)甚至可跨越多個(gè)數(shù)據(jù)中心！??

正如前文所言，實(shí)際場(chǎng)景遠(yuǎn)比這些簡(jiǎn)化的示意圖復(fù)雜??

但你現(xiàn)在理解的這個(gè)簡(jiǎn)化版本非常重要，是繼續(xù)深入學(xué)習(xí)、應(yīng)對(duì)更復(fù)雜情況的起點(diǎn)和基石。

2.1 設(shè)置檢查點(diǎn)與直連存儲(chǔ)

在大語(yǔ)言模型預(yù)訓(xùn)練過(guò)程中，設(shè)置模型檢查點(diǎn)是指定期將模型參數(shù)快照保存至持久存儲(chǔ)的做法。這些檢查點(diǎn)能確保當(dāng)硬件發(fā)生故障時(shí)，訓(xùn)練任務(wù)可以從最后一個(gè)確認(rèn)無(wú)誤的狀態(tài)繼續(xù)運(yùn)行，同時(shí)它們也提供了帶版本標(biāo)記的模型文件。

若每次高達(dá)數(shù)十或數(shù)百 GB 的大規(guī)模檢查點(diǎn)寫(xiě)入操作通過(guò)前端以太網(wǎng)傳輸，可能與其他非關(guān)鍵流量沖突，引發(fā)擁塞并導(dǎo)致不必要的訓(xùn)練中斷。為避免這種問(wèn)題，AI 訓(xùn)練集群可將專用的高速存儲(chǔ)直接接入后端網(wǎng)絡(luò)：

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

當(dāng)訓(xùn)練系統(tǒng)直接依賴于特定系統(tǒng)時(shí)，將其部署在后端網(wǎng)絡(luò)是合理的舉動(dòng)

在這種架構(gòu)下，檢查點(diǎn)相關(guān)操作作為附加的東西向流量，全程在后端網(wǎng)絡(luò)內(nèi)傳輸。

03 混合專家模型訓(xùn)練與網(wǎng)絡(luò)影響

我們通過(guò)一個(gè)真實(shí)案例來(lái)鞏固理解。

訓(xùn)練大語(yǔ)言模型需要密集的東西向通信，因?yàn)楣ぷ髫?fù)載會(huì)分布在數(shù)萬(wàn)甚至數(shù)十萬(wàn)個(gè) GPU 上。 這些 GPU 需要頻繁交換梯度更新，以確保模型的學(xué)習(xí)進(jìn)程保持一致，并最終收斂到準(zhǔn)確的輸出結(jié)果。

這種多并行方法的典型代表是 DeepSeek-V3 混合專家模型。

DeepSeek 通過(guò)組合使用數(shù)據(jù)并行、流水線并行和專家并行等策略來(lái)分配訓(xùn)練負(fù)載。

數(shù)據(jù)并行將數(shù)據(jù)拆分到多個(gè) GPU 上，每個(gè) GPU 獨(dú)立處理其數(shù)據(jù)分片后，再同步更新到共享模型：

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

Source:??https://www.anyscale.com/blog/what-is-distributed-training?? ，可將“worker”視為一組 GPU

流水線并行將模型拆分到多個(gè) GPU 上，每個(gè) GPU 負(fù)責(zé)處理一部分網(wǎng)絡(luò)層并傳遞中間結(jié)果：

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

Source:??https://colossalai.org/docs/concepts/paradigms_of_parallelism/??

專家并行將模型劃分為多個(gè)專家（即神經(jīng)網(wǎng)絡(luò)的子模塊），并將這些專家分布到不同的 GPU 上。在處理每個(gè)詞元時(shí)，只激活其中的少數(shù)幾個(gè)專家，以此來(lái)減少計(jì)算量：

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

Source:??https://aihub.hkuspace.hku.hk/2024/05/24/accelerate-mixtral-8x7b-pre-training-with-expert-parallelism-on-amazon-sagemaker/??

我們可以從中得出什么結(jié)論？

每種策略都將問(wèn)題分解，使得每個(gè) GPU 僅處理部分網(wǎng)絡(luò)和訓(xùn)練數(shù)據(jù)。因此需要頻繁的 GPU 間通信來(lái)保持同步，確保模型更新的一致性。

另外——現(xiàn)實(shí)情況十分復(fù)雜！數(shù)據(jù)并行、流水線并行和專家并行的相互作用會(huì)產(chǎn)生重疊通信，必須仔細(xì)管理以避免阻塞。

每種策略都會(huì)產(chǎn)生獨(dú)特的東西向流量模式。我們來(lái)逐層分析其帶來(lái)的網(wǎng)絡(luò)壓力。

3.1 數(shù)據(jù)并行：全局同步

在數(shù)據(jù)并行中，每個(gè) GPU 處理一個(gè)不同的數(shù)據(jù) mini-batch，在每個(gè)訓(xùn)練步之后，都會(huì)將其學(xué)習(xí)進(jìn)度與其他 GPU 共享。因此，這些 GPU 必須執(zhí)行一次“全歸約”操作，來(lái)平均梯度和同步權(quán)重 —— 這是一個(gè)集合通信操作，需要每個(gè) GPU 都交換數(shù) GB 的數(shù)據(jù)。

由于此操作在每一步都會(huì)發(fā)生且阻塞訓(xùn)練進(jìn)程，其對(duì)延遲極其敏感。

你可以想象，在每一個(gè)訓(xùn)練步結(jié)束后，當(dāng)數(shù)據(jù)同時(shí)通過(guò)后端網(wǎng)絡(luò)進(jìn)行傳輸時(shí)，這會(huì)給整個(gè)系統(tǒng)帶來(lái)多大的網(wǎng)絡(luò)壓力：

GPU 網(wǎng)絡(luò)基礎(chǔ)，Part 2（MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)；什么是前、后端網(wǎng)絡(luò)；什么是東西向、南北向流量）-AI.x社區(qū)

每個(gè)節(jié)點(diǎn)都需與其他所有節(jié)點(diǎn)通信 —— 這意味著大量經(jīng)由交換機(jī)的通信

這種網(wǎng)絡(luò)壓力催生了技術(shù)創(chuàng)新。英偉達(dá)的 InfiniBand 技術(shù)結(jié)合 SHARP[2]（Scalable Hierarchical Aggregation and Reduction Protocol），支持在網(wǎng)絡(luò)內(nèi)部完成數(shù)據(jù)聚合運(yùn)算，從而最大限度地減少網(wǎng)絡(luò)流量和延遲。這是網(wǎng)絡(luò)交換機(jī)本身在執(zhí)行計(jì)算任務(wù)！

可參考英偉達(dá)這段精彩的兩分鐘解析：??https://youtu.be/uzYZP_z_5WE??

通過(guò)讓交換機(jī)執(zhí)行計(jì)算任務(wù)來(lái)減少網(wǎng)絡(luò)流量，是英偉達(dá)系統(tǒng)級(jí)思維的典范 —— 即在人工智能數(shù)據(jù)中心層面進(jìn)行創(chuàng)新。

總之，數(shù)據(jù)并行顯然是網(wǎng)絡(luò)密集型的訓(xùn)練方式，需要健壯、低延遲、高吞吐的網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)高效擴(kuò)展。

3.2 流水線并行：鏈?zhǔn)揭蕾?/h3>
流水線并行將模型按網(wǎng)絡(luò)層拆分到多個(gè) GPU 上，每個(gè) GPU 負(fù)責(zé)前向傳播和反向傳播的不同階段。激活值逐級(jí)向前傳遞，而梯度則沿相反方向流動(dòng)。這就形成了一系列嚴(yán)格的依賴關(guān)系：每個(gè) GPU 必須等待前一階段的輸入才能開(kāi)始計(jì)算，隨后將結(jié)果傳遞至下一階段。
網(wǎng)絡(luò)擁塞造成的任何延遲都會(huì)阻塞整個(gè)流水線。為最大限度避免此問(wèn)題，流水線各階段必須部署在物理位置鄰近的節(jié)點(diǎn)上，以減少跳數(shù)并避開(kāi)擁堵的網(wǎng)絡(luò)路徑。因此，流水線并行依賴拓?fù)涓兄{(diào)度（topology-aware scheduling）來(lái)維持穩(wěn)定的吞吐量。

3.3 專家并行：非均勻流量

專家并行引入了不同的通信模式：它將單個(gè)詞元路由到少數(shù)特定的專家。這些專家是位于不同 GPU 上的子神經(jīng)網(wǎng)絡(luò)，每個(gè)輸入僅激活其中少數(shù)幾個(gè)。一個(gè)詞元可能被分發(fā)到專家 3 和專家 12，而這兩個(gè)專家可能位于不同節(jié)點(diǎn)的 GPU 上。

這種設(shè)置會(huì)導(dǎo)致不規(guī)則且突發(fā)的通信模式。部分 GPU 可能接收大量詞元，而其他 GPU 則基本處于閑置狀態(tài)。由此產(chǎn)生的流量具有非均勻特性，且隨每批數(shù)據(jù)動(dòng)態(tài)變化。

由于通信行為非確定性，這也增加了系統(tǒng)規(guī)劃與調(diào)試的復(fù)雜度。

軟件層面需進(jìn)行大量工作以實(shí)現(xiàn)專家間的負(fù)載均衡。深度求索分享了其策略與代碼[3]：

如 DeepSeek-V3 論文所述，我們采用冗余專家策略對(duì)高負(fù)載專家進(jìn)行復(fù)制，并通過(guò)啟發(fā)式方法將復(fù)制的專家分配至 GPU，確保不同 GPU 間的負(fù)載均衡。此外，得益于 DeepSeek-V3 使用的分組限制專家路由（group-limited expert routing）機(jī)制，我們盡可能將同組專家部署在同一節(jié)點(diǎn)，以減少節(jié)點(diǎn)間的數(shù)據(jù)流量。

3.4 整體協(xié)同

每種并行策略本身都對(duì)系統(tǒng)有著嚴(yán)苛的要求。后端網(wǎng)絡(luò)必須同時(shí)支撐三種不同類型的壓力：

全局性的集合通信操作（數(shù)據(jù)并行）
同步鏈?zhǔn)搅鳎魉€并行）
稀疏的、突發(fā)性的跨 GPU 調(diào)度（專家并行）

這些網(wǎng)絡(luò)任務(wù)會(huì)同時(shí)發(fā)生：激活值在流水線中逐級(jí)傳遞，梯度全還原操作同步啟動(dòng)，而被選定要參與計(jì)算的存放著專家模型的 GPU 會(huì)主動(dòng)請(qǐng)求獲取它們需要處理的詞元數(shù)據(jù)。后端網(wǎng)絡(luò)必須能吸納這種混亂的并發(fā)流量，且不降低性能。

04 理解 DeepSeek 的技術(shù)突破

理解了 MoE 訓(xùn)練中的網(wǎng)絡(luò)挑戰(zhàn)，我們便能體會(huì) DeepSeek 如何通過(guò)精密的系統(tǒng)設(shè)計(jì)來(lái)規(guī)避擁塞的深思熟慮。

從其 V3 技術(shù)報(bào)告中可見(jiàn)：

通過(guò)算法、框架與硬件的協(xié)同設(shè)計(jì)，我們克服了跨節(jié)點(diǎn) MoE 訓(xùn)練中的通信瓶頸，實(shí)現(xiàn)了計(jì)算與通信的近乎完全重疊。這大大提升了訓(xùn)練效率，同時(shí)降低了成本，使我們能夠在不增加額外開(kāi)銷的前提下進(jìn)一步擴(kuò)展模型規(guī)模。

他們是如何做到的呢？還記得我們上次探討的那些計(jì)算與通信創(chuàng)新[4]嗎？再次引用 DeepSeek 的分享：

為高效訓(xùn)練 DeepSeek-V3，我們實(shí)施了精細(xì)的工程優(yōu)化。首先，我們?cè)O(shè)計(jì)了 DualPipe 算法來(lái)優(yōu)化流水線并行。與現(xiàn)有 PP 方法相比，DualPipe 的流水線氣泡（譯者注：指的是在流水線并行處理中，由于階段之間未能完全緊密銜接而出現(xiàn)的空閑等待時(shí)間，是影響大規(guī)模分布式訓(xùn)練效率的關(guān)鍵瓶頸之一。）更少。更重要的是，它通過(guò)重疊前后向過(guò)程的計(jì)算與通信階段，解決了跨節(jié)點(diǎn)專家并行帶來(lái)的沉重通信開(kāi)銷挑戰(zhàn)。其次，我們開(kāi)發(fā)了高效的跨節(jié)點(diǎn)全交換通信內(nèi)核，充分利用 IB 和 NVLink 帶寬，并節(jié)省專用于通信的流式多處理器資源。最后，我們精細(xì)優(yōu)化了訓(xùn)練期間的顯存占用，使得無(wú)需使用昂貴的張量并行也能訓(xùn)練 DeepSeek-V3。

其他 AI 實(shí)驗(yàn)室必然也在全力攻克網(wǎng)絡(luò)擁塞難題。盡管它們不像 DeepSeek 那樣受限于 H800 的帶寬約束，但同樣要應(yīng)對(duì)復(fù)雜的并行策略與網(wǎng)絡(luò)壓力。不過(guò)我們還是要特別向 DeepSeek 致敬，因?yàn)樗麄儫o(wú)私分享了這些技術(shù)洞見(jiàn)。

END

本期互動(dòng)內(nèi)容 ??

?你覺(jué)得在未來(lái)，是算力會(huì)先遇到天花板，還是網(wǎng)絡(luò)通信會(huì)先成為 AI 發(fā)展的最大瓶頸？

文中鏈接

[1]??https://developer.nvidia.com/cluster-management??

[2]??https://resources.nvidia.com/en-us-accelerated-networking-resource-library/network-computing-nvidia-sharp??

[3]??https://github.com/deepseek-ai/EPLB??

[4]??https://www.chipstrat.com/p/dispelling-deepseek-myths-studying??

本文經(jīng)原作者授權(quán)，由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文，請(qǐng)聯(lián)系獲取授權(quán)。

原文鏈接：

??https://www.chipstrat.com/p/gpu-networking-basics-part-2??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊 1

收藏 1

回復(fù)

舉報(bào)

社區(qū)頭條

熱門(mén)內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

什么是LLMOps?

zhcs333 ? 5767瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的通用訓(xùn)練流程

AI探索時(shí)代 ? 4340瀏覽 ? 0回復(fù)
你知道神經(jīng)網(wǎng)絡(luò)是怎么運(yùn)作的嗎？神經(jīng)網(wǎng)絡(luò)內(nèi)部原理解析

AI探索時(shí)代 ? 3975瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時(shí)代 ? 5770瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！

人工智能訓(xùn)練營(yíng) ? 3481瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了！

人工智能訓(xùn)練營(yíng) ? 2948瀏覽 ? 0回復(fù)
什么是序列到序列(Seq2Seq)模型？以及為什么圖像理解領(lǐng)域主要使用的是CNN網(wǎng)絡(luò)而不是Transformer網(wǎng)絡(luò)？

AI探索時(shí)代 ? 3057瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)框架——PyTorch和架構(gòu)Transformer的區(qū)別和聯(lián)系

AI探索時(shí)代 ? 4287瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的？

AI探索時(shí)代 ? 2956瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了反向傳播詳解

人工智能訓(xùn)練營(yíng) ? 3445瀏覽 ? 0回復(fù)
再談什么是神經(jīng)網(wǎng)絡(luò)，透過(guò)現(xiàn)象看本質(zhì)

AI探索時(shí)代 ? 2741瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)RNN各層詳解及實(shí)例展示

人工智能訓(xùn)練營(yíng) ? 4479瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)：反向傳播如何更新網(wǎng)絡(luò)參數(shù)

人工智能訓(xùn)練營(yíng) ? 2391瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)：實(shí)戰(zhàn)-使用CNN進(jìn)行minst手寫(xiě)數(shù)據(jù)集分類

人工智能訓(xùn)練營(yíng) ? 1256瀏覽 ? 0回復(fù)
什么是混合專家模型——MoE(Mixture of Experts)

AI探索時(shí)代 ? 2125瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)—神經(jīng)網(wǎng)絡(luò)基本思想：曲線擬合器

人工智能訓(xùn)練營(yíng) ? 722瀏覽 ? 0回復(fù)
GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）

Baihai_IDP ? 1260瀏覽 ? 0回復(fù)
GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 3（LLM 訓(xùn)練過(guò)程的網(wǎng)絡(luò)通信；InfiniBand 真的是“封閉”技術(shù)嗎？）

Baihai_IDP ? 665瀏覽 ? 0回復(fù)
GPU 網(wǎng)絡(luò)基礎(chǔ)：訓(xùn)練中的通信、橫向擴(kuò)展、縱向擴(kuò)展、網(wǎng)絡(luò)架構(gòu)、交換機(jī)等

玄姐聊AGI ? 697瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

對(duì) GPT 5 模型路由機(jī)制的深度解析 2天前發(fā)布
AI 編程熱潮下的萬(wàn)字思考 —— 規(guī)避風(fēng)險(xiǎn)，善用其利 9天前發(fā)布

熱門(mén)推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

DeepSeek團(tuán)隊(duì)開(kāi)源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 1（橫向與縱向擴(kuò)展；訓(xùn)練中的通信環(huán)節(jié)...）

下一篇： GPU 網(wǎng)絡(luò)通信基礎(chǔ)，Part 3（LLM 訓(xùn)練過(guò)程的網(wǎng)絡(luò)通信；InfiniBand 真的是“封閉”技術(shù)嗎？）

社區(qū)精華內(nèi)容

目錄