DeepSeek開源第二日!全球首個(gè)開源 EP 通信庫,MoE 訓(xùn)練算力省了!
原創(chuàng)DeepSeek開源第二日!又是重磅炸彈——DeepEP。
這可是用于 MoE 模型訓(xùn)練和推理的全球首個(gè)開源 EP 通信庫!
今天的開源項(xiàng)目仍然圍繞著GPU資源優(yōu)化的主題,看來DS真的很懂怎么榨干英偉達(dá)芯片的算力。
??特點(diǎn):
1??高效、優(yōu)化的全對(duì)全通信(All-to-All Communication)
2??利用 NVLink 和 RDMA 支持節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間通信
3??用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核
4??用于推理解碼的低延遲內(nèi)核
5??本機(jī) FP8 調(diào)度支持
6??用于計(jì)算-通信重疊的靈活 GPU 資源控制
??DeepEP通信庫是什么:
首先來看EP,EP(Expert Parallelism)是一種并行計(jì)算方法,專門用于稀疏專家(MoE, Mixture of Experts)模型的訓(xùn)練和推理。MoE 模型會(huì)根據(jù)輸入數(shù)據(jù)選擇性地激活部分專家(Experts),而不是讓所有參數(shù)都參與計(jì)算,這樣可以在保持較大模型容量的同時(shí)提高計(jì)算效率。
EP(Expert Parallelism)本身的難點(diǎn)主要來自 MoE(Mixture of Experts)模型的動(dòng)態(tài)計(jì)算分配,MoE 訓(xùn)練不同于普通 Transformer 訓(xùn)練,由于專家被分散在多個(gè) GPU 上,大量數(shù)據(jù)需要跨 GPU 傳輸,導(dǎo)致 All-to-All(全對(duì)全)通信 成為瓶頸。
EP 通信庫是專門為 MoE 模型設(shè)計(jì)的高效通信庫,優(yōu)化了專家之間的數(shù)據(jù)傳輸,主要用于 訓(xùn)練和推理時(shí)的分布式計(jì)算加速。MoE 需要?jiǎng)討B(tài)選擇激活的專家,EP 通信庫可以高效地在不同 GPU/節(jié)點(diǎn)之間分配計(jì)算任務(wù)。
??意義:
傳統(tǒng)的模型并行方式(如張量并行 TP、流水線并行 PP)無法很好地處理 MoE 模型的動(dòng)態(tài)專家選擇,而 EP 專門針對(duì) MoE 進(jìn)行優(yōu)化,能提高計(jì)算利用率、減少 GPU 閑置,并讓更大的 MoE 模型訓(xùn)練和推理變得更加高效。
眾所周知,DeepSeek才是真正的“OpenAI”!
有了這一波的技術(shù)分享,相信我們“揭開 AGI 的神秘面紗”的那一天又近了一步。