字節(jié)跳動(dòng)開(kāi)源大模型訓(xùn)練框架veGiantModel ,性能最高提升6.9倍
近日,字節(jié)跳動(dòng)應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)開(kāi)源了一款名為 veGiantModel 的大模型訓(xùn)練框架,該訓(xùn)練框架主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域的大模型訓(xùn)練,最高可將大模型訓(xùn)練的性能提升6.9倍,大幅降低訓(xùn)練系統(tǒng)的壓力。目前,字節(jié)跳動(dòng)旗下的企業(yè)級(jí)技術(shù)服務(wù)平臺(tái)火山引擎已在其機(jī)器學(xué)習(xí)平臺(tái)上原生支持了 veGiantModel,該平臺(tái)正在公測(cè)中 。
自然語(yǔ)言處理是人工智能研究的一個(gè)重要領(lǐng)域,旨在幫助計(jì)算機(jī)理解、解釋和運(yùn)用人類語(yǔ)言。近些年,自然語(yǔ)言處理在應(yīng)用方面取得了較為顯著的突破,主要是歸功于 Bert、GPT、GPT-3 等預(yù)訓(xùn)練語(yǔ)言模型的普及。可以說(shuō),預(yù)訓(xùn)練語(yǔ)言模型已經(jīng)成為人工智能領(lǐng)域的基礎(chǔ)設(shè)施。由于大模型的算法表現(xiàn)更加出眾,預(yù)訓(xùn)練語(yǔ)言模型在近幾年呈現(xiàn)出迅速向大模型發(fā)展的趨勢(shì)。然而,模型體積的快速增長(zhǎng)也對(duì)現(xiàn)有的訓(xùn)練系統(tǒng)帶來(lái)了不小的挑戰(zhàn),主要體現(xiàn)為顯存壓力、計(jì)算壓力和通信壓力。
針對(duì)現(xiàn)有訓(xùn)練系統(tǒng)在大模型訓(xùn)練場(chǎng)景下的上述挑戰(zhàn), 字節(jié)跳動(dòng)應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)提出了大模型訓(xùn)練框架 veGiantModel。
veGiantModel的中文名稱叫做火山引擎大模型訓(xùn)練框架,是基于開(kāi)源深度學(xué)習(xí)框架 PyTorch 、并在 Megatron 和 DeepSpeed 兩大開(kāi)源主流訓(xùn)練框架的基礎(chǔ)之上構(gòu)建的高性能大模型訓(xùn)練框架。
veGiantModel 可同時(shí)支持?jǐn)?shù)據(jù)并行、算子切分、流水線并行 3 種分布式并行策略,并支持自動(dòng)化和定制化的并行策略;基于字節(jié)自研的高性能異步通訊庫(kù) ByteCCL,veGiantModel 的訓(xùn)練任務(wù)吞吐相比其他主流開(kāi)源框架有 1.2 倍到 3.5倍的提升,并且提供了更友好、靈活的流水線支持,降低了模型開(kāi)發(fā)迭代所需要的人力;另外,veGiantModel 可在 GPU 上高效地支持?jǐn)?shù)十億至上千億參數(shù)量的大模型,對(duì)網(wǎng)絡(luò)帶寬要求也更低,在私有化部署時(shí)無(wú) RDMA 強(qiáng)依賴。

與 Megtraon 和 DeepSpeed 的對(duì)比測(cè)試顯示,veGiantModel 的性能表現(xiàn)最好、受網(wǎng)絡(luò)帶寬影響最小,在Tesla V100上較上述兩者有1.2 倍到3.5倍的提升,在 Ampere A100上最高可提升6.9倍。
veGiantModel開(kāi)源 地址:
????https://github.com/volcengine/veGiantModel????
火山引擎機(jī)器學(xué)習(xí)平臺(tái) 公測(cè)地址:
??https://www.volcengine.com/product/ml-platform??



































