騰訊星脈網(wǎng)絡2.0升級 支持十萬卡超級集群
原創(chuàng)隨著人工智能技術(shù)的飛速發(fā)展,模型規(guī)模的不斷膨脹對底層算力提出了前所未有的挑戰(zhàn)。為了支撐AIGC領(lǐng)域中海量數(shù)據(jù)的大規(guī)模訓練,大量服務器通過高速網(wǎng)絡組成大規(guī)模算力集群,互聯(lián)互通,共同完成訓練任務。
然而,集群規(guī)模的擴大也伴隨著通信開銷的激增,成為制約計算效率的關(guān)鍵因素。在模型訓練過程中,GPU頻繁地在計算與等待數(shù)據(jù)同步之間切換,造成了寶貴計算資源的閑置。只有把提升通信的效率不斷提升、把通信成本占到降到最低,才能充分利用計算資源。因此,要充分發(fā)揮GPU計算資源的強大算力,必須構(gòu)建一個全新的高性能網(wǎng)絡底座,用高速網(wǎng)絡的大帶寬來助推整個集群計算的高效率。
2023年,騰訊云首次公開展示了其自研的星脈高性能計算網(wǎng)絡,全面提升企業(yè)大模型的訓練效率,在云上加速大模型技術(shù)的迭代升級和落地應用。一年后,星脈高性能計算網(wǎng)絡全面升級,升級后的星脈網(wǎng)絡2.0搭載全自研的網(wǎng)絡設(shè)備與AI算力網(wǎng)卡,支持超10萬卡大規(guī)模組網(wǎng),網(wǎng)絡通信效率比上一代提升60%,讓大模型訓練效率提升20%。
騰訊云副總裁王亞晨形象地比喻道,AI大模型就像是一場F1比賽,騰訊云專門設(shè)計了星脈高性能算力網(wǎng)絡“賽道”,并自研了TiTa和TCCL網(wǎng)絡協(xié)議作為“道路控制系統(tǒng)與專業(yè)車隊”,共同讓“騰訊云高性能計算集群HCC的GPU服務器”這臺馬力強大的F1賽車發(fā)揮最大的算力性能,助力客戶在AI大模型的競爭中遙遙領(lǐng)先。同時配備了專業(yè)的搶修隊,一旦故障發(fā)生,快速定位和搶救,讓賽事快速恢復運行。
騰訊云副總裁王亞晨
此次星脈網(wǎng)絡2.0就針對自研網(wǎng)絡設(shè)備、通信協(xié)議、通信庫以及運營系統(tǒng)四大關(guān)鍵組件進行了全面升級。
賽道升級-自研網(wǎng)絡硬件
通過自研網(wǎng)絡硬件設(shè)備,星脈網(wǎng)絡“賽道”也進行了全新升級。自研交換機容量從25.6T升級到51.2T,光模塊的速率從200G升級到了400G,讓網(wǎng)絡延遲降低40%,整體組網(wǎng)規(guī)模翻倍,同一訓練集群最大可支持超過10萬卡。同時支持可插拔控制卡,全面降低了低功耗與運維成本。
值得注意的是,星脈網(wǎng)絡2.0搭載了騰訊自研的全新算力網(wǎng)卡CNIC,這是公用云業(yè)內(nèi)首款為AI訓練設(shè)計的網(wǎng)卡,網(wǎng)卡采用最新一代 FPGA 芯片,整卡帶寬可達400Gbps,具備業(yè)界最高的3.2T整機通信帶寬。
指揮中心升級-自研通信協(xié)議TiTA
自研TITA協(xié)議相當于指揮中心,分配車流量,避免單一車道擁堵,釋放賽車速度極限。相比起上一代,TiTa協(xié)議2.0從部署在交換機轉(zhuǎn)移到了端側(cè)的網(wǎng)卡上,協(xié)議算法也從原來的被動擁塞算法升級到了更為智能的主動擁塞控制算法,可主動調(diào)整數(shù)據(jù)包發(fā)送速率,從而避免網(wǎng)絡擁堵;并通過擁堵智能調(diào)度,實現(xiàn)網(wǎng)絡擁塞快速自愈。這讓MoE訓練下網(wǎng)絡通信性能相比1.0提升30%,帶來訓練效率10%的提升。
車隊升級-集合通信庫TCCL
星脈網(wǎng)絡1.0的通信庫TCCL相當于智能導航系統(tǒng),縮短到達路徑。而星脈網(wǎng)絡2.0的TCCL通信庫就像一支更專業(yè)的車隊,原來只給車加了導航,現(xiàn)在可以根據(jù)不同的場景,對賽車本身進行改裝,讓賽車時刻處于最佳性能。TCCL 2.0 階段,騰訊云通過NVLINK+NET異構(gòu)并行通信、Auto-Tune Network Expert自適應算法等通信庫的升級,在MoE模型訓練下,給星脈網(wǎng)絡帶來了30%的通信效率提升,讓模型訓練效率提升10%。
搶修隊升級-運營系統(tǒng)GOM&GOA
運營系統(tǒng)是搶修隊,全棧網(wǎng)絡運營系統(tǒng)保障了道路的可用性,出現(xiàn)異常后第一時間搶修,讓網(wǎng)絡盡快恢復訓練。運營系統(tǒng)2.0新增靈境仿真平臺,通過收集訓練過程中的日志記錄與GPU相關(guān)信息,通過仿真模擬還原訓練任務的空間關(guān)系和通信的時序關(guān)系,定位大模型訓練的卡死和性能抖動類故障,定位效率從傳統(tǒng)手段的天級別縮短到10分鐘以內(nèi)。
面對GPU性能的暴增,網(wǎng)絡成為了集群算力的瓶頸。騰訊正在規(guī)劃星脈3.0,將基于以太網(wǎng)技術(shù)構(gòu)建開放、彈性的ETH-X超節(jié)點系統(tǒng),以突破集群算力的瓶頸,降低集群成本,為AI技術(shù)的進一步發(fā)展提供更強大的支持。