支撐AI的高性能數(shù)據(jù)中心網絡架構如何設計?
近日,工信部印發(fā)《促進新一代人工智能產業(yè)發(fā)展三年行動計劃(2018-2020年)》,意在加快人工智能從戰(zhàn)略到落地,推動人工智能和實體經濟深度融合。在新工業(yè)革命的背景下,大數(shù)據(jù)、計算力、算法等快速迭代,正驅動人工智能進入新階段。2017年Q3,全球AI公司融資金額突破77億美元,是2012年的70余倍??赡軙腥苏f這是“泡沫”,而我更愿意相信這是人工智能發(fā)展的必然結果。
在AI技術的應用過程中,各個企業(yè)都在尋找能夠更好支撐高性能計算的基礎網絡解決方案。在《數(shù)據(jù)中心基礎網絡架構***實踐及未來發(fā)展趨勢》這篇文章中,我分享了如何設計一個穩(wěn)定可靠的數(shù)據(jù)中心網絡,下面我們再來探討支撐AI應用的高性能無損網絡應該如何設計。
前面提到大數(shù)據(jù)、計算力、算法等快速迭代,正驅動人工智能進入新階段,而這些技術的實現(xiàn)對網絡的低時延、無丟包、高性能這三個方面提出更高要求。
▲ AI應用的技術體系及對數(shù)據(jù)中心網絡的要求
高性能和無丟包比較好理解,就是指網絡帶寬性能的提升以及網絡中不存在擁塞導致的丟包。產生時延的環(huán)節(jié)較多,要實現(xiàn)端到端的低時延,需要多角度分析:
其中,光電傳輸時延和數(shù)據(jù)串行時延相對較小,且很難通過架構設計來優(yōu)化,我們應重點關注主機處理時延和設備轉發(fā)時延。在各大企業(yè)積極尋求的高性能計算方案中,基于以太網的RDMA(Remote Direct Memory Access)憑借其高性能和低成本優(yōu)勢逐漸取代InfiniBand而成為主流技術。RoCEv2(RDMA over Converged Ethernet)技術基于UDP協(xié)議,對于建設支撐AI應用的高性能無損以太網絡變得尤為重要。
結合設備轉發(fā)層面的時延優(yōu)化手段,高性能無損網絡的實現(xiàn)取決于兩個要素:
- 無帶寬收斂(1:1)的網絡架構設計
- 基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)功能的優(yōu)先隊列管理和擁塞管理
綜上,AI集群高性能計算和網絡方案實踐思路如下圖所示:
▲ AI集群高性能方案關鍵技術組合
在這里,我以25G網絡為例,結合業(yè)界主流產品形態(tài),分享AI網絡架構設計和實現(xiàn)思路。
主要設計理念:
- 核心設備全線速高性能轉發(fā),核心之間不互聯(lián),采用Fabric架構,隔離核心故障,***程度降低核心故障的影響;
- 三層路由組網,通過ECMP提高冗余度,降低故障風險;
- TOR上下行收斂比嚴格實現(xiàn)1:1,通過提高核心設備接口密度擴展單集群服務器規(guī)模;
- 應用PFC+ECN功能,實現(xiàn)低延時無損網絡。
網絡架構設計:
1. 中小型(集群規(guī)模1000臺)
▲ 架構設計
架構特性:
- 每臺TOR采用8*100GE上聯(lián)8臺32口100G BOX交換機,OSPF/BGP組網
- 適用集群規(guī)模1000臺
- 每臺TOR下聯(lián)32臺Servers,IDC內收斂比1:1 ,集群帶寬25Tbps
2. 中型(集群規(guī)模2000臺)
▲ 架構設計
架構特性:
- 每臺TOR采用8*100GE上聯(lián)8臺64口100G BOX,OSPF/BGP組網
- 適用集群規(guī)模2000臺
- 每臺TOR下聯(lián)32臺Servers,IDC內收斂比1:1 ,集群帶寬50Tbps
3. 大型(集群規(guī)模2000-18000臺)
▲ 架構設計
架構特性:
- 每臺TOR采用8*100GE上聯(lián)4~8臺核心(機框式),BGP組網
- 適用集群規(guī)模2000~18000臺
- 每臺TOR下聯(lián)32臺Servers,IDC內收斂比1:1 ,集群帶寬50~450Tbps
4. 超大型(集群規(guī)模20000+臺)
▲ 架構設計
架構特性:
- 單POD集群規(guī)模1000~2000臺,數(shù)據(jù)中心集群規(guī)模20000+,BGP組網
- POD內收斂比1:1,單POD集群帶寬25Tbps,總集群帶寬500Tbps+
- POD內收斂比和上行帶寬根據(jù)集群帶寬需求靈活配置,適用與非AI應用混合部署
在數(shù)據(jù)中心網絡中,PFC和ECN功能將部署在Leaf和Spine設備上。PFC作用于設備互聯(lián)端口,通過反壓影響上游端口隊列的發(fā)送速率,而ECN是作用在設備轉發(fā)過程,最終影響的是數(shù)據(jù)流的發(fā)送方,通過降低某條數(shù)據(jù)流發(fā)送速率規(guī)避數(shù)據(jù)丟包。
- PFC 機制將以太鏈路上的流量區(qū)分為不同的等級,基于每條流量單獨發(fā)送“不許可證”。相對于PAUSE幀而言,PFC可以將鏈路虛擬出8條不同等級的虛擬通道,當某條通道出現(xiàn)擁塞后不會影響其它通道。
- RoCEv2 定義了 RoCEv2 Congestion Management ( RCM ),其中擁塞管理用的特性ECN(RFC 3168)是在交換機出口(egress port)發(fā)起的擁塞控制機制。當交換機的出口buffer達到設定的閾值時,交換機會改變數(shù)據(jù)包頭中的ECN位來給數(shù)據(jù)打上ECN標簽,當帶ECN標簽的數(shù)據(jù)到達接收端以后,接收端會生成CNP(Congestion Notification Packet)并將它發(fā)送給發(fā)送端。CNP包含了導致?lián)砣膄low或QP的信息,當發(fā)送端收到CNP后,會采取措施降低發(fā)送速度。
- 由于PFC作用于整個隊列,而ECN只針對產生擁塞的具體會話,在設置PFC和ECN相關水線時,應做到先觸發(fā)ECN后再觸發(fā)PFC。
從外賣訂單和叫車訂單的智能調度,到電商平臺的智能推薦,再到人臉識別支付以及即將實現(xiàn)的全自動無人駕駛汽車量產,AI技術的應用已在方方面面影響著人們的生活和工作,讓大家的生活越來越便捷、時間利用越來越合理。但是,這都離不開基礎設施的支撐。銳捷網絡將憑借在數(shù)據(jù)通信領域近20年的技術積累和行業(yè)經驗,創(chuàng)新出更好的產品和解決方案,助力AI技術的蓬勃發(fā)展。