如何“神還原”數(shù)據(jù)中心? 阿里聯(lián)合NTU打造了工業(yè)級精度的仿真沙盤!
如何保障數(shù)據(jù)中心的穩(wěn)定運行,是多年來一直困擾業(yè)界的難題。機房環(huán)境如果發(fā)生未預(yù)期變化,可能造成難以估計的損失。所以我們希望能構(gòu)建一個“變更沙盤”,在真實變更之前,操作人員可以先在沙盤中進行試變更,若變更效果在預(yù)期內(nèi),再對真實環(huán)境進行變更,從而盡可能減少變更導(dǎo)致的機房故障。
近期,阿里巴巴-南大聯(lián)合研究院聯(lián)合實現(xiàn)并上線完成了一個高精度,可連接實時監(jiān)控系統(tǒng)、基于 CFD 的變更沙盤系統(tǒng)。本系統(tǒng)在 off-the-shelf CFD 軟件上實現(xiàn)了工業(yè)級精度的變更沙盤測試和驗證。今天,我們就來觀摩這個從零到一的嘗試。
項目背景
隨著阿里巴巴業(yè)務(wù)不斷拓展,其數(shù)據(jù)中心規(guī)模也越來越大。相應(yīng)地,數(shù)據(jù)中心內(nèi)的日常演練、運營優(yōu)化等變更操作越來越頻繁;而規(guī)模增加導(dǎo)致環(huán)境的復(fù)雜程度呈指數(shù)增長,變更是否可能導(dǎo)致故障,僅憑專家經(jīng)驗,已經(jīng)越來越難以判斷。同時,數(shù)據(jù)中心變更故障可能造成的業(yè)務(wù)影響也越來越大,可能造成的損失已難以估計。所以,機房運營人員急需一個標準化的、可靠的機房變更安全驗證系統(tǒng),幫助他們獲知變更產(chǎn)生的具體效果會是如何,是否影響生產(chǎn)安全,是否有更合理的變更建議。
對于電力變更,可以從電力拓撲圖著手構(gòu)建變更沙盤。但暖通變更,涉及到氣流組織變化、熱力變化,這些東西看不見也摸不著,傳統(tǒng)的方式難以模擬出現(xiàn)實世界中的變化。IDC 運營優(yōu)化團隊對此進行了一系列調(diào)研工作,認為利用計算流體力學(xué)(ComputationalFluid Dynamics,簡稱 CFD)進行機房仿真是較為可能達到生產(chǎn)標準的一種方式。
現(xiàn)有的類似的解決方案
利用計算流體力學(xué)(Computational Fluid Dynamics,簡稱 CFD)進行機房仿真是檢查不同變更對機房的熱力學(xué)影響的通用解決方案。CFD 建??梢酝ㄟ^搭建物理模型,載入現(xiàn)實中的熱力學(xué)設(shè)置(冷熱量,空調(diào) server 風(fēng)速等)來計算一個包間內(nèi)部的氣流分布和溫度情況。CFD 模擬有較為成熟的技術(shù)積累,并被廣泛應(yīng)用與熱力學(xué)和空氣動力學(xué)領(lǐng)域。在數(shù)據(jù)中心領(lǐng)域,也有從包間到芯片級的 CFD 模擬應(yīng)用。但由于其精度限制,一般只用于前期設(shè)計和規(guī)劃。
數(shù)據(jù)中心包間流線圖
應(yīng)用 CFD 建立沙盤系統(tǒng)的挑戰(zhàn):
1)現(xiàn)有商業(yè) CFD 軟件可以根據(jù)對包間進行仿真,得到機房的熱力分布、氣流動向。但該軟件通常應(yīng)用于設(shè)計階段,采用設(shè)計階段的粗略數(shù)據(jù)進行模擬,對真實操作情況的還原度較低,溫度預(yù)測精度僅能達到 3 度或以上,不能滿足用于變更沙盤的精度需求。
2)當(dāng)前 CFD 軟件以人工交互為主,缺少對自動化操作的支持,不能滿足自動獲取數(shù)據(jù)和返回結(jié)果的需求。大量的操作只能通過人機交互進行,效率低下。
3)建模所需要的數(shù)據(jù)真實性問題。由于模型的準確性與其所采用的模擬設(shè)置與實際是否一致息息相關(guān),因此獲取的模擬設(shè)置信息(如功耗,空調(diào)設(shè)置信息等)準確性非常關(guān)鍵。通常這些信息是在設(shè)計階段確定的,也有部分是運行時獲得的。這些數(shù)據(jù)只有進行精細的核實才能保證建模的精度(反過來建模的過程可以反推設(shè)計實施情況和數(shù)據(jù)的標準化過程)。
我們的解決方案
阿里巴巴聯(lián)合新加坡南洋理工大學(xué)(NTU)計算機科學(xué)與工程學(xué)院文勇剛教授團隊,依托阿里巴巴-南大聯(lián)合研究院平臺,通過接近 1 年的研究,開發(fā)和測試,實現(xiàn)并上線完成了一個高精度,可連接實時監(jiān)控系統(tǒng)的基于 CFD 的變更沙盤系統(tǒng)。本系統(tǒng)在 off-the-shelf CFD 軟件上實現(xiàn)了工業(yè)級精度的變更沙盤測試和驗證。
本次項目選定了某個機房包間作為技術(shù)試點,并在對該機房的物理建模,模型校準和工程落地上進行了緊密合作。
1)物理建模:
該過程主要將包間內(nèi)各物理結(jié)構(gòu)設(shè)置到模型,提供仿真基礎(chǔ)。以達到***還原度為準則,我們實現(xiàn)了下面所述方面的建模操作:
- 
    
結(jié)構(gòu)建模:對機房結(jié)構(gòu)、墻、通風(fēng)口、天花板、管道進行設(shè)置
 - 
    
IT 部署建模:機列、機柜、機位設(shè)置
 - 
    
環(huán)境建模:空調(diào)設(shè)備、傳感器設(shè)置
 - 
    
設(shè)備建模:按廠商型號導(dǎo)入服務(wù)器模型
 
2)模型校準
模型校準的主要原則需要達到下述 3 個方面的真實還原:
- 
    
機房冷熱溫度來源:校準中需要確認模型中冷熱量與實際一致。
 - 
    
機房氣流變化原因:校準中需要保證冷熱風(fēng)氣流與實際一致。
 - 
    
溫度測量數(shù)據(jù):校準中需要保證模型預(yù)測溫度與實際一致。
 
為了保證模型可以到工業(yè)級精度,項目團隊進行了大量的數(shù)據(jù)核準和模型調(diào)整工作。這些工作全方位地對整個機房的相關(guān)信息和設(shè)置進行了梳理和核實,并形成了完整的標準化校準文檔,為以后建模推廣打下了堅實的基礎(chǔ)。這些校準操作可以分為 2 類:
第 1 類:數(shù)據(jù)核準
- 
    
服務(wù)器核準(包含:少數(shù)服務(wù)器U位沖突、服務(wù)器功耗校準)
 - 
    
傳感器核準(包含:空調(diào)供風(fēng)溫度、轉(zhuǎn)速和冷熱通道傳感器位置、數(shù)據(jù))
 
第 2 類:模型調(diào)整
- 
    
熱氣泄露設(shè)置調(diào)整,熱氣泄露會導(dǎo)致冷通道溫度升高。
 - 
    
機柜模擬模式調(diào)整,設(shè)置為細粒度模擬模式。
 - 
    
Server 風(fēng)量設(shè)置調(diào)整,精確設(shè)置 server 風(fēng)速以符合實際需求。
 
依托大量的傳感器數(shù)據(jù),通過上述校準操作,最終模型達到了設(shè)計階段 CFD 使用未有過的精度。這些精度來源于我們精確地還原各項硬件的布置,各個操作的數(shù)據(jù)核準和細粒度的 server 風(fēng)速校準。
3)工程落地
如圖所示為沙盤系統(tǒng)的流程圖。在模型達到預(yù)期精度后,團隊進一步解決了 CFD 模擬的自動化問題。通過接入阿里巴巴自研的數(shù)據(jù)中心實時監(jiān)控系統(tǒng)(DCIM),我們獲取到實時的服務(wù)器功耗、空調(diào)出風(fēng)溫度和風(fēng)機轉(zhuǎn)速等數(shù)據(jù),通過 6Sigma 開放 SDK 將數(shù)據(jù)寫入 CFD 模型,從而使得模型能夠?qū)崟r模擬包間內(nèi)真實情況。此外,一旦仿真計算完成后,我們將計算結(jié)果從模型中導(dǎo)出,回傳到監(jiān)控系統(tǒng),從而完成一次仿真計算的閉環(huán)。
如此,我們實現(xiàn)了將沙盤系統(tǒng)整合進入 DCIM 系統(tǒng),并且全程操作可以自動化進行,為將來沙盤系統(tǒng)的應(yīng)用和推廣打下了堅實基礎(chǔ)。
最終成果:
1)精度達標:模型采用真實的監(jiān)控數(shù)據(jù)作為輸入,并計算模擬的目標傳感器測溫與實際的傳感器測溫之間的平均絕對誤差(MAE)來作為模型的準確性的測量依據(jù)。經(jīng)過長時間觀察(采用不同時刻的數(shù)據(jù)進行驗證),模型模擬精度均能達到阿里巴巴數(shù)據(jù)中心建設(shè)標準要求。理論上可以替代冷熱通道傳感器,進行數(shù)據(jù)中心生產(chǎn)包間環(huán)境監(jiān)控。
2)成功落地:目前該模型已經(jīng)成功接入 DCIM 系統(tǒng),可以自動從 DCIM 中抓取數(shù)據(jù),返回結(jié)果。當(dāng)前模擬的時耗為大約 1 小時,通過升級 6Sigma License 規(guī)格未來有希望提升到 10 分鐘。接入該實時 CFD 模擬系統(tǒng)意味著阿里自研 DCIM 系統(tǒng)成為世界上唯一有高精度實時 CFD 模擬模塊的數(shù)據(jù)中心云維管理系統(tǒng)。
變更沙盤系統(tǒng)的價值
包間可視化:由原來的 2D、數(shù)字的方式,升級為 3D、圖形數(shù)字結(jié)合的展現(xiàn)方式,包括實際布局、熱力情況、氣流情況,從而可以讓機房經(jīng)理與設(shè)施專家能更直觀、全面、迅速地了解機房的整體情況,更快發(fā)現(xiàn)包間暖通環(huán)境問題,輔助優(yōu)化現(xiàn)場供冷分配與氣流組織。
故障發(fā)現(xiàn):可以厘米級別監(jiān)測包間內(nèi)的溫度,快速發(fā)現(xiàn)溫升(局部熱點),從而具備更快、更強的風(fēng)險識別能力,防止出現(xiàn)大范圍的機房溫升事件。
設(shè)計驗證:建模過程所需要的物理設(shè)置信息通常決定于設(shè)計階段。建模過程中得到的誤差反饋信息可以直接驗證設(shè)計與實施的差別。
設(shè)計優(yōu)化(變更指引):沙盤系統(tǒng)可以模擬不同設(shè)計下數(shù)據(jù)中心的操作情況,從而可以用于設(shè)計上的優(yōu)化和數(shù)據(jù)中心變更的先驗平臺。
暖通控制推薦:可以通過嘗試不同空調(diào)設(shè)置應(yīng)用到當(dāng)前環(huán)境,得到溫度控制***、能耗***的空調(diào)設(shè)置,實現(xiàn)包間內(nèi)供冷可靠、智能的控制。
業(yè)務(wù)調(diào)度推薦:根據(jù)詳細的機房溫度分布情況,結(jié)合功耗水位數(shù)據(jù),可以向業(yè)務(wù)調(diào)度系統(tǒng)提供調(diào)度參考,使得業(yè)務(wù)分布更均勻,機房溫度分布也更加均勻,降低制冷能耗,提升服務(wù)器健康度。
未來展望
未來合作的方向之一是對變更沙盤系統(tǒng)進行產(chǎn)業(yè)級推廣和驗證,目標是做出業(yè)界標準。使得變更沙盤系統(tǒng)可以應(yīng)用與阿里數(shù)據(jù)中心的更多機房,去驗證設(shè)計和優(yōu)化管理控制。
未來,我們希望將系統(tǒng)沙盤推廣到整個暖通系統(tǒng),覆蓋到機房外的制冷設(shè)備,實現(xiàn)全鏈條模擬。從而實現(xiàn)整個制冷系統(tǒng)的設(shè)計驗證和控制優(yōu)化。
綜上,變更沙盤系統(tǒng)將可以顯著促進數(shù)據(jù)中心設(shè)計到運維的自動化水平,為實現(xiàn)更穩(wěn)定更高效的數(shù)據(jù)中心運維提供支撐。這是一次從零到一的嘗試,我們構(gòu)建了***個可實時的、高精度的暖通變更系統(tǒng),幫助數(shù)據(jù)中心運維人員能夠判斷一次變更是否可能造成故障,從而減少由變更導(dǎo)致的故障。進一步,我們可以給出具體的變更后環(huán)境變化,給出變更建議,甚至能夠?qū)崿F(xiàn)自動變更。如此,我們將離機房無人值守的目標越來越近。

















 
 
 





 
 
 
 