搞定災(zāi)難恢復(fù)規(guī)劃:實(shí)用性建議匯總
譯文
【2013年5月30日 51CTO外電頭條】災(zāi)難恢復(fù)規(guī)劃外加不間斷電源(簡稱UPS)、主機(jī)托管服務(wù)、數(shù)據(jù)鏡像、熱備份技術(shù)等常備方案的結(jié)合,已經(jīng)足以在理論上幫助基礎(chǔ)設(shè)施抵御任何自然之力的破壞。然而僅靠備份系統(tǒng)、復(fù)制規(guī)則以及快速故障切換解決方案三者就真能高枕無憂了嗎?
任何一位已經(jīng)實(shí)施了災(zāi)難恢復(fù)解決方案的數(shù)據(jù)中心經(jīng)理都清楚,意外情況永遠(yuǎn)無法徹底被根除。舉例來說,為了節(jié)約成本,發(fā)電機(jī)與本地本地協(xié)助設(shè)施都只能設(shè)計(jì)為支持某些服務(wù)的特定部分。也就是說當(dāng)停機(jī)事故發(fā)生時(shí),只有某些關(guān)鍵性功能可以繼續(xù)運(yùn)轉(zhuǎn)。為了確保意外情況根據(jù)實(shí)際事態(tài)始終處于控制之下,災(zāi)難恢復(fù)規(guī)劃能一直與動(dòng)態(tài)業(yè)務(wù)保護(hù)需求保持一致,我們將與大家分享以下幾項(xiàng)關(guān)注重點(diǎn)。
* 以精確數(shù)據(jù)指導(dǎo)應(yīng)急預(yù)案。我們首先需要正確理解正常情況下的設(shè)施功耗水平,并根據(jù)相應(yīng)數(shù)據(jù)對IT與設(shè)施進(jìn)行定位,從而確保珍貴的備用電力能在災(zāi)難發(fā)生時(shí)高效分配給最重要的環(huán)節(jié)。
技術(shù)供應(yīng)商當(dāng)然了解這一需求,他們在數(shù)據(jù)中心解決方案中加入了基準(zhǔn)電源管理機(jī)制,能夠幫助管理者查詢設(shè)備溫度及功耗水平,并利用各種監(jiān)視及控制工具把握現(xiàn)場情況。IT管理者得以借助這些創(chuàng)新技術(shù)以或簡單或復(fù)雜的方式進(jìn)一步提高災(zāi)難恢復(fù)效果。一般來說,管理者至少要能夠檢查空調(diào)機(jī)組的回流空氣溫度,并收集數(shù)據(jù)中心內(nèi)各機(jī)架的單獨(dú)功耗數(shù)據(jù)。
另外,全局能源及冷卻管理方案將基礎(chǔ)設(shè)施劃分為不同單元,借以嚴(yán)格把握各服務(wù)器進(jìn)風(fēng)溫度。出色的能源管理解決方案還可以匯總服務(wù)器的實(shí)時(shí)進(jìn)風(fēng)溫度以及數(shù)據(jù)中心整體的功耗水平。
全局能源管理方案能為我們提供實(shí)時(shí)及遠(yuǎn)期觀察結(jié)論。歸納得出的溫度與功耗數(shù)據(jù)可以通過整理形成發(fā)熱量及能源分配圖,幫助管理者以直觀方式把握數(shù)據(jù)中心內(nèi)的主要發(fā)熱點(diǎn)以及用電大戶。隨著時(shí)間的推移,這些數(shù)據(jù)將在趨勢分析工具的匯總下成為災(zāi)難規(guī)劃的重要依據(jù)。全局方案能根據(jù)實(shí)際用電數(shù)據(jù)提供非常精確的數(shù)據(jù)中心管理意見,并以此為基礎(chǔ)生成可供能源管理方案使用的理論模型。
*識別并保護(hù)高優(yōu)先級資源。擁有實(shí)時(shí)查看能源使用與溫度模式的能力,同時(shí)又具備長時(shí)間運(yùn)行所積累下來的豐富數(shù)據(jù),數(shù)據(jù)中心管理者得以借此識別哪些才是停電期間最需要優(yōu)先甚至是額外保護(hù)的關(guān)鍵性資源。關(guān)鍵資源中通常包括關(guān)鍵性業(yè)務(wù)員工團(tuán)隊(duì)的相關(guān)系統(tǒng)或者可能對高優(yōu)先級交易造成影響的重要應(yīng)用程序。
在日常運(yùn)維的基礎(chǔ)上,監(jiān)控機(jī)制保證數(shù)據(jù)中心管理者能以更積極的姿態(tài)應(yīng)對突發(fā)情況。只有盡早發(fā)現(xiàn)高熱區(qū)域,才能在溫度達(dá)到臨界水平之前及時(shí)處理,從而最大程度減少高溫對設(shè)備及用戶服務(wù)的負(fù)面影響或者讓預(yù)先準(zhǔn)備好的預(yù)防措施有用武之地。除此之外,高度關(guān)注功耗與溫度情況還能幫助大家識別哪些硬件能耗過高,并通過系統(tǒng)更替將能耗控制在合理范圍之內(nèi)。
這類解決方案不僅改善了信息直觀度,還能夠引進(jìn)更理想的電源控制機(jī)制。對電力的合理控制能夠避免停機(jī)事故--例如將溫度控制在較低水平--而且即將停機(jī)事故無法避免,方案也可以保證關(guān)鍵性業(yè)務(wù)系統(tǒng)始終擁有電力供給。作為災(zāi)難恢復(fù)解決方案的關(guān)鍵性組成部分,電源控制機(jī)制既避免本地協(xié)助設(shè)施將非必要性系統(tǒng)復(fù)制進(jìn)來,也有助于實(shí)現(xiàn)可用系統(tǒng)的最大化發(fā)揮。
這里我們介紹一種粗略的功率控制方法:將功耗主要提供給高優(yōu)先級服務(wù)器及相關(guān)空氣冷卻設(shè)備,這種處理方式在任何危機(jī)下都能發(fā)揮不錯(cuò)的能源節(jié)約效果。由于性能往往與功耗水平直接相關(guān),因此能源管理方案的智能化水平越高、IT人士就越能更好地以動(dòng)態(tài)方式在功耗與性能之間找到平衡點(diǎn)。
最理想的能源管理方案會通過對實(shí)際功耗的連續(xù)監(jiān)測獲取精確數(shù)據(jù),并利用動(dòng)態(tài)調(diào)整機(jī)制為CPU設(shè)定工作頻率,這才是最理想的平衡控制方式。解決方案與操作系統(tǒng)或者基于閾值警告的管理程序相交互,并最終將電力短缺狀況給應(yīng)用程序及終端用戶帶來的影響降到最低。
* 更好的災(zāi)難抵御能力。能源限制與節(jié)流機(jī)制能夠最大程度保證高優(yōu)先級業(yè)務(wù)應(yīng)用的可用性,反過來IT部門需要在電力供應(yīng)緊張時(shí)暫時(shí)禁用或者調(diào)低非關(guān)鍵性服務(wù)器的處理性能。作為對自然災(zāi)難的回應(yīng),這些控制手段能夠有效減少終端用戶與關(guān)鍵性應(yīng)用程序在災(zāi)難中受到的影響。
* 容量管理。能源管理解決方案在平衡功耗與性能之余,還能以其它方式增強(qiáng)基礎(chǔ)設(shè)施的災(zāi)難抵御能力。通過幫助數(shù)據(jù)中心架構(gòu)師深入了解功耗需求,這類解決方案能夠精確計(jì)算并提供理想的機(jī)架配置密度,最終在停電過程中盡量延長基礎(chǔ)設(shè)施的運(yùn)行時(shí)間。這部分調(diào)整不僅能提高停電期間運(yùn)轉(zhuǎn)組件的執(zhí)行效率,更能將UPS的續(xù)航壽命延長約25%--這一數(shù)字來自數(shù)據(jù)中心能源管理方案的概念驗(yàn)證測試。
最大的回報(bào)
停機(jī)事件帶來的高額損失正是很多企業(yè)投資部署全局性能源管理解決方案的最大動(dòng)力。然而除了應(yīng)急情況,這類方案也能從其它方面給業(yè)務(wù)系統(tǒng)帶來改善。其中最明顯的一點(diǎn)在于,出色的能源管理方案會始終幫助基礎(chǔ)設(shè)施實(shí)現(xiàn)能源節(jié)約,而不僅僅是在電力中斷的情況下。
事實(shí)上,我們已經(jīng)在觀察中發(fā)現(xiàn)智能化能源管理方案足以將基礎(chǔ)設(shè)施的能源消耗降低20%到40%。這還只是很保守的估計(jì),即認(rèn)為數(shù)據(jù)中心中的服務(wù)器有10%到15%處于閑置狀態(tài)。由于典型服務(wù)器設(shè)備的運(yùn)轉(zhuǎn)功率普遍為400瓦,因此每臺服務(wù)器每年光是能源成本就達(dá)到800美元以上。在運(yùn)營過程中能夠限制機(jī)制降低這部分能源損耗能夠顯著減少基礎(chǔ)設(shè)施使用成本。
我們有理由提高數(shù)據(jù)中心的能源控制力度,這不僅僅是為了將能源使用成本約束在合理范圍之內(nèi)。服務(wù)器數(shù)量的不斷提升已經(jīng)令數(shù)據(jù)中心的用電開支成為運(yùn)營成本中一筆不容忽視的龐大投入。大家顯然有必要在自然災(zāi)難降臨或者電費(fèi)支出居高不下時(shí)考慮業(yè)務(wù)系統(tǒng)的健康運(yùn)轉(zhuǎn),因此在現(xiàn)代化數(shù)據(jù)中心內(nèi)推廣全局能源管理方案擁有非常積極的現(xiàn)實(shí)意義。
原文鏈接:
http://www.networkworld.com/news/tech/2013/052013-disaster-recovery-269953.html