數(shù)據(jù)中心何時能擺脫夜夜割,藍瘦香菇
在數(shù)據(jù)中心建成投產(chǎn)之后,數(shù)據(jù)中心將經(jīng)歷一段漫長的運維周期,也許幾年,也許十幾年。眾所周知,電子設(shè)備的使用壽命一般為三年,高精尖的設(shè)備壽命可超過五年,遠遠低于數(shù)據(jù)中心的生命周期。這樣,在數(shù)據(jù)中心的生命周期中,要不斷地進行設(shè)備更新、升級、擴容、變更等工作,而此時的數(shù)據(jù)中心已經(jīng)帶有大量正在運行的應(yīng)用業(yè)務(wù),為了不影響這些業(yè)務(wù)的運行,一般選擇在業(yè)務(wù)量最小的時候或者是業(yè)務(wù)無中斷操作變更。
有不少的數(shù)據(jù)中心并不具備業(yè)務(wù)無中斷操作,有的是部分環(huán)節(jié)支持業(yè)務(wù)無中斷變更,有的是所有部分都沒有備份無法支持,很多時候由于承載的業(yè)務(wù)太重要,即使有很多備份系統(tǒng),也建議在業(yè)務(wù)量最小的時候操作,以防發(fā)生意外。絕大多數(shù)的數(shù)據(jù)中心,一般在凌晨2~3點是業(yè)務(wù)低峰期,這個時間段是***的業(yè)務(wù)變更時間,所以數(shù)據(jù)中心的很多業(yè)務(wù)變更都是放在了凌晨2點之后進行。然而,一個數(shù)據(jù)中心擁有的設(shè)備數(shù)量巨大、系統(tǒng)紛繁復雜,這樣的割接已成了數(shù)據(jù)中心的家常便飯,幾乎每周,甚至每天都有割接安排,是數(shù)據(jù)中心運維人員的必修課,沒有哪個運維的人員沒有干過割接的活。
偶爾的熬夜割接還好,可有時這種割接紛至沓來,有的對時間的要求還極高。比如說某個設(shè)備出現(xiàn)了軟件BUG,要及時進行打補丁修復,如果不盡快恢復可能引發(fā)的后果非常嚴重,假如數(shù)據(jù)中心有數(shù)百臺這樣的設(shè)備,每一臺都要打補丁或者重啟設(shè)備,就算連續(xù)一周每天都提變更操作,可能都完成不了,這可苦了這些運維人員。長期連續(xù)的熬夜,不用說人們就都知道,對身體危害極大,不僅容易造成生物鐘紊亂、神經(jīng)恍惚,長期下去積累出各種疾病,熬夜也會導致工作效率也十分低下。而且在割接的過程中,不僅不能休息睡覺,還要時刻保持頭腦清醒,操作的每一步都不能有錯誤,時刻關(guān)注業(yè)務(wù)層面的變化,這才是最辛苦的一面。
每一次割接前,要準備大量的工作,確保割接步驟正確,割接時,時刻關(guān)注業(yè)務(wù)變化,同時對割接的效果進行查看,確保達到預(yù)期的目的,割接后還要觀察一段時間,確保割接后沒有產(chǎn)生新問題,觀察時間至少要數(shù)個小時,所以也許割接操作在一個小時之內(nèi)已經(jīng)做完了,后續(xù)觀察的時候更長,很多時候凌晨2點割接后,直到第二日中午才會結(jié)束整個割接工作。在休息一個下午后,晚上可能又投入到新的割接之中,連續(xù)數(shù)日。這些辛苦都還好,最為關(guān)鍵的是還要承受住巨大壓力,一旦割接的操作對數(shù)據(jù)中心業(yè)務(wù)造成影響,割接出現(xiàn)失敗并起動回退機制,往往要影響到個人的考核指標,這完全是一件費力又不討好的事情。所以,有不少的技術(shù)人員滿心歡喜地進入數(shù)據(jù)中心工作,沒多久就被這種割接的工作任務(wù)給嚇跑了。在漫漫長夜里,獨自承受這巨大壓力,當出現(xiàn)問題完全陷入無助時,想想都后怕。
數(shù)據(jù)中心何時才能擺脫夜夜割的狀態(tài),將運維人員的壓力釋放出來?很多的數(shù)據(jù)中心已經(jīng)發(fā)現(xiàn)了這個問題的嚴重性。過于頻繁的夜夜割狀態(tài),不僅給數(shù)據(jù)中心帶來運行風險,也增加了運維人員的極大工作負擔。當然***的方式是數(shù)據(jù)中心不出問題,可不出問題就算能做到,設(shè)備自然老化、新業(yè)務(wù)部署都是不可避免的,還是逃不過要做業(yè)務(wù)割接、變更?,F(xiàn)在將數(shù)據(jù)中心放在了云上,就有了可能,所有的操作都是在云平臺上完成。
云平臺***的特點就是靈活性,由軟件自動編排和控制。這樣只要告訴云平臺,要做哪些操作和變更,設(shè)定好時間,由云平臺下發(fā)指令就可以完成,這樣就可以到凌晨2點鐘時,由云平臺自動發(fā)起割接操作、完成,整個過程不再需要人為參與,徹底將人從這個工作中解脫出來。實際上,目前能做到如此的數(shù)據(jù)中心***,一方面是云平臺建設(shè)的不完善,另一方面是人對這個自動操作過程依然不放心。如果放由云平臺自動操作,鬼知道結(jié)果會變成怎樣,萬一將數(shù)據(jù)中心系統(tǒng)搞癱了,得不償失。還有,具有比較完備備用系統(tǒng)的數(shù)據(jù)中心,可以在割接前先將業(yè)務(wù)割接到備用系統(tǒng),然后再進行割接、變更,這樣割接時間就不一定要放到凌晨2點,隨時隨地都可以操作,不僅不用熬夜,工作效率也更高。割接完后,再將業(yè)務(wù)切回來觀察,若有問題再回退。這也不行,就只能老老實實地等到凌晨熬夜割接了。
在數(shù)據(jù)中心云平臺建設(shè)還不完善的今天,凌晨靠人工割接依然是一種工作常態(tài),短期內(nèi)看不到有減少的趨勢,而且隨著數(shù)據(jù)中心建設(shè)的規(guī)模越來越大、系統(tǒng)也越來越復雜,這種事情只會更多。很多數(shù)據(jù)中心安排人員進行24小時輪詢值守工作,這樣反到簡單了,誰凌晨當班,誰就去做割接的工作。不過,對于很多無人值守的數(shù)據(jù)中心來說,就只能硬著頭皮安排了。數(shù)據(jù)中心要想擺脫夜夜割,就一定要在數(shù)據(jù)中心建成投產(chǎn)之前,做足功課,減少各種可能出現(xiàn)的漏洞、問題,避免后續(xù)做頻繁的變更,“亡羊補牢、未為晚矣”,應(yīng)將所有可能出現(xiàn)的問題考慮在前,考慮的更為長久,這樣才能避免出現(xiàn)夜夜割的尷尬局面。數(shù)據(jù)中心的業(yè)務(wù)一旦部署后,短期內(nèi)是不會頻繁變化的,只有各種問題不斷,才能出現(xiàn)夜夜割的局面,即使在未來幾年,各種業(yè)務(wù)擴容、變更不可避免,也可以大為減少次數(shù),將運維人員的精力釋放出來。
數(shù)據(jù)中心何時能擺脫夜夜割 藍瘦香菇!