如何降低數(shù)據(jù)中心運行故障
2015年8月6日晚上,部分QQ用戶出現(xiàn)無法登錄故障,這直接影響到了騰訊旗下多款產(chǎn)品的連接使用,直到22:30左右才恢復(fù)正常,事后據(jù)騰訊確認(rèn)是因QQ服務(wù)機(jī)房故障而導(dǎo)致。而在此之前的半年多時間里,多家知名互聯(lián)網(wǎng)企業(yè)因服務(wù)器、網(wǎng)絡(luò)設(shè)備產(chǎn)生的大大小小各種故障已有數(shù)十例。對于像互聯(lián)網(wǎng)公司這樣依賴優(yōu)質(zhì)的網(wǎng)絡(luò)體驗而生存的企業(yè),如果出現(xiàn)故障,其產(chǎn)生的影響和后果非常嚴(yán)重。
既然網(wǎng)絡(luò)故障帶來的負(fù)面作用如此之大,可如何消除這種故障呢?沒有任何一家企業(yè)愿意出現(xiàn)這種故障,而出了故障則說明其數(shù)據(jù)中心必定存在健康問題和隱患。因此我們有必要仔細(xì)分析數(shù)據(jù)中心運行故障高發(fā)的成因,選擇更加完善的監(jiān)控管理方案,以保證數(shù)據(jù)中心的健壯穩(wěn)定。
數(shù)據(jù)中心作為提供各種數(shù)據(jù)處理的核心場所,對于IT系統(tǒng)的重要性不言而喻。尤其是對于互聯(lián)網(wǎng)公司等,包括核心業(yè)務(wù)在內(nèi)的所有網(wǎng)絡(luò)業(yè)務(wù)都是通過其數(shù)據(jù)中心提供訪問和處理的,數(shù)據(jù)中心的穩(wěn)定運行是這些業(yè)務(wù)正常運行的前提。試想一個電商企業(yè)的數(shù)據(jù)中心如果中斷1小時,可能會帶來上千萬元的損失,而在市場競爭激烈的當(dāng)下,業(yè)務(wù)的中斷除了遭受經(jīng)濟(jì)損失之外,還會流失大量的客戶,這對企業(yè)未來的發(fā)展是非常不利的,所以提供連續(xù)的優(yōu)質(zhì)網(wǎng)絡(luò)服務(wù)對于一個互聯(lián)網(wǎng)企業(yè)至關(guān)重要。
當(dāng)然,企業(yè)也清楚這點,每年花在數(shù)據(jù)中心上的投入也非常大,除了人員方面的投入,基礎(chǔ)設(shè)施的建設(shè)投入占據(jù)了***的比重,但是到頭來還是會出現(xiàn)這樣那樣的故障,為什么?這很大程度上是由于企業(yè)業(yè)務(wù)增長太快,而導(dǎo)致數(shù)據(jù)中心的負(fù)擔(dān)愈加沉重,在不斷擴(kuò)容或者改造過程中比較倉促,隱藏著不少安全隱患,即便是像騰訊這樣的大型企業(yè)也在所難免。高速擴(kuò)張的結(jié)果就是系統(tǒng)架構(gòu)總是要改變,從而帶來運維管理上的局促,隨著業(yè)務(wù)量的增長,危機(jī)四伏。
數(shù)據(jù)中心歷來都是一個對新技術(shù)渴求***烈之地,都希望可以引入先進(jìn)的技術(shù)和設(shè)備,從而更好地為業(yè)務(wù)服務(wù),同時在行業(yè)競爭中不落后于人。不過,引入新技術(shù)雖然解決了原有系統(tǒng)存在的問題,為業(yè)務(wù)提供了有效的支撐,但往往給數(shù)據(jù)中心帶來了新的運行風(fēng)險。因為新技術(shù)、新系統(tǒng)可能還有很多不夠完善的地方,如果運維管理工作沒有跟上,則運行起來就容易出問題。為了保證業(yè)務(wù)的長期穩(wěn)定運行,數(shù)據(jù)中心從應(yīng)用、服務(wù)器、網(wǎng)絡(luò)、防火墻、物理鏈路等等都要有生產(chǎn)系統(tǒng)和備份系統(tǒng),這也會將數(shù)據(jù)中心設(shè)計得過于復(fù)雜,實際運維起來非常麻煩,一旦出現(xiàn)問題反而不知道問題出在哪里。因此,再好的技術(shù),也還是會出故障。所以必須要加強(qiáng)對數(shù)據(jù)中心的監(jiān)控管理,如此才能降低數(shù)據(jù)中心出現(xiàn)故障的風(fēng)險。
實際上,絕大部分?jǐn)?shù)據(jù)中心都無法做到常年業(yè)務(wù)不中斷,但是盡可能地減少故障,確保其運行過程中隨時監(jiān)控管理,預(yù)、告警任何錯誤故障,不放過任何相似的問題,將風(fēng)險降至***,這也是監(jiān)控管理軟件的***使命。