由郵件系統(tǒng)中斷引發(fā)的反思
窗外的知了不停的在叫,這是一個忙碌的工作日的下午,辦公區(qū)內(nèi)銷售助理正在與銷售進(jìn)行無聲的Mail溝通,研發(fā)人員正在測試代碼,打印機(jī)在吞吐著文件,人事經(jīng)理正在面試應(yīng)聘的員工,面試完還要郵件給高層領(lǐng)導(dǎo)安排復(fù)試,商務(wù)部正在利用郵件處理往來的客戶合同,一切都在有條不紊的進(jìn)行著。
突然間,從銷售部傳來一聲疑問“郵件發(fā)不出去啦?”之后各處傳來附和的聲音,“是不能收發(fā)郵件了,沒錯……”,以前也出現(xiàn)過郵件系統(tǒng)中斷個把小時的現(xiàn)象,大家不會太在意,及時反映給網(wǎng)管員,他們通過重啟服務(wù)器就能迅速的在短時間內(nèi)恢復(fù)郵件系統(tǒng)的正常使用。為了保證研發(fā)的保密性,公司內(nèi)部只能用郵件進(jìn)行對外溝通,郵件往來是公司內(nèi)部及公司之間一種重要溝通方式。銷售助理小錢心想,我有許多郵件要處理呢,可以邊處理手頭收件箱里的郵件,邊等待郵件系統(tǒng)恢復(fù);商務(wù)部小趙慶幸午飯前外地的銷售人員已經(jīng)把合同mail過來了,這會系統(tǒng)中斷沒關(guān)系,正好利用這段時間對合同進(jìn)行審核,只要在下午3點(diǎn)前郵件系統(tǒng)能恢復(fù),也不影響合同的發(fā)送……
一個小時過去了,銷售助理小錢現(xiàn)有的郵件已經(jīng)處理完畢,要回復(fù)的郵件也寫好了,進(jìn)入了發(fā)件箱。商務(wù)部小趙已經(jīng)審核好即將與客戶簽約的合同,看了看時間,嗯,還好,才兩點(diǎn),外地的銷售人員3點(diǎn)和客戶簽約,現(xiàn)在把合同回傳過去正合適,就把修改好的合同作為附件發(fā)送給銷售。小趙正準(zhǔn)備處理下一份合同,系統(tǒng)彈出消息框“連接到服務(wù)器失敗!”小趙心里咯噔一緊,可千萬別啊,這可是公司近幾個月簽到的最大的一筆單子呀,經(jīng)濟(jì)不景氣,雖說公司在繼續(xù)盈利,但是誰不希望多儲備干糧好過冬呢?
小趙想了想,會不會是自己的系統(tǒng)出了問題呢?因?yàn)槠綍r郵件系統(tǒng)出現(xiàn)類似中斷問題,信息中心一般10分鐘、半個小時就能解決問題了。他抱著試著看的心理,打電話給銷售助理小錢,她平時發(fā)郵件多,指不定她的郵件已經(jīng)發(fā)出去了,我的還沒發(fā)出去呢。先確定是自己PC的問題還是公司系統(tǒng)問題,再給信息中心打電話吧。小趙給小錢打了電話“小錢,我郵件發(fā)不出去了,你那能發(fā)么?”小錢檢查了下發(fā)件箱“咦,奇怪,我這郵件都排著隊等著發(fā)出去呢”小錢打開一封郵件,點(diǎn)擊重新發(fā)送“還是不行,要不咱們問問信息中心吧,我這發(fā)不出去郵件”。掛了電話,小趙給信息中心打了個電話,信息中心那邊小孫接的電話“??!郵件系統(tǒng)故障啦?不知道呀,我們部門剛才開會去了,也沒人告訴我們郵件系統(tǒng)壞了呀,我馬上去查看是哪出問題了?!?/P>
小孫趕緊去機(jī)房查看,一打開屋子,熱浪襲來,這是怎么回事?中央空調(diào)照理來說不會出問題的呀,小孫馬上檢查機(jī)房空調(diào)調(diào)節(jié)器,空調(diào)調(diào)節(jié)器不知道是哪個冒失鬼,把它給調(diào)成最高溫度,這大熱天,網(wǎng)絡(luò)服務(wù)器機(jī)柜發(fā)熱密度過高,空調(diào)制冷效果又不好,導(dǎo)致機(jī)柜散熱不良,局部過熱,郵件服務(wù)器正好處于高熱點(diǎn),已經(jīng)完全停止運(yùn)作了。小孫趕緊把空調(diào)調(diào)成最低溫度,然后打開門,讓室外的冷氣進(jìn)來,但是這樣還是需要一段時間才能讓機(jī)房溫度恢復(fù)正常,這一等就是半小時。
期間,商務(wù)部小趙已經(jīng)給信息中心打了好幾個電話詢問郵件系統(tǒng)什么時候可以恢復(fù),都兩點(diǎn)半了合同還發(fā)不出去,一線的銷售人員很著急,客戶那邊負(fù)責(zé)簽約的副總要趕6點(diǎn)飛機(jī),大家都希望今天能簽約,但合同遲遲看不到。
郵件系統(tǒng)已經(jīng)中斷了2個小時,公司上上下下都發(fā)不出郵件,這事驚動到了公司領(lǐng)導(dǎo)層,信息中心負(fù)責(zé)人也來到了機(jī)房。等到服務(wù)器溫度終于冷卻之后,小孫開始重啟服務(wù)器,以前也出現(xiàn)過這樣的毛病,都是重啟就OK了,小孫吊著的心慢慢放了下去,但是剛在座位上坐下,小趙的電話就來了,“還是發(fā)不出去郵件”,整個信息中心都開始著急了,那會是什么原因呢?銷售在焦急的等待,不停的催著商務(wù)部,商務(wù)部小趙只能催促信息中心盡快解決郵件系統(tǒng)故障,領(lǐng)導(dǎo)也很重視此次不大不小的故障……
信心中心開始對故障原因進(jìn)行排查,一切皆有可能,公司的IIS的郵件系統(tǒng)是建設(shè)在服務(wù)器之上的業(yè)務(wù)系統(tǒng),與業(yè)務(wù)部門的終端之間通信經(jīng)過了服務(wù)器、主機(jī)、路由器,其中任何一個設(shè)備出了問題都會影響到郵件系統(tǒng)的正常運(yùn)作。
但是故障排查時需要時間的,一分一秒過去了,信息中心緊張的排查著問題,到了三點(diǎn)了,問題還是沒有找到,合同還是沒能回傳給客戶,客戶也對公司的管理產(chǎn)生了質(zhì)疑,為什么一個小小的郵件系統(tǒng)癱瘓的問題過了那么長時間都解決不了。這個時候,問題被找到了,是有黑客入侵了由于郵件服務(wù)器,郵件服務(wù)被非法卸載了,問題是解決了,但是由此引發(fā)的由于公司IT運(yùn)維管理做的不到位引發(fā)了客戶的質(zhì)疑,引人深思。
一個小小的郵件中斷事件,我們發(fā)現(xiàn)了該公司存在一些隱患的地方,第一,信息中心無人值班,流程規(guī)范沒做好,信息部門的全體會議時間,也要顧忌到其他業(yè)務(wù)部門正在工作,他們會有一些故障請求;第二,沒有一個很好的監(jiān)控系統(tǒng)來管理設(shè)備運(yùn)行環(huán)境,Broadview 業(yè)務(wù)監(jiān)控中心,可以在第一時間發(fā)現(xiàn)機(jī)房溫度過高,發(fā)送告警短信給值班人員;第三,故障排查時間過長,一款好的業(yè)務(wù)監(jiān)控系統(tǒng)能對網(wǎng)絡(luò)環(huán)境下的所有設(shè)備進(jìn)行監(jiān)控,能做到第一時間將故障精準(zhǔn)定位到點(diǎn),也能在故障發(fā)生之前就及時報告設(shè)備出現(xiàn)了問題;第四,沒有規(guī)范的流程管理,同樣的故障事件出現(xiàn)了許多次之后就應(yīng)該引起大家足夠的重視,在ITIL流程規(guī)范里,類似情況符合事件管理的范疇,當(dāng)一種故障事件出現(xiàn)次數(shù)過多之后就會被當(dāng)做一個問題來解決,這樣才能避免故障事件重復(fù)發(fā)生,省掉運(yùn)維人員縮短處理重復(fù)問題的時間。
Broadview BCC業(yè)務(wù)監(jiān)控平臺能監(jiān)控企業(yè)的服務(wù)器、中間件、數(shù)據(jù)庫、業(yè)務(wù)應(yīng)用、安全設(shè)備及基礎(chǔ)支撐系統(tǒng)(如機(jī)房、空調(diào)、UPS等)的運(yùn)行狀況,建立性能基線,發(fā)現(xiàn)系統(tǒng)異常并及時告警。圍繞IT業(yè)務(wù)和IT資源,采用人性化多層導(dǎo)航呈現(xiàn)模式,由全局到局部、由粗線條到細(xì)顆粒度地逐層展現(xiàn)業(yè)務(wù)應(yīng)用的運(yùn)行狀況。