透過(guò)事件管理 看企業(yè)網(wǎng)絡(luò)生存法則
對(duì)于日常管理來(lái)說(shuō),管理人員難免會(huì)遇到網(wǎng)絡(luò)、設(shè)備出現(xiàn)故障,引起了網(wǎng)絡(luò)的阻塞或者設(shè)備宕機(jī)的情況。當(dāng)發(fā)生這些問(wèn)題的時(shí)候,一些可以提高IT系統(tǒng)運(yùn)行率的機(jī)制和管理思路是沒(méi)有直接作用的,這時(shí)候管理員和CIO最希望看到的就是運(yùn)維軟件能夠直接提供快速、精準(zhǔn)的故障解決方案,能夠在最短時(shí)間內(nèi)恢復(fù)網(wǎng)絡(luò)、設(shè)備正常運(yùn)營(yíng),從而為企業(yè)的IT運(yùn)營(yíng)提供可靠的保障。
以上問(wèn)題是業(yè)界所尤為關(guān)注的話題--如何做好事件管理。當(dāng)然這也是眾多管理員最感興趣的話題,因?yàn)檫@涉及到問(wèn)題的具體解決方法。在一套完善的網(wǎng)絡(luò)管理機(jī)制下,最終能夠體現(xiàn)管理員價(jià)值的莫過(guò)于處理故障的速度和效率,高水準(zhǔn)的信息團(tuán)隊(duì)是能夠在業(yè)務(wù)部門報(bào)修故障后迅速制定出完整解決方案,并著手開(kāi)始實(shí)施,同時(shí)能夠確保在恢復(fù)好業(yè)務(wù)運(yùn)行過(guò)程中對(duì)企業(yè)的生產(chǎn)經(jīng)營(yíng)帶來(lái)的損失最小。下面就為大家重點(diǎn)介紹北塔軟件所倡導(dǎo)的IT故障處理思路:
精準(zhǔn)定位事件 企業(yè)管理之源
北塔軟件在為用戶實(shí)施眾多項(xiàng)目過(guò)程中,很多用戶都面臨到這樣的困境,發(fā)現(xiàn)故障緩慢,影響了處理效率,給業(yè)務(wù)帶來(lái)了一定的影響。因此,對(duì)用戶有價(jià)值的IT運(yùn)維軟件是能夠在第一時(shí)間發(fā)現(xiàn)事件和故障,而這是基于事件發(fā)現(xiàn)的范圍和機(jī)制來(lái)實(shí)現(xiàn)的,即通過(guò)怎樣的手段來(lái)監(jiān)控網(wǎng)絡(luò)系統(tǒng),從而能夠確保故障告警的及時(shí)、準(zhǔn)確、有效。
簡(jiǎn)單來(lái)說(shuō),發(fā)現(xiàn)事件包括兩方面要素,一是覆蓋要廣,二是發(fā)現(xiàn)機(jī)制技術(shù)先進(jìn)性。在管理面上,北塔的運(yùn)維軟件能夠提供上千種KPI,對(duì)桌面PC、應(yīng)用服務(wù)、機(jī)房環(huán)境、網(wǎng)絡(luò)系統(tǒng)、服務(wù)器系統(tǒng)、數(shù)據(jù)庫(kù)、數(shù)據(jù)流等IT要素進(jìn)行全面的監(jiān)測(cè)管理,管理員自然有充足的管理源進(jìn)行管控,對(duì)于整個(gè)IT環(huán)境中任何細(xì)微的故障都能先知先覺(jué),因此全面的監(jiān)控是精準(zhǔn)事件發(fā)現(xiàn)的基礎(chǔ)之一。另一條件則是事件發(fā)現(xiàn)機(jī)制,通過(guò)主動(dòng)與被動(dòng)的采集數(shù)據(jù)模式,實(shí)現(xiàn)了優(yōu)勢(shì)互補(bǔ),通過(guò)精確的輪詢提高了事件發(fā)現(xiàn)的準(zhǔn)確度,同時(shí)被動(dòng)的采集可以減輕系統(tǒng)壓力,并在一定程度上確保了故障發(fā)現(xiàn)的及時(shí)性。通過(guò)以上兩方面,就能讓管理員在運(yùn)維管理中“高枕無(wú)憂”,因?yàn)闇?zhǔn)確、全面的發(fā)現(xiàn)事件,這將成為管理員事先管理模式的重要工具。
明確事件性質(zhì) 根原因解決之路
當(dāng)通過(guò)準(zhǔn)確高效的發(fā)現(xiàn)機(jī)制將故障通知管理員以后,管理員可能并不能立即就明確故障的性質(zhì)、影響度等情況,因此北塔的運(yùn)維軟件還提供了事件的各種屬性,也就是本次事件的來(lái)源、時(shí)間、緊急度、影響度等情況,在對(duì)這些情況匯總后能夠得出對(duì)于企業(yè)網(wǎng)絡(luò)的影響等級(jí)。通過(guò)制定這樣一種策略,管理人員就可以輕松掌控事件,當(dāng)有告警發(fā)生時(shí),立即查看其告警等級(jí),是屬于緊急、高級(jí)、中級(jí)、低級(jí)、提示級(jí)中哪一種,對(duì)于緊急的進(jìn)行優(yōu)化處理,而提示級(jí)則可以暫時(shí)不用處理。結(jié)合豐富的事件信息能夠?yàn)榻酉聛?lái)事件處理提供充足的資源,并且結(jié)合事件優(yōu)化級(jí)的管理模式也能夠同企業(yè)網(wǎng)絡(luò)管理的SLA相結(jié)合,提高信息部門的服務(wù)滿意度。
在明確事件的相關(guān)屬性之后,管理人員可能還是會(huì)有疑惑,在眾多告警中,怎樣才可能確保告警的精準(zhǔn),進(jìn)而安排到相關(guān)人員進(jìn)行處理。這就涉及到一個(gè)事件的壓縮問(wèn)題,對(duì)于若干的告警,管理員肯定會(huì)顯得無(wú)所適從,而北塔的IT運(yùn)維軟件能夠融合基線告警、復(fù)合告警兩種方式,則可提高高等級(jí)事件的準(zhǔn)確度,即對(duì)于重大的故障能夠迅速定位,并且是正確有效的告警。進(jìn)而深層次挖掘事件的根源,也就是根原因分析功能,IT運(yùn)維軟件通過(guò)故障處理經(jīng)驗(yàn)的積累,順著思路采集數(shù)據(jù),層層深入地找出問(wèn)題的根源。明確根源后,最終IT運(yùn)維軟件將故障處理意見(jiàn)進(jìn)行輸出到相關(guān)責(zé)任人,這樣就形成了完整的事件處理過(guò)程。
統(tǒng)計(jì)規(guī)劃,企業(yè)網(wǎng)絡(luò)發(fā)展之策
通過(guò)以上的分析,基本上明確了事件處理的環(huán)節(jié),事實(shí)上以上這些工作只是簡(jiǎn)單的一次處理過(guò)程,那如何規(guī)避一些網(wǎng)絡(luò)故障的發(fā)生和提升網(wǎng)絡(luò)性能,因此北塔IT運(yùn)維軟件還提供了事件統(tǒng)計(jì)分析功能。經(jīng)過(guò)一段時(shí)間的運(yùn)行,管理員能夠查看故障報(bào)表,從海量的事件中選出密集事件,發(fā)現(xiàn)問(wèn)題根原所在,這也就指明了網(wǎng)絡(luò)改進(jìn)的方向,這事實(shí)上也就同ITIL中所提供的問(wèn)題管理功能類似,對(duì)于長(zhǎng)期性的問(wèn)題,我們需要由經(jīng)驗(yàn)來(lái)形成解決方案,改善運(yùn)維情況,從而提升IT運(yùn)行效率。
事件統(tǒng)計(jì)分析功能相當(dāng)于一面明鏡,可以辨別企業(yè)網(wǎng)絡(luò)中的桎梏所在,也正是在完善的事件管理機(jī)制下,IT部門才真正體現(xiàn)了價(jià)值,去運(yùn)營(yíng)維護(hù)企業(yè)的網(wǎng)絡(luò)系統(tǒng),去打造一套智能、全面的故障處理方案,并以最大化利用IT資源為部門己任而奮斗不息。