北塔軟件IT運(yùn)維管理:故障處理的良方
IT運(yùn)維管理人員幾乎每天都在與“故障”打交道,而當(dāng)業(yè)務(wù)系統(tǒng)足夠復(fù)雜的時(shí)候,僅憑“感覺”往往無(wú)法再判別出故障的根源。那么,如何才能讓IT運(yùn)維管理跳出“手工作坊”階段,在故障發(fā)生時(shí)準(zhǔn)確定位、快速修復(fù),乃至利用更先進(jìn)的IT運(yùn)維管理工具避免非計(jì)劃性的停機(jī)事故呢?
“與時(shí)鐘賽跑”的故障處理
我們身處在一個(gè)高度依賴網(wǎng)絡(luò)的社會(huì),一旦網(wǎng)絡(luò)出現(xiàn)故障,企業(yè)員工可能會(huì)無(wú)法正常工作、無(wú)法交易導(dǎo)致公司訂單丟失、企業(yè)可能會(huì)失去大量的客戶等等嚴(yán)重問題。然而,IT系統(tǒng)本身的復(fù)雜性、層級(jí)性和關(guān)聯(lián)性,又決定了“故障”必然存在的現(xiàn)實(shí)。不過,當(dāng)故障發(fā)生時(shí),IT運(yùn)維管理人員身背著的***壓力并不是技術(shù)層面的,這來(lái)自于修復(fù)故障的“時(shí)長(zhǎng)”。如果一筆業(yè)務(wù)不能完成的時(shí)間長(zhǎng)達(dá)一天或者數(shù)周,就可能引發(fā)“多米諾骨牌”式的傳遞效應(yīng),最終讓企業(yè)運(yùn)營(yíng)遭受重創(chuàng)。
一般來(lái)說(shuō),與故障分析難度成正比的,是系統(tǒng)的復(fù)雜性。業(yè)務(wù)系統(tǒng)越復(fù)雜,涉及的設(shè)備、軟件、廠家、人員就越多,可能帶來(lái)的故障分析難度也就越大,恢復(fù)的時(shí)間也就越長(zhǎng)。雖然,有些網(wǎng)絡(luò)故障解決辦法是相通的,人的作用非常大,但從隨時(shí)變化的網(wǎng)絡(luò)架構(gòu)和業(yè)務(wù)系統(tǒng)實(shí)際運(yùn)行的復(fù)雜環(huán)境來(lái)看,解決相同現(xiàn)象的故障,方法可能迥然不同。如果我們?cè)贗T運(yùn)維管理的過程中,過多的依靠個(gè)人經(jīng)驗(yàn),或者PING、TRACER等命令,都會(huì)讓排錯(cuò)的時(shí)間變得不可控,并造成IT運(yùn)維服務(wù)質(zhì)量停滯不前的尷尬局面。
作為國(guó)內(nèi)領(lǐng)先的IT運(yùn)維管理專家,北塔軟件認(rèn)為:“依靠個(gè)人能力進(jìn)行運(yùn)維管理有許多缺點(diǎn),比如無(wú)法做到事前發(fā)現(xiàn)、無(wú)法做到準(zhǔn)確定位、故障原因可能出現(xiàn)誤判、響應(yīng)時(shí)間慢等等。因此,要想與時(shí)間賽跑,就需要一個(gè)高效而準(zhǔn)確的故障發(fā)現(xiàn)機(jī)制,一個(gè)能夠支撐故障分析策略的工具,這是企業(yè)建立故障處理體系的***步。”
以“路徑”為核心的故障分析方法
基于ICMP的管理,只能對(duì)服務(wù)器和網(wǎng)絡(luò)設(shè)備的連通性進(jìn)行簡(jiǎn)單性測(cè)試,在網(wǎng)絡(luò)建設(shè)階段的作用很大,但在業(yè)務(wù)逐漸復(fù)雜的管理階段就顯得力不從心了。為此,北塔軟件在其發(fā)布的北塔BTIM產(chǎn)品中包含了化解故障處理復(fù)雜性的“故障根源分析策略”、TFS管理系統(tǒng)、業(yè)務(wù)流量視圖。再?gòu)?fù)雜的系統(tǒng),都有數(shù)據(jù)行走的路線,所以北塔BTIM的三大功能設(shè)計(jì)都以“路徑”為核心,通過日常高頻度監(jiān)測(cè)少量關(guān)鍵指標(biāo),控制被管系統(tǒng)管理壓力,一旦發(fā)現(xiàn)問題,依據(jù)業(yè)務(wù)流量實(shí)際流量路徑,按分析需要逐層擴(kuò)大數(shù)據(jù)采集的深度和廣度,層層深入,直達(dá)故障根源。
首先,通過TFS管理系統(tǒng),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)設(shè)備、主機(jī)、數(shù)據(jù)庫(kù)、中間件以及應(yīng)用管理的實(shí)時(shí)監(jiān)控。管理人員在業(yè)務(wù)層就能查看所有關(guān)鍵信息,而一旦出現(xiàn)告警事件,管理人員就可以通過TFS故障診斷路徑直接定位源頭。
其次,在故障處理的操作層面,北塔BTIM提供了業(yè)務(wù)流量分布圖,它以物理拓?fù)錇榛A(chǔ),業(yè)務(wù)流量為骨干,透明化的展現(xiàn)了業(yè)務(wù)數(shù)據(jù)在網(wǎng)絡(luò)中的真實(shí)路徑,并實(shí)時(shí)展示各路徑上的業(yè)務(wù)流量及用戶接入設(shè)備。利用業(yè)務(wù)流量的路徑圖實(shí)現(xiàn)主動(dòng)監(jiān)測(cè),更可以在龐大而復(fù)雜的網(wǎng)絡(luò)中,發(fā)現(xiàn)隱患。管理員可以對(duì)業(yè)務(wù)各關(guān)鍵路徑7X24小時(shí)監(jiān)控,通過對(duì)于各關(guān)鍵路徑的響應(yīng)時(shí)間分析,并結(jié)合支撐組件的情況進(jìn)行智能梳理,可幫助運(yùn)維人員直擊可能引發(fā)非計(jì)劃性宕機(jī)的隱患點(diǎn)。
針對(duì)故障管理,北塔軟件還提醒廣大企業(yè)用戶:傳統(tǒng)的故障處理模式只能導(dǎo)致出現(xiàn)問題后的被動(dòng)響應(yīng),而IT運(yùn)維管理部門的真正價(jià)值并不是出現(xiàn)故障之后的處理,而是在故障發(fā)生前能夠準(zhǔn)確判斷,排除隱患,并避免故障的發(fā)生。所以,針對(duì)IT運(yùn)維人員和管理者都需要的統(tǒng)計(jì)和分析方式,北塔BTIM系統(tǒng)提供了實(shí)時(shí)TOPN分析、指標(biāo)歷史數(shù)據(jù)分析,以及詳細(xì)的分析報(bào)表,幫助用戶定位到IT系統(tǒng)瓶頸,及時(shí)調(diào)整策略,提前避免故障的產(chǎn)生。