網(wǎng)絡(luò)管理危機處理主動權(quán)如何掌握
隨著企業(yè)網(wǎng)絡(luò)規(guī)模的越來越大,其發(fā)生突發(fā)故障的概率也越來越大。正因如此,網(wǎng)絡(luò)管理人員也面臨越來越嚴(yán)峻的挑戰(zhàn)。與其坐以待斃,不如主動出擊,掌握危機處理的主動權(quán)。下面,筆者結(jié)合自身的工作經(jīng)驗談?wù)勎C發(fā)生前我們應(yīng)采取的相應(yīng)措施。
1、備份是危機處理的基礎(chǔ)
備份的概念應(yīng)該融入IT人員的血液,俗話說“有備無患”,這也在網(wǎng)絡(luò)危機處理的前提。備份的策略、備份軟件、備份什么,這是備份要明確的三個方面。備份策略不同的企業(yè)的有不同的要求,大家進行評估后可以采用完全備份、增量備份、差量備份、文件快照等形式。另外,備份策略必須要指定備份的頻率即備份時間,以什么樣的時間段來執(zhí)行備份操作。
備份軟件這因人因需要而異,不過有一個原則安全性、可靠性、穩(wěn)定性是一個重要的指標(biāo),在此基礎(chǔ)上,好用通用也需要考量。至于備份什么,不同的企業(yè)要不同的要求。不過管理人員必須心中有數(shù),應(yīng)該根據(jù)業(yè)務(wù)實際需要制定好詳細(xì)的災(zāi)備計劃,比如備份的時間間隔、備份類型,本地備份還是異地備份等。
對于備份,可以設(shè)置計劃任務(wù)自動備份也可以手動備份。不過,筆者要說的是一定要確保備份可靠性,特別是自動備份。筆者本地某機床廠,每天都有大量的數(shù)據(jù)需要備份,為此管理人員設(shè)置了自動備份,并且運行一直良好。前段時間,該企業(yè)的網(wǎng)絡(luò)經(jīng)歷了一次意外故障。當(dāng)管理人員,要進行數(shù)據(jù)恢復(fù)的時候發(fā)現(xiàn)由于軟件錯誤,近一個禮拜以來的數(shù)據(jù)沒有備份,最近的一次成功備份還是一個禮拜前。為此,全公司人員加班加點用了近10天才恢復(fù)了這段時間內(nèi)的數(shù)據(jù),造成了大量的人力、時間的損失,其直接經(jīng)濟損失初步估計在100萬以上。當(dāng)然,企業(yè)的CTO也因此辭職,為自己的疏忽付出了代價。這個案例,警示我們一定要保證備份的有效,因此檢測是非常必要的。
2、實時監(jiān)控,防患于未然
作為企業(yè)的網(wǎng)絡(luò)管理員,最尷尬的事情莫過于網(wǎng)絡(luò)發(fā)生了故障(如服務(wù)器宕機),老總知道了,但自己卻渾然不覺。也許上面的情況比較特別,我們經(jīng)常遇到的情況是:網(wǎng)絡(luò)性能越來越差,整個網(wǎng)絡(luò)處于“亞健康”狀態(tài),但作為網(wǎng)絡(luò)工程師對此并不知曉。要改變這種被動狀況,針對網(wǎng)絡(luò)的實施監(jiān)控是必不可少的。
網(wǎng)絡(luò)監(jiān)控有不同的類別,比如系統(tǒng)監(jiān)控、磁盤監(jiān)控、流量監(jiān)控等等。大家可以使用諸如微軟的ISA或者第三方軟件,不過對于規(guī)模比較大的網(wǎng)絡(luò)***搭建比較專業(yè)的監(jiān)控平臺實施全方位的監(jiān)控。特別是在大中型企業(yè)中,服務(wù)器數(shù)量眾多,因此,往往要部署服務(wù)器監(jiān)控平臺以便讓管理人員實時掌控務(wù)器的運行狀態(tài)。這些監(jiān)控平臺具備對所有基于TCP/IP協(xié)議的網(wǎng)絡(luò)服務(wù)(Web服務(wù)器、FTP服務(wù)器、SMTP服務(wù)器、POP3服務(wù)器、數(shù)據(jù)庫服務(wù)器端口、多媒體服務(wù)器等)的監(jiān)測以及對任何服務(wù)器的系統(tǒng)性能參數(shù)進行監(jiān)測的能力,并在這些服務(wù)或是性能不正常時進行短信或郵件報警。
以筆者任職的這家企業(yè)為例,該企業(yè)中的服務(wù)器60多臺,并且這些服務(wù)器對于企業(yè)的生產(chǎn)、銷售等各個環(huán)節(jié)密切相關(guān)。為了有效管理和監(jiān)控這些服務(wù)器部署了某服務(wù)器運行狀態(tài)監(jiān)控平臺上,通過該平臺網(wǎng)絡(luò)管理人員對服務(wù)器CPU占用、內(nèi)存使用、某程序的內(nèi)存使用(比如MS SQL Server的內(nèi)存使用)以及磁盤使用等情況了如指掌。另外,該監(jiān)控平臺還開發(fā)了手機短信管理服務(wù)器功能。通過這一功能,管理員只需要簡單回復(fù)短信就可以管理服務(wù)器的日常服務(wù),比如:重啟IIS、重啟Apache、重啟Oracle數(shù)據(jù)庫等。
另外,通過該監(jiān)控平臺還提供了二次開發(fā)平臺,可以對其功能進行擴展,例如僅需添加溫度傳感器和溫度采集器通過簡單的開發(fā)即可實現(xiàn)對機房溫度進行監(jiān)控,并記錄實時值供管理員以圖表形式隨時查詢。
當(dāng)然,部署監(jiān)控平臺對于一般的企業(yè)顯然是不可能的。其實,對于一些小型企業(yè)就那么幾臺服務(wù)器,管理員只要充分利用某些第三方軟件即可實施對其實施監(jiān)控。除了服務(wù)器的監(jiān)控,對于其它網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)性能的監(jiān)控也不容忽視。
3、建立預(yù)案,危機處理中有章可循
因為網(wǎng)絡(luò)的復(fù)雜性,要從根本上杜絕網(wǎng)絡(luò)突發(fā)故障幾乎是不可能的。作為IT管理人員除了做好備份之外,建立危機處理預(yù)案是非常必要的。這樣不至于在危機發(fā)生時手忙腳亂,快速有效地解除危機,將損失降到***。
筆者負(fù)責(zé)著本地一家企業(yè)的網(wǎng)絡(luò),下面結(jié)合自身的工作經(jīng)驗談?wù)劸W(wǎng)絡(luò)危機預(yù)案的建立和相關(guān)的后續(xù)工作。作為網(wǎng)絡(luò)工程師,對于自己負(fù)責(zé)的網(wǎng)絡(luò)要非常清除,首先要預(yù)計網(wǎng)絡(luò)中可能發(fā)送的危機事件,并將其一一列舉出來,充分考慮到危機后果和所需的費用。然后,進行匯總劃分危機級別并根據(jù)級別和危機發(fā)生的可能性進行排序。然后確立危機處理的程序和實施細(xì)則,一旦危機發(fā)生就能夠有條不紊地投入工作,排除危機。
這樣,當(dāng)各種突發(fā)狀況發(fā)生時,就能夠快速采取對策,以及通過什么樣的程序進行有效處理,確定什么人員在什么時間做什么事。為此,建議組建網(wǎng)絡(luò)危機小組并對組員進行故障排除培訓(xùn),使其能夠在危機發(fā)生是能看很快進入角色。另外,進行一定的模擬演練也是非常必要的。
4、危機處理,掌握方法有條不紊
當(dāng)IT危機不幸發(fā)生時,采取科學(xué)的方法是非常重要的。下面是筆者總結(jié)的網(wǎng)絡(luò)排故的一般步驟和自己的一點經(jīng)驗和大家交流。
(1).要全面收集信息,并分析故障現(xiàn)象。全面了解故障的情況,并詳細(xì)詢問相關(guān)細(xì)節(jié),可以請故障發(fā)生時操作人員描述正常運行時的情況,如果有可能的話,親自去驗證一下所出現(xiàn)的問題??词欠裼姓5墓δ懿灰娏耍€是有異常的反應(yīng)?檢查一下在故障發(fā)生之前是否對該節(jié)點或是網(wǎng)絡(luò)進行了改動。
(2).定位故障范圍。通過***步全面的收集的信息分析,可以將故障范圍縮小到一個網(wǎng)段或節(jié)點?;谒鞯姆治觯袛喙收鲜欠衽c一個網(wǎng)段有關(guān),還是局限于一個節(jié)點??s小故障范圍是解決的開始。例如當(dāng)某臺計算機發(fā)生無法上網(wǎng)的故障時,管理員可以詢問其他用戶是否也同樣出現(xiàn)了這一問題,如果所有的用戶都出現(xiàn)這一現(xiàn)象,則說明故障不在用戶網(wǎng)絡(luò)這端,在出口網(wǎng)絡(luò)設(shè)備或其他設(shè)備上。
(3).故障隔離。如果故障影響整個網(wǎng)段,那么就通過減少可能的故障源來隔離故障。除兩個節(jié)點外斷開其它所有的節(jié)點。如果這兩個節(jié)點能正常通訊,再增加其它節(jié)點。如這兩個節(jié)點不能通訊,就要對物理層的有關(guān)部分,如電纜的接頭、電纜本身或與它們相連的Hub和網(wǎng)卡等進行檢查。
(4).排除故障。一旦確定了故障源,那么識別故障類型是比較容易的。對于網(wǎng)絡(luò)硬件設(shè)備來說,最方便的措施就是簡單地更換,對損壞部分的維修可以以后再進行。有兩種辦法可以解決軟件故障。***種是,重新安裝有問題的軟件,刪除可能有問題的文件并且確保你擁有全部所需的文件。這也是保證第二種方法得以順利實施的好辦法,即對軟件進行重新的設(shè)置。如果問題是單一用戶的問題,通常最簡單的方法是整個刪除該用戶然后從頭開始,或是重復(fù)必要的步驟,使該用戶重新獲得原來有問題的應(yīng)用。比無目標(biāo)地進行檢查,邏輯有序地執(zhí)行這些步驟可以更快速地找到問題。
(5).檢驗故障是否被排除。請操作人員測試一下故障是否依然存在,這可以確保是否整個故障都已被排除。只是簡要地請用戶按正常方法操作有關(guān)網(wǎng)絡(luò)設(shè)備即可,同時請用戶快速地執(zhí)行其它幾種正常操作。因為,有時解決一個地方的問題會引出別處的問題;有時問題是解決了,但可能會掩蓋其它故障。
總結(jié):面對不可預(yù)計的IT危機,網(wǎng)絡(luò)管理人員只要事前制定充分的應(yīng)對措施,并且掌握危機處理的科學(xué)方法,可以說,IT危機并不可怕。希望,筆者的經(jīng)驗對大家應(yīng)對IT危機有所幫助。
【編輯推薦】