網(wǎng)絡(luò)故障管理基礎(chǔ)
網(wǎng)絡(luò)故障的概述如下:
1.網(wǎng)絡(luò)復(fù)雜性的原因
當(dāng)今的網(wǎng)絡(luò)互聯(lián)環(huán)境是復(fù)雜的,而且其復(fù)雜性還在日益增長.主要原因如下:
現(xiàn)代的因特網(wǎng)要求支持更廣泛的應(yīng)用,包括數(shù)據(jù)、語音、視頻及它們的集成傳輸;新業(yè)務(wù)發(fā)展使網(wǎng)絡(luò)帶寬的需求不斷增長,這就要求新技術(shù)的不斷出現(xiàn)。例如:十兆以太網(wǎng)向百兆、千兆以太網(wǎng)的演進(jìn);提供QoS能力等。新技術(shù)的應(yīng)用同時(shí)還要兼顧傳統(tǒng)的技術(shù)。例如,傳統(tǒng)的SNA體系結(jié)構(gòu)仍在某些場合使用,DLSw作為通過TCP/IP承載SNA的一種技術(shù)而被應(yīng)用。
2.網(wǎng)絡(luò)故障及故障管理
網(wǎng)絡(luò)故障就是網(wǎng)絡(luò)不能提供服務(wù),局部的或全局的網(wǎng)絡(luò)功能不能實(shí)現(xiàn)。用戶感知的只是應(yīng)用層的服務(wù)不能實(shí)現(xiàn),但應(yīng)用層的服務(wù)要依賴它下面幾層的正確配置和連接;不僅僅是依靠服務(wù)器,同樣也需要客戶端的正確配置。故障(失效)管理(fault management)是網(wǎng)絡(luò)管理中最基本的功能之一。用戶都希望有一個(gè)可靠的計(jì)算機(jī)網(wǎng)絡(luò)。當(dāng)網(wǎng)絡(luò)中某個(gè)組成失效時(shí),網(wǎng)絡(luò)管理系統(tǒng)必須迅速找到故障,及時(shí)排除。
分析網(wǎng)絡(luò)故障原因是網(wǎng)絡(luò)故障管理的核心內(nèi)容。對故障的處理包括故障檢測、故障定位、故障隔離、重新配置、修復(fù)或替換失效的部分,使系統(tǒng)恢復(fù)正常狀態(tài)。
故障管理具有如下功能。
1)故障警告功能:由管理對象主動(dòng)向管理主機(jī)報(bào)告出現(xiàn)的異常情況,叫故障警告,其必須包含足夠多的信息,詳細(xì)說明出現(xiàn)異常的地點(diǎn)、原因、特征,以及可能采取的應(yīng)對措施等。
2)事件報(bào)告管理功能:事件報(bào)告管理功能目的是對管理對象發(fā)出的通知進(jìn)行先期的過濾處理,并加以控制,以決定通知是否應(yīng)該改善給其它有關(guān)管理系統(tǒng),是否需要改善給后備系統(tǒng)以及控制改善的頻率等。有兩個(gè)管理對象,一個(gè)是區(qū)分器,主要作用是對管理對象發(fā)出的通知進(jìn)行測試和過濾;另一個(gè)是事件轉(zhuǎn)發(fā)區(qū)分器,主要用于確定轉(zhuǎn)發(fā)的目標(biāo)。
3)運(yùn)行日志控制功能:管理對象發(fā)出的通知和事件報(bào)告應(yīng)該存儲(chǔ)在運(yùn)行日志中,供以后分析使用。定義了兩個(gè)管理對象類:運(yùn)行日志和日志記錄。 管理對象發(fā)出的通知通過本地處理形成日志記錄,日志記錄存儲(chǔ)在本地運(yùn)行日志文件中。
4)測試管理功能:管理主機(jī)有一個(gè)叫做測試指揮員的應(yīng)用進(jìn)程,而代理有一個(gè)叫做測試執(zhí)行者的應(yīng)用進(jìn)程。指揮員可以向執(zhí)行者發(fā)出命令,要求進(jìn)行某種測試,執(zhí)行者根據(jù)指揮員的命令完成測試。測試結(jié)果可以立刻返回給指揮員,也可以作為事件報(bào)告存儲(chǔ)在運(yùn)行日志中,待以后分析用。
5)確認(rèn)和診斷測試的分類:確認(rèn)和診斷測試可分為連接測試、可連接測試、數(shù)據(jù)完整測試、端連接測試、協(xié)議完整性測試;資源界限測試、資源自測;測試基礎(chǔ)設(shè)施的測試。用故障標(biāo)簽對故障的整個(gè)生命周期進(jìn)行跟蹤。所謂故障標(biāo)簽就是一個(gè)監(jiān)視網(wǎng)絡(luò)問題的前端進(jìn)程,它對每一個(gè)可能形成故障的網(wǎng)絡(luò)問題,甚至偶然事件都賦予唯一的編號(hào),自始至終對其進(jìn)行監(jiān)視,并且在必要時(shí)調(diào)用有關(guān)的系統(tǒng)管理功能以解決問題。
3.網(wǎng)絡(luò)故障管理的一般思路
首先,網(wǎng)絡(luò)故障管理首先能夠自動(dòng)發(fā)現(xiàn)、生成和維護(hù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),形成網(wǎng)絡(luò)模型。該模型應(yīng)該與管理員頭腦中的網(wǎng)絡(luò)圖像一致。通過核對該圖,管理員可以糾正錯(cuò)誤認(rèn)識(shí),或者發(fā)現(xiàn)用戶私自增加和改變的網(wǎng)絡(luò)連接。一般網(wǎng)管軟件可以生成基于IP網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)圖,高級(jí)網(wǎng)管軟件則可以生成和維護(hù)基于交換機(jī)的物理連接的拓?fù)浣Y(jié)構(gòu)圖。
然后,故障管理以此模型為基礎(chǔ)自動(dòng)定期輪詢網(wǎng)絡(luò)設(shè)備,監(jiān)視線路設(shè)備的運(yùn)行狀況和故障情況。故障管理的核心是對采集到的故障信息的處理。網(wǎng)管軟件可以理解網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和故障來源、嚴(yán)重性,自動(dòng)、及時(shí)、直觀地在網(wǎng)絡(luò)拓?fù)浣缑姹硎驹摴收?。這對實(shí)時(shí)監(jiān)視和解決問題非常有效。界面的直觀易用性是考察此類軟件的側(cè)重點(diǎn)。
4.故障管理對于網(wǎng)絡(luò)管理員的知識(shí)要求
當(dāng)網(wǎng)絡(luò)遭遇故障時(shí),最困難的不是修復(fù)網(wǎng)絡(luò)故障本身,而是如何迅速地查出故障所在,并確定發(fā)生的原因。網(wǎng)絡(luò)故障的現(xiàn)象有很多,即使同一個(gè)故障的表面現(xiàn)象也可能不一樣,所以作為一名網(wǎng)管員,要善于抓住問題的本質(zhì),用最快的速度去排除故障。
5.網(wǎng)絡(luò)故障的分類
根據(jù)網(wǎng)絡(luò)故障的性質(zhì)分為物理故障與邏輯故障。
根據(jù)網(wǎng)絡(luò)故障的對象分為線路故障、路由故障和主機(jī)故障。
根據(jù)網(wǎng)絡(luò)故障的程度分為連通性問題和性能問題。
連通性問題包括:硬件、媒介、電源故障;軟件配置錯(cuò)誤和兼容性問題。
性能問題包括:網(wǎng)絡(luò)擁塞、到目的地不是***路由、供電不足、路由環(huán)路、網(wǎng)絡(luò)錯(cuò)誤。
【編輯推薦】


















