網(wǎng)絡(luò)管理: 分還是合
分布式網(wǎng)絡(luò)管理
如今,服務(wù)于企業(yè)自身業(yè)務(wù)發(fā)展的自主網(wǎng)絡(luò)體系日益擴(kuò)張,結(jié)構(gòu)更加復(fù)雜,呈現(xiàn)出地理分布廣、接入方式多、對(duì)網(wǎng)絡(luò)性能要求高等多層次化需求。
如果整個(gè)網(wǎng)絡(luò)的運(yùn)行過度依賴于一個(gè)網(wǎng)管中心,那么,一旦網(wǎng)管中心發(fā)生故障就容易導(dǎo)致整個(gè)網(wǎng)絡(luò)管理的無序,甚至癱瘓。所以,這種過度集中式網(wǎng)絡(luò)管理的模式不適于對(duì)大規(guī)模網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)性要求較高的監(jiān)控與管理。在這種大背景下,網(wǎng)絡(luò)管理的層次化分布部署勢(shì)在必行。
分擔(dān)負(fù)載 明晰責(zé)權(quán)
大型行業(yè)均以省、市、地州或行政大區(qū)劃定了與其業(yè)務(wù)特性相符的配套網(wǎng)絡(luò)架構(gòu)和管理體系。在這種多分布、邏輯架構(gòu)復(fù)雜,且廣域特性涉及BGP(邊界網(wǎng)關(guān)協(xié)議)、OSPF(開放式最短路徑優(yōu)先)、多域、單域等多種環(huán)境下,要想在單個(gè)管理中心實(shí)現(xiàn)有效的監(jiān)控,是不太現(xiàn)實(shí)的。數(shù)據(jù)采樣間隔過大時(shí),不能實(shí)時(shí)反映性能數(shù)據(jù)的變化趨勢(shì),并及時(shí)做出應(yīng)有的反應(yīng); 相反,采樣間隔過小,面對(duì)大型、復(fù)雜的網(wǎng)絡(luò)又會(huì)造成管理信息的交換消耗大量的帶寬和計(jì)算資源,成為系統(tǒng)的I/O瓶頸,造成存儲(chǔ)空間的急速增加。例如,在某行業(yè)的大型網(wǎng)絡(luò)實(shí)際運(yùn)維中,用戶發(fā)現(xiàn)采樣間隔由10分鐘變?yōu)?分鐘后,數(shù)據(jù)量每天遞增了20GB。
因此,依據(jù)行業(yè)的業(yè)務(wù)特點(diǎn)和網(wǎng)點(diǎn)的分布情況,CIO需考慮地理環(huán)境的優(yōu)勢(shì)、運(yùn)維人員的技術(shù)支持能力、網(wǎng)絡(luò)鏈路資源及機(jī)房場(chǎng)地、交通便利條件等諸多因素,選擇與企業(yè)業(yè)務(wù)規(guī)模相對(duì)稱的區(qū)域級(jí)別的網(wǎng)絡(luò)運(yùn)維管理中心。各分支機(jī)構(gòu)依據(jù)就近接入、統(tǒng)一管理的原則接入網(wǎng)絡(luò)運(yùn)維管理中心。這樣大量節(jié)省了長途鏈路的資費(fèi),提高了相應(yīng)的互連帶寬,各分支機(jī)構(gòu)也有了技術(shù)支持后盾。
由于這種網(wǎng)絡(luò)管理的層次化劃分,加上軟件產(chǎn)品對(duì)分布式部署的支持,可以有效地將事件和性能數(shù)據(jù)過濾和歸并,通過制定一定的管理策略,把有限的管理信息用于向總運(yùn)維調(diào)控中心匯聚。這樣,各區(qū)域網(wǎng)絡(luò)運(yùn)維中心有效地分擔(dān)了網(wǎng)絡(luò)管理對(duì)細(xì)節(jié)因素的追蹤,同時(shí)又能使總運(yùn)維調(diào)控中心具備宏觀的視野,從而顧全整個(gè)業(yè)務(wù)體系的正常運(yùn)轉(zhuǎn)。
從單一的集中式管理走向?qū)哟位旨?jí)管理是網(wǎng)絡(luò)管理發(fā)展的一大進(jìn)步,大型網(wǎng)絡(luò)從一個(gè)大的星形結(jié)構(gòu)逐步過渡到層次化星形結(jié)構(gòu)(樹形結(jié)構(gòu)),甚至網(wǎng)狀結(jié)構(gòu),其優(yōu)勢(shì)是非常明顯的。層次化管理模式明確了運(yùn)維管理的關(guān)注點(diǎn)和與之相應(yīng)的職責(zé),網(wǎng)絡(luò)有廣域、局域之分,那么管理也必定有差異。
采購分布式網(wǎng)管系統(tǒng)
五項(xiàng)注意
在大型行業(yè)的運(yùn)維管理中,運(yùn)維管理中心往往設(shè)立在總部機(jī)關(guān)所在地,其運(yùn)維重點(diǎn)在于關(guān)注廣域鏈路的通斷、長途鏈路利用率、雙鏈路負(fù)載均衡、路由抖動(dòng)、時(shí)延等保證關(guān)鍵業(yè)務(wù)全網(wǎng)通達(dá)的技術(shù)參數(shù)性能。而各分支機(jī)構(gòu)的日常運(yùn)維事項(xiàng)又與樓層交換、用戶終端、網(wǎng)內(nèi)異常流量審計(jì)等內(nèi)容密切相關(guān)。那些諸如樓層交換設(shè)備、用戶端故障、局域網(wǎng)內(nèi)流量異常、病毒局部侵?jǐn)_等并非廣域運(yùn)維關(guān)心的重點(diǎn)。因此,合理的層次化分級(jí)管理會(huì)有效地處理好這種管理范圍和職責(zé)的劃分。利用現(xiàn)今網(wǎng)絡(luò)管理軟件對(duì)分布式部署的全方位支持,管理員可在局域范圍內(nèi)把網(wǎng)管工作做細(xì),也可通過過濾策略把關(guān)鍵信息上傳到運(yùn)維管理中心,從而把控全網(wǎng)細(xì)枝末節(jié)的網(wǎng)絡(luò)健康狀態(tài),保證關(guān)鍵業(yè)務(wù)的順暢運(yùn)行。這種分級(jí)化管理的方案選型應(yīng)關(guān)注如下幾點(diǎn)。
◆ 分布式網(wǎng)管在分支機(jī)構(gòu)進(jìn)行部署時(shí),不宜求全求大,宜求精求實(shí),***采用統(tǒng)一的系統(tǒng)平臺(tái), 避免各自為政采購大型軟件,***因無實(shí)施能力導(dǎo)致擱置。在實(shí)際情況中我們不難發(fā)現(xiàn),由于網(wǎng)絡(luò)建設(shè)并非同步進(jìn)行,而且缺乏統(tǒng)一的實(shí)施標(biāo)準(zhǔn),許多信息部門雖然很有預(yù)見性地采購了網(wǎng)絡(luò)管理配套軟件,但由于未考慮它的實(shí)施難度和基層技術(shù)人員的運(yùn)維技術(shù)水平,導(dǎo)致采購的大型網(wǎng)管軟件并不能發(fā)揮其產(chǎn)品宣傳所能達(dá)到的實(shí)際運(yùn)維功能。所以應(yīng)在一個(gè)大的整體策略下,通過集中評(píng)測(cè)甄選適合本企業(yè)統(tǒng)一部署實(shí)施的管理軟件。
◆ 應(yīng)加強(qiáng)基層技術(shù)人員的技術(shù)和管理策略培訓(xùn),并同步進(jìn)行配套管理策略和制度建設(shè)。通過標(biāo)準(zhǔn)化的流程策略和相關(guān)制度約束,保證網(wǎng)管策略自上向下地有效貫徹。
◆ 企業(yè)采購的軟件無論是商品化軟件或者自主二次開發(fā)的平臺(tái),應(yīng)考慮支持分布部署策略和事件上傳過濾、歸并機(jī)制。實(shí)際網(wǎng)管實(shí)施過程中,告警事件不是報(bào)不出來,而是報(bào)得太多,“狼來了”喊多了就沒人相信了。這在采用了郵件、短信、聲、光、電等多種報(bào)警模式的情況下尤顯突出。做好告警事件的有效歸并,不但能減少告警事件量,而且便于故障根源的快速判斷和響應(yīng)。
◆ 總運(yùn)維控制中心應(yīng)具備基于業(yè)務(wù)視角的監(jiān)控運(yùn)維管理手段。依據(jù)關(guān)鍵業(yè)務(wù)的特性將相關(guān)監(jiān)控管理技術(shù)指標(biāo)用一個(gè)維度綜合計(jì)量,加快故障根源的快速定位與分析,規(guī)避“眉毛胡子一把抓”的無序狀態(tài); 也能有效避免出現(xiàn)業(yè)務(wù)故障時(shí),相互推諉責(zé)任的現(xiàn)象。
◆ 配套行政手段需落實(shí)到位,僅靠單純的技術(shù)手段,管理策略并不能完全落實(shí)。需建立有效的機(jī)制,落實(shí)督促管理策略。分布式管理,并不意味著放任自流,而是要通過有效的機(jī)制使網(wǎng)絡(luò)管理工作更加有效。
在規(guī)模不是很大、網(wǎng)上業(yè)務(wù)應(yīng)用不是很多的企事業(yè)單位,可采用分布式管理模式,在數(shù)據(jù)采集的及時(shí)性、技術(shù)細(xì)節(jié)的把控和響應(yīng)上都會(huì)有較好的保證,而且能起到相互冗余的作用。#p#
集中式網(wǎng)絡(luò)管理
在層次化分級(jí)網(wǎng)絡(luò)管理的基礎(chǔ)上,隨著網(wǎng)絡(luò)管理外延的逐步擴(kuò)充,基于業(yè)務(wù)的運(yùn)維管理模式,特別是基于數(shù)據(jù)大集中的管理模式,又作為一種新亮點(diǎn)凸現(xiàn)出來。
在傳統(tǒng)的分布式處理模式下,業(yè)務(wù)信息分布在不同地理區(qū)域的內(nèi)部服務(wù)器上,業(yè)務(wù)信息的管理和可用性受到了很大限制,許多應(yīng)該透明、共享的信息在人為的壁壘下不能充分發(fā)揮應(yīng)有的作用,而且系統(tǒng)的升級(jí)和新業(yè)務(wù)的開發(fā)部署也都不能及時(shí)響應(yīng)。加上新業(yè)務(wù)系統(tǒng)的逐步上線,分布式部署在機(jī)房場(chǎng)地的雙路供電、空調(diào)、機(jī)柜布放空間等一系列問題上都明顯陷入捉襟見肘的窘境。要想改變這些局面,企業(yè)投資金額勢(shì)必會(huì)遠(yuǎn)遠(yuǎn)超出新建一個(gè)數(shù)據(jù)中心的預(yù)算,并且發(fā)展空間受制約。在這種情形下,以業(yè)務(wù)信息為主導(dǎo)的集中式網(wǎng)管再次走上了歷史舞臺(tái)。
數(shù)據(jù)走向集中的需求
隨著業(yè)務(wù)規(guī)模的擴(kuò)大,許多應(yīng)用都面臨著數(shù)據(jù)大集中的問題。數(shù)據(jù)信息所體現(xiàn)的時(shí)效性價(jià)值需求日益提高,數(shù)據(jù)越能及早匯總,就越能體現(xiàn)出相應(yīng)的價(jià)值,這在股票交易、原油交易、電子化貿(mào)易等業(yè)務(wù)實(shí)時(shí)性要求較高的行業(yè)尤為突出。而這些數(shù)據(jù)及應(yīng)用系統(tǒng)的多層次化部署,隨著配套設(shè)備的逐步老化、數(shù)據(jù)量的急劇增加,帶來了運(yùn)維成本越來越高、時(shí)效性越來越差的諸多弊病。原本一套運(yùn)維體系所具備的人力、物力、運(yùn)維手段、硬件支撐環(huán)境,在層次化部署環(huán)境中需要復(fù)制出若干個(gè)大小不一但又“五臟俱全”的拷貝,這無疑增大了運(yùn)維成本支出,也是一種資源的浪費(fèi),而且也不符合業(yè)務(wù)快速發(fā)展的需要。
隨著網(wǎng)絡(luò)管理外延的逐步擴(kuò)展,從單一的網(wǎng)絡(luò)設(shè)備、鏈路管理,發(fā)展到目前針對(duì)業(yè)務(wù)應(yīng)用所涉及的服務(wù)器性能、存儲(chǔ)、網(wǎng)絡(luò)、關(guān)鍵應(yīng)用監(jiān)控、流程管理、服務(wù)級(jí)別管理等一系列基于業(yè)務(wù)服務(wù)管理(Busssiness Service Manager-BSM)的全業(yè)務(wù)服務(wù)支持模式,IT綜合服務(wù)管理體系集中化管理的趨勢(shì)愈加明朗,并在諸如Cisco、IBM、HP等國際大公司的實(shí)際部署中得以驗(yàn)證。
采購集中式
網(wǎng)管系統(tǒng)關(guān)注四點(diǎn)
在Cisco、 HP、中國網(wǎng)通等國內(nèi)外知名大企業(yè)的關(guān)鍵業(yè)務(wù)集中化管理中,其IT業(yè)務(wù)垂直化管理的框架也頗有借鑒之處。它們?cè)谌珮I(yè)務(wù)系統(tǒng)范圍內(nèi)提供同等水平的業(yè)務(wù)服務(wù)支持,提高了客戶的滿意度。與此同時(shí),業(yè)務(wù)數(shù)據(jù)的集中存儲(chǔ)與管理,為高水平安全的數(shù)據(jù)保障創(chuàng)造了條件,業(yè)務(wù)連續(xù)性達(dá)到了一個(gè)新的高度。用戶只是授權(quán)數(shù)據(jù)的使用人,無需關(guān)心數(shù)據(jù)的地理位置、存儲(chǔ)介質(zhì)、維護(hù)背景。而且,這樣就規(guī)避了分布式部署中產(chǎn)生的軟、硬件投資金額巨大的問題,也為集中有限資金提高運(yùn)維管理手段提供了良好的基礎(chǔ)。
在企業(yè)規(guī)模較大、業(yè)務(wù)應(yīng)用較多、業(yè)務(wù)網(wǎng)點(diǎn)分布較廣的大型企事業(yè)單位,應(yīng)考慮設(shè)立區(qū)域數(shù)據(jù)中心集中管理與關(guān)鍵應(yīng)用相配套的網(wǎng)絡(luò)設(shè)施、服務(wù)器設(shè)施、存儲(chǔ)設(shè)施等。集中式網(wǎng)管發(fā)揮了數(shù)據(jù)大集中和財(cái)力、物力、人力集中的優(yōu)勢(shì),做強(qiáng)做大相應(yīng)的配套設(shè)施,為業(yè)務(wù)應(yīng)用的持續(xù)發(fā)展提供擴(kuò)展空間。在考慮災(zāi)備冗余的同時(shí),適度把控建設(shè)規(guī)模的拓展預(yù)期,避免前期投入預(yù)期過大而實(shí)際發(fā)展緩慢造成的不必要浪費(fèi)。
在基于數(shù)據(jù)大集中的數(shù)據(jù)中心集中管理系統(tǒng)選型中同樣也須注意幾點(diǎn)。
◆ 不盲目跟風(fēng)。目前,隨著國際大型網(wǎng)管軟件公司的戰(zhàn)略調(diào)整,許多軟件公司之間的并購、整合屢見不鮮。而其整合后的產(chǎn)品線往往也只是從概念上有了一個(gè)更完整的體系。但在實(shí)際情況中,新老產(chǎn)品的更新?lián)Q代、用戶端使用習(xí)慣、產(chǎn)品功能的預(yù)期差異等都或多或少會(huì)出現(xiàn)問題,特別是做過相應(yīng)二次開發(fā)的用戶單位,在盲目跟風(fēng)中,不但產(chǎn)品功能提升有限,而且會(huì)與預(yù)期實(shí)施效果存在較大落差。許多產(chǎn)品的整合未必在真正意義上做到功能的提升,在追求利益***化的商業(yè)軟件銷售中,這種產(chǎn)品整合后的潛在風(fēng)險(xiǎn)向最終用戶轉(zhuǎn)移的傾向比比皆是。
◆ 在加強(qiáng)網(wǎng)絡(luò)管理的同時(shí),要不斷引進(jìn)成熟可靠的新技術(shù)。以虛擬化技術(shù)為例,有些企業(yè)的應(yīng)用程序已經(jīng)是多年前開發(fā)的產(chǎn)品,只能運(yùn)行在一些特定的操作系統(tǒng)和硬件上,而那些特定的操作系統(tǒng)和硬件由于過了保質(zhì)、保修期,維護(hù)和運(yùn)行的成本很高。而通過虛擬化技術(shù)虛擬出來的硬件平臺(tái)能夠運(yùn)行那些特定的操作系統(tǒng),盤活了企業(yè)的資產(chǎn)。諸如這種虛擬化技術(shù)的應(yīng)用會(huì)大大提升業(yè)務(wù)的發(fā)展空間,如早期企業(yè)的自有郵件系統(tǒng)給每個(gè)員工20兆附件、總計(jì)50兆的存儲(chǔ)空間,這在當(dāng)時(shí)已經(jīng)算是 “富家子弟”了; 現(xiàn)今發(fā)展到50兆附件、200兆空間已不足為奇。但舊技術(shù)條件下實(shí)際存儲(chǔ)空間利用率遠(yuǎn)非我們預(yù)期,而是更加浪費(fèi)了。
利用虛擬化技術(shù)的動(dòng)態(tài)存儲(chǔ)空間調(diào)配,能很好地解決此類問題,提高存儲(chǔ)空間的有效利用率。所以新技術(shù)的引進(jìn)絕對(duì)是“***生產(chǎn)力”,管理只是一種優(yōu)化的運(yùn)維手段,新技術(shù)的不斷引進(jìn)創(chuàng)新才是發(fā)展的最終動(dòng)力。
◆ 在考慮與業(yè)務(wù)相關(guān)的軟、硬件環(huán)境建設(shè)監(jiān)控管理的同時(shí),要充分考慮機(jī)房場(chǎng)地環(huán)境的監(jiān)控管理。集中化管理涉及的刀片服務(wù)器、PC Cluster等大容量存儲(chǔ)的集中上線,使得針對(duì)機(jī)房場(chǎng)地空調(diào)、濕度、電源、消防和部署空間提出了更高的需求,因此要充分考慮到各因素的可拓展空間和性能需求。目前,PC Cluster從256個(gè)節(jié)點(diǎn)、512個(gè)節(jié)點(diǎn)到1024個(gè)節(jié)點(diǎn)的大批量部署愈發(fā)普遍(目前,諸如Cisco、IBM等國外知名大公司除在一定高端領(lǐng)域保留大約14%左右的高端Unix服務(wù)器外,其在x86平臺(tái)和Linux平臺(tái)的業(yè)務(wù)拓展呈明顯上升趨勢(shì),所占比重越來越大),這種部署方式對(duì)高密度堆疊產(chǎn)生的熱量排放就提出了很高的要求。網(wǎng)絡(luò)管理在集中模式下應(yīng)有針對(duì)性地對(duì)業(yè)務(wù)附屬設(shè)施進(jìn)行全方位的監(jiān)控。在有條件的情況下,應(yīng)盡可能地將業(yè)務(wù)相關(guān)性涉及的服務(wù)器性能、網(wǎng)絡(luò)設(shè)備、鏈路狀態(tài)、UPS、空調(diào)等綜合信息展現(xiàn)在多塊大屏之上,配合聲、光、電的多種告警觸發(fā)方式加強(qiáng)告警事件的及時(shí)響應(yīng),保證業(yè)務(wù)的高可靠持續(xù)運(yùn)行。
◆ 在集中模式下的網(wǎng)絡(luò)管理要充分考慮大流量數(shù)據(jù)帶來的壓力。由于集中模式產(chǎn)生的數(shù)據(jù)匯聚壓力明顯增大,加上目前高端設(shè)備均采用支持大帶寬的光纖接入(這在機(jī)房預(yù)先布線、交換設(shè)備模塊采購中尤其要引起高度重視),所以硬件網(wǎng)管設(shè)施在接入實(shí)際網(wǎng)絡(luò),特別是在直連模式的情況下,信息部門在關(guān)心接口類型的同時(shí),一定要考慮流量壓力產(chǎn)生的負(fù)載問題。諸如帶寬管理器等設(shè)備如果與實(shí)際物理帶寬不匹配,無疑會(huì)導(dǎo)致瓶頸的出現(xiàn); 同時(shí),也要考慮在這種高密度部署情況下,軟件在采集數(shù)據(jù)時(shí)的采集間隔和數(shù)據(jù)遞增之間的平衡關(guān)系。#p#
鏈接:集中和分布相得益彰
IT,歸根結(jié)底要服務(wù)于業(yè)務(wù),因此,CIO必須首先從業(yè)務(wù)的角度來考慮企業(yè)要搭建一個(gè)什么樣的IT架構(gòu),相應(yīng)的服務(wù)管理模式也必須與之相符。在面對(duì)業(yè)務(wù)分布式部署和數(shù)據(jù)大集中形成的數(shù)據(jù)中心這兩種不同的運(yùn)維管理需求時(shí),應(yīng)著眼于實(shí)際需求情況,把關(guān)注點(diǎn)放到影響關(guān)鍵業(yè)務(wù)順利運(yùn)轉(zhuǎn)的細(xì)節(jié)上。如果對(duì)長途網(wǎng)絡(luò)帶寬、服務(wù)器并發(fā)數(shù)據(jù)處理性能壓力等有較高要求,則選擇分布式部署方式。它能合理地分擔(dān)單點(diǎn)的壓力承載,減少對(duì)長途鏈路資源的占用,能更好地根據(jù)業(yè)務(wù)部署特性做到更加有針對(duì)性的、更加細(xì)致的監(jiān)控管理。
對(duì)于數(shù)據(jù)大集中模式的網(wǎng)絡(luò)管理而言,在做好常規(guī)管理內(nèi)容的同時(shí),應(yīng)全面考慮面對(duì)大集中產(chǎn)生的大規(guī)模服務(wù)器、存儲(chǔ)、交換設(shè)備、空調(diào)、UPS等集中部署帶來的管理壓力,要將這些與保證業(yè)務(wù)順利運(yùn)轉(zhuǎn)密切相關(guān)的因素統(tǒng)籌監(jiān)管起來,特別要關(guān)注和引入面對(duì)集中模式的自動(dòng)化監(jiān)控管理配套設(shè)施的上線。試想,面對(duì)成千上萬臺(tái)服務(wù)器設(shè)備,在發(fā)生電源故障、年度巡檢等引發(fā)的停機(jī)事件時(shí),設(shè)備起停操作在人工方式下將是一個(gè)“浩大的工程”。
為了使各專業(yè)應(yīng)用系統(tǒng)所依托的服務(wù)器機(jī)群、網(wǎng)絡(luò)系統(tǒng)和相配套的場(chǎng)地環(huán)境保障措施在***狀態(tài)下運(yùn)行,充分發(fā)揮整個(gè)業(yè)務(wù)系統(tǒng)的高效率運(yùn)轉(zhuǎn),需要建立一套完整、有效的技術(shù)服務(wù)程序化流程, 采取必要的日常運(yùn)維和應(yīng)急系列措施預(yù)案,以便在系統(tǒng)萬一出現(xiàn)故障的情況下,能夠做出快速響應(yīng),以最短的時(shí)間,排除故障,減少停機(jī)時(shí)間對(duì)業(yè)務(wù)運(yùn)轉(zhuǎn)的直接沖擊,提高生產(chǎn)效率、降低運(yùn)行費(fèi)用。
無論采用分布式還是集中式管理模式,其實(shí)兩者并不是完全孤立的。在實(shí)際部署環(huán)境中,兩種方式依據(jù)業(yè)務(wù)部署的特點(diǎn)應(yīng)當(dāng)有機(jī)結(jié)合成一個(gè)高效運(yùn)轉(zhuǎn)的機(jī)體,合理地分擔(dān)網(wǎng)絡(luò)承載的壓力,使最終用戶能體驗(yàn)到同一標(biāo)準(zhǔn)的高品質(zhì)IT服務(wù)支持,提高用戶的滿意度。
【編輯推薦】















 
 
 




 
 
 
 