網(wǎng)絡管理: 分還是合
分布式網(wǎng)絡管理
如今,服務于企業(yè)自身業(yè)務發(fā)展的自主網(wǎng)絡體系日益擴張,結(jié)構(gòu)更加復雜,呈現(xiàn)出地理分布廣、接入方式多、對網(wǎng)絡性能要求高等多層次化需求。
如果整個網(wǎng)絡的運行過度依賴于一個網(wǎng)管中心,那么,一旦網(wǎng)管中心發(fā)生故障就容易導致整個網(wǎng)絡管理的無序,甚至癱瘓。所以,這種過度集中式網(wǎng)絡管理的模式不適于對大規(guī)模網(wǎng)絡進行實時性要求較高的監(jiān)控與管理。在這種大背景下,網(wǎng)絡管理的層次化分布部署勢在必行。
分擔負載 明晰責權
大型行業(yè)均以省、市、地州或行政大區(qū)劃定了與其業(yè)務特性相符的配套網(wǎng)絡架構(gòu)和管理體系。在這種多分布、邏輯架構(gòu)復雜,且廣域特性涉及BGP(邊界網(wǎng)關協(xié)議)、OSPF(開放式最短路徑優(yōu)先)、多域、單域等多種環(huán)境下,要想在單個管理中心實現(xiàn)有效的監(jiān)控,是不太現(xiàn)實的。數(shù)據(jù)采樣間隔過大時,不能實時反映性能數(shù)據(jù)的變化趨勢,并及時做出應有的反應; 相反,采樣間隔過小,面對大型、復雜的網(wǎng)絡又會造成管理信息的交換消耗大量的帶寬和計算資源,成為系統(tǒng)的I/O瓶頸,造成存儲空間的急速增加。例如,在某行業(yè)的大型網(wǎng)絡實際運維中,用戶發(fā)現(xiàn)采樣間隔由10分鐘變?yōu)?分鐘后,數(shù)據(jù)量每天遞增了20GB。
因此,依據(jù)行業(yè)的業(yè)務特點和網(wǎng)點的分布情況,CIO需考慮地理環(huán)境的優(yōu)勢、運維人員的技術支持能力、網(wǎng)絡鏈路資源及機房場地、交通便利條件等諸多因素,選擇與企業(yè)業(yè)務規(guī)模相對稱的區(qū)域級別的網(wǎng)絡運維管理中心。各分支機構(gòu)依據(jù)就近接入、統(tǒng)一管理的原則接入網(wǎng)絡運維管理中心。這樣大量節(jié)省了長途鏈路的資費,提高了相應的互連帶寬,各分支機構(gòu)也有了技術支持后盾。
由于這種網(wǎng)絡管理的層次化劃分,加上軟件產(chǎn)品對分布式部署的支持,可以有效地將事件和性能數(shù)據(jù)過濾和歸并,通過制定一定的管理策略,把有限的管理信息用于向總運維調(diào)控中心匯聚。這樣,各區(qū)域網(wǎng)絡運維中心有效地分擔了網(wǎng)絡管理對細節(jié)因素的追蹤,同時又能使總運維調(diào)控中心具備宏觀的視野,從而顧全整個業(yè)務體系的正常運轉(zhuǎn)。
從單一的集中式管理走向?qū)哟位旨壒芾硎蔷W(wǎng)絡管理發(fā)展的一大進步,大型網(wǎng)絡從一個大的星形結(jié)構(gòu)逐步過渡到層次化星形結(jié)構(gòu)(樹形結(jié)構(gòu)),甚至網(wǎng)狀結(jié)構(gòu),其優(yōu)勢是非常明顯的。層次化管理模式明確了運維管理的關注點和與之相應的職責,網(wǎng)絡有廣域、局域之分,那么管理也必定有差異。
采購分布式網(wǎng)管系統(tǒng)
五項注意
在大型行業(yè)的運維管理中,運維管理中心往往設立在總部機關所在地,其運維重點在于關注廣域鏈路的通斷、長途鏈路利用率、雙鏈路負載均衡、路由抖動、時延等保證關鍵業(yè)務全網(wǎng)通達的技術參數(shù)性能。而各分支機構(gòu)的日常運維事項又與樓層交換、用戶終端、網(wǎng)內(nèi)異常流量審計等內(nèi)容密切相關。那些諸如樓層交換設備、用戶端故障、局域網(wǎng)內(nèi)流量異常、病毒局部侵擾等并非廣域運維關心的重點。因此,合理的層次化分級管理會有效地處理好這種管理范圍和職責的劃分。利用現(xiàn)今網(wǎng)絡管理軟件對分布式部署的全方位支持,管理員可在局域范圍內(nèi)把網(wǎng)管工作做細,也可通過過濾策略把關鍵信息上傳到運維管理中心,從而把控全網(wǎng)細枝末節(jié)的網(wǎng)絡健康狀態(tài),保證關鍵業(yè)務的順暢運行。這種分級化管理的方案選型應關注如下幾點。
◆ 分布式網(wǎng)管在分支機構(gòu)進行部署時,不宜求全求大,宜求精求實,***采用統(tǒng)一的系統(tǒng)平臺, 避免各自為政采購大型軟件,***因無實施能力導致擱置。在實際情況中我們不難發(fā)現(xiàn),由于網(wǎng)絡建設并非同步進行,而且缺乏統(tǒng)一的實施標準,許多信息部門雖然很有預見性地采購了網(wǎng)絡管理配套軟件,但由于未考慮它的實施難度和基層技術人員的運維技術水平,導致采購的大型網(wǎng)管軟件并不能發(fā)揮其產(chǎn)品宣傳所能達到的實際運維功能。所以應在一個大的整體策略下,通過集中評測甄選適合本企業(yè)統(tǒng)一部署實施的管理軟件。
◆ 應加強基層技術人員的技術和管理策略培訓,并同步進行配套管理策略和制度建設。通過標準化的流程策略和相關制度約束,保證網(wǎng)管策略自上向下地有效貫徹。
◆ 企業(yè)采購的軟件無論是商品化軟件或者自主二次開發(fā)的平臺,應考慮支持分布部署策略和事件上傳過濾、歸并機制。實際網(wǎng)管實施過程中,告警事件不是報不出來,而是報得太多,“狼來了”喊多了就沒人相信了。這在采用了郵件、短信、聲、光、電等多種報警模式的情況下尤顯突出。做好告警事件的有效歸并,不但能減少告警事件量,而且便于故障根源的快速判斷和響應。
◆ 總運維控制中心應具備基于業(yè)務視角的監(jiān)控運維管理手段。依據(jù)關鍵業(yè)務的特性將相關監(jiān)控管理技術指標用一個維度綜合計量,加快故障根源的快速定位與分析,規(guī)避“眉毛胡子一把抓”的無序狀態(tài); 也能有效避免出現(xiàn)業(yè)務故障時,相互推諉責任的現(xiàn)象。
◆ 配套行政手段需落實到位,僅靠單純的技術手段,管理策略并不能完全落實。需建立有效的機制,落實督促管理策略。分布式管理,并不意味著放任自流,而是要通過有效的機制使網(wǎng)絡管理工作更加有效。
在規(guī)模不是很大、網(wǎng)上業(yè)務應用不是很多的企事業(yè)單位,可采用分布式管理模式,在數(shù)據(jù)采集的及時性、技術細節(jié)的把控和響應上都會有較好的保證,而且能起到相互冗余的作用。#p#
集中式網(wǎng)絡管理
在層次化分級網(wǎng)絡管理的基礎上,隨著網(wǎng)絡管理外延的逐步擴充,基于業(yè)務的運維管理模式,特別是基于數(shù)據(jù)大集中的管理模式,又作為一種新亮點凸現(xiàn)出來。
在傳統(tǒng)的分布式處理模式下,業(yè)務信息分布在不同地理區(qū)域的內(nèi)部服務器上,業(yè)務信息的管理和可用性受到了很大限制,許多應該透明、共享的信息在人為的壁壘下不能充分發(fā)揮應有的作用,而且系統(tǒng)的升級和新業(yè)務的開發(fā)部署也都不能及時響應。加上新業(yè)務系統(tǒng)的逐步上線,分布式部署在機房場地的雙路供電、空調(diào)、機柜布放空間等一系列問題上都明顯陷入捉襟見肘的窘境。要想改變這些局面,企業(yè)投資金額勢必會遠遠超出新建一個數(shù)據(jù)中心的預算,并且發(fā)展空間受制約。在這種情形下,以業(yè)務信息為主導的集中式網(wǎng)管再次走上了歷史舞臺。
數(shù)據(jù)走向集中的需求
隨著業(yè)務規(guī)模的擴大,許多應用都面臨著數(shù)據(jù)大集中的問題。數(shù)據(jù)信息所體現(xiàn)的時效性價值需求日益提高,數(shù)據(jù)越能及早匯總,就越能體現(xiàn)出相應的價值,這在股票交易、原油交易、電子化貿(mào)易等業(yè)務實時性要求較高的行業(yè)尤為突出。而這些數(shù)據(jù)及應用系統(tǒng)的多層次化部署,隨著配套設備的逐步老化、數(shù)據(jù)量的急劇增加,帶來了運維成本越來越高、時效性越來越差的諸多弊病。原本一套運維體系所具備的人力、物力、運維手段、硬件支撐環(huán)境,在層次化部署環(huán)境中需要復制出若干個大小不一但又“五臟俱全”的拷貝,這無疑增大了運維成本支出,也是一種資源的浪費,而且也不符合業(yè)務快速發(fā)展的需要。
隨著網(wǎng)絡管理外延的逐步擴展,從單一的網(wǎng)絡設備、鏈路管理,發(fā)展到目前針對業(yè)務應用所涉及的服務器性能、存儲、網(wǎng)絡、關鍵應用監(jiān)控、流程管理、服務級別管理等一系列基于業(yè)務服務管理(Busssiness Service Manager-BSM)的全業(yè)務服務支持模式,IT綜合服務管理體系集中化管理的趨勢愈加明朗,并在諸如Cisco、IBM、HP等國際大公司的實際部署中得以驗證。
采購集中式
網(wǎng)管系統(tǒng)關注四點
在Cisco、 HP、中國網(wǎng)通等國內(nèi)外知名大企業(yè)的關鍵業(yè)務集中化管理中,其IT業(yè)務垂直化管理的框架也頗有借鑒之處。它們在全業(yè)務系統(tǒng)范圍內(nèi)提供同等水平的業(yè)務服務支持,提高了客戶的滿意度。與此同時,業(yè)務數(shù)據(jù)的集中存儲與管理,為高水平安全的數(shù)據(jù)保障創(chuàng)造了條件,業(yè)務連續(xù)性達到了一個新的高度。用戶只是授權數(shù)據(jù)的使用人,無需關心數(shù)據(jù)的地理位置、存儲介質(zhì)、維護背景。而且,這樣就規(guī)避了分布式部署中產(chǎn)生的軟、硬件投資金額巨大的問題,也為集中有限資金提高運維管理手段提供了良好的基礎。
在企業(yè)規(guī)模較大、業(yè)務應用較多、業(yè)務網(wǎng)點分布較廣的大型企事業(yè)單位,應考慮設立區(qū)域數(shù)據(jù)中心集中管理與關鍵應用相配套的網(wǎng)絡設施、服務器設施、存儲設施等。集中式網(wǎng)管發(fā)揮了數(shù)據(jù)大集中和財力、物力、人力集中的優(yōu)勢,做強做大相應的配套設施,為業(yè)務應用的持續(xù)發(fā)展提供擴展空間。在考慮災備冗余的同時,適度把控建設規(guī)模的拓展預期,避免前期投入預期過大而實際發(fā)展緩慢造成的不必要浪費。
在基于數(shù)據(jù)大集中的數(shù)據(jù)中心集中管理系統(tǒng)選型中同樣也須注意幾點。
◆ 不盲目跟風。目前,隨著國際大型網(wǎng)管軟件公司的戰(zhàn)略調(diào)整,許多軟件公司之間的并購、整合屢見不鮮。而其整合后的產(chǎn)品線往往也只是從概念上有了一個更完整的體系。但在實際情況中,新老產(chǎn)品的更新?lián)Q代、用戶端使用習慣、產(chǎn)品功能的預期差異等都或多或少會出現(xiàn)問題,特別是做過相應二次開發(fā)的用戶單位,在盲目跟風中,不但產(chǎn)品功能提升有限,而且會與預期實施效果存在較大落差。許多產(chǎn)品的整合未必在真正意義上做到功能的提升,在追求利益***化的商業(yè)軟件銷售中,這種產(chǎn)品整合后的潛在風險向最終用戶轉(zhuǎn)移的傾向比比皆是。
◆ 在加強網(wǎng)絡管理的同時,要不斷引進成熟可靠的新技術。以虛擬化技術為例,有些企業(yè)的應用程序已經(jīng)是多年前開發(fā)的產(chǎn)品,只能運行在一些特定的操作系統(tǒng)和硬件上,而那些特定的操作系統(tǒng)和硬件由于過了保質(zhì)、保修期,維護和運行的成本很高。而通過虛擬化技術虛擬出來的硬件平臺能夠運行那些特定的操作系統(tǒng),盤活了企業(yè)的資產(chǎn)。諸如這種虛擬化技術的應用會大大提升業(yè)務的發(fā)展空間,如早期企業(yè)的自有郵件系統(tǒng)給每個員工20兆附件、總計50兆的存儲空間,這在當時已經(jīng)算是 “富家子弟”了; 現(xiàn)今發(fā)展到50兆附件、200兆空間已不足為奇。但舊技術條件下實際存儲空間利用率遠非我們預期,而是更加浪費了。
利用虛擬化技術的動態(tài)存儲空間調(diào)配,能很好地解決此類問題,提高存儲空間的有效利用率。所以新技術的引進絕對是“***生產(chǎn)力”,管理只是一種優(yōu)化的運維手段,新技術的不斷引進創(chuàng)新才是發(fā)展的最終動力。
◆ 在考慮與業(yè)務相關的軟、硬件環(huán)境建設監(jiān)控管理的同時,要充分考慮機房場地環(huán)境的監(jiān)控管理。集中化管理涉及的刀片服務器、PC Cluster等大容量存儲的集中上線,使得針對機房場地空調(diào)、濕度、電源、消防和部署空間提出了更高的需求,因此要充分考慮到各因素的可拓展空間和性能需求。目前,PC Cluster從256個節(jié)點、512個節(jié)點到1024個節(jié)點的大批量部署愈發(fā)普遍(目前,諸如Cisco、IBM等國外知名大公司除在一定高端領域保留大約14%左右的高端Unix服務器外,其在x86平臺和Linux平臺的業(yè)務拓展呈明顯上升趨勢,所占比重越來越大),這種部署方式對高密度堆疊產(chǎn)生的熱量排放就提出了很高的要求。網(wǎng)絡管理在集中模式下應有針對性地對業(yè)務附屬設施進行全方位的監(jiān)控。在有條件的情況下,應盡可能地將業(yè)務相關性涉及的服務器性能、網(wǎng)絡設備、鏈路狀態(tài)、UPS、空調(diào)等綜合信息展現(xiàn)在多塊大屏之上,配合聲、光、電的多種告警觸發(fā)方式加強告警事件的及時響應,保證業(yè)務的高可靠持續(xù)運行。
◆ 在集中模式下的網(wǎng)絡管理要充分考慮大流量數(shù)據(jù)帶來的壓力。由于集中模式產(chǎn)生的數(shù)據(jù)匯聚壓力明顯增大,加上目前高端設備均采用支持大帶寬的光纖接入(這在機房預先布線、交換設備模塊采購中尤其要引起高度重視),所以硬件網(wǎng)管設施在接入實際網(wǎng)絡,特別是在直連模式的情況下,信息部門在關心接口類型的同時,一定要考慮流量壓力產(chǎn)生的負載問題。諸如帶寬管理器等設備如果與實際物理帶寬不匹配,無疑會導致瓶頸的出現(xiàn); 同時,也要考慮在這種高密度部署情況下,軟件在采集數(shù)據(jù)時的采集間隔和數(shù)據(jù)遞增之間的平衡關系。#p#
鏈接:集中和分布相得益彰
IT,歸根結(jié)底要服務于業(yè)務,因此,CIO必須首先從業(yè)務的角度來考慮企業(yè)要搭建一個什么樣的IT架構(gòu),相應的服務管理模式也必須與之相符。在面對業(yè)務分布式部署和數(shù)據(jù)大集中形成的數(shù)據(jù)中心這兩種不同的運維管理需求時,應著眼于實際需求情況,把關注點放到影響關鍵業(yè)務順利運轉(zhuǎn)的細節(jié)上。如果對長途網(wǎng)絡帶寬、服務器并發(fā)數(shù)據(jù)處理性能壓力等有較高要求,則選擇分布式部署方式。它能合理地分擔單點的壓力承載,減少對長途鏈路資源的占用,能更好地根據(jù)業(yè)務部署特性做到更加有針對性的、更加細致的監(jiān)控管理。
對于數(shù)據(jù)大集中模式的網(wǎng)絡管理而言,在做好常規(guī)管理內(nèi)容的同時,應全面考慮面對大集中產(chǎn)生的大規(guī)模服務器、存儲、交換設備、空調(diào)、UPS等集中部署帶來的管理壓力,要將這些與保證業(yè)務順利運轉(zhuǎn)密切相關的因素統(tǒng)籌監(jiān)管起來,特別要關注和引入面對集中模式的自動化監(jiān)控管理配套設施的上線。試想,面對成千上萬臺服務器設備,在發(fā)生電源故障、年度巡檢等引發(fā)的停機事件時,設備起停操作在人工方式下將是一個“浩大的工程”。
為了使各專業(yè)應用系統(tǒng)所依托的服務器機群、網(wǎng)絡系統(tǒng)和相配套的場地環(huán)境保障措施在***狀態(tài)下運行,充分發(fā)揮整個業(yè)務系統(tǒng)的高效率運轉(zhuǎn),需要建立一套完整、有效的技術服務程序化流程, 采取必要的日常運維和應急系列措施預案,以便在系統(tǒng)萬一出現(xiàn)故障的情況下,能夠做出快速響應,以最短的時間,排除故障,減少停機時間對業(yè)務運轉(zhuǎn)的直接沖擊,提高生產(chǎn)效率、降低運行費用。
無論采用分布式還是集中式管理模式,其實兩者并不是完全孤立的。在實際部署環(huán)境中,兩種方式依據(jù)業(yè)務部署的特點應當有機結(jié)合成一個高效運轉(zhuǎn)的機體,合理地分擔網(wǎng)絡承載的壓力,使最終用戶能體驗到同一標準的高品質(zhì)IT服務支持,提高用戶的滿意度。
【編輯推薦】