CreCloud云網(wǎng)管對大型網(wǎng)絡(luò)信息系統(tǒng)的監(jiān)控
1 概述
隨著社會發(fā)展,帶寬的增加和設(shè)備成本的降低以及虛擬化技術(shù)的普及,目前國內(nèi)外的大型企業(yè)、政府機(jī)構(gòu)的IT系統(tǒng)架構(gòu)都發(fā)生了變化。
設(shè)備虛擬化:云計算可以把服務(wù)器和資源有效整合,將CPU、內(nèi)存、磁盤等資源虛擬化,某個IP地址后面跟隨的只是一個虛擬機(jī),而不像原來代表的是一臺真實的機(jī)器。通過虛擬化對資源進(jìn)行整合,提高了設(shè)備的使用效率,但同時在不增加設(shè)備的情況下,操作系統(tǒng)也會越來越多,管理任務(wù)量和復(fù)雜度也會增加。
信息系統(tǒng)設(shè)計和部署更加抽象:由于通過云計算將負(fù)載均攤、壓力分散,系統(tǒng)設(shè)計人員不用過分關(guān)心業(yè)務(wù)部署具體位置、單臺設(shè)備負(fù)載是否過高,能否承受業(yè)務(wù)壓力這些問題,而是把注意力放在如何設(shè)計更能滿足用戶需求、可用性上。
信息系統(tǒng)的規(guī)模不斷增大:隨著信息技術(shù)的不斷發(fā)展和應(yīng)用,信息系統(tǒng)在政府、企業(yè)使用的深度和廣度也在不斷增大,這也就造成信息系統(tǒng)的規(guī)模不斷擴(kuò)大,系統(tǒng)的用戶規(guī)??赡苓_(dá)到十萬,百萬,系統(tǒng)部署的設(shè)備超過萬臺。
企業(yè)及政府專網(wǎng)數(shù)量、規(guī)模不斷增大:隨著信息化的不斷深入,企業(yè)即政府建設(shè)了很多大型集中信息系統(tǒng),為了保證數(shù)據(jù)穩(wěn)定、可靠、安全的傳輸,國內(nèi)一些部委、大型企業(yè)都在建立和擴(kuò)大內(nèi)部專網(wǎng),范圍從省級擴(kuò)展到全國。
監(jiān)控集中、管理分層:為了保證IT系統(tǒng)的正常運(yùn)行,特別是在整個廣域網(wǎng)的正常運(yùn)行,監(jiān)控是必不可少的,由于地方的技術(shù)力量有限,監(jiān)控中心一般放在總部,總部集中監(jiān)測性能、解決重大故障,地方一線工程師主要是處理一些簡單問題。
IT系統(tǒng)規(guī)模越來越大,系統(tǒng)架構(gòu)越來越復(fù)雜、使用范圍越來大,對IT系統(tǒng)的可靠性就要求越高,硬件、軟件、網(wǎng)絡(luò)任何故障運(yùn)維人員在***時間就要掌握以便進(jìn)行快速處理,降低系統(tǒng)癱瘓的可能性,好的監(jiān)控就成為運(yùn)維的首要條件
2 傳統(tǒng)監(jiān)測架構(gòu)
國際上大規(guī)模網(wǎng)絡(luò)監(jiān)測的主要廠商有HP、IBM、CA、BMC。它們的產(chǎn)品都是非常成熟的,有幾十年歷史了。
最開始網(wǎng)絡(luò)規(guī)模不大的時候,都是一套網(wǎng)管系統(tǒng)安裝在一臺大型機(jī)上,監(jiān)控所有服務(wù)器、網(wǎng)絡(luò)設(shè)備、應(yīng)用,目前所有小型網(wǎng)管軟件還是這套監(jiān)測架構(gòu)。
隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,一臺計算機(jī)的計算容量有限,大型網(wǎng)管系統(tǒng)一般都采用二級架構(gòu),在每個地方IT中心部署一套監(jiān)控軟件,在總部部署一套管理端,地方中心的監(jiān)控軟件將配置信息和一些重要的報警信息同步到總部管理端。
這種架構(gòu)有一些明顯缺點:首先是管理復(fù)雜,監(jiān)控軟件部署很多套,每個地方監(jiān)控中心都需要有監(jiān)控軟件維護(hù)工程師對監(jiān)控軟件進(jìn)行維護(hù),由于培訓(xùn)、支持很難到位,人員變動等多種原因造成地方維護(hù)工程師對軟件不會有很深入的了解,產(chǎn)品使用困難,因此產(chǎn)品使用不理想的情況很多。
其次是容易產(chǎn)生單點故障,每個地方中心部署一套監(jiān)控軟件,當(dāng)監(jiān)控軟件本身出現(xiàn)故障時,該地方的系統(tǒng)就沒有監(jiān)控了,故障也無從發(fā)現(xiàn)。特別是監(jiān)控軟件屬于基礎(chǔ)維護(hù)軟件,在日常運(yùn)維工作中,如果沒有報警產(chǎn)生,網(wǎng)管人員也不會特別注意沒有故障報警的原因,到底是因為監(jiān)控軟件本身出現(xiàn)故障無法監(jiān)測呢,還是系統(tǒng)工作正常沒有報警,只有當(dāng)故障發(fā)生后才發(fā)現(xiàn)原來網(wǎng)絡(luò)監(jiān)控軟件出現(xiàn)故障,已經(jīng)無法完成監(jiān)測任務(wù)了。
再次是架構(gòu)復(fù)雜,當(dāng)下級監(jiān)測端的被監(jiān)測設(shè)備發(fā)生變化,被增加、刪除修改后,都需要將新的配置同步到上層管理端,同步過程比較復(fù)雜,也很難做到實時同步,造成上層管理端和下層監(jiān)測端數(shù)據(jù)不一致,容易導(dǎo)致錯誤。
***是擴(kuò)展性差,資源分配不均,隨著IT系統(tǒng)規(guī)模的擴(kuò)大,當(dāng)監(jiān)測端的監(jiān)測容量滿足不了需求的時候,需要重新安裝一套監(jiān)測端,包括數(shù)據(jù)庫、報警等多種應(yīng)用,還需要同步到上層管理端,非常復(fù)雜。而且不同地方的IT資源數(shù)量不同,會造成某些地區(qū)監(jiān)控軟件壓力非常大,而另一個地方監(jiān)控軟件的資源閑置。
3 云監(jiān)控的技術(shù)和方案
為解決大型企業(yè)和政府的IT業(yè)務(wù)監(jiān)控問題,將目前***的云計算技術(shù)應(yīng)用到網(wǎng)絡(luò)管理領(lǐng)域。MXsoft(北京美信時代科技有限公司)設(shè)計了一套CreCloud云監(jiān)控解決方案。
CCU中央控制器是控制中心,它負(fù)責(zé)調(diào)度監(jiān)控任務(wù),根據(jù)監(jiān)測設(shè)備的數(shù)量和監(jiān)測內(nèi)容將監(jiān)控任務(wù)分發(fā)給監(jiān)測服務(wù)器,并檢測監(jiān)測服務(wù)器的工作狀態(tài),一旦某臺監(jiān)測服務(wù)器出現(xiàn)故障立刻將監(jiān)測任務(wù)轉(zhuǎn)移到其他監(jiān)測服務(wù)器上。
監(jiān)測服務(wù)器主要任務(wù)是獲取設(shè)備監(jiān)測信息。隨著監(jiān)控規(guī)模的增加,它可以線性增加,自動注冊到CCU中央控制器,中央控制器就會分配監(jiān)測任務(wù)給它。
云網(wǎng)管架構(gòu)的優(yōu)勢如下:首先是部署實施簡單,只要在總部部署一套系統(tǒng)即可完成整個廣域網(wǎng)的監(jiān)測,二級單位和三級單位無需部署監(jiān)控系統(tǒng),他們只需登錄總系統(tǒng),將被監(jiān)測設(shè)備和監(jiān)測指標(biāo)的信息、報警條件設(shè)置好就可以。所有日常維護(hù)都有總部網(wǎng)管人員負(fù)責(zé)。
其次是負(fù)載均衡,監(jiān)測云中的服務(wù)器根據(jù)數(shù)量和計算能力動態(tài)承擔(dān)各自的監(jiān)測任務(wù),當(dāng)數(shù)量和計算能力發(fā)生變化時,通過自動調(diào)節(jié)機(jī)制去重新調(diào)整各自的監(jiān)測任務(wù)量,不會出現(xiàn)二級架構(gòu)中的某臺監(jiān)測服務(wù)器忙,某臺監(jiān)測服務(wù)器閑的情況。
再次是可靠的雙機(jī)熱備功能。監(jiān)測服務(wù)器之前互相備份,如果監(jiān)測服務(wù)器云中有服務(wù)器宕機(jī),這些服務(wù)器的監(jiān)測任務(wù)馬上就會被重新分配到其它正常運(yùn)行的服務(wù)器上,保證了監(jiān)控的連續(xù)性。CCU中央控制器也可以組成高效的“主”—“備”模式,“主”服務(wù)器和“備”服務(wù)器之間通過“心跳線”技術(shù)實時關(guān)聯(lián),一旦主控制服務(wù)器宕機(jī),備份服務(wù)器馬上啟動執(zhí)行任務(wù)
4 案例試驗
目前在某企業(yè)的大型信息系統(tǒng)項目中部署了一套美信的CreCloud云網(wǎng)管解決方案。該系統(tǒng)的一個顯著特點就是服務(wù)器數(shù)量大、分布廣,系統(tǒng)終端數(shù)量超過5萬臺,因此要求解決方案能夠?qū)崿F(xiàn)大規(guī)模分布式監(jiān)控。
經(jīng)過比選,選擇CreCloud云網(wǎng)管解決方案進(jìn)行部署,系統(tǒng)由2臺CCU服務(wù)器,7臺監(jiān)測服務(wù)器,監(jiān)測全國幾萬臺的服務(wù)器。
系統(tǒng)部屬架構(gòu)圖
總部管理人員維護(hù)監(jiān)測系統(tǒng),配置總部關(guān)心的設(shè)備和應(yīng)用系統(tǒng)的監(jiān)測,接收大范圍故障的告警。省級和地方運(yùn)維人員只被分配本地服務(wù)器、網(wǎng)絡(luò)設(shè)備、應(yīng)用的配置瀏覽和報警權(quán)限。
通過該云網(wǎng)管項目的實施該公司獲取到良好收益:首先是部署實施快,傳統(tǒng)大型網(wǎng)管項目需要到各地出差實施、培訓(xùn),工期3個月到半年,而該項目從部署的第二周就完成對各終端的鏈路監(jiān)控和報警,隨著監(jiān)測規(guī)模的逐漸增加線性擴(kuò)容。
其次是通觀全局,了解細(xì)節(jié)。由于全國的各終端服務(wù)器、網(wǎng)絡(luò)、軟件運(yùn)行信息都在一套系統(tǒng)中,既可以了解到該系統(tǒng)在全國的整體運(yùn)行狀況,也可以了解到某個終端的某臺服務(wù)器具體運(yùn)行狀況。
再次是擴(kuò)展性好,該系統(tǒng)終端的規(guī)模還在增加過程中,而且其他相關(guān)系統(tǒng)的監(jiān)控將來也會增加到該系統(tǒng)中,在擴(kuò)展的時候只需增加監(jiān)測服務(wù)器就可以,非常方便。
5 未來趨勢
隨著未來企業(yè)和政府規(guī)模越來越大,監(jiān)控的規(guī)模也越來越大,云網(wǎng)管也將越來越普及。 云網(wǎng)管未來將應(yīng)用在各個重要領(lǐng)域,大型網(wǎng)游、門戶網(wǎng)站、證券交易、信息系統(tǒng)、企業(yè)網(wǎng)都是該監(jiān)控的潛在用戶。
網(wǎng)絡(luò)監(jiān)控的穩(wěn)定性和可靠性要求越來越高。云網(wǎng)管必須是一個完整的解決方案,而不是一個簡單軟件,能夠保證這個系統(tǒng)7*24小時不間斷運(yùn)行,沒有單點故障。