云網(wǎng)管:大規(guī)模服務(wù)器監(jiān)測(cè)破局
【51CTO.com綜合報(bào)道】在傳統(tǒng)IT運(yùn)維解決方案中,如何進(jìn)行監(jiān)測(cè)服務(wù)器的擴(kuò)容是***的難題之一,而“云網(wǎng)管”技術(shù)將虛擬化引入到了監(jiān)測(cè)服務(wù)器系統(tǒng),有望為解決這一難題提供新的途徑。
網(wǎng)絡(luò)運(yùn)維管理發(fā)展之困
在目前的網(wǎng)絡(luò)運(yùn)維管理實(shí)踐中,隨著用戶業(yè)務(wù)的不斷發(fā)展以及數(shù)據(jù)中心建設(shè)的不斷擴(kuò)大,用戶要監(jiān)測(cè)的網(wǎng)絡(luò)設(shè)備規(guī)模越來越龐大、投入監(jiān)測(cè)服務(wù)器的成本越來越高。用戶的運(yùn)維管理實(shí)踐在不斷發(fā)生變化,運(yùn)維管理軟件市場(chǎng)已經(jīng)由對(duì)單一工具集產(chǎn)品的需求轉(zhuǎn)變?yōu)閷?duì)完整解決方案的需求。用戶越來越需要一場(chǎng)新的技術(shù)變革來突破當(dāng)前所面臨的挑戰(zhàn)和困局。
美信科技(以下簡(jiǎn)稱“MXsoft”)技術(shù)總監(jiān)陳新剛說:“在這樣的背景下我們推出了全新的 CreCloud云網(wǎng)管(以下簡(jiǎn)稱‘CreCloud’)完整解決方案。其設(shè)計(jì)原理可以簡(jiǎn)單概括為:將多臺(tái)普通監(jiān)控服務(wù)器虛擬為一臺(tái)計(jì)算能力強(qiáng)、運(yùn)行穩(wěn)定的大型監(jiān)控服務(wù)器,幫助用戶在低成本的情況下,實(shí)現(xiàn)對(duì)大規(guī)模服務(wù)器和網(wǎng)絡(luò)設(shè)備的監(jiān)控。CreCloud作為一個(gè)完整的解決方案,從根本上革命性的解決了傳統(tǒng)網(wǎng)管產(chǎn)品所無法解決的種種問題。”
問題一:傳統(tǒng)網(wǎng)管產(chǎn)品的監(jiān)測(cè)能力和龐大的網(wǎng)絡(luò)規(guī)模之間的矛盾
陳新剛認(rèn)為:“在我們熟知的網(wǎng)管領(lǐng)域中,不管是簡(jiǎn)單還是復(fù)雜,傳統(tǒng)網(wǎng)管產(chǎn)品都是以單套部署的原理來工作。即一套產(chǎn)品只能安裝在一臺(tái)監(jiān)控服務(wù)器上,這種模式有一定的局限性,其監(jiān)控能力和規(guī)模都受限于這臺(tái)監(jiān)控服務(wù)器的性能。當(dāng)被監(jiān)控規(guī)模超過這臺(tái)服務(wù)器監(jiān)控極限時(shí),用戶不得不再購買一套產(chǎn)品,安裝在另一臺(tái)監(jiān)控服務(wù)器上,對(duì)超出部分的被監(jiān)控對(duì)象行進(jìn)監(jiān)控。同時(shí),還需要對(duì)用戶、權(quán)限和預(yù)告警數(shù)值等參數(shù)重新設(shè)置。這無疑會(huì)大大增加人力、物力上的成本。監(jiān)控的目的是為了提高工作效率,多套傳統(tǒng)網(wǎng)管產(chǎn)品的部署在解決問題的同時(shí)卻大大增加了對(duì)管理工作的復(fù)雜度。所以傳統(tǒng)網(wǎng)管產(chǎn)品對(duì)于大范圍的網(wǎng)絡(luò)監(jiān)控往往力不從心。而目前,有很大一部分的用戶需要監(jiān)測(cè)的設(shè)備越來越多,比較典型的是門戶網(wǎng)站、網(wǎng)游公司和類似中石油這樣的大型工業(yè)企業(yè),動(dòng)輒就要監(jiān)測(cè)上千臺(tái)服務(wù)器。傳統(tǒng)網(wǎng)管軟件已漸漸無法滿足這類大中型規(guī)模企業(yè)的需求了。”
問題二:傳統(tǒng)網(wǎng)管產(chǎn)品的運(yùn)行機(jī)制和高品質(zhì)監(jiān)測(cè)需求之間的矛盾
傳統(tǒng)網(wǎng)管產(chǎn)品大多采用單套部署的方式,這樣網(wǎng)管產(chǎn)品本身容易形成單點(diǎn)故障,一旦由于網(wǎng)管產(chǎn)品本身的原因(Java或者.Net編寫的網(wǎng)管產(chǎn)品在高負(fù)載時(shí)容易出現(xiàn)不穩(wěn)定或者占用系統(tǒng)資源太多的情況)或者安裝服務(wù)器的原因(比如掉線、宕機(jī)等)而發(fā)生故障時(shí),所有的監(jiān)控任務(wù)都會(huì)無法進(jìn)行。這是過去幾年中幾乎每一個(gè)行業(yè)用戶都會(huì)提出的問題,“網(wǎng)管產(chǎn)品對(duì)IT和網(wǎng)絡(luò)進(jìn)行監(jiān)控,那么如何保證它們自身的安全運(yùn)行呢”?
問題三:傳統(tǒng)網(wǎng)管產(chǎn)品的不可擴(kuò)展和未來監(jiān)測(cè)擴(kuò)容之間的矛盾
傳統(tǒng)網(wǎng)管產(chǎn)品由于采用單套部署的方式,當(dāng)監(jiān)測(cè)容量達(dá)到軟件自身的限制時(shí),比如監(jiān)測(cè)服務(wù)器和網(wǎng)絡(luò)設(shè)備達(dá)到100臺(tái)時(shí),性能就會(huì)大幅下降,當(dāng)達(dá)到500臺(tái)時(shí),就會(huì)保持極限運(yùn)行,隨時(shí)都有發(fā)生故障的可能。目前國內(nèi)的許多行業(yè)客戶都在大力發(fā)展信息化建設(shè), IT業(yè)務(wù)處于快速增加之中,設(shè)備和應(yīng)用輕松就會(huì)達(dá)到上百個(gè),這樣當(dāng)監(jiān)測(cè)需要擴(kuò)容時(shí),網(wǎng)管產(chǎn)品卻出現(xiàn)了瓶頸,不能隨著IT網(wǎng)絡(luò)的擴(kuò)容而自適應(yīng)增加管理能力。 如果實(shí)現(xiàn)監(jiān)測(cè)擴(kuò)容,就需要新增加一套或者多套網(wǎng)管產(chǎn)品,這樣管理的效率問題就隨之而來。
除以上問題外,傳統(tǒng)網(wǎng)管產(chǎn)品還面臨著其它問題,比如對(duì)網(wǎng)管服務(wù)器的硬件要求過高從而容易加大用戶的成本,不能有效利用用戶的閑置服務(wù)器幫助用戶節(jié)省資源,都以工具或者工具集的形式出現(xiàn),無法成為真正的完善的解決方案等。
“云網(wǎng)管”解決之道
隨著新型的互聯(lián)網(wǎng)和IT應(yīng)用層出不窮,用戶的數(shù)據(jù)中心越來越大,服務(wù)器和網(wǎng)絡(luò)設(shè)備的數(shù)量越來越多,這些海量設(shè)備的存在為運(yùn)維管理提出了新的挑戰(zhàn)。陳新剛表示:“為了從根本上解決以上網(wǎng)絡(luò)運(yùn)維管理所面臨的困境,美信將云計(jì)算的概念引入到這個(gè)領(lǐng)域中,推出了CreCloud 云網(wǎng)管產(chǎn)品。云計(jì)算有兩個(gè)最根本的特征:虛擬化和動(dòng)態(tài)擴(kuò)容,在CreCloud的產(chǎn)品設(shè)計(jì)中,我們充分地體現(xiàn)了這兩個(gè)特征,CreCloud通過把多臺(tái)服務(wù)器的監(jiān)測(cè)能力虛擬成一臺(tái)超級(jí)服務(wù)器,實(shí)現(xiàn)了虛擬化監(jiān)測(cè)。當(dāng)數(shù)據(jù)中心的服務(wù)器和網(wǎng)絡(luò)設(shè)備增加時(shí),CreCloud通過增加‘監(jiān)測(cè)云’中的服務(wù)器來實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)容” 。
以往當(dāng)需要對(duì)大規(guī)模服務(wù)器進(jìn)行海量監(jiān)測(cè)時(shí),傳統(tǒng)的方法是使用多臺(tái)性能配置高的硬件服務(wù)器,部署多套網(wǎng)管產(chǎn)品來分割進(jìn)行。而現(xiàn)在應(yīng)用CreCloud 的“云管理”技術(shù),用戶可以將多臺(tái)PC Server進(jìn)行虛擬,構(gòu)建出一個(gè)性能強(qiáng)勁的虛擬服務(wù)器,CreCloud完全滿足了用戶對(duì)大規(guī)模監(jiān)測(cè)的穩(wěn)定可靠性、持久安全性、靈活擴(kuò)展性的需求。
CreCloud的工作原理見圖一
圖一
如圖一所示,CreCloud云網(wǎng)管主要?jiǎng)?chuàng)新成就包括如下幾個(gè)部分:
中央控制器(Central Control Unit,簡(jiǎn)稱CCU),是CreCloud云網(wǎng)管的大腦,主要負(fù)責(zé)協(xié)調(diào)、管理、分配眾多的任務(wù)管理器和實(shí)時(shí)數(shù)據(jù)庫,實(shí)現(xiàn)云管理方案中的各項(xiàng)功能。
TaskDispatcher任務(wù)管理器,主要負(fù)責(zé)調(diào)度管理由CCU中央控制器分配過來的監(jiān)測(cè)任務(wù),通常情況下,一個(gè)TaskDispatcher任務(wù)管理器可以完成對(duì)1000臺(tái)服務(wù)器(或者網(wǎng)絡(luò)設(shè)備)的監(jiān)測(cè)。如上圖所示,TaskDispatcher任務(wù)管理器所管理下的監(jiān)測(cè)服務(wù)器組成監(jiān)測(cè)云,完成對(duì)大規(guī)模設(shè)備的海量監(jiān)控。該監(jiān)測(cè)云具備動(dòng)態(tài)監(jiān)測(cè)負(fù)載均衡、多機(jī)容災(zāi)備份、監(jiān)測(cè)服務(wù)器熱插拔等眾多功能。
RealDB實(shí)時(shí)數(shù)據(jù)庫,主要實(shí)現(xiàn)對(duì)海量監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)存儲(chǔ)和報(bào)表數(shù)據(jù)的生成。
在陳新剛看來:“用戶的核心需求是管理設(shè)備,而不僅僅是購買工具。由于CreCloud可以使主控機(jī)實(shí)現(xiàn)雙機(jī)熱備和虛擬可動(dòng)態(tài)擴(kuò)容,兩臺(tái)主控制臺(tái)服務(wù)器組成高效的‘主’—‘備’模式,‘主’服務(wù)器和‘備’服務(wù)器之間通過‘智能心跳’技術(shù)實(shí)時(shí)關(guān)聯(lián),一旦主控制服務(wù)器宕機(jī),備份服務(wù)器馬上啟動(dòng)執(zhí)行任務(wù)。不但解決了用戶目前7*24小時(shí)的不間斷監(jiān)測(cè)需求,也為用戶未來系統(tǒng)擴(kuò)容的需求做好了準(zhǔn)備。”
在部署方面, CreCloud提供了真正意義上的分布式部署,實(shí)現(xiàn)了在不同工作區(qū)域一套管理軟件、一套配置、一套報(bào)警,構(gòu)成了強(qiáng)大的虛擬后臺(tái)和簡(jiǎn)潔的前臺(tái)呈現(xiàn)。陳新剛強(qiáng)調(diào):“其實(shí)云網(wǎng)管可以提供給用戶的不僅僅是一套工具,而是一整套解決方案。網(wǎng)絡(luò)運(yùn)維管理的主要瓶頸之一就是數(shù)據(jù)庫分析這一層,能否把監(jiān)測(cè)采集到的數(shù)據(jù)進(jìn)行快速存貯和精準(zhǔn)分析是衡量網(wǎng)絡(luò)管理系統(tǒng)優(yōu)劣的重要指標(biāo)。MXsoft通過自主開發(fā)數(shù)據(jù)庫與用戶指定數(shù)據(jù)庫相結(jié)合,滿足了不同客戶對(duì)監(jiān)測(cè)數(shù)據(jù)的存儲(chǔ)需求,既可以將數(shù)據(jù)存在用戶指定的數(shù)據(jù)庫中,同時(shí)也可以在自己的數(shù)據(jù)庫中進(jìn)行備份。”
另外在報(bào)警形式上采用了比較多樣化的手機(jī)短信和聲音報(bào)警相結(jié)合的方式。一旦出現(xiàn)性能故障或性能指標(biāo)達(dá)到報(bào)警標(biāo)準(zhǔn),警報(bào)便會(huì)通過界面顏色顯示、聲音、郵件、手機(jī)短信息等方式自動(dòng)發(fā)送,及時(shí)通知相關(guān)管理人員在故障發(fā)生前及時(shí)消除故障隱患。
據(jù)介紹,這種“云網(wǎng)管”技術(shù)所面向的用戶群體是比較高端、擁有大量服務(wù)器的用戶,MXsoft已經(jīng)瞄準(zhǔn)了例如門戶網(wǎng)站、網(wǎng)絡(luò)游戲和大型國企、電信等多個(gè)領(lǐng)域,準(zhǔn)備發(fā)力。陳新剛還透露,明年可能會(huì)發(fā)布CreCloud的日本版和英文版,進(jìn)軍海外市場(chǎng)。在談到網(wǎng)絡(luò)運(yùn)維領(lǐng)域未來的技術(shù)趨勢(shì)時(shí)陳新剛自信地指出,“越是聽上去簡(jiǎn)單易懂的技術(shù),越需要深厚的積累和復(fù)雜的工作。云網(wǎng)管是一個(gè)勢(shì)在必行的趨勢(shì)。因?yàn)槟壳懊鎸?duì)大規(guī)模服務(wù)器監(jiān)控,傳統(tǒng)網(wǎng)管產(chǎn)品已經(jīng)無法滿足需要。所以我們對(duì)這個(gè)市場(chǎng)的前景充滿信心。”