云環(huán)境的服務(wù)保障:主動性監(jiān)控及容量管理
2011年11月30日,由BMC軟件舉辦的云計算管理技術(shù)大會在上海舉行,會上各路專家將就云計算愿景、云計算應(yīng)用、云計算管理、業(yè)務(wù)服務(wù)管理(BSM)等話題展開精彩探討。以下是BMC中國***軟件顧問張健先生的精彩演講:
今天跟大家分享BMC在做云環(huán)境服務(wù)保障的一些心得。首先我談一下自己的觀點(diǎn),我們通常在談云的時候,都是從IT層面去考慮,云怎么去部署,怎么去申請。但是對大部分客戶來說,關(guān)心的是云的服務(wù),大家都用過云的服務(wù),比如google的Gmail等,這是作為終端用戶使用云的想法。從這點(diǎn)來說,對于云,我理解叫云計算顯得太I(xiàn)T化一些,我個人看法我覺得叫云服務(wù)更恰當(dāng)。在這個服務(wù)里面,是不是我們簡單在IT層面把相應(yīng)的組件部署完成以后就OK了,實(shí)際上這個對傳統(tǒng)的IT管理來說是可行的,但是對于終端用戶來說,對于云的服務(wù)提供商來說應(yīng)該是遠(yuǎn)遠(yuǎn)不夠的。
就像PPT中的例子,我們可以看到,比如Gmail和Amazon,有一個用戶在博客上發(fā)表了一個話我覺得很有意思,他說云服務(wù)不能運(yùn)行了,給他的感覺就是覺得天塌了。用戶的***反應(yīng)就很沮喪,因此從IT的管理層面來說,我們在完成云的發(fā)布以后,最重要的是什么呢?我們IT應(yīng)該關(guān)注什么呢?從整個流程來看,前面大家在看云整個生命周期管理的時候看到,在云的生命周期管理里面,在***步我們會做云服務(wù)的請求,什么時候可以進(jìn)行服務(wù)的發(fā)布,我需要什么樣的配置,這是其中一部分,而另外一塊,我們在云服務(wù)發(fā)布以后,決定什么時候回收對云進(jìn)行回收,這只是其中的一部分。但是實(shí)際在很多時候,云在運(yùn)行的時候是有很長一段時間是要提供給用戶作為服務(wù)的,因此我們在整個云的管理里面,要著重看一下怎么保障云服務(wù)。
在云保障服務(wù)里面,我們會有幾塊需要去關(guān)注,比如云的服務(wù)保障,它和傳統(tǒng)的IT基礎(chǔ)架構(gòu)的保障有什么不一樣?***,在云的架構(gòu)里面,實(shí)際傳統(tǒng)的IT基礎(chǔ)架構(gòu)都還存在,不管你前面提供什么樣的云服務(wù),在后臺實(shí)際我們看到的還是一些服務(wù)器它上面運(yùn)行的一些相應(yīng)組件做了一些虛擬化的劃分,因此我們在整個云服務(wù)保障管理的最基本層面還是考慮,我們怎么對IT的基礎(chǔ)架構(gòu)進(jìn)行管理,并且在保證這些服務(wù)的時候,我們還要去考慮作為云有自己的一些特點(diǎn)。***,云整個的環(huán)境是相當(dāng)復(fù)雜的。實(shí)際我們在做云的服務(wù)提供的時候,不光光是單一的一個品牌,可能在云環(huán)境里面,我只用某一種指定的服務(wù)器,可能在云上面會運(yùn)行各種各樣的數(shù)據(jù)庫,我這個數(shù)據(jù)庫可能會跨到不同的平臺。我們在Google做搜索的時候,可能我這個搜索就會去橫跨幾百臺到上千臺的服務(wù)器,這個平臺是相當(dāng)復(fù)雜的。第二,我們在做云服務(wù)的時候,實(shí)際要管理的不光光是我內(nèi)部的用戶,有可能我使用云的時候,或者云的使用用戶是在外網(wǎng)的,或者我申請了云的資源是在外網(wǎng)的。第三,我在做云的時候,我提供服務(wù)的時候,很多用戶有各種各樣的終端,有手機(jī)終端,有PC服務(wù)器還有筆記本都可以連接進(jìn)來。
因此,從前面講的這些特點(diǎn),在整個云服務(wù)保障里面,我們需要著重考慮幾點(diǎn)。***,我怎么去保障我的服務(wù)水平,保障服務(wù)水平實(shí)際會分成兩個層面,一個是從用戶自己的感受角度去看,我怎么保障這些云的服務(wù),就是用戶的使用體驗(yàn)好不好。之后從IT運(yùn)維角度來看,我提供云服務(wù)以后,首先要告訴用戶我提供的云服務(wù)是否是好用的,我給你的保障是怎樣的,我給你簽訂了幾種級別的云服務(wù),我怎么去保障。第二個層面,我們提供云服務(wù),后臺還是離不開各種IT組件的支持。在后臺支撐的各個組件里,這些組件能不能對云服務(wù)提供支撐,提供支撐這些組件的運(yùn)行效率是怎樣的,并且考慮運(yùn)行效率的時候,相應(yīng)的性能是不是能夠符合我業(yè)務(wù)的發(fā)展,在什么時候會遇到瓶頸,在后臺的性能管理里面都要及時了解。第三層次,在整個云的架構(gòu)里面是一個復(fù)雜架構(gòu),高擴(kuò)展的環(huán)境,在做云服務(wù)的時候就要經(jīng)常審計一下,比如在提供的云服務(wù)中,當(dāng)我分配一個虛擬環(huán)境的時候,我需要考慮提供虛擬化池的時候分配是否分配在正確的地方,或者現(xiàn)在有沒有存在一些競爭,如果存在競爭的話,我這些服務(wù)器應(yīng)該怎么擺放?是不是有調(diào)整的可能。所以在整個云服務(wù)保障里面,我們都需要考慮這幾點(diǎn),并且這些在一開始規(guī)劃的時候就應(yīng)該規(guī)劃進(jìn)去。
綜合上面幾點(diǎn)來看,***我們在做云服務(wù)保障的時候,我們目標(biāo)是什么?首先,我們要保障我們整個的云可以提供優(yōu)質(zhì)的服務(wù)。在這里面我們會考慮針對這些需求我們需要什么能力,需要有一種手段主動去發(fā)現(xiàn)我現(xiàn)在的服務(wù)水平是否能夠滿足我的需求,從用戶那一端,或者從我這一端都可以看到針對我提供的服務(wù),用戶的感受是什么樣的。還需要有一些手段能夠保障在云的環(huán)境里面提供的能力是能夠滿足我業(yè)務(wù)需求的發(fā)展,并且在我提供的服務(wù)出現(xiàn)問題之前,就能夠通知用戶,應(yīng)該具有預(yù)測的能力,而不是等服務(wù)真正出現(xiàn)問題之后才告訴用戶現(xiàn)在服務(wù)做不了。在持續(xù)優(yōu)化層面,通過一些手段,首先幫助我們了解現(xiàn)在的狀態(tài)。第二,根據(jù)現(xiàn)在的容量和狀況去分析我現(xiàn)在的環(huán)境是不是能夠支撐我未來的發(fā)展。第三我還需要根據(jù)我的業(yè)務(wù)優(yōu)先級判斷,如果我業(yè)務(wù)增長,我需要有什么手段去優(yōu)化我現(xiàn)在云的環(huán)境。
我們可以看到在整個流程里面,從服務(wù)交付和服務(wù)回收之前,云服務(wù)保障占了很大一塊。BMC也相應(yīng)提供了一些手段在整個云生命周期里面來進(jìn)行保障。在整個生命周期管理里面,BMC在CLM1.0和2.0里面已經(jīng)內(nèi)置了服務(wù)保障,實(shí)際上提供幾種能力,***種我們做云環(huán)境發(fā)布的時候,比如用戶申請一個服務(wù)器,這個服務(wù)器可能要裝一些數(shù)據(jù)庫,中間件,這些環(huán)境我發(fā)布以后,在用戶收到這些虛擬環(huán)境以后,最想了解的是***我每個月或者我每天運(yùn)行的狀態(tài)是什么樣的,有沒有資源的緊缺等,對于用戶來說是這樣的。對于IT管理人員我們也想知道,我們發(fā)布的數(shù)據(jù)運(yùn)行情況怎么樣,這樣你在部署云環(huán)境的時候就要進(jìn)行選擇,是不是要添加相應(yīng)的模塊,這些模塊會隨著你云環(huán)境的劃分自動部署到里面去。第二,在部署的時候,支持的平臺是多樣性的,它其實(shí)不是局限于特定的一家廠商,在發(fā)布的時候我們可以支持已有各種虛擬化的存儲平臺,甚至是第三方的云的平臺。
接下來我們可以看一下,在每一個模塊里面,比如在服務(wù)水平管理里面,我們會提供什么樣的能力,在服務(wù)水平管理里面,我們可以看到,首先我們會有一個面向IT運(yùn)維人員的平臺,我們提供的服務(wù)在什么區(qū)域不可用,總體的狀況是什么樣的,哪個用戶在使用你服務(wù)時候出現(xiàn)了什么問題,比如是不響應(yīng)時間慢,還是中斷的情況比較多,從這上面我可以時時了解你當(dāng)前提供云服務(wù)的狀況。第二層次在服務(wù)管理里面,我做一筆交易,或者我去訪問云服務(wù)的時候,比如我收郵件,我多久郵件可以收到,或者我傳數(shù)據(jù)的時候,我數(shù)據(jù)是不是真的傳上去了,這一塊我們還會考慮用戶的真實(shí)體現(xiàn)。我們傳統(tǒng)的IT管理,大部分還是關(guān)注我的組織架構(gòu),比如內(nèi)部環(huán)境里面的服務(wù)器,中間件的這些故障?,F(xiàn)在我們在日常運(yùn)維當(dāng)中,包括很多IT的運(yùn)行當(dāng)中,我提供的各個組件都是很好,但是用戶的體驗(yàn)不好,因此我們就需要從各個層面判斷,到底我提供的服務(wù)不好在哪里?現(xiàn)在出現(xiàn)問題是哪些方面出現(xiàn)問題了,根據(jù)用戶使用的環(huán)境,通過用戶感知的手段和我后臺的手段,幫助IT運(yùn)維人員提供相應(yīng)的判斷。同樣的,在整個運(yùn)維里面,從用戶感知的一些重要性,在傳統(tǒng)層面,我們還是從用戶的角度,從IT運(yùn)維的角度去感受我提供這些服務(wù)是不是好的。但是在云的層面,BMC提供的方案,這不光是云的服務(wù)保障了,針對于整個運(yùn)維環(huán)境,BMC提供的方案。首先我可以感知用戶使用的狀況有沒有出現(xiàn)問題,第二,如果出現(xiàn)問題以后,你在后臺深層次的模塊有哪些問題,比如中間件里面出現(xiàn)問題了,或者數(shù)據(jù)庫里面出現(xiàn)問題了,我能夠一層層挖掘出現(xiàn)的問題,從而快速的修復(fù)你的問題。在主動監(jiān)控層面,BMC提供什么樣的能力呢?在整個云環(huán)境里面我們架構(gòu)是相當(dāng)復(fù)雜的,在BMC整個云服務(wù)保障方案里面,我們可以收集來自各方面的數(shù)據(jù),比如我們看BMC本身自己有很多的監(jiān)控模塊可以監(jiān)控云環(huán)境里面的組件,第二,我們可以去收集第三方的數(shù)據(jù),這個數(shù)據(jù)收集不僅僅是告警的事件,同時也可以把原來的性能數(shù)據(jù)綜合進(jìn)來進(jìn)行分析,幫助你做深層次的挖掘。同時,在擴(kuò)展上面BMC還可以結(jié)合之前收集到的云服務(wù)用戶體驗(yàn)的數(shù)據(jù),以及第三方用戶提供云服務(wù)的數(shù)據(jù)。在主動監(jiān)控里面,用戶在出現(xiàn)問題的時候,通常會從業(yè)務(wù)視角去關(guān)心,我們IT運(yùn)維人員這時候就看,哪個問題出現(xiàn)中斷了,這個問題出現(xiàn)中斷以后對其他服務(wù)也沒有影響,影響范圍有多大,這個范圍如果深層次挖掘下去,應(yīng)該是哪些IT組件帶來的問題,這樣能夠幫助你快速定位問題。在云整個的服務(wù)保障的監(jiān)控里面,我們還會看到,云說到底層都是一些虛擬化的資源,在服務(wù)保障和監(jiān)控里面我就需要有能力,快速跟蹤你資源池的變化,特別是虛擬機(jī),現(xiàn)在隨著資源的劃分,這個虛擬機(jī)今天運(yùn)行A,明天運(yùn)行B,我要有能力根據(jù)資源池里面各個虛擬機(jī)本身的變化,去追蹤它的監(jiān)控。第二,在整個服務(wù)保障的監(jiān)控里面,BMC能夠自動的去跟蹤你所有的虛擬機(jī)的變化,并且支持現(xiàn)在可以看到的所有虛擬化的平臺。在服務(wù)保障里面,如果大家在做復(fù)合云,或者在公用云使用的時候會發(fā)現(xiàn),在這里面還會用到外部的云,這對一些國外用戶比較多,國內(nèi)用戶現(xiàn)在也慢慢多起來。在國內(nèi)來說,就像移動和其他的一些電信,政府慢慢也在做公用的云,BMC現(xiàn)在在全球推出的方案當(dāng)中,已經(jīng)內(nèi)置了針對于Amazon提供的監(jiān)控,不光能夠從云上采取數(shù)據(jù),同時也能夠了解當(dāng)前云的部署情況,它的資源使用情況。
從服務(wù)保障的層次來看,從IT運(yùn)維角度或者云管理角度來看,我們需要不斷保障我資源的使用。***我必須要了解資源是不是好的,這些資源是否足夠用。第二,這些資源如果不夠用了我如何去分配,或者看哪些地方有相應(yīng)的資源可以使用。在整個容量管理里面,針對于云,通過BMC的容量管理方案,***我可以從你的各種監(jiān)控里面發(fā)現(xiàn)整個虛擬環(huán)境的使用情況,資源分配的情況,虛擬環(huán)境里面會包括主機(jī),服務(wù)器各種資源。第二,我可以在這里面找出現(xiàn)在你哪些空間是可以用的,或者哪臺服務(wù)器是比較緊張的。這時候我就會考慮,我通過容量的規(guī)劃,我去看一下,如果我把新的虛擬化的資源部署到新的服務(wù)器以后,當(dāng)前資源競爭的情況會不會有改善,在這里面我們都會進(jìn)行一些考量。從整體來說,從云生命周期管理里面,在云服務(wù)保障里面,我們關(guān)注的是BMC用戶體驗(yàn)管理,主動性能監(jiān)控管理,容量管理,還有報表與分析。
下面我們再看一下BMC在其他監(jiān)控里面,各個產(chǎn)品模塊的一些特點(diǎn)。在整個監(jiān)控里面,***,主動式的性能管理。它能收取各種各樣的數(shù)據(jù),包括SAP的監(jiān)控,還有其他虛擬環(huán)境的數(shù)據(jù)都可以進(jìn)行收集,收集的時候不光光采集單組組件的性能,還采集應(yīng)用的性能。收集上來以后我要做一些數(shù)據(jù)處理,這些數(shù)據(jù)處理上我有很多特點(diǎn)。***,它會采用動態(tài)閾值手段進(jìn)行分析。第二,可以采用各種智能化的手段,發(fā)現(xiàn)各個監(jiān)控對象之間的關(guān)系,通過這些關(guān)系列舉出你相應(yīng)問題發(fā)生以后,每個事件后臺對應(yīng)的根源模塊的情況。當(dāng)我們實(shí)際在監(jiān)控的時候,我們不光在云環(huán)境監(jiān)控,或者在傳統(tǒng)的IT架構(gòu)里面監(jiān)控,如果出現(xiàn)問題以后,你能不能幫我去做一些自動的修復(fù),比如我的文件系統(tǒng)滿了,你能不能自動幫我清除一下,更進(jìn)一步的包括如果出現(xiàn)問題以后,能不能幫我判斷一下,現(xiàn)在這個問題是因?yàn)榕渲米兏鼘?dǎo)致的,還是因?yàn)榉?wù)停止導(dǎo)致的。在這里面bbpm都可以幫助你解決這些。
在BMC的容量管理里面,我們看幾點(diǎn),一個是過去的狀況是怎么樣的。第二,我現(xiàn)在的狀況是不是能夠支撐。第三,我未來的狀態(tài)如果改變了,我現(xiàn)在怎么去應(yīng)對它。這在里面,從整個模塊里面會包括三點(diǎn),***我現(xiàn)在容量問題的分析,這些數(shù)據(jù)你可以是BMC自己采集,也可以是你原來的一些數(shù)據(jù),比如我原來監(jiān)控產(chǎn)品的一些數(shù)據(jù),或者你原來壓力測試的數(shù)據(jù)都可以放在里面來分析。第二,如果出現(xiàn)問題以后,我要看一下有什么方式去解決它,比如我的物理服務(wù)器需要做一些變動,如果我做了變動以后,我目前的容量狀況能不能改變,在這里面都可以進(jìn)行相應(yīng)的分析和判斷。***一點(diǎn),我們看一下,在BMC的應(yīng)用管理的模塊里面,我們會提供幾個能力,***,我們可以從實(shí)際用戶的交易里面去獲取很多信息,比如現(xiàn)在實(shí)際的用戶有哪一些交易在做,分析以后我會提供一個相應(yīng)的能力去發(fā)現(xiàn),原來你的趨勢是什么樣的,現(xiàn)在出現(xiàn)什么問題了,如果同正常的運(yùn)行不一樣,在這不一樣里面到底是哪些不一樣,是你的出錯量大于正常的情況,比如原來在某個地方可能出錯兩三筆,現(xiàn)會達(dá)到幾十筆,這樣我們就需要去關(guān)注。收到這些信息以后,在整個容量分析里面就可以做比對,一個看原來的情況是怎么樣的,原來運(yùn)行的模式是什么樣的,如果現(xiàn)在出現(xiàn)問題以后,具體的數(shù)據(jù)是怎么樣的,趨勢是怎么樣的,并且是誰出現(xiàn)了這些問題,為什么出現(xiàn)?在這里面還可以提供各種手段,我可以針對各個區(qū)域進(jìn)行分析。最重要一點(diǎn)在應(yīng)用管理里面,不光光要發(fā)現(xiàn)問題,實(shí)際發(fā)現(xiàn)問題以后還有很多表象,我們還要有能力定位到底在哪些組件里面出現(xiàn)錯誤,比如我在訪問的時候是數(shù)據(jù)庫訪問緩慢還是外面站點(diǎn)訪問緩慢,BMC的解決方案都能夠幫你分析這些問題。