聊聊 Aiops 的最后一公里
因?yàn)橐咔楣芸氐膯?wèn)題,從去年下半年開(kāi)始和客戶的面對(duì)面交流就少了很多,做產(chǎn)品軟件的,如果脫離了客戶,那是要走彎路的。我們也是如此,原本D-SMART的產(chǎn)品定位是知識(shí)自動(dòng)化,最初的設(shè)想是通過(guò)專(zhuān)家經(jīng)驗(yàn)的梳理和數(shù)字化,變成可自動(dòng)執(zhí)行的工具,不過(guò)隨著這些年AIOPS概念的興起,好像不沾點(diǎn)AIOPS的邊就不夠高大上似的。
在我們的產(chǎn)品設(shè)計(jì)中,利用專(zhuān)家經(jīng)驗(yàn)來(lái)解決80%甚至90%運(yùn)維人員日常遇到的問(wèn)題,如果發(fā)現(xiàn)新的未覆蓋的知識(shí),通過(guò)快速梳理,更新知識(shí)庫(kù),隨著用戶群體的擴(kuò)大與用戶使用的日益廣泛,這個(gè)比例可以逐步提高。最近這幾年里,知識(shí)庫(kù)中已經(jīng)積累了2000多個(gè)知識(shí)點(diǎn)和幾百個(gè)故障模型,在目前的客戶使用中,幾乎覆蓋了他們?nèi)粘_\(yùn)維故障與診斷分析的所有場(chǎng)景。當(dāng)然對(duì)于一個(gè)新用戶覆蓋率不可能那么高,有幾次用戶出現(xiàn)了專(zhuān)家未曾梳理到的問(wèn)題的時(shí)候,智能診斷發(fā)揮了較好的作用,通過(guò)智能診斷很快確定了診斷方向,結(jié)合專(zhuān)家的經(jīng)驗(yàn),我們很快就幫助用戶定位了問(wèn)題。
有了幾次成功的應(yīng)用,我迷戀上了這些智能化診斷工具,也不斷的在通過(guò)優(yōu)化運(yùn)維知識(shí)圖譜來(lái)獲得更為準(zhǔn)確的診斷結(jié)果。甚至有一段時(shí)間我們甚至覺(jué)得以后不再需要花大力氣去編制專(zhuān)家知識(shí)點(diǎn)工具了,只需要不斷優(yōu)化運(yùn)維知識(shí)圖譜,利用低代碼的泛路由知識(shí)點(diǎn)就可以不斷優(yōu)化診斷工具。
最近的幾次和高水平最終用戶的交流一巴掌把我打醒了。前幾天和一個(gè)客戶交流D-SMART產(chǎn)品的時(shí)候,我演示了某一個(gè)系統(tǒng)告警通過(guò)智能診斷工具和專(zhuān)家診斷工具的診斷效果。

針對(duì)這個(gè)系統(tǒng)隱患的告警,有三個(gè)工具可用,一個(gè)是通用的數(shù)據(jù)庫(kù)狀態(tài)巡檢工具“問(wèn)題分析”,一個(gè)是智能化診斷工具“智能指標(biāo)分析”,一個(gè)是專(zhuān)家知識(shí)點(diǎn)工具。我們先來(lái)看看智能指標(biāo)分析工具的診斷結(jié)果:

智能指標(biāo)分析發(fā)現(xiàn)系統(tǒng)存在的最主要的問(wèn)題是高并發(fā)、應(yīng)用存在TOP SQL、IO性能問(wèn)題以及REDO/DB CACHE等的配置存在一些問(wèn)題。大體的方向是準(zhǔn)確的,不過(guò)還是有些籠統(tǒng)。對(duì)于我來(lái)說(shuō),這個(gè)分析結(jié)論十分有幫助,我可以根據(jù)這個(gè)去做下一步的判斷了。
智能診斷工具推薦的下鉆工具中,也有專(zhuān)家診斷路徑提供的那個(gè)知識(shí)點(diǎn)工具。如果我們不使用智能診斷工具,直接使用專(zhuān)家知識(shí)點(diǎn)工具會(huì)怎么樣呢?

專(zhuān)家知識(shí)點(diǎn)工具是由運(yùn)維專(zhuān)家編制的,根據(jù)專(zhuān)家經(jīng)驗(yàn)對(duì)數(shù)據(jù)進(jìn)行分析得到的分析結(jié)論。在這個(gè)分析中,給出了遠(yuǎn)比智能分析工具更為明確的分析數(shù)據(jù)與診斷分析結(jié)論。提交過(guò)于頻繁,REDO量過(guò)大,LOG BUFFER配置不合理等問(wèn)題都被直接的指出了。同時(shí)在分析中還發(fā)現(xiàn)數(shù)據(jù)庫(kù)IO存在性能問(wèn)題,因此在最后給出了一個(gè)下鉆診斷的工具鏈接,點(diǎn)擊這個(gè)鏈接可以進(jìn)行下鉆分析。

數(shù)據(jù)庫(kù)IO分析工具確認(rèn)了IO存在問(wèn)題的具體方面,同時(shí)給出了一個(gè)服務(wù)器IO分析的下鉆建議。

OS IO診斷工具確定了后端存儲(chǔ)的IO性能不足是引發(fā)數(shù)據(jù)庫(kù)IO問(wèn)題的主因。至此這個(gè)診斷分析工作完成,基本上發(fā)現(xiàn)了引發(fā)該問(wèn)題的主要因素。智能診斷工具發(fā)現(xiàn)的問(wèn)題更為全面,基本方向也基本準(zhǔn)確。而專(zhuān)家工具發(fā)現(xiàn)問(wèn)題更為精準(zhǔn),也更為直接,可以直接用于運(yùn)維人員進(jìn)行系統(tǒng)優(yōu)化。客戶最后告訴我,他們最需要的就是專(zhuān)家診斷工具給出的診斷結(jié)論。這些寶貴的專(zhuān)家經(jīng)驗(yàn)可以直接幫助他們解決一線生產(chǎn)中的問(wèn)題。
第二天我和另外一個(gè)客戶交流,也演示了這個(gè)工具。那個(gè)客戶的數(shù)學(xué)功底很深,因此對(duì)智能診斷很感興趣,我們聊的也很不錯(cuò)。只不過(guò)最后我問(wèn)他專(zhuān)家工具和智能工具哪個(gè)對(duì)他們更有用時(shí),他說(shuō)專(zhuān)家工具是他們所需要的。因?yàn)殡m然智能工具能夠給出很好的方向,但是他們的現(xiàn)場(chǎng)運(yùn)維人員可能根本看不懂這些內(nèi)容。雖然后面提供了那么多下鉆分析工具,總不如專(zhuān)家工具那么直接有效。
回來(lái)以后我思考了很長(zhǎng)時(shí)間,也發(fā)現(xiàn)了最近這半年多時(shí)間里我的思維誤區(qū)。智能診斷工具對(duì)我來(lái)說(shuō)是十分有效的,并不說(shuō)明能夠?qū)σ痪€運(yùn)維有很大的幫助,因?yàn)榇蠖鄶?shù)一線運(yùn)維人員的能力無(wú)法很好的理解診斷結(jié)論。目前絕大多數(shù)的AIOPS也都是如此,大致定位可能很準(zhǔn)確,可以比較準(zhǔn)確的發(fā)現(xiàn)問(wèn)題出現(xiàn)在哪一方面,但是無(wú)法十分精準(zhǔn)的描述問(wèn)題和根因溯源。
這就是AIOPS的最后一公里問(wèn)題。前幾天和客戶交流運(yùn)維工具的時(shí)候,有個(gè)上過(guò)AIOPS系統(tǒng)的用戶說(shuō)過(guò)一句話:“智能運(yùn)維工具的結(jié)論是給專(zhuān)家看的,不是給一般運(yùn)維人員看的“,當(dāng)時(shí)我還沒(méi)有把這句話太當(dāng)一回事。這些天又想起這句話,覺(jué)得十分有道理。
AIOPS的最后一公里是專(zhuān)家工具,這是我這些天思考后得到的一個(gè)結(jié)論。光有AIOPS的分析結(jié)論,對(duì)于一線運(yùn)維來(lái)說(shuō)還是不夠的,必須在AIOPS最終的分析中引入準(zhǔn)確的專(zhuān)家知識(shí)點(diǎn)下鉆或者確認(rèn)的能力,才能比較準(zhǔn)確的定位問(wèn)題,為一線運(yùn)維提供幫助。
而智能診斷工具可以在專(zhuān)家分析問(wèn)題的時(shí)候讓專(zhuān)家更專(zhuān)注于問(wèn)題發(fā)現(xiàn)與總結(jié)分析,把大量的數(shù)據(jù)處理與計(jì)算的工作自動(dòng)化了。
因此在知識(shí)發(fā)現(xiàn)與知識(shí)梳理上能發(fā)揮巨大的作用,作為一線運(yùn)維工具來(lái)說(shuō),效果就不一定很好了。這也是很多用戶在使用了AIOPS工具后的普遍感受。堅(jiān)持知識(shí)自動(dòng)化的方向應(yīng)該是為一線運(yùn)維提供有力武器的正確方向,用專(zhuān)家知識(shí)解決80%的問(wèn)題,用智能化工具為剩下的20%問(wèn)題指明方向,這種組合可能是未來(lái)一段時(shí)間D-SMART發(fā)展的重要思路。2000多個(gè)知識(shí)點(diǎn)還是不夠的,我們需要更多更快的積累知識(shí)點(diǎn)工具,利用生態(tài)協(xié)作是個(gè)不錯(cuò)的方法。隨著下個(gè)月社區(qū)版的發(fā)布,我們也會(huì)發(fā)布一個(gè)這方面的生態(tài)計(jì)劃。

























