如果只把AIOps看做運(yùn)維技術(shù),未免也太膚淺了……
近日一篇《智能運(yùn)維行業(yè)亂象:估值虛高、上市受阻、裁員頻現(xiàn)》網(wǎng)文在運(yùn)維圈十分火爆,有一些觀點(diǎn)十分吸引人。今天,不對文章觀點(diǎn)做評價(jià),摘一小段《數(shù)智萬物下運(yùn)維》系列下我對金融企業(yè)智能運(yùn)維的理解。
AIOps是運(yùn)維的方向,但AIOps不能單純的認(rèn)為一種技術(shù)手段或技術(shù)平臺(tái),而應(yīng)該是數(shù)智時(shí)代人機(jī)協(xié)同的運(yùn)維模式。
一、人機(jī)協(xié)同的AIOps運(yùn)維工作模式
一種新的工作模式出現(xiàn),必然會(huì)對原來穩(wěn)定的工作模式進(jìn)行改變,改變通常會(huì)受到新挑戰(zhàn),所以新工作模式需要能解決當(dāng)前運(yùn)維工作中遇到的難題而出現(xiàn)。以金融行業(yè)的業(yè)務(wù)連續(xù)性管理為例,目標(biāo)是提高公司的風(fēng)險(xiǎn)防范能力、有效地減少非計(jì)劃的業(yè)務(wù)中斷、防范運(yùn)維操作風(fēng)險(xiǎn),對于首次出現(xiàn)的未知異常能夠利用工具量化分析并快速定位,確保在重大災(zāi)難性事件發(fā)生后能按計(jì)劃恢復(fù)業(yè)務(wù)連續(xù)性是傳統(tǒng)。在面對當(dāng)前復(fù)雜的技術(shù)架構(gòu)、不斷引入的創(chuàng)新技術(shù)、快速迭代的軟件版本、嚴(yán)峻的信息安全威脅下,傳統(tǒng)運(yùn)維團(tuán)隊(duì)原來被動(dòng)救火式、問題驅(qū)動(dòng)式、操作運(yùn)維、經(jīng)驗(yàn)運(yùn)維已經(jīng)很難實(shí)現(xiàn)企業(yè)業(yè)務(wù)連續(xù)性的保障目標(biāo)。金融企業(yè)運(yùn)行安全穩(wěn)定,需要運(yùn)維數(shù)據(jù)賦予數(shù)據(jù)洞察、輔助決策、跟蹤執(zhí)行的能力,提升復(fù)雜環(huán)境下的運(yùn)維管理能力,即:
- 實(shí)時(shí)獲得“發(fā)生了什么?”;
- 關(guān)聯(lián)分析“為什么會(huì)發(fā)生?”;
- 智能預(yù)測“將會(huì)發(fā)生什么?”;
- 決策判斷“采取什么措施?”;
- 自動(dòng)執(zhí)行“如何快速執(zhí)行?”
- 實(shí)時(shí)感知“工作執(zhí)行的效果?”
AIOps就是為了解決上述問題而生,相比傳統(tǒng)的運(yùn)維工作模式,AIOps重點(diǎn)不是創(chuàng)造一種全新的運(yùn)維工作模式,而是對現(xiàn)有“專家經(jīng)驗(yàn)+最佳實(shí)踐流程+工具平臺(tái)” 運(yùn)維模式的補(bǔ)充,為企業(yè)運(yùn)維工作提供“洞察感知、運(yùn)營決策、機(jī)器執(zhí)行”能力,支持向“人機(jī)協(xié)同”模式轉(zhuǎn)變。
為什么是“人機(jī)協(xié)同”的模式,而不是智能化的模式呢?因?yàn)閺漠?dāng)前AIOps的應(yīng)用情況看,雖然人工智能技術(shù)領(lǐng)先,但當(dāng)面對復(fù)雜、多變、信息不完全的環(huán)境,特別是應(yīng)用于需要復(fù)雜應(yīng)急保障場景時(shí),仍不具備替代專家,更多的應(yīng)用在某些特定弱人工智能領(lǐng)域?!叭藱C(jī)協(xié)同”聚焦在通過機(jī)器輔助人的決策與執(zhí)行,是在原來運(yùn)維組織內(nèi)部參與者,以及運(yùn)維以外的研發(fā)、測試、廠商等協(xié)同網(wǎng)絡(luò)上,增加機(jī)器人角色,形成人機(jī)協(xié)同的運(yùn)維模式。人機(jī)協(xié)同的運(yùn)維模式,最關(guān)鍵的角色仍是人,利用人的創(chuàng)造力,結(jié)合機(jī)器所提供的數(shù)據(jù)和算法,輔助人進(jìn)行運(yùn)維工作開展。總的來說,人機(jī)協(xié)同需要發(fā)揮人與機(jī)器人特長,形成一個(gè)融合的解決方案,后續(xù)AIOps的重點(diǎn)推進(jìn)方向可以圍繞三點(diǎn):
- “數(shù)據(jù)+算法”為運(yùn)維專家賦能“實(shí)時(shí)感知、輔助決策”的能力。
- 增加運(yùn)維機(jī)器人崗位,重塑 “大計(jì)算” 、“海量數(shù)據(jù)分析”、“操作性”、“流程化”、“規(guī)律性” 、“7*24”、“人機(jī)體驗(yàn)”等類型的運(yùn)維工作。
- 建立數(shù)字平臺(tái)化管理模式,閉環(huán)落實(shí)決策執(zhí)行。
二、數(shù)據(jù)、算法、場景、知識組成AIOps關(guān)鍵4要素
如Gartner定義中提出,AIOps應(yīng)用需要利用大數(shù)據(jù),現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)和其他高級分析技術(shù),是一種相對較高門檻的工作模式。為了更好地落地AIOps,運(yùn)維組織需要深刻地理解AIOps的內(nèi)涵,重點(diǎn)實(shí)現(xiàn)思路:以數(shù)據(jù)為基礎(chǔ)、算法為支撐、場景為導(dǎo)向,知識為擴(kuò)展的AIOps4要素。
1、以數(shù)據(jù)為基礎(chǔ)
數(shù)據(jù)為先,AIOps需要快速生產(chǎn)高質(zhì)量數(shù)據(jù)的能力。“快速”的思路可以以“中臺(tái)”思路進(jìn)行建設(shè),建立統(tǒng)一的數(shù)據(jù)采控、實(shí)時(shí)與批量的數(shù)據(jù)處理能力、與運(yùn)維相匹配的運(yùn)維算法、存儲(chǔ)方案、主數(shù)據(jù)、指標(biāo)模型等;“高質(zhì)量”則從將分散數(shù)據(jù)統(tǒng)一、在線后形成“活數(shù)據(jù)”,以及數(shù)據(jù)質(zhì)量上的治理。從技術(shù)實(shí)現(xiàn)看,具備實(shí)時(shí)“采、存、算、管、用”的數(shù)據(jù)流動(dòng)全生命周期管理的能力。其中,數(shù)據(jù)采集是按需在線采集數(shù)據(jù)的能力;數(shù)據(jù)存儲(chǔ)是根據(jù)數(shù)據(jù)類型、數(shù)據(jù)應(yīng)用特點(diǎn)對數(shù)據(jù)進(jìn)行歸檔、整理、傳輸、共享;數(shù)據(jù)計(jì)算包括數(shù)據(jù)標(biāo)注、清洗、建模、加工、標(biāo)準(zhǔn)化、質(zhì)量監(jiān)控,以及為了獲得數(shù)據(jù)洞察、決策、執(zhí)行而對數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì);數(shù)據(jù)管理重點(diǎn)圍繞數(shù)據(jù)治理的,包括運(yùn)維數(shù)據(jù)標(biāo)準(zhǔn)、主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全的管理;數(shù)據(jù)使用重點(diǎn)圍繞數(shù)據(jù)服務(wù)角度涉及的數(shù)據(jù)目錄、服務(wù)門戶,以及配套的數(shù)據(jù)服務(wù)化能力。
2、以算法為支撐
算法大腦,適配、引入特定場景下運(yùn)維算法,構(gòu)建算法模型體系。機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的大規(guī)模應(yīng)用,推動(dòng)了人工智能的快速發(fā)展。隨著國內(nèi)TOB市場的火爆,AIOps上人工智能研究及應(yīng)用正處于爆發(fā)期,引入AI技術(shù)的算法有三點(diǎn)優(yōu)勢:一是工作穩(wěn)定性高,人工智能可不知疲倦地進(jìn)行工作,在規(guī)律性問題的分析時(shí)不受環(huán)境影響。二是降低操作風(fēng)險(xiǎn),利用人工智能取代傳統(tǒng)人工經(jīng)驗(yàn)操作,可更好地避免操作風(fēng)險(xiǎn)和道德風(fēng)險(xiǎn)。三是有效提高決策效率,人工智能可以快速地對大數(shù)據(jù)進(jìn)行篩選和分析,幫助人們更高效率地決策。作為金融企業(yè),一方面,由于人才、薪酬結(jié)構(gòu)等方面不足,在算法的建設(shè)上應(yīng)該更多地與外部供應(yīng)商合作;另一方面,對算法的追求不一定是技術(shù)的先進(jìn)性,事實(shí)上規(guī)律性的專家經(jīng)驗(yàn)落地也是一種算法的實(shí)現(xiàn),而且很多時(shí)候更加可靠。對于當(dāng)前主流的算法參見上一節(jié)提到了的常用算法,這里不再重復(fù)。
3、以場景為導(dǎo)向
場景驅(qū)動(dòng),以痛點(diǎn)、價(jià)值期望切入點(diǎn),用智能賦能運(yùn)維場景,落地智能運(yùn)維能力。AIOps從詞來看,應(yīng)該包括“AI+Ops”,是用AI賦能運(yùn)維場景的模式。有了上面提到的數(shù)據(jù)底座與算法大腦,下一步是AIOps運(yùn)維模式的落地,主要將圍繞場景的落地,一種是利用算法賦能已有的運(yùn)維場景,另一種是算法實(shí)現(xiàn)原來無法實(shí)現(xiàn)的運(yùn)維場景。前者是一個(gè)快速見效的模式,后者是應(yīng)對變化而做出的變化。
4、以知識為擴(kuò)展
運(yùn)維知識描述了大量運(yùn)維領(lǐng)域的相關(guān)對象定義、技巧,以及排故/解決經(jīng)驗(yàn)的信息。運(yùn)維知識圖譜是把運(yùn)維對象不同種類的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),是對運(yùn)維數(shù)據(jù)進(jìn)行表達(dá)的關(guān)鍵技術(shù)。通過構(gòu)建運(yùn)維知識圖譜,從海量數(shù)據(jù)中自動(dòng)挖掘各類運(yùn)維主體,對其特性進(jìn)行畫像和結(jié)構(gòu)化描述,動(dòng)態(tài)記錄運(yùn)維主體之間的關(guān)聯(lián)關(guān)系?;谶\(yùn)維知識圖譜,利用自然語義等算法技術(shù),可以幫助IT人員實(shí)現(xiàn)故障鏈傳播分析、根因定位、智能的變更影響分析、故障預(yù)測等多種AIOps場景。
三、AIOps的一些其他觀點(diǎn)
1、建立場景地圖,體系化、有節(jié)奏地落地AIOps
與AI技術(shù)在當(dāng)前大部分領(lǐng)域的應(yīng)用類似,AI是一種平臺(tái)能力,而不是業(yè)務(wù)。以網(wǎng)上銀行系統(tǒng)為例,PC端的網(wǎng)上銀行解決從柜臺(tái)到臨柜的便利性問題,手機(jī)銀行解決從鼠標(biāo)鍵盤操作到手指劃屏、隨時(shí)操作的操控問題,AI的視頻、語言識別等技術(shù)又給手機(jī)銀行解決從觸屏到沉浸智能的體驗(yàn)問題。在這個(gè)過程中,很多業(yè)務(wù)的本質(zhì)仍未改變,所以面對AIOps,運(yùn)維組織需要建立場景地圖,基于場景地圖分好優(yōu)先級,看如何將AI的優(yōu)勢賦能給運(yùn)維場景的具體環(huán)節(jié)。
2、“活數(shù)據(jù)”是運(yùn)維智能化的基礎(chǔ)
活數(shù)據(jù)有兩個(gè)含義,一是指數(shù)據(jù)是活的,即數(shù)據(jù)全在線;二是數(shù)據(jù)被活用,即在數(shù)據(jù)不斷應(yīng)用中完善并產(chǎn)生新數(shù)據(jù),形成數(shù)據(jù)回流。以往運(yùn)維數(shù)據(jù)分析主要基于批量離線數(shù)據(jù)建立報(bào)告輔助決策,但很多運(yùn)維工作場景需要實(shí)時(shí)數(shù)據(jù)分析支撐。所以,需要利用運(yùn)維數(shù)據(jù)平臺(tái)實(shí)現(xiàn)機(jī)器數(shù)據(jù)實(shí)時(shí)采控落地?cái)?shù)據(jù)資產(chǎn),再場景化實(shí)現(xiàn)數(shù)據(jù)消費(fèi),并建立數(shù)據(jù)應(yīng)用執(zhí)行的反饋不斷優(yōu)化數(shù)據(jù)驅(qū)動(dòng)的工作流程,形成更為準(zhǔn)確的數(shù)據(jù)。所以,實(shí)現(xiàn)活數(shù)據(jù)中有三個(gè)關(guān)鍵要素,一是構(gòu)建協(xié)同網(wǎng)絡(luò)的運(yùn)維工作場景,協(xié)同網(wǎng)絡(luò)需要打破線上工作流程孤島,打通“人、組織、軟件、硬件”之間的網(wǎng)絡(luò)連接;二是運(yùn)維組織要建立運(yùn)維數(shù)據(jù)平臺(tái)將生產(chǎn)運(yùn)行的相關(guān)數(shù)據(jù)匯聚在一起,并抽象成數(shù)據(jù)服務(wù),以便利的方式為運(yùn)維場景提供價(jià)值;三要不斷消費(fèi)數(shù)據(jù),在數(shù)據(jù)消費(fèi)中發(fā)現(xiàn)問題,修正數(shù)據(jù),挖掘數(shù)據(jù)增值服務(wù),產(chǎn)生新的數(shù)據(jù)。
3、第一印象很重要
AIOps作為全新的工作模式,給用戶第一印象是可靠、可用,如果第一印象是懷疑態(tài)度,對后續(xù)工作模式的運(yùn)營推廣會(huì)帶來較大挑戰(zhàn)。AIOps的算法最需要解決的問題是,改變?nèi)藢Α八惴?zhǔn)確性”的印象,即“算法”的引入不是為了創(chuàng)新,而是為了確實(shí)解決真實(shí)問題而出現(xiàn)。以輔助故障定位為例,一個(gè)正常運(yùn)作的運(yùn)維組織日常很多故障通常能夠通過專家經(jīng)驗(yàn)、監(jiān)控工具、有效的協(xié)作機(jī)制得到處理。引入AIOps對于故障管理的賦能,一是為了更快,二是為了更準(zhǔn)。得益于機(jī)器的自動(dòng)化、算力等特點(diǎn),通過設(shè)計(jì)好的線上應(yīng)急場景,“快”的問題可預(yù)測能得到解決;但對于“準(zhǔn)”則多少有黑盒子的意味,所以在應(yīng)用算法時(shí)要持謹(jǐn)慎的思路,解決問題遠(yuǎn)比算法先進(jìn)重要。
最后,不管是運(yùn)維團(tuán)隊(duì)中的工具研發(fā),還是廠商,在推動(dòng)AIOps模式時(shí),都應(yīng)關(guān)注一線運(yùn)維專家的經(jīng)驗(yàn),以及落地運(yùn)維模式的配套工作機(jī)制,才能將人、流程、工具與具體的“事”連接成真實(shí)可用的場景。