不容錯(cuò)過的AIOps落地關(guān)鍵點(diǎn)指南
譯文【51CTO.com快譯】隨著系統(tǒng)效率和復(fù)雜程度的日益提高,我們用于承載服務(wù)的IT環(huán)境也變得異常復(fù)雜。許多企業(yè)在向微服務(wù)和容器化的邁進(jìn)的過程中,給已有的應(yīng)用進(jìn)一步增加了大量的服務(wù)組件。那么如何管理和協(xié)調(diào)好各個(gè)組件之間的功能與關(guān)系,顯然是我們需要面對(duì)和處理的巨大挑戰(zhàn)。
對(duì)于大多數(shù)企業(yè)而言,他們的IT運(yùn)營(yíng)(IT Ops)團(tuán)隊(duì)往往只能疲于應(yīng)付上述復(fù)雜局面,且很難獲取到更多的實(shí)用信息與管理資源。而這恰恰是人工智能化IT運(yùn)營(yíng)(AIOps)一顯身手的地方。通過由大數(shù)據(jù)、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)等技術(shù)所提供高水準(zhǔn)的定制服務(wù),AIOps能夠?yàn)楫?dāng)下流行的基礎(chǔ)架構(gòu)提供的全面、且深入的寶貴支持。
下面我們來一起了解一下,那些涉及到AIOps落地實(shí)踐方面的關(guān)鍵知識(shí)點(diǎn)。
了解AIOps
如今,雖說已經(jīng)出現(xiàn)了大量的自動(dòng)化工具,但是IT Ops團(tuán)隊(duì)卻無法收益于效率的提升。由于這些工具尚無法基于數(shù)據(jù)進(jìn)行自動(dòng)化的決策,因此人工運(yùn)維的工作量仍舊十分龐大。
而AIOps提供了一種將數(shù)據(jù)分析集成到IT Ops中的更為精細(xì)的方法。它能夠根據(jù)組織的目標(biāo),來更好地支持可擴(kuò)展性的工作流。
AIOps平臺(tái)的各種技術(shù)組件
AIOps的各種用例
異常檢測(cè) – 作為一種最基本的檢測(cè)方法,只有在檢測(cè)到數(shù)據(jù)中的異常之時(shí),才會(huì)觸發(fā)某個(gè)補(bǔ)救措施。
因果分析 - 為了快速有效地解決問題,AIOps能夠按需進(jìn)行根本原因的分析。
預(yù)測(cè) — AIOps可以利用所支持的工具對(duì)未來進(jìn)行自動(dòng)化的預(yù)測(cè)。例如,它可以了解用戶流量的變更方式與時(shí)間,并籍此做出反應(yīng),進(jìn)而解決問題。
警報(bào)管理 – 它可以自動(dòng)實(shí)施智能化的補(bǔ)救、以及閉環(huán)補(bǔ)救,而無需任何人工干預(yù)。
在AIOps和DevOps之間制造平衡
眾所周知,DevOps已經(jīng)給許多企業(yè)帶來了文化上的轉(zhuǎn)變,而AIOps也有著異曲同工之妙。通過幫助企業(yè)從各種相互連接的、卻又分散的數(shù)據(jù)中發(fā)現(xiàn)潛在的洞見,AIOps讓企業(yè)的決策自動(dòng)化變得更敏捷且準(zhǔn)確。
對(duì)于企業(yè)而言,擺脫長(zhǎng)期以來的信息孤島狀態(tài)是非常重要的,他們希望由自己系統(tǒng)所生成的數(shù)據(jù)能夠具有全局化的可觀察性(observability),而不僅限于單個(gè)部門或業(yè)務(wù)。
另外,通過AIOps,IT Ops管理人員的傳統(tǒng)職能也會(huì)逐漸轉(zhuǎn)化為系統(tǒng)現(xiàn)場(chǎng)可靠性工程師的(Site Reliability Engineer)這一角色。籍此,他們能夠利用手頭上收集到的信息、并以更加有效的方式解決碰到的各種問題。
盡管AIOps和DevOps的落地目標(biāo)都是為了改進(jìn)組織的服務(wù)、并提高總體生產(chǎn)力,但是AIOps還能夠通過減少妨礙生產(chǎn)力的干擾因素,來提高DevOps的各項(xiàng)實(shí)踐效率。例如:AIOps就能有效地減少來自各種平臺(tái)的誤報(bào)和通知的數(shù)量,由此DevOps工程師們便可以更加輕松地將有限的精力,集中到真正的故障問題之上。可以肯定地說,AIOps能夠?qū)evOps工程師、及其企業(yè)目標(biāo)起到事半功倍的效果。
AIOps與時(shí)間管理
無論企業(yè)開發(fā)團(tuán)隊(duì)的規(guī)模是大還是小,他們總是會(huì)遇到“時(shí)間緊、任務(wù)急”之類的常見問題。幸運(yùn)的是,無論是在創(chuàng)建機(jī)器學(xué)習(xí)模型、還是在處理數(shù)據(jù)方面,AIOps都能夠通過靈活地獲取數(shù)據(jù),以及處理大量新的信息,來幫助您在有限的時(shí)間內(nèi)完成海量的任務(wù)。
過去,企業(yè)雖然深知高質(zhì)量數(shù)據(jù)的重要性,但是面對(duì)其復(fù)雜性時(shí),往往無法通過常規(guī)的數(shù)據(jù)分析,來進(jìn)行解讀、驗(yàn)證,甚至為自己所用。正如一份畢馬威會(huì)計(jì)師事務(wù)所的調(diào)查所顯示的那樣:由于與自己的想法或經(jīng)驗(yàn)并不相符,67%的CEO會(huì)不得不選擇性地忽略那些計(jì)算機(jī)驅(qū)動(dòng)的模型、或由數(shù)據(jù)分析所提供的洞見與判斷。
如今,AIOps則能夠利用那些訓(xùn)練有素的機(jī)器學(xué)習(xí)算法,“實(shí)時(shí)”地捕獲并維護(hù)那些高質(zhì)量的數(shù)據(jù),進(jìn)而采用大量既有的用例,來實(shí)現(xiàn)快速準(zhǔn)確的處理。例如:對(duì)于那些能夠檢測(cè)服務(wù)異常狀態(tài)的用例而言,快速識(shí)別錯(cuò)誤代碼與信息往往是至關(guān)重要的。特別是在防范系統(tǒng)安全漏洞的場(chǎng)景中,AIOps能夠讓自動(dòng)化且精準(zhǔn)的方式為運(yùn)營(yíng)團(tuán)隊(duì),以最快的方式找到解決問題各種備選方案。
AIOps的日益普及
當(dāng)然,擁有數(shù)據(jù)是一回事,而真正能夠有效地使用數(shù)據(jù)則是另一回事了。在實(shí)際應(yīng)用中,企業(yè)往往需要利用機(jī)器學(xué)習(xí)的相關(guān)技術(shù),來自動(dòng)化地?cái)U(kuò)展目標(biāo)應(yīng)用及其對(duì)應(yīng)的平臺(tái)。
根據(jù)MarketsandMarkets(https://www.marketsandmarkets.com/PressReleases/aiops-platform.asp)的預(yù)測(cè):明年,企業(yè)采用AIOps平臺(tái)的增長(zhǎng)率將達(dá)到34%,而目前的轉(zhuǎn)化率需求也正在持續(xù)增長(zhǎng)。在不增加資源負(fù)擔(dān)的情況下,AIOps讓企業(yè)變得更加靈活,他們的響應(yīng)能力也會(huì)更強(qiáng)??梢哉f,AIOps即將成為高度數(shù)字化時(shí)代的必備工具。
AIOps的落地
隨著越來越多的企業(yè)愿意在運(yùn)營(yíng)中采用AIOps模式,他們所要面對(duì)的問題是:如何以與業(yè)務(wù)需求相適應(yīng)的方式來接受它。以下是我們?yōu)槟鷾?zhǔn)備的一些有關(guān)AIOps落地關(guān)鍵點(diǎn)指南:
- l實(shí)施團(tuán)隊(duì)通過了解人工智能和機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),以便更好地運(yùn)用相關(guān)技術(shù)。
- 通過調(diào)查,發(fā)現(xiàn)運(yùn)營(yíng)人員日常工作中最耗時(shí)的任務(wù)。尤其是那些需要有效地轉(zhuǎn)化為自動(dòng)化的重復(fù)性任務(wù),往往最需要通過AIOps的干預(yù)來減輕作業(yè)的負(fù)擔(dān)。
- 避免一次性涉及太多的方面。我們可以從小處做起,從高優(yōu)先級(jí)的任務(wù)開始。一旦獲得了良好的反饋,則可以通過及時(shí)的評(píng)估,將該技術(shù)用例推行其他領(lǐng)域和任務(wù)的解決任務(wù)之中。
- 針對(duì)不同的數(shù)據(jù)采用AIOps。毫無疑問,此舉可能需要比您想象更長(zhǎng)的時(shí)間才能實(shí)現(xiàn),不過您將會(huì)收獲更多有關(guān)當(dāng)前系統(tǒng)的洞悉。此外,通過成功地定義各項(xiàng)參數(shù),并及時(shí)地評(píng)估各項(xiàng)指標(biāo),您需要確保AIOps的各項(xiàng)工作能夠與組織的目標(biāo)完美契合。
從應(yīng)用成熟度來看
對(duì)于大多數(shù)組織,特別是IT部門的領(lǐng)導(dǎo)者而言,他們更熱衷于通過對(duì)于復(fù)雜事件與任務(wù)的自動(dòng)化執(zhí)行,來減少各類警報(bào)的數(shù)量,降低服務(wù)中斷和停機(jī)所帶來的成本。而在AIOps的采用和落地時(shí),不同組織的目標(biāo)可能會(huì)有所不同。不過,他們通常會(huì)希望獲得目標(biāo)系統(tǒng)更全面的可見性,以及對(duì)于生產(chǎn)環(huán)境更有效的運(yùn)營(yíng)處理能力。
下圖展示的是一個(gè)五步走的成熟度模型。該模型能夠幫助組織確定自身在監(jiān)視和自動(dòng)化過程中所處的位置。
資料來源:ScienceLogic
其實(shí),AIOps主要適用于那些有著長(zhǎng)期目標(biāo)、并將其運(yùn)用到以微服務(wù)為驅(qū)動(dòng)應(yīng)用程序的領(lǐng)域。也就是說,AIOps旨在確保組織內(nèi)部信息的流動(dòng),以滿足整體架構(gòu)和業(yè)務(wù)目標(biāo),而不僅僅是改善當(dāng)前的運(yùn)營(yíng)流程。運(yùn)營(yíng)團(tuán)隊(duì)需要從當(dāng)前應(yīng)用的角度出發(fā),協(xié)同架構(gòu)團(tuán)隊(duì)、甚至是云端支持團(tuán)隊(duì),重新考慮如何去感知整個(gè)堆棧。而且,這對(duì)于那些使用微服務(wù)所構(gòu)建的應(yīng)用程序尤為重要。同時(shí),企業(yè)需要通過重新設(shè)計(jì)各種運(yùn)營(yíng)功能,來深入了解應(yīng)用層的架構(gòu)特點(diǎn),進(jìn)而讓恰當(dāng)?shù)臄?shù)據(jù)自動(dòng)流向應(yīng)用開發(fā)人員,并提供各種必要的見解。
總結(jié)
如今,已有不少的企業(yè)嘗鮮式地采用了AIOps的運(yùn)營(yíng)模式,但是他們也碰到了不少實(shí)際落地方面的問題。希望上述建議能夠幫助您更平滑地實(shí)現(xiàn)向AIOps的轉(zhuǎn)化,并充分釋放AIOps的潛能。
原文標(biāo)題:The Most Important Elements of AIOps,作者:Rahul Singh
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】






























