無數(shù)據(jù),不工作!運維“數(shù)據(jù)思維”有多重要?
本文轉(zhuǎn)載自微信公眾號「高效運維」,作者顧黃亮。轉(zhuǎn)載本文請聯(lián)系高效運維公眾號。
前言
信通院的一些分析數(shù)據(jù)表明,企業(yè)IT的信息化歷程逐漸完成,同時企業(yè)對IT的精益運行的需求越來越迫切,在這個場景下,數(shù)據(jù)的思維和使用能力成為制約提升IT生產(chǎn)效率的桎梏。
筆者以為,企業(yè)數(shù)字化的范疇放在運維領(lǐng)域,更多的場景還處在數(shù)據(jù)量化的擴展,因此除了服務(wù)輸出和業(yè)務(wù)連續(xù)性能力輸出以外,還有一個重要的場景需要開辟,其中就包括運維的數(shù)字信息能力輸出。同時根據(jù)《企業(yè)IT運維發(fā)展白皮書》所述,在數(shù)據(jù)驅(qū)動的基礎(chǔ)上,運維的重要職能已由安全、穩(wěn)定逐步延展至高效和低成本。在本文中,我們重點以運維的數(shù)據(jù)思維和數(shù)據(jù)的場景運用進行展開。
一、運維方式和運維數(shù)據(jù)的發(fā)展歷程
從企業(yè)的信息系統(tǒng)規(guī)模、復(fù)雜程度變化以及運維技術(shù)的應(yīng)用等方面考慮,我們大致可以把運維方式的發(fā)展分為五個階段:手工運維、流程化運維、自動化運維、DevOps、AIOps。在這五個階段中,運維的場景輸出能力在不斷的提升,從最初的各類資源的分配控制到容量管理,資源交付到持續(xù)部署,被動的問題受理到提前預(yù)測問題,乃至到現(xiàn)在已經(jīng)主動介入用戶體驗和增值服務(wù)投入的技術(shù)運營場景。
因此運維方式的發(fā)展也遵循運維無邊界的思路,“浸潤式”的進入整個IT服務(wù)體系,從業(yè)務(wù)的角度來提升運維價值,提升技術(shù)的投入產(chǎn)出比和減少企業(yè)成本的壓力。
運維數(shù)據(jù)根據(jù)上述運維方式的發(fā)展歷程逐步構(gòu)建數(shù)據(jù)生態(tài),如果我們把運維方式的發(fā)展?jié)饪s成運維技術(shù)提升和工具建設(shè),那與之相對應(yīng)的,運維數(shù)據(jù)的發(fā)展也有四個階段:自動化運維能力、平臺化運維能力、數(shù)據(jù)化運維能力、智能化運維能力。
在數(shù)據(jù)化運維能力中,運維數(shù)據(jù)已初步形成初步數(shù)據(jù)生態(tài)標(biāo)準(zhǔn),具備構(gòu)建運維數(shù)據(jù)中臺和數(shù)據(jù)可視化,同時也能對數(shù)據(jù)的進行血緣能力和影響能力的初步分析。在智能化運維能力中,運維數(shù)據(jù)已形成較大的規(guī)模,因此將運維經(jīng)驗和大數(shù)據(jù)、機器學(xué)習(xí)的技術(shù)相結(jié)合,開發(fā)成一系列智能策略,提升運維數(shù)據(jù)的輸出能力,讓運維的數(shù)據(jù)邊界延伸至更多的場景。
二、什么是運維的“數(shù)據(jù)思維”
運維方式的發(fā)展提升了運維人員的基礎(chǔ)門檻能力,在現(xiàn)在很多的企業(yè)中,運維人員的日常離不開數(shù)據(jù),運維的過程和結(jié)果靠不靠譜,都可以通過數(shù)據(jù)來驗證。
(1)數(shù)據(jù)對運維打通業(yè)務(wù)服務(wù)鏈路的價值
數(shù)據(jù)的價值,在企業(yè)數(shù)字化實踐過程中處在核心地位,對于運維來說也亦然。不同的數(shù)據(jù)對于不同的運維人員價值也不一樣,同樣數(shù)據(jù)對于不同的運維人員來說價值也不一樣,因此對于運維來說,數(shù)據(jù)對運維打通業(yè)務(wù)服務(wù)鏈路的價值主要有以下。
在產(chǎn)品的運營階段,快速發(fā)現(xiàn)業(yè)務(wù)問題。公司管理層通過經(jīng)營指標(biāo)發(fā)現(xiàn)公司運營中的問題,同樣的,運維人員也能通過業(yè)務(wù)數(shù)據(jù)發(fā)現(xiàn)產(chǎn)品運營中的問題。業(yè)務(wù)數(shù)據(jù)的背后是每個用戶行為的堆砌,如數(shù)據(jù)有波動,一定是某些節(jié)點和步驟不同于往常,需要重點關(guān)注。
舉一個簡單的場景,如多個第三方渠道出現(xiàn)訪問量、成功率下降,而系統(tǒng)無故障的情況下,是不是第三方渠道出現(xiàn)問題,還是新上線功能出現(xiàn)bug導(dǎo)致了數(shù)據(jù)變化,還是某些開關(guān)和策略遺漏,因此在產(chǎn)品的運營階段,數(shù)據(jù)是溝通科技和業(yè)務(wù)的橋梁。
對于運維來說,監(jiān)控著力點的前置,有助于更快速的發(fā)現(xiàn)業(yè)務(wù)問題,在業(yè)務(wù)監(jiān)控中,數(shù)據(jù)波動的點是公司運營的問題點,也是運維在工作中的重點。
輔助運維人員做決策。在實際的運維資源輸出工作中,一般會有一些特殊場景是流程無法覆蓋的,如重大活動的資源擴容和緊急情況下的系統(tǒng)降級。在鏈路系統(tǒng)擴容方面存在A系統(tǒng)擴容和B系統(tǒng)擴容,如果有數(shù)據(jù)支撐能直接證明A系統(tǒng)擴容比B系統(tǒng)擴容方式好,那就采取A系統(tǒng)擴容。可能有人說,為什么不用鏈路壓測來決定,在龐大的業(yè)務(wù)系統(tǒng)鏈路中,涉及外部第三方系統(tǒng)的多級調(diào)用,并不一定能夠協(xié)調(diào)到足夠多的資源,因此只能基于現(xiàn)有的數(shù)據(jù)支撐進行決策,緊急情況下的系統(tǒng)降級也一樣。
在數(shù)據(jù)積累過程中,如果數(shù)據(jù)表現(xiàn)向好的方面發(fā)展,要放大這個效應(yīng),全面去應(yīng)用讓數(shù)據(jù)好轉(zhuǎn)的措施。如果數(shù)據(jù)表現(xiàn)向不好的方面發(fā)展,快速定位導(dǎo)致數(shù)據(jù)波動的真正原因,給予解決。不管是運維方向的決策還是運維方案的決策,都能通過數(shù)據(jù)來指導(dǎo)。
運維成本復(fù)盤和項目的后評價。對于企業(yè)來說,每個項目和需求的上線,有且只有一個最合適的指標(biāo)來評估其結(jié)果,因此項目后評價是進行成本復(fù)盤的重要手段。是判斷人力資源、軟硬件資源的投入和產(chǎn)品運營后的產(chǎn)出對比,也是判斷項目或產(chǎn)品的成功與否,更是從較高的視野來進行項目和產(chǎn)品優(yōu)化的重要手段。
對于運維來說,除了基于容量管理,運維的成本復(fù)盤也是至關(guān)重要的一個點。項目上線前的預(yù)期收益和項目上線后的階段性實際收益相對比,相關(guān)數(shù)據(jù)可以決定了軟硬件的投入是否形成收益,也能將此類數(shù)據(jù)作為業(yè)務(wù)繼續(xù)迭代優(yōu)化和下線止損的參考。
(2)運維人員的數(shù)據(jù)觀
無數(shù)據(jù),不工作。在進入運維自動化階段,對于運維人員來說,日常工作如果沒有數(shù)據(jù)作為參考,工作的方向和思路會造成嚴(yán)重的偏差。你所負(fù)責(zé)的業(yè)務(wù)線和系統(tǒng)已無法給予你最準(zhǔn)確的狀態(tài)和及時的反饋。同樣的,資源的管理和分配也因數(shù)據(jù)的實時性和準(zhǔn)確性大打折扣,導(dǎo)致不能高質(zhì)量的進行交付。因此,對于運維人員來說,要充分使用數(shù)據(jù)的反饋和支撐。
數(shù)據(jù)讓一切問題及時暴露。線上bug,第一時間反饋在數(shù)據(jù)波動上;系統(tǒng)和資源的問題,第一時間體現(xiàn)在監(jiān)控反饋上;代碼質(zhì)量,第一時間反饋在持續(xù)構(gòu)建環(huán)節(jié);渠道質(zhì)量不高,第一時間反饋在數(shù)據(jù)的同比環(huán)比上??傊?,在業(yè)務(wù)連續(xù)性的問題上,數(shù)據(jù)讓一切問題及時暴露。
用好數(shù)據(jù)即可,不必成為數(shù)據(jù)的生產(chǎn)者。運維領(lǐng)域集中了公司展業(yè)的所有數(shù)據(jù),有資源數(shù)據(jù)、監(jiān)控數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、后臺支撐數(shù)據(jù),因此運維人員只需要合理的使用數(shù)據(jù),進行運維場景和數(shù)據(jù)輸出場景相互匹配。大數(shù)據(jù)工程師負(fù)責(zé)將業(yè)務(wù)經(jīng)營數(shù)據(jù)進行分析并提供結(jié)構(gòu)化,數(shù)據(jù)研發(fā)工程師負(fù)責(zé)滿足為公司各類數(shù)據(jù)需求方出數(shù),運營人員負(fù)責(zé)對業(yè)務(wù)數(shù)據(jù)給出建議和實時反饋。
而運維人員只需要將運維場景的數(shù)據(jù)和其他第三方數(shù)據(jù)進行有機的結(jié)合,因此運維人員隨時看數(shù)據(jù),并不需要成為他們,運維服務(wù)能力的邊界延伸并不意味運維技術(shù)的延伸,運維人員跟需要善于運用現(xiàn)有的數(shù)據(jù)來獲得想要的結(jié)果和反饋。
三、運維人員如何落地“數(shù)據(jù)思維”
我們講到了什么是數(shù)據(jù)指標(biāo)體系,如何進行構(gòu)建數(shù)據(jù)指標(biāo)體系。因此運維人員在落地數(shù)據(jù)思維中的第一步是形成初步的運維數(shù)據(jù)的生態(tài),具備數(shù)據(jù)的輸出場景能力。
(1)具備運維數(shù)據(jù)生態(tài)
通俗點說,運維數(shù)據(jù)生態(tài)是集中了公司展業(yè)的所有數(shù)據(jù),并讓適配場景的數(shù)據(jù)進行流動。對于資源管理來說,基于CMDB的數(shù)據(jù)大致有以下兩類,數(shù)據(jù)中心數(shù)據(jù),包括了機房、機柜、U位、設(shè)備、服務(wù)器和配件、系統(tǒng)版本、IP信息。云管數(shù)據(jù),包括了宿主機、虛擬機、容器、系統(tǒng)版本、IP信息、承載系統(tǒng)、負(fù)載均衡、系統(tǒng)信息、中間件信息、業(yè)務(wù)信息。基于系統(tǒng)的數(shù)據(jù)均來自有業(yè)務(wù)日志,包括時間、請求號、系統(tǒng)、接口、方法、耗時、響應(yīng)碼?;跇I(yè)務(wù)的信息大致有pv、uv、轉(zhuǎn)化率、成功率、新客人數(shù)、利潤等?;诮M織架構(gòu)的信息大致有部門、團隊、人員等。另外還有一些文檔數(shù)據(jù),如需求文檔,接口文檔,知識庫。
如下圖所列,具備運維數(shù)據(jù)的生態(tài)基礎(chǔ)需要將上述源數(shù)據(jù)進行采集、存儲、加工、分析,最終達到應(yīng)用的效果。
(2)提供數(shù)據(jù)使用場景
運維的日常場景很多,看似復(fù)雜,終究離不開對穩(wěn)定、安全、高效、低成本四項基本價值的更高追求。通過運維數(shù)據(jù)化能力,運維能為企業(yè)決策提供有力支撐,實現(xiàn)穩(wěn)定、安全、效率的提升,和對成本的合理把控。在本文中我們只對常見的場景進行簡單的描述,詳細(xì)的場景分析將在下一篇中體現(xiàn)。
知識圖譜,使用統(tǒng)一的語言來定義運維數(shù)據(jù),將運維對象通過實體與實體間的關(guān)系來表達,整合運維領(lǐng)域內(nèi)的實體關(guān)系形成知識圖譜。運維領(lǐng)域的關(guān)系包括但不限于產(chǎn)品、服務(wù)、集群、服務(wù)器、網(wǎng)絡(luò)、IDC等。
數(shù)據(jù)中臺,建立面向運維域的數(shù)據(jù)中臺,統(tǒng)一納管如資源數(shù)據(jù)、告警數(shù)據(jù)、性能數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、工單數(shù)據(jù)、指標(biāo)數(shù)據(jù)、撥測數(shù)據(jù)等,面向上層運維分析場景提供統(tǒng)一的數(shù)據(jù)訪問路由、數(shù)據(jù)服務(wù)目錄、數(shù)據(jù)接入管理、 數(shù)據(jù)可視化等功能,以期打破“數(shù)據(jù)孤島”,通過整合關(guān)聯(lián)和對外開放來深度 挖掘運營數(shù)據(jù)的價值。識別前臺數(shù)據(jù)需求,整合后臺數(shù)據(jù),對數(shù)據(jù)進行加工和輸出,建立數(shù)據(jù)中心級的數(shù)據(jù)服務(wù)共享平臺。通過對數(shù)據(jù)的梳理,數(shù)據(jù)源的規(guī)劃,數(shù)據(jù)流程的整合,對存量數(shù)據(jù)進行加工整合,達到以數(shù)據(jù)服務(wù)化的方式來 實現(xiàn)數(shù)據(jù)監(jiān)控,資源使用率分析。
數(shù)據(jù)可視化,通過對數(shù)據(jù)的可視化呈現(xiàn),幫助運維人員直觀、便捷、快速的進行問題分析,還可提供一系列的工具組件讓運維人員根據(jù)自己的業(yè)務(wù)情況對海量數(shù)據(jù)進行快速進行視圖編輯、多層下鉆分析、多維度關(guān)聯(lián)分析、報表編排,橫向縱向大盤數(shù)據(jù)對比等,將傳統(tǒng)的運維經(jīng)驗進行數(shù)字化轉(zhuǎn)變,大大提升了問題排查、風(fēng)險發(fā)現(xiàn)和知識沉淀。
下一篇文章中,將進行更高階的場景描述,如無人值守變更、故障自動評估、故障自動預(yù)測。
(3)養(yǎng)成每天看數(shù)據(jù)的習(xí)慣
運維人員應(yīng)具備看數(shù)據(jù)的好習(xí)慣,以筆者為例,每天最重要的的事是隨時看監(jiān)控數(shù)據(jù),同時兼顧業(yè)務(wù)數(shù)據(jù),同時保持對數(shù)據(jù)的敏感性。對于數(shù)據(jù)的表現(xiàn),不管正常還是異常,都需要跟研發(fā)團隊、產(chǎn)品團隊、業(yè)務(wù)團隊保持溝通,讓大家知曉目前的項目和線上產(chǎn)品的數(shù)據(jù)表現(xiàn)。這樣做一方面能獲得來自團隊的反饋,有反饋會進一步強化我們看數(shù)據(jù)的行為。另一方面也建立自己靠譜的形象,能做到每天看數(shù)據(jù)、看業(yè)務(wù)指標(biāo),這就是運維人員的靠譜。
四、后記
總之,運維離不開數(shù)據(jù),尤其在企業(yè)IT逐步進入精益運營和價值交付的今天,離開了數(shù)據(jù),運維路上終究布滿坎坷,盡信數(shù)據(jù),比自己瞎想強。
作者簡介
顧黃亮,十年研發(fā)運維經(jīng)驗,涵蓋基礎(chǔ)架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)庫、DevOps,有互聯(lián)網(wǎng),電商,金融從業(yè)經(jīng)歷。
專注于 DevOps 在企業(yè)中的應(yīng)用和落地,致力于企業(yè)智慧運維體系的打造。參加多個行業(yè)、國家標(biāo)準(zhǔn)的編寫,《開源許可證使用指南(2018)》作者之一,國標(biāo)《研發(fā)運營一體化(DevOps)能力成熟度模型》作者之一,《企業(yè)IT運維發(fā)展白皮書》作者之一,曾供職于航天晨光、上汽集團云計算中心,現(xiàn)任蘇寧消費金融安全運維部負(fù)責(zé)人。