AI和大數(shù)據(jù)結(jié)合,智能運(yùn)維平臺(tái)助力流利說(shuō)提升核心競(jìng)爭(zhēng)力
優(yōu)質(zhì)的內(nèi)容與定制化服務(wù),提升企業(yè)核心競(jìng)爭(zhēng)力
2020年受疫情影響,在“停課不停學(xué)”的口號(hào)下,在線教育市場(chǎng)規(guī)模快速增加,市場(chǎng)規(guī)模達(dá)4858億元。在線教育行業(yè)經(jīng)過(guò)前幾年的快速奔跑后,市場(chǎng)已相對(duì)成熟,用戶(hù)對(duì)于各家不同類(lèi)型的在線教育機(jī)構(gòu),也提出了不同需求,因此單靠流量已無(wú)法換來(lái)忠實(shí)用戶(hù)。但對(duì)于教育行業(yè)來(lái)說(shuō),核心競(jìng)爭(zhēng)力仍然是優(yōu)質(zhì)的內(nèi)容和服務(wù)。只有高質(zhì)量的課程內(nèi)容、根據(jù)客戶(hù)學(xué)習(xí)習(xí)慣和基礎(chǔ)制定個(gè)性化計(jì)劃、優(yōu)質(zhì)產(chǎn)品體驗(yàn)與穩(wěn)定性,結(jié)合更高業(yè)務(wù)運(yùn)營(yíng)效率,企業(yè)才能贏得長(zhǎng)遠(yuǎn)的發(fā)展。縱觀整個(gè)在線教育行業(yè),在不斷調(diào)整中,最終存活下來(lái)的企業(yè)也必然要回歸教育本質(zhì),以?xún)?yōu)質(zhì)產(chǎn)品、內(nèi)容與服務(wù)等贏得長(zhǎng)遠(yuǎn)發(fā)展。
結(jié)合人工智能,特色教學(xué)獨(dú)樹(shù)一幟
在行業(yè)近一步調(diào)整之后,在線教育賽道中的企業(yè)也逐漸將由注重增量回歸內(nèi)容建設(shè)。但在整體大環(huán)境下,教學(xué)大綱千篇一律,教學(xué)方式也大相徑庭。雖課程有差異,但仍無(wú)驚艷可言,大部分企業(yè)無(wú)法依靠?jī)?nèi)容來(lái)突出重圍。
但流利說(shuō)卻不同,在這個(gè)人工智能時(shí)代,流利說(shuō)憑借特色的智能教學(xué)課程,依托人工智能AI等創(chuàng)新技術(shù),為用戶(hù)提供個(gè)性化教學(xué)課程,幫助更多用戶(hù)提升英語(yǔ)水平。截止2021年3月31日,流利說(shuō)累計(jì)注冊(cè)用戶(hù)超2億,而其擁有的巨型“中國(guó)人英語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)”,可以根據(jù)每一位學(xué)員的實(shí)際情況進(jìn)行評(píng)測(cè),學(xué)員在流利說(shuō)發(fā)音學(xué)習(xí)的過(guò)程中,可以通過(guò)智能口型識(shí)別糾音系統(tǒng)動(dòng)態(tài)去捕捉學(xué)員嘴部關(guān)鍵點(diǎn),從而以先進(jìn)技術(shù)進(jìn)行比對(duì),找到學(xué)員發(fā)音的問(wèn)題所在。這樣就可以提出針對(duì)性的指導(dǎo)意見(jiàn)來(lái)解決口語(yǔ)表達(dá)方面的問(wèn)題,從根本上幫助學(xué)員提升口語(yǔ)水平。
產(chǎn)品體驗(yàn)是關(guān)鍵,如何提升系統(tǒng)穩(wěn)定成難題
流利說(shuō)業(yè)務(wù)的快速發(fā)展,用戶(hù)數(shù)大幅度增長(zhǎng),從最初的幾百萬(wàn)用戶(hù),已經(jīng)增長(zhǎng)過(guò)2億業(yè)務(wù)的高低峰期的數(shù)據(jù)流量變化、業(yè)務(wù)復(fù)雜度和分析難度都給運(yùn)維工作來(lái)了巨大的挑戰(zhàn)。在整體互聯(lián)網(wǎng)大環(huán)境中,體驗(yàn)是最關(guān)鍵的競(jìng)爭(zhēng)力之一,根據(jù)統(tǒng)計(jì)結(jié)果,每1秒的延遲,平均會(huì)帶來(lái)7%的用戶(hù)流失。
作為一個(gè)沒(méi)有單獨(dú)運(yùn)維部門(mén)的公司,流利說(shuō)基礎(chǔ)平臺(tái)的運(yùn)維系統(tǒng)主要由cloud-infra團(tuán)隊(duì)的研發(fā)來(lái)完成,而團(tuán)隊(duì)的核心訴求也不僅僅是SLA、性能的監(jiān)控、告警和提供問(wèn)題定位的相關(guān)數(shù)據(jù),還包括cloud-infra的技術(shù)價(jià)值運(yùn)營(yíng),例如利用率、成本節(jié)約、業(yè)務(wù)關(guān)系網(wǎng)絡(luò)等。
在這些核心訴求下,對(duì)于智能化運(yùn)維平臺(tái)的要求:
1.采集、監(jiān)控各種異構(gòu)數(shù)據(jù)源,包括K8s、ECS上的機(jī)器指標(biāo)、利用率、Istio相關(guān)的調(diào)用日志、自建中間件相關(guān)指標(biāo)、云服務(wù)提供的指標(biāo)、業(yè)務(wù)的Trace數(shù)據(jù)等,此外還要包括各類(lèi)成本數(shù)據(jù)的實(shí)時(shí)采集。
2.各類(lèi)資源的動(dòng)態(tài)發(fā)現(xiàn)與動(dòng)態(tài)采集,包括組織關(guān)系等部門(mén)相關(guān)的數(shù)據(jù)也需要實(shí)時(shí)更新,以便能夠?qū)崟r(shí)反饋出最準(zhǔn)確的相關(guān)指標(biāo)和歸屬關(guān)系。
3.大規(guī)模的數(shù)據(jù)存儲(chǔ)與分析,由于流利說(shuō)的業(yè)務(wù)規(guī)模大,使用的各類(lèi)云資源以及業(yè)務(wù)產(chǎn)生的數(shù)據(jù)量非常巨大,每天在數(shù)十TB,方案需要滿足在此規(guī)模上的實(shí)時(shí)分析和展現(xiàn)的能力。
4.監(jiān)控平臺(tái)負(fù)責(zé)的是穩(wěn)定性問(wèn)題,本身的穩(wěn)定性也需要做好,因此需要消除各個(gè)部分的單點(diǎn)問(wèn)題,并且具備異??焖倩謴?fù)的能力。
一站式智能運(yùn)維解決方案,打通數(shù)據(jù)收集到計(jì)算全鏈路
流利說(shuō)構(gòu)建的智能運(yùn)維平臺(tái),需要處理的不僅僅是時(shí)序相關(guān)的數(shù)據(jù),其中非常核心的業(yè)務(wù)可用性數(shù)據(jù)也需要通過(guò)各類(lèi)日志進(jìn)行計(jì)算和分析,因此整體上需要選擇Logs和Metrics兩種數(shù)據(jù)方案。對(duì)于這兩類(lèi)數(shù)據(jù)都分別有不同的社區(qū)方案或商業(yè)方案,例如ES、Loki、SLS、Prometheus、OpenTSDB、InfluxDB等。最終日志方案選擇了阿里云SLS,時(shí)序方案選擇了Prometheus+SLS,主要的原因如下:
1.SLS具備各類(lèi)數(shù)據(jù)統(tǒng)一存儲(chǔ)、分析的能力,能夠在SLS上去關(guān)聯(lián)到Metrics、Logs數(shù)據(jù),這是其他平臺(tái)所不具備的
2.SLS平臺(tái)能夠適應(yīng)非常大的數(shù)據(jù)規(guī)模,相比ES來(lái)說(shuō)性能要好很多,也是免運(yùn)維的服務(wù),省去了自己維護(hù)ES高可靠的問(wèn)題
3.時(shí)序方案以Prometheus為主,Prometheus的生態(tài)非常完善,而且PromQL使用起來(lái)也簡(jiǎn)潔。SLS的時(shí)序庫(kù)可以作為Prometheus的遠(yuǎn)端高可靠存儲(chǔ),能夠解決Prometheus的可靠性問(wèn)題
4.SLS的方案中有數(shù)據(jù)加工的功能,可以和外部的數(shù)據(jù)源去做Join分析和加工,能夠更好的來(lái)處理各種復(fù)雜的日志,把日志加上catalog相關(guān)的信息
同時(shí)為了最大程度實(shí)現(xiàn)自動(dòng)化,阿里云日志服務(wù)SLS開(kāi)發(fā)了一套適用于云上場(chǎng)景的IaaS、PaaS資源動(dòng)態(tài)發(fā)現(xiàn)的機(jī)制,能夠?qū)崟r(shí)將新購(gòu)買(mǎi)、創(chuàng)建的資源加入到監(jiān)控、采集中,避免大部分的人工操作。
并且在每個(gè)數(shù)據(jù)場(chǎng)景下,阿里云日志服務(wù)SLS也針對(duì)流利說(shuō)的需求做了特殊化的定制:
1、日志方面
不同業(yè)務(wù)的日志直接通過(guò)SLS的Logtail采集到不同的日志庫(kù)中
并不是所有的日志都需要長(zhǎng)時(shí)間存儲(chǔ)和索引,因此我們對(duì)于日志進(jìn)行歸類(lèi),對(duì)于其中需要有審計(jì)需求的,會(huì)投遞到OSS上做長(zhǎng)期存儲(chǔ);業(yè)務(wù)排查問(wèn)題的日志只保存2周,并開(kāi)啟全文索引;AccessLog只開(kāi)啟部分字段的索引,可以節(jié)省很多的索引費(fèi)用。
對(duì)于需要計(jì)算SLA、PXX指標(biāo)的NGINX訪問(wèn)日志,會(huì)使用數(shù)據(jù)加工,配合已經(jīng)在RDS中存儲(chǔ)的一些映射規(guī)則、部門(mén)、應(yīng)用等Catalog信息,將NGINX訪問(wèn)日志中的URL映射成對(duì)應(yīng)的部門(mén)、應(yīng)用、方法等。
2、數(shù)據(jù)監(jiān)控方面
監(jiān)控方案選擇了Prometheus,針對(duì)于流利說(shuō)的場(chǎng)景,我們開(kāi)發(fā)了一些Exporter用于從各類(lèi)云上產(chǎn)品、自建組件中獲取Metrics
同時(shí)為了更好的使用Prometheus,和內(nèi)部的CICD系統(tǒng)集成,我們?cè)赑rometheus上增加了一個(gè)Sidecar,監(jiān)聽(tīng)Git倉(cāng)庫(kù)的變更,并根據(jù)變更動(dòng)態(tài)的Reload Prometheus配置
Prometheus上為了提高查詢(xún)速度,配置了各類(lèi)Recording Rule,這些都統(tǒng)一使用Git管理
AlertManager的告警直接對(duì)接內(nèi)部的告警中心,可以做排版、升級(jí)等高級(jí)功能
為了解決Prometheus單點(diǎn)的問(wèn)題以及后面和Catalog進(jìn)行關(guān)聯(lián)分析的問(wèn)題,我們使用SLS的時(shí)序庫(kù),直接讓Prometheus Remote Write到SLS的時(shí)序庫(kù)中
3、指標(biāo)計(jì)算方面
核心指標(biāo)的計(jì)算一部分來(lái)源于NGINX的AccessLog,從入口就可以拿到各個(gè)業(yè)務(wù)的QPS、錯(cuò)誤率、Latency(平均、PXX等),對(duì)于業(yè)務(wù)沒(méi)有任何的侵入性
資源利用率、中間件、基礎(chǔ)設(shè)施等指標(biāo)來(lái)源于Prometheus寫(xiě)入的時(shí)序庫(kù),基于Catalog可以聚合計(jì)算出每個(gè)部門(mén)、業(yè)務(wù)的相關(guān)指標(biāo)
計(jì)算完成后的指標(biāo)信息,由于數(shù)據(jù)量非常小,可以很容易的存儲(chǔ)在MySQL、ES中,并且投遞一份到OSS上備份
構(gòu)建統(tǒng)一的智能運(yùn)維平臺(tái),從成本中心變?yōu)閯?chuàng)新生產(chǎn)力工具
目前這套智能運(yùn)維平臺(tái)系統(tǒng)幾乎承載了公司所有的核心運(yùn)維,在上線后一直穩(wěn)定運(yùn)行,并且在各類(lèi)活動(dòng)期間也能夠非常輕松的應(yīng)對(duì)數(shù)據(jù)量的突增。整體的業(yè)務(wù)價(jià)值主要體現(xiàn)在:
監(jiān)控:監(jiān)控的第一價(jià)值是做各類(lèi)的監(jiān)控和告警,尤其是SLA相關(guān),由于將數(shù)據(jù)已經(jīng)關(guān)聯(lián)到了具體的部門(mén)和業(yè)務(wù)應(yīng)用,可以很容易的得到每個(gè)部門(mén)、應(yīng)用的SLA,并進(jìn)行公司范圍內(nèi)統(tǒng)一的推進(jìn)和改進(jìn)
問(wèn)題排查與故障隔離:基于Istio的訪問(wèn)日志,配合Catalog信息,可以計(jì)算出每個(gè)應(yīng)用的調(diào)用關(guān)系,因此可以實(shí)時(shí)的生成業(yè)務(wù)關(guān)系網(wǎng)格,并能夠知道每個(gè)關(guān)系(邊)的質(zhì)量情況。了解到業(yè)務(wù)的關(guān)系后,在出現(xiàn)問(wèn)題的時(shí)候也可以快速的定位根源和故障隔離
FinOps:在Cloud Infra部門(mén),被挑戰(zhàn)最多的就是開(kāi)銷(xiāo)問(wèn)題。因此成本優(yōu)化也是我們的一個(gè)核心工作,主要的做法是:計(jì)算每個(gè)部門(mén)、團(tuán)隊(duì)的資源利用率,包括平均利用率以及各類(lèi)PXX的利用率(入下表格所示),以此能夠判斷每個(gè)部門(mén)的資源使用情況,推進(jìn)各部門(mén)優(yōu)化成本。
寫(xiě)到最后
在云原生時(shí)代,數(shù)字化正在各行業(yè)推動(dòng)業(yè)務(wù)創(chuàng)新。只有提升用戶(hù)體驗(yàn)、加速創(chuàng)新、更新基礎(chǔ)設(shè)施與架構(gòu)、利用好多樣化的數(shù)據(jù),才能在整體大環(huán)境中脫穎而出。阿里云推出的智能運(yùn)維平臺(tái),不僅僅是要幫助工程師減少工作量,更多的是希望讓運(yùn)維工程師們從各種機(jī)械化的工作中解脫。我們將會(huì)包攬所有的“臟活累活”,讓故障的時(shí)間大幅縮小,讓運(yùn)維人將更多創(chuàng)造力,放在數(shù)字創(chuàng)新以及企業(yè)業(yè)務(wù)創(chuàng)新上,為企業(yè)提供提供更優(yōu)的競(jìng)爭(zhēng)力。
優(yōu)質(zhì)的內(nèi)容與定制化服務(wù),提升企業(yè)核心競(jìng)爭(zhēng)力
2020年受疫情影響,在“停課不停學(xué)”的口號(hào)下,在線教育市場(chǎng)規(guī)??焖僭黾?,市場(chǎng)規(guī)模達(dá)4858億元。在線教育行業(yè)經(jīng)過(guò)前幾年的快速奔跑后,市場(chǎng)已相對(duì)成熟,用戶(hù)對(duì)于各家不同類(lèi)型的在線教育機(jī)構(gòu),也提出了不同需求,因此單靠流量已無(wú)法換來(lái)忠實(shí)用戶(hù)。但對(duì)于教育行業(yè)來(lái)說(shuō),核心競(jìng)爭(zhēng)力仍然是優(yōu)質(zhì)的內(nèi)容和服務(wù)。只有高質(zhì)量的課程內(nèi)容、根據(jù)客戶(hù)學(xué)習(xí)習(xí)慣和基礎(chǔ)制定個(gè)性化計(jì)劃、優(yōu)質(zhì)產(chǎn)品體驗(yàn)與穩(wěn)定性,結(jié)合更高業(yè)務(wù)運(yùn)營(yíng)效率,企業(yè)才能贏得長(zhǎng)遠(yuǎn)的發(fā)展??v觀整個(gè)在線教育行業(yè),在不斷調(diào)整中,最終存活下來(lái)的企業(yè)也必然要回歸教育本質(zhì),以?xún)?yōu)質(zhì)產(chǎn)品、內(nèi)容與服務(wù)等贏得長(zhǎng)遠(yuǎn)發(fā)展。
結(jié)合人工智能,特色教學(xué)獨(dú)樹(shù)一幟
在行業(yè)近一步調(diào)整之后,在線教育賽道中的企業(yè)也逐漸將由注重增量回歸內(nèi)容建設(shè)。但在整體大環(huán)境下,教學(xué)大綱千篇一律,教學(xué)方式也大相徑庭。雖課程有差異,但仍無(wú)驚艷可言,大部分企業(yè)無(wú)法依靠?jī)?nèi)容來(lái)突出重圍。
但流利說(shuō)卻不同,在這個(gè)人工智能時(shí)代,流利說(shuō)憑借特色的智能教學(xué)課程,依托人工智能AI等創(chuàng)新技術(shù),為用戶(hù)提供個(gè)性化教學(xué)課程,幫助更多用戶(hù)提升英語(yǔ)水平。截止2021年3月31日,流利說(shuō)累計(jì)注冊(cè)用戶(hù)超2億,而其擁有的巨型“中國(guó)人英語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)”,可以根據(jù)每一位學(xué)員的實(shí)際情況進(jìn)行評(píng)測(cè),學(xué)員在流利說(shuō)發(fā)音學(xué)習(xí)的過(guò)程中,可以通過(guò)智能口型識(shí)別糾音系統(tǒng)動(dòng)態(tài)去捕捉學(xué)員嘴部關(guān)鍵點(diǎn),從而以先進(jìn)技術(shù)進(jìn)行比對(duì),找到學(xué)員發(fā)音的問(wèn)題所在。這樣就可以提出針對(duì)性的指導(dǎo)意見(jiàn)來(lái)解決口語(yǔ)表達(dá)方面的問(wèn)題,從根本上幫助學(xué)員提升口語(yǔ)水平。
產(chǎn)品體驗(yàn)是關(guān)鍵,如何提升系統(tǒng)穩(wěn)定成難題
流利說(shuō)業(yè)務(wù)的快速發(fā)展,用戶(hù)數(shù)大幅度增長(zhǎng),從最初的幾百萬(wàn)用戶(hù),已經(jīng)增長(zhǎng)過(guò)2億業(yè)務(wù)的高低峰期的數(shù)據(jù)流量變化、業(yè)務(wù)復(fù)雜度和分析難度都給運(yùn)維工作來(lái)了巨大的挑戰(zhàn)。在整體互聯(lián)網(wǎng)大環(huán)境中,體驗(yàn)是最關(guān)鍵的競(jìng)爭(zhēng)力之一,根據(jù)統(tǒng)計(jì)結(jié)果,每1秒的延遲,平均會(huì)帶來(lái)7%的用戶(hù)流失。
作為一個(gè)沒(méi)有單獨(dú)運(yùn)維部門(mén)的公司,流利說(shuō)基礎(chǔ)平臺(tái)的運(yùn)維系統(tǒng)主要由cloud-infra團(tuán)隊(duì)的研發(fā)來(lái)完成,而團(tuán)隊(duì)的核心訴求也不僅僅是SLA、性能的監(jiān)控、告警和提供問(wèn)題定位的相關(guān)數(shù)據(jù),還包括cloud-infra的技術(shù)價(jià)值運(yùn)營(yíng),例如利用率、成本節(jié)約、業(yè)務(wù)關(guān)系網(wǎng)絡(luò)等。
在這些核心訴求下,對(duì)于智能化運(yùn)維平臺(tái)的要求:
1.采集、監(jiān)控各種異構(gòu)數(shù)據(jù)源,包括K8s、ECS上的機(jī)器指標(biāo)、利用率、Istio相關(guān)的調(diào)用日志、自建中間件相關(guān)指標(biāo)、云服務(wù)提供的指標(biāo)、業(yè)務(wù)的Trace數(shù)據(jù)等,此外還要包括各類(lèi)成本數(shù)據(jù)的實(shí)時(shí)采集。
2.各類(lèi)資源的動(dòng)態(tài)發(fā)現(xiàn)與動(dòng)態(tài)采集,包括組織關(guān)系等部門(mén)相關(guān)的數(shù)據(jù)也需要實(shí)時(shí)更新,以便能夠?qū)崟r(shí)反饋出最準(zhǔn)確的相關(guān)指標(biāo)和歸屬關(guān)系。
3.大規(guī)模的數(shù)據(jù)存儲(chǔ)與分析,由于流利說(shuō)的業(yè)務(wù)規(guī)模大,使用的各類(lèi)云資源以及業(yè)務(wù)產(chǎn)生的數(shù)據(jù)量非常巨大,每天在數(shù)十TB,方案需要滿足在此規(guī)模上的實(shí)時(shí)分析和展現(xiàn)的能力。
4.監(jiān)控平臺(tái)負(fù)責(zé)的是穩(wěn)定性問(wèn)題,本身的穩(wěn)定性也需要做好,因此需要消除各個(gè)部分的單點(diǎn)問(wèn)題,并且具備異常快速恢復(fù)的能力。
一站式智能運(yùn)維解決方案,打通數(shù)據(jù)收集到計(jì)算全鏈路
流利說(shuō)構(gòu)建的智能運(yùn)維平臺(tái),需要處理的不僅僅是時(shí)序相關(guān)的數(shù)據(jù),其中非常核心的業(yè)務(wù)可用性數(shù)據(jù)也需要通過(guò)各類(lèi)日志進(jìn)行計(jì)算和分析,因此整體上需要選擇Logs和Metrics兩種數(shù)據(jù)方案。對(duì)于這兩類(lèi)數(shù)據(jù)都分別有不同的社區(qū)方案或商業(yè)方案,例如ES、Loki、SLS、Prometheus、OpenTSDB、InfluxDB等。最終日志方案選擇了阿里云SLS,時(shí)序方案選擇了Prometheus+SLS,主要的原因如下:
1.SLS具備各類(lèi)數(shù)據(jù)統(tǒng)一存儲(chǔ)、分析的能力,能夠在SLS上去關(guān)聯(lián)到Metrics、Logs數(shù)據(jù),這是其他平臺(tái)所不具備的
2.SLS平臺(tái)能夠適應(yīng)非常大的數(shù)據(jù)規(guī)模,相比ES來(lái)說(shuō)性能要好很多,也是免運(yùn)維的服務(wù),省去了自己維護(hù)ES高可靠的問(wèn)題
3.時(shí)序方案以Prometheus為主,Prometheus的生態(tài)非常完善,而且PromQL使用起來(lái)也簡(jiǎn)潔。SLS的時(shí)序庫(kù)可以作為Prometheus的遠(yuǎn)端高可靠存儲(chǔ),能夠解決Prometheus的可靠性問(wèn)題
4.SLS的方案中有數(shù)據(jù)加工的功能,可以和外部的數(shù)據(jù)源去做Join分析和加工,能夠更好的來(lái)處理各種復(fù)雜的日志,把日志加上catalog相關(guān)的信息
同時(shí)為了最大程度實(shí)現(xiàn)自動(dòng)化,阿里云日志服務(wù)SLS開(kāi)發(fā)了一套適用于云上場(chǎng)景的IaaS、PaaS資源動(dòng)態(tài)發(fā)現(xiàn)的機(jī)制,能夠?qū)崟r(shí)將新購(gòu)買(mǎi)、創(chuàng)建的資源加入到監(jiān)控、采集中,避免大部分的人工操作。
并且在每個(gè)數(shù)據(jù)場(chǎng)景下,阿里云日志服務(wù)SLS也針對(duì)流利說(shuō)的需求做了特殊化的定制:
1、日志方面
不同業(yè)務(wù)的日志直接通過(guò)SLS的Logtail采集到不同的日志庫(kù)中
并不是所有的日志都需要長(zhǎng)時(shí)間存儲(chǔ)和索引,因此我們對(duì)于日志進(jìn)行歸類(lèi),對(duì)于其中需要有審計(jì)需求的,會(huì)投遞到OSS上做長(zhǎng)期存儲(chǔ);業(yè)務(wù)排查問(wèn)題的日志只保存2周,并開(kāi)啟全文索引;AccessLog只開(kāi)啟部分字段的索引,可以節(jié)省很多的索引費(fèi)用。
對(duì)于需要計(jì)算SLA、PXX指標(biāo)的NGINX訪問(wèn)日志,會(huì)使用數(shù)據(jù)加工,配合已經(jīng)在RDS中存儲(chǔ)的一些映射規(guī)則、部門(mén)、應(yīng)用等Catalog信息,將NGINX訪問(wèn)日志中的URL映射成對(duì)應(yīng)的部門(mén)、應(yīng)用、方法等。
2、數(shù)據(jù)監(jiān)控方面
監(jiān)控方案選擇了Prometheus,針對(duì)于流利說(shuō)的場(chǎng)景,我們開(kāi)發(fā)了一些Exporter用于從各類(lèi)云上產(chǎn)品、自建組件中獲取Metrics
同時(shí)為了更好的使用Prometheus,和內(nèi)部的CICD系統(tǒng)集成,我們?cè)赑rometheus上增加了一個(gè)Sidecar,監(jiān)聽(tīng)Git倉(cāng)庫(kù)的變更,并根據(jù)變更動(dòng)態(tài)的Reload Prometheus配置
Prometheus上為了提高查詢(xún)速度,配置了各類(lèi)Recording Rule,這些都統(tǒng)一使用Git管理
AlertManager的告警直接對(duì)接內(nèi)部的告警中心,可以做排版、升級(jí)等高級(jí)功能
為了解決Prometheus單點(diǎn)的問(wèn)題以及后面和Catalog進(jìn)行關(guān)聯(lián)分析的問(wèn)題,我們使用SLS的時(shí)序庫(kù),直接讓Prometheus Remote Write到SLS的時(shí)序庫(kù)中
3、指標(biāo)計(jì)算方面
核心指標(biāo)的計(jì)算一部分來(lái)源于NGINX的AccessLog,從入口就可以拿到各個(gè)業(yè)務(wù)的QPS、錯(cuò)誤率、Latency(平均、PXX等),對(duì)于業(yè)務(wù)沒(méi)有任何的侵入性
資源利用率、中間件、基礎(chǔ)設(shè)施等指標(biāo)來(lái)源于Prometheus寫(xiě)入的時(shí)序庫(kù),基于Catalog可以聚合計(jì)算出每個(gè)部門(mén)、業(yè)務(wù)的相關(guān)指標(biāo)
計(jì)算完成后的指標(biāo)信息,由于數(shù)據(jù)量非常小,可以很容易的存儲(chǔ)在MySQL、ES中,并且投遞一份到OSS上備份
構(gòu)建統(tǒng)一的智能運(yùn)維平臺(tái),從成本中心變?yōu)閯?chuàng)新生產(chǎn)力工具
目前這套智能運(yùn)維平臺(tái)系統(tǒng)幾乎承載了公司所有的核心運(yùn)維,在上線后一直穩(wěn)定運(yùn)行,并且在各類(lèi)活動(dòng)期間也能夠非常輕松的應(yīng)對(duì)數(shù)據(jù)量的突增。整體的業(yè)務(wù)價(jià)值主要體現(xiàn)在:
監(jiān)控:監(jiān)控的第一價(jià)值是做各類(lèi)的監(jiān)控和告警,尤其是SLA相關(guān),由于將數(shù)據(jù)已經(jīng)關(guān)聯(lián)到了具體的部門(mén)和業(yè)務(wù)應(yīng)用,可以很容易的得到每個(gè)部門(mén)、應(yīng)用的SLA,并進(jìn)行公司范圍內(nèi)統(tǒng)一的推進(jìn)和改進(jìn)
問(wèn)題排查與故障隔離:基于Istio的訪問(wèn)日志,配合Catalog信息,可以計(jì)算出每個(gè)應(yīng)用的調(diào)用關(guān)系,因此可以實(shí)時(shí)的生成業(yè)務(wù)關(guān)系網(wǎng)格,并能夠知道每個(gè)關(guān)系(邊)的質(zhì)量情況。了解到業(yè)務(wù)的關(guān)系后,在出現(xiàn)問(wèn)題的時(shí)候也可以快速的定位根源和故障隔離
FinOps:在Cloud Infra部門(mén),被挑戰(zhàn)最多的就是開(kāi)銷(xiāo)問(wèn)題。因此成本優(yōu)化也是我們的一個(gè)核心工作,主要的做法是:計(jì)算每個(gè)部門(mén)、團(tuán)隊(duì)的資源利用率,包括平均利用率以及各類(lèi)PXX的利用率(入下表格所示),以此能夠判斷每個(gè)部門(mén)的資源使用情況,推進(jìn)各部門(mén)優(yōu)化成本。
寫(xiě)到最后
在云原生時(shí)代,數(shù)字化正在各行業(yè)推動(dòng)業(yè)務(wù)創(chuàng)新。只有提升用戶(hù)體驗(yàn)、加速創(chuàng)新、更新基礎(chǔ)設(shè)施與架構(gòu)、利用好多樣化的數(shù)據(jù),才能在整體大環(huán)境中脫穎而出。阿里云推出的智能運(yùn)維平臺(tái),不僅僅是要幫助工程師減少工作量,更多的是希望讓運(yùn)維工程師們從各種機(jī)械化的工作中解脫。我們將會(huì)包攬所有的“臟活累活”,讓故障的時(shí)間大幅縮小,讓運(yùn)維人將更多創(chuàng)造力,放在數(shù)字創(chuàng)新以及企業(yè)業(yè)務(wù)創(chuàng)新上,為企業(yè)提供提供更優(yōu)的競(jìng)爭(zhēng)力。