偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

vivo 服務(wù)端監(jiān)控架構(gòu)設(shè)計(jì)與實(shí)踐

開(kāi)發(fā) 架構(gòu)
本文主要介紹了vivo服務(wù)端監(jiān)控架構(gòu)的設(shè)計(jì)與演進(jìn)之路,是基于java技術(shù)棧做的一套實(shí)時(shí)監(jiān)控系統(tǒng)。

一、業(yè)務(wù)背景

當(dāng)今時(shí)代處在信息大爆發(fā)的時(shí)代,信息借助互聯(lián)網(wǎng)的潮流在全球自由的流動(dòng),產(chǎn)生了各式各樣的平臺(tái)系統(tǒng)和軟件系統(tǒng),越來(lái)越多的業(yè)務(wù)也會(huì)導(dǎo)致系統(tǒng)的復(fù)雜性。

當(dāng)核心業(yè)務(wù)出現(xiàn)了問(wèn)題影響用戶體驗(yàn),開(kāi)發(fā)人員沒(méi)有及時(shí)發(fā)現(xiàn),發(fā)現(xiàn)問(wèn)題時(shí)已經(jīng)為時(shí)已晚,又或者當(dāng)服務(wù)器的CPU持續(xù)增高,磁盤空間被打滿等,需要運(yùn)維人員及時(shí)發(fā)現(xiàn)并處理,這就需要一套有效的監(jiān)控系統(tǒng)對(duì)其進(jìn)行監(jiān)控和預(yù)警。

如何對(duì)這些業(yè)務(wù)和服務(wù)器進(jìn)行監(jiān)控和維護(hù)是我們開(kāi)發(fā)人員和運(yùn)維人員不可忽視的重要一環(huán),這篇文章全篇大約5000多字,我將對(duì)vivo服務(wù)端監(jiān)控的原理和架構(gòu)演進(jìn)之路做一次系統(tǒng)性整理,以便大家做監(jiān)控技術(shù)選型時(shí)參考。

vivo服務(wù)端監(jiān)控旨在為服務(wù)端應(yīng)用提供包括系統(tǒng)監(jiān)控、JVM監(jiān)控以及自定義業(yè)務(wù)指標(biāo)監(jiān)控在內(nèi)的一站式數(shù)據(jù)監(jiān)控,并配套實(shí)時(shí)、多維度、多渠道的告警服務(wù),幫助用戶及時(shí)掌握應(yīng)用多方面狀態(tài),事前及時(shí)預(yù)警發(fā)現(xiàn)故障,事后提供詳實(shí)的數(shù)據(jù)用于追查定位問(wèn)題,提升服務(wù)可用性。目前vivo服務(wù)端監(jiān)控累計(jì)接入業(yè)務(wù)方數(shù)量達(dá)到200+,本文介紹的是服務(wù)端監(jiān)控,我司還有其他類型的優(yōu)秀監(jiān)控包括通用監(jiān)控、調(diào)用鏈監(jiān)控和客戶端監(jiān)控等。

1.1 監(jiān)控系統(tǒng)的基本流程

無(wú)論是開(kāi)源的監(jiān)控系統(tǒng)還是自研的監(jiān)控系統(tǒng),整體流程都大同小異。

1)數(shù)據(jù)采集:可以包括JVM監(jiān)控?cái)?shù)據(jù)如GC次數(shù),線程數(shù)量,老年代和新生代區(qū)域大??;系統(tǒng)監(jiān)控?cái)?shù)據(jù)如磁盤使用使用率,磁盤讀寫的吞吐量,網(wǎng)絡(luò)的出口流量和入口流量,TCP連接數(shù);業(yè)務(wù)監(jiān)控?cái)?shù)據(jù)如錯(cuò)誤日志,訪問(wèn)日志,視頻播放量,PV,UV等。

2)數(shù)據(jù)傳輸:將采集的數(shù)據(jù)以消息形式或者 HTTP 協(xié)議的形式等上報(bào)給監(jiān)控系統(tǒng)。

3)數(shù)據(jù)存儲(chǔ):有使用 MySQL、Oracle 等 RDBMS 存儲(chǔ)的,也有使用時(shí)序數(shù)據(jù)庫(kù)OpenTSDB、InfluxDB 存儲(chǔ)的,還有使用 HBase 直接存儲(chǔ)的。

4)數(shù)據(jù)可視化:數(shù)據(jù)指標(biāo)的圖形化展示,可以是折線圖,柱狀圖,餅圖等。

5)監(jiān)控告警:靈活的告警設(shè)置,以及支持郵件、短信、IM 等多種通知通道。

1.2 如何規(guī)范的使用監(jiān)控系統(tǒng)

在使用監(jiān)控系統(tǒng)之前,我們需要了解監(jiān)控對(duì)象的基本工作原理,例如JVM監(jiān)控,我們需要清楚JVM的內(nèi)存結(jié)構(gòu)組成和常見(jiàn)的垃圾回收機(jī)制;其次需要確定如何去描述和定義監(jiān)控對(duì)象的狀態(tài),例如監(jiān)控某個(gè)業(yè)務(wù)功能的接口性能,可以監(jiān)控該接口的請(qǐng)求量,耗時(shí)情況,錯(cuò)誤量等;在確定了如何監(jiān)控對(duì)象的狀態(tài)之后,需要定義合理的告警閾值和告警類型,當(dāng)收到告警提醒時(shí),幫助開(kāi)發(fā)人員及時(shí)發(fā)現(xiàn)故障;最后建立完善的故障處理體系,收到告警時(shí)迅速響應(yīng),及時(shí)處理線上故障。

二、vivo服務(wù)端監(jiān)控系統(tǒng)架構(gòu)及演進(jìn)之路

在介紹vivo服務(wù)端監(jiān)控系統(tǒng)架構(gòu)之前,先帶大家了解一下OpenTSDB時(shí)序數(shù)據(jù)庫(kù),在了解之前說(shuō)明下為什么我們會(huì)選擇OpenTSDB,原因有以下幾點(diǎn):

1) 監(jiān)控?cái)?shù)據(jù)采集指標(biāo)在某一時(shí)間點(diǎn)具有唯一值,沒(méi)有復(fù)雜的結(jié)構(gòu)及關(guān)系。

2)監(jiān)控?cái)?shù)據(jù)的指標(biāo)具有隨著時(shí)間不斷變化的特點(diǎn)。

3)基于HBase分布式、可伸縮的時(shí)間序列數(shù)據(jù)庫(kù),存儲(chǔ)層不需要過(guò)多投入精力,具有HBase的高吞吐,良好的伸縮性等特點(diǎn)。

4)開(kāi)源,Java實(shí)現(xiàn),并且提供基于HTTP的應(yīng)用程序編程接口,問(wèn)題排查快可修改。

2.1 OpenTSDB簡(jiǎn)介

1)基于HBase的分布式的,可伸縮的時(shí)間序列數(shù)據(jù)庫(kù),主要用途就是做監(jiān)控系統(tǒng)。譬如收集大規(guī)模集群(包括網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、應(yīng)用程序)的監(jiān)控?cái)?shù)據(jù)并進(jìn)行存儲(chǔ)和查詢,支持秒級(jí)數(shù)據(jù)采集,支持永久存儲(chǔ),可以做容量規(guī)劃,并很容易地接入到現(xiàn)有的監(jiān)控系統(tǒng)里,OpenTSDB的系統(tǒng)架構(gòu)圖如下:

(來(lái)自官方文檔)

存儲(chǔ)結(jié)構(gòu)單元為Data Point,即某個(gè)Metric在某個(gè)時(shí)間點(diǎn)的數(shù)值。Data Point包括以下部分:

  • Metric,監(jiān)控指標(biāo)名稱;
  • Tags,Metric的標(biāo)簽,用來(lái)標(biāo)注類似機(jī)器名稱等信息,包括TagKey和TagValue;
  • Value,Metric對(duì)應(yīng)的實(shí)際數(shù)值,整數(shù)或小數(shù);
  • Timestamp,時(shí)間戳。

核心存儲(chǔ)兩張表:tsdb和tsdb-uid。表tsdb用來(lái)存儲(chǔ)監(jiān)控?cái)?shù)據(jù),如下圖:

(圖片出處: https://www.jianshu.com 

Row Key為Metric+Timestamp的小時(shí)整點(diǎn)+TagKey+TagValue,取相應(yīng)的字節(jié)映射組合起來(lái);列族t下的Qualifier為Timestamp的小時(shí)整點(diǎn)余出的秒數(shù),對(duì)應(yīng)的值即為Value。

表tsdb-uid用來(lái)存儲(chǔ)剛才提到的字節(jié)映射,如下圖:

(圖片出處: https://www.jianshu.com 

圖中的“001”表示tagk=hots或者tagv=static,提供正反查詢。

2)OpenTSDB使用策略說(shuō)明:

  • 不使用OpenTSDB提供的rest接口,通過(guò)client與HBase直連;
  • 工程端禁用compact動(dòng)作的Thrd線程;
  • 間隔10秒獲取Redis緩沖數(shù)據(jù)批量寫入OpenTSDB。

2.2 OpenTSDB在實(shí)踐中需要關(guān)注的點(diǎn)

1)精確性問(wèn)題

String value = "0.51";
float f = Float.parseFloat(value);
int raw = Float.floatToRawIntBits(f);
byte[] float_bytes = Bytes.fromInt(raw);
int raw_back = Bytes.getInt(float_bytes, 0);
double decode = Float.intBitsToFloat(raw_back);
/**
* 打印結(jié)果:
* Parsed Float: 0.51
* Encode Raw: 1057132380
* Encode Bytes: 3F028F5C
* Decode Raw: 1057132380
* Decoded Float: 0.5099999904632568
*/
System.out.println("Parsed Float: " + f);
System.out.println("Encode Raw: " + raw);
System.out.println("Encode Bytes: " + UniqueId.uidToString(float_bytes));
System.out.println("Decode Raw: " + raw_back);
System.out.println("Decoded Float: " + decode);

如上代碼,OpenTSDB在存儲(chǔ)浮點(diǎn)型數(shù)據(jù)時(shí),無(wú)法知悉存儲(chǔ)意圖,在轉(zhuǎn)化時(shí)會(huì)遇到精確性問(wèn)題,即存儲(chǔ)"0.51",取出為"0.5099999904632568"。

2)聚合函數(shù)問(wèn)題

OpenTSDB的大部分聚合函數(shù),包括sum、avg、max、min都是LERP(linear interpolation)的插值方式,即所獲取的值存在被補(bǔ)缺的現(xiàn)象,對(duì)于有空值需求的使用很不友好。詳細(xì)原理參見(jiàn)OpenTSDB關(guān)于 interpolation的文檔 。

目前vmonitor服務(wù)端監(jiān)控使用的OpenTSDB是我們改造后的源碼,新增了nimavg函數(shù),配合自帶的zimsum函數(shù)滿足空值插入需求。

2.3 vivo服務(wù)端監(jiān)控采集器原理

1)定時(shí)器

內(nèi)含3種采集器:OS采集器、JVM采集器和業(yè)務(wù)指標(biāo)采集器,其中OS及JVM每分鐘執(zhí)行采集和匯聚,業(yè)務(wù)指標(biāo)采集器會(huì)實(shí)時(shí)采集并在1分鐘的時(shí)間點(diǎn)完成匯聚重置,3份采集器的數(shù)據(jù)打包上報(bào)至RabbitMQ,上報(bào)動(dòng)作異步超時(shí)。

2)業(yè)務(wù)指標(biāo)采集器

業(yè)務(wù)指標(biāo)采集方式有2種:日志輸出過(guò)濾和工具類代碼上報(bào)(侵入式),日志輸出過(guò)濾是通過(guò)繼承l(wèi)og4j的Filter,從而獲取指標(biāo)配置中指定的Appender輸出的renderedMessage,并根據(jù)指標(biāo)配置的關(guān)鍵詞、聚合方式等信息進(jìn)行同步監(jiān)聽(tīng)采集;代碼上報(bào)根據(jù)代碼中指定的指標(biāo)code進(jìn)行message信息上報(bào),屬于侵入式的采集方式,通過(guò)調(diào)用監(jiān)控提供的Util實(shí)現(xiàn)。業(yè)務(wù)指標(biāo)配置每隔5分鐘會(huì)從CDN刷新,內(nèi)置多種聚合器供聚合使用,包括count計(jì)數(shù)、 sum求和、average平均、max最大值和min最小值統(tǒng)計(jì)。

2.4 vivo服務(wù)端監(jiān)控老版本架構(gòu)設(shè)計(jì)

1)數(shù)據(jù)采集及上報(bào):需求方應(yīng)用接入的監(jiān)控采集器vmonitor-agent根據(jù)監(jiān)控指標(biāo)配置采集相應(yīng)數(shù)據(jù),每分鐘上報(bào)1次數(shù)據(jù)至RabbitMQ,所采用的指標(biāo)配置每5分鐘從CDN下載更新,CDN內(nèi)容由監(jiān)控后臺(tái)上傳。

2)計(jì)算及存儲(chǔ):監(jiān)控后臺(tái)接收RabbitMQ的數(shù)據(jù),拆解后存儲(chǔ)至OpenTSDB,供可視化圖表調(diào)用,監(jiān)控項(xiàng)目、應(yīng)用、指標(biāo)和告警等配置存儲(chǔ)于MySQL;通過(guò)Zookeeper和Redis實(shí)現(xiàn)分布式任務(wù)分發(fā)模塊,實(shí)現(xiàn)多臺(tái)監(jiān)控服務(wù)協(xié)調(diào)配合運(yùn)作,供分布式計(jì)算使用。

3)告警檢測(cè):從OpenTSDB獲取監(jiān)控指標(biāo)數(shù)據(jù),根據(jù)告警配置檢測(cè)異常,并將異常通過(guò)第三方依賴自研消息、短信發(fā)送,告警檢測(cè)通過(guò)分布式任務(wù)分發(fā)模塊完成分布式計(jì)算。

2.5 vivo服務(wù)端監(jiān)控老版本部署架構(gòu)

1)自建機(jī)房A:部署架構(gòu)以國(guó)內(nèi)為例,監(jiān)控工程部署在自建機(jī)房A,監(jiān)聽(tīng)本機(jī)房的RabbitMQ消息,依賴的Redis、OpenTSDB、MySQL、Zookeeper等均在同機(jī)房,需要上傳的監(jiān)控指標(biāo)配置由文件服務(wù)上傳至CDN,供監(jiān)控需求應(yīng)用設(shè)備調(diào)用。

2)云機(jī)房:云機(jī)房的監(jiān)控需求應(yīng)用設(shè)備將監(jiān)控?cái)?shù)據(jù)上報(bào)至云機(jī)房本地的RabbitMQ,云機(jī)房的RabbitMQ將指定隊(duì)列通過(guò)路由的方式轉(zhuǎn)發(fā)至自建機(jī)房A的RabbitMQ,云機(jī)房的監(jiān)控配置通過(guò)CDN拉取。

2.6 vivo服務(wù)端監(jiān)控新版本架構(gòu)設(shè)計(jì)

1)采集(接入方):業(yè)務(wù)方接入vmonitor-collector,并在相應(yīng)環(huán)境的監(jiān)控后臺(tái)配置相關(guān)監(jiān)控項(xiàng)即完成接入,vmonitor- collector將定時(shí)拉取監(jiān)控項(xiàng)配置,采集服務(wù)數(shù)據(jù)并每分鐘上報(bào)。

2)數(shù)據(jù)聚合:老版本支持的是RabbitMQ將采集到的數(shù)據(jù),路由至監(jiān)控機(jī)房的RabbitMQ(同機(jī)房則不發(fā)生該行為),由監(jiān)控后臺(tái)服務(wù)消費(fèi);CDN負(fù)責(zé)承載各應(yīng)用的配置供應(yīng)用定時(shí)拉取。新版本vmonitor-gateway作為監(jiān)控?cái)?shù)據(jù)網(wǎng)關(guān),采用http方式上報(bào)監(jiān)控?cái)?shù)據(jù)以及拉取指標(biāo)配置,拋棄了之前使用的RabbitMQ上報(bào)以及CDN同步配置的途徑,避免兩者故障時(shí)對(duì)監(jiān)控上報(bào)的影響。

3)可視化并且支持告警與配置(監(jiān)控后臺(tái)vmonitor):負(fù)責(zé)前臺(tái)的數(shù)據(jù)多元化展示(包括業(yè)務(wù)指標(biāo)數(shù)據(jù),分機(jī)房匯總數(shù)據(jù),單臺(tái)服務(wù)器數(shù)據(jù),以及業(yè)務(wù)指標(biāo)復(fù)合運(yùn)算呈現(xiàn)),數(shù)據(jù)聚合,告警(目前包括短信及自研消息)等。

4)數(shù)據(jù)存儲(chǔ):存儲(chǔ)使用HBASE集群和開(kāi)源的OpenTSDB作為聚合的中介,原始數(shù)據(jù)上報(bào)之后通過(guò)OpenTSDB持久化到HBase集群,Redis作為分布式數(shù)據(jù)存儲(chǔ)調(diào)度任務(wù)分配、告警狀態(tài)等信息,后臺(tái)涉及的指標(biāo)和告警配置存儲(chǔ)于MySQL。

三、監(jiān)控采集上報(bào)和存儲(chǔ)監(jiān)控?cái)?shù)據(jù)策略

為降低監(jiān)控接入成本以及避免RabbitMQ上報(bào)故障和CDN同步配置故障對(duì)監(jiān)控體系帶來(lái)的影響,將由采集層通過(guò)HTTP直接上報(bào)至代理層,并通過(guò)采集層和數(shù)據(jù)代理層的隊(duì)列實(shí)現(xiàn)災(zāi)時(shí)數(shù)據(jù)最大程度的挽救。

詳細(xì)流程說(shuō)明如下:

1)采集器(vmonitor-collector)根據(jù)監(jiān)控配置每分鐘采集數(shù)據(jù)并壓縮,存儲(chǔ)于本地隊(duì)列(最大長(zhǎng)度100,即最大存儲(chǔ)100分鐘數(shù)據(jù)),通知可進(jìn)行HTTP上報(bào),將數(shù)據(jù)上報(bào)至網(wǎng)關(guān)。

2)網(wǎng)關(guān)(vmonitor-gateway)接收到上報(bào)的數(shù)據(jù)后鑒權(quán),認(rèn)定非法即丟棄;同時(shí)判斷當(dāng)前是否下層異常熔斷,如果發(fā)生則通知采集層重置數(shù)據(jù)退回隊(duì)列。

 3)網(wǎng)關(guān)校驗(yàn)上報(bào)時(shí)帶來(lái)的監(jiān)控配置版本號(hào),過(guò)期則在結(jié)果返回時(shí)將最新監(jiān)控配置一并返回要求采集層更新配置。

4)網(wǎng)關(guān)將上報(bào)的數(shù)據(jù)存儲(chǔ)于該應(yīng)用對(duì)應(yīng)的Redis隊(duì)列中(單個(gè)應(yīng)用緩存隊(duì)列key最大長(zhǎng)度1w);存儲(chǔ)隊(duì)列完成后立即返回HTTP上報(bào),表明網(wǎng)關(guān)已接受到數(shù)據(jù),采集層可移除該條數(shù)據(jù)。

5)網(wǎng)關(guān)對(duì)Redis隊(duì)列數(shù)據(jù)進(jìn)行解壓以及數(shù)據(jù)聚合;如果熔斷器異常則暫停前一行為;完成后通過(guò)HTTP存儲(chǔ)至OpenTSDB;如果存儲(chǔ)行為大量異常則觸發(fā)熔斷器。

四、核心指標(biāo)

4.1 系統(tǒng)監(jiān)控告警和業(yè)務(wù)監(jiān)控告警

將采集到的數(shù)據(jù)通過(guò)OpenTSDB存放到HBase中后,通過(guò)分布式任務(wù)分發(fā)模塊完成分布式計(jì)算。如果符合業(yè)務(wù)方配置的告警規(guī)則,則觸發(fā)相應(yīng)的告警,對(duì)告警信息進(jìn)行分組并且路由到正確的通知方??梢酝ㄟ^(guò)短信自研消息進(jìn)行告警發(fā)送,可通過(guò)名字、工號(hào)、拼音查詢錄入需要接收告警的人員,當(dāng)接收到大量重復(fù)告警時(shí)能夠消除重復(fù)的告警信息,所有的告警信息可以通過(guò)MySQL表進(jìn)行記錄方便后續(xù)查詢和統(tǒng)計(jì),告警的目的不僅僅是幫助開(kāi)發(fā)人員及時(shí)發(fā)現(xiàn)故障建立故障應(yīng)急機(jī)制,同時(shí)也可以結(jié)合業(yè)務(wù)特點(diǎn)的監(jiān)控項(xiàng)和告警梳理服務(wù),借鑒行業(yè)最佳監(jiān)控實(shí)踐。告警流程圖如下:

4.2 支持的告警類型以及計(jì)算公式

1)最大值:當(dāng)指定字段超過(guò)該值時(shí)觸發(fā)報(bào)警(報(bào)警閾值單位:number)。

2)最小值:當(dāng)指定字段低于該值時(shí)觸發(fā)報(bào)警(報(bào)警閾值單位:number)。

3)波動(dòng)量:取當(dāng)前時(shí)間到前15分鐘這段時(shí)間內(nèi)的最大值或者最小值與這15分鐘內(nèi)的平均值做浮動(dòng)百分比報(bào)警,波動(dòng)量需要配置波動(dòng)基線,標(biāo)識(shí)超過(guò)該基線數(shù)值時(shí)才做“報(bào)警閥值”判定,低于該基線數(shù)值則不觸發(fā)報(bào)警(報(bào)警閾值單位:percent)。

計(jì)算公式: 

波動(dòng)量-向上波動(dòng)計(jì)算公式:float rate = (float) (max - avg) / (float) avg;

波動(dòng)量-向下波動(dòng)計(jì)算公式:float rate = (float) (avg - min) / (float) avg;

波動(dòng)量-區(qū)間波動(dòng)計(jì)算公式:float rate = (float) (max - min) / (float) max;

4)日環(huán)比:取當(dāng)前時(shí)間與昨天同一時(shí)刻的值做浮動(dòng)百分比報(bào)警(報(bào)警閾值單位:percent)。

計(jì)算公式:float rate = (當(dāng)前值 - 上一周期值)/上一周期值

5)周環(huán)比:取當(dāng)前時(shí)間與上周同一天的同一時(shí)刻的值做浮動(dòng)百分比報(bào)警(報(bào)警閾值單位:percent)。

計(jì)算公式:float rate = (當(dāng)前值 - 上一周期值)/上一周期值

6)小時(shí)日環(huán)比:取當(dāng)前時(shí)間到前一小時(shí)內(nèi)的數(shù)據(jù)值總和與昨天同一時(shí)刻的前一小時(shí)內(nèi)的數(shù)據(jù)值總和做浮動(dòng)百分比報(bào)警(報(bào)警閾值單位:percent)。

計(jì)算公式:float rate = (float) (anHourTodaySum - anHourYesterdaySum) / (float) anHourYesterdaySum。

五、演示效果

5.1 業(yè)務(wù)指標(biāo)數(shù)據(jù)查詢

1)查詢條件欄“指標(biāo)”可選擇指定指標(biāo)。

2)雙擊圖表上指標(biāo)名稱可展示大圖,底部是根據(jù)起始時(shí)間的指標(biāo)域合計(jì)值。

3)滾輪可以縮放圖表。

5.2 系統(tǒng)監(jiān)控&JVM監(jiān)控指標(biāo)數(shù)據(jù)查詢

1)每分鐘頁(yè)面自動(dòng)刷新。

2)如果某行,即某臺(tái)機(jī)器整行顯示紅色,則代表該機(jī)器已逾半小時(shí)未上報(bào)數(shù)據(jù),如機(jī)器是非正常下線就要注意排查了。

3)點(diǎn)擊詳情按鈕,可以對(duì)系統(tǒng)&JVM監(jiān)控?cái)?shù)據(jù)進(jìn)行明細(xì)查詢。

5.3 業(yè)務(wù)指標(biāo)配置

單個(gè)監(jiān)控指標(biāo)(普通)可以針對(duì)單個(gè)指定Appender的日志文件進(jìn)行數(shù)據(jù)采集。

【必填】【指標(biāo)類型】為“普通”、“復(fù)合”兩種,復(fù)合是將多個(gè)普通指標(biāo)二次聚合,所以正常情況下需要先新增普通指標(biāo)。

【必填】【圖表順序】正序排列,控制指標(biāo)圖表在數(shù)據(jù)頁(yè)面上的展示順序。

【必填】【指標(biāo)代碼】默認(rèn)自動(dòng)生成UUID短碼。

【可選】【Appender】為log4j日志文件的appender名稱,要求該appender必須被logger的ref引用;如果使用侵入式采集數(shù)據(jù)則無(wú)需指定。

【可選】【關(guān)鍵字】為過(guò)濾日志文件行的關(guān)鍵詞。

【可選】【分隔符】是指單行日志列分割的符號(hào),一般為","英文逗號(hào)或其它符號(hào)。

六、主流監(jiān)控對(duì)比

6.1 Zabbix

Zabbix 于 1998 年誕生,核心組件采用 C 語(yǔ)言開(kāi)發(fā),Web 端采用 PHP 開(kāi)發(fā),它屬于老牌監(jiān)控系統(tǒng)中的優(yōu)秀代表,能夠監(jiān)控網(wǎng)絡(luò)參數(shù),服務(wù)器健康和軟件完整性,使用也很廣泛。

Zabbix采用MySQL 進(jìn)行數(shù)據(jù)存儲(chǔ),所有沒(méi)有OpenTSDB支持 Tag的特性,因此沒(méi)法按多維度進(jìn)行聚合統(tǒng)計(jì)和告警配置,使用起來(lái)不靈活。Zabbix 沒(méi)有提供對(duì)應(yīng)的 SDK,應(yīng)用層監(jiān)控支持有限,也沒(méi)有我們自研的監(jiān)控提供了侵入式的埋點(diǎn)和采集功能。

總體而言Zabbix 的成熟度更高,高集成度導(dǎo)致靈活性較差,在監(jiān)控復(fù)雜度增加后,定制難度會(huì)升高,而且使用的MySQL關(guān)系型數(shù)據(jù)庫(kù),對(duì)于大規(guī)模的監(jiān)控?cái)?shù)據(jù)插入和查詢是個(gè)問(wèn)題。

6.2 Open-Falcon

OpenFalcon 是一款企業(yè)級(jí)、高可用、可擴(kuò)展的開(kāi)源監(jiān)控解決方案,提供實(shí)時(shí)報(bào)警、數(shù)據(jù)監(jiān)控等功能,采用 Go 和 Python 語(yǔ)言開(kāi)發(fā),由小米公司開(kāi)源。使用 Falcon 可以非常容易的監(jiān)控整個(gè)服務(wù)器的狀態(tài),比如磁盤空間,端口存活,網(wǎng)絡(luò)流量等等?;?Proxy-gateway,很容易通過(guò)自主埋點(diǎn)實(shí)現(xiàn)應(yīng)用層的監(jiān)控(比如監(jiān)控接口的訪問(wèn)量和耗時(shí))和其他個(gè)性化監(jiān)控需求,集成方便。

官方的架構(gòu)圖如下:

6.3 Prometheus(普羅米修斯)

Prometheus是由SoundCloud開(kāi)發(fā)的開(kāi)源監(jiān)控報(bào)警系統(tǒng)和時(shí)序列數(shù)據(jù)庫(kù)(TSDB),Prometheus使用Go語(yǔ)言開(kāi)發(fā),是Google BorgMon監(jiān)控系統(tǒng)的開(kāi)源版本。

和小米的Open-Falcon一樣,借鑒 OpenTSDB,數(shù)據(jù)模型中引入了 Tag,這樣能支持多維度的聚合統(tǒng)計(jì)以及告警規(guī)則設(shè)置,大大提高了使用效率。監(jiān)控?cái)?shù)據(jù)直接存儲(chǔ)在 Prometheus Server 本地的時(shí)序數(shù)據(jù)庫(kù)中,單個(gè)實(shí)例可以處理數(shù)百萬(wàn)的 Metrics,架構(gòu)簡(jiǎn)單,不依賴外部存儲(chǔ),單個(gè)服務(wù)器節(jié)點(diǎn)可直接工作。

官方的架構(gòu)圖如下:

6.4 vivo服務(wù)端監(jiān)控vmonitor

vmonitor作為監(jiān)控后臺(tái)管理系統(tǒng),可以進(jìn)行可視化查看,告警的配置,業(yè)務(wù)指標(biāo)的配置等,具備JVM監(jiān)控、系統(tǒng)監(jiān)控和業(yè)務(wù)監(jiān)控的功能。通過(guò)采集層(vmonitor-collector采集器)和數(shù)據(jù)代理層(vmonitor-gateway網(wǎng)關(guān))的隊(duì)列實(shí)現(xiàn)災(zāi)時(shí)數(shù)據(jù)最大程度的挽救。

提供了SDK方便業(yè)務(wù)方集成,支持日志輸出過(guò)濾和侵入式代碼上報(bào)數(shù)據(jù)等應(yīng)用層監(jiān)控統(tǒng)計(jì),基于OpenTSDB時(shí)序開(kāi)源數(shù)據(jù)庫(kù),對(duì)其源碼進(jìn)行了改造,新增了nimavg函數(shù),配合自帶的zimsum函數(shù)滿足空值插入需求,具有強(qiáng)大的數(shù)據(jù)聚合能力,可以提供實(shí)時(shí)、多維度、多渠道的告警服務(wù)。

七、總結(jié)

本文主要介紹了vivo服務(wù)端監(jiān)控架構(gòu)的設(shè)計(jì)與演進(jìn)之路,是基于java技術(shù)棧做的一套實(shí)時(shí)監(jiān)控系統(tǒng),同時(shí)也簡(jiǎn)單列舉了行業(yè)內(nèi)主流的幾種類型的監(jiān)控系統(tǒng),希望有助于大家對(duì)監(jiān)控系統(tǒng)的認(rèn)識(shí),以及在技術(shù)選型時(shí)做出更合適的選擇。

監(jiān)控體系里面涉及到的面很廣,是一個(gè)龐大復(fù)雜的體系,本文只是介紹了服務(wù)端監(jiān)控里的JVM監(jiān)控,系統(tǒng)監(jiān)控以及業(yè)務(wù)監(jiān)控(包含日志監(jiān)控和工具類代碼侵入式上報(bào)),未涉及到客戶端監(jiān)控和全鏈路監(jiān)控等,如果想理解透徹,必須理論結(jié)合實(shí)踐再做深入。

責(zé)任編輯:張燕妮 來(lái)源: vivo互聯(lián)網(wǎng)技術(shù)
相關(guān)推薦

2022-12-29 08:56:30

監(jiān)控服務(wù)平臺(tái)

2023-03-09 09:31:58

架構(gòu)設(shè)計(jì)vivo

2023-02-07 09:43:48

監(jiān)控系統(tǒng)

2022-06-16 13:21:10

vivo容器集群云原生

2023-06-30 09:46:00

服務(wù)物理機(jī)自動(dòng)化

2024-11-21 15:48:50

2024-01-10 21:35:29

vivo微服務(wù)架構(gòu)

2022-09-02 09:14:10

監(jiān)控系統(tǒng)

2020-12-28 12:22:12

微服務(wù)架構(gòu)微服務(wù)API

2017-06-10 11:13:39

數(shù)據(jù)庫(kù)架構(gòu)數(shù)據(jù)庫(kù)集群

2016-10-31 16:18:56

架構(gòu) 設(shè)計(jì)

2025-02-20 08:00:00

2020-08-07 09:41:00

微服務(wù)架構(gòu)數(shù)據(jù)

2020-03-30 20:14:53

ActiveMQ設(shè)計(jì)實(shí)踐

2017-06-08 11:06:03

數(shù)據(jù)庫(kù)架構(gòu)分組

2023-02-06 18:35:05

架構(gòu)探測(cè)技術(shù)

2009-06-22 14:48:21

DRY架構(gòu)設(shè)計(jì)

2022-03-31 11:18:00

數(shù)據(jù)運(yùn)維短視頻

2020-07-10 08:50:37

大數(shù)據(jù)銀行技術(shù)

2023-02-09 08:08:01

vivoJenkins服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)