偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

運維監(jiān)控做成這樣,就達到 BATJ 的水準了

新聞 系統(tǒng)運維
我們知道監(jiān)控系統(tǒng)的目標是:為保障業(yè)務 SLA,幫忙我們更全面、細致的了解業(yè)務系統(tǒng)的運行狀態(tài),更及時的發(fā)現(xiàn)系統(tǒng)風險,同時給技術運營的同學爭取更多化解風險的時間和解決問題的方向。

 [[318387]]

一、 導語

我們知道監(jiān)控系統(tǒng)的目標是:為保障業(yè)務 SLA,幫忙我們更全面、細致的了解業(yè)務系統(tǒng)的運行狀態(tài),更及時的發(fā)現(xiàn)系統(tǒng)風險,同時給技術運營的同學爭取更多化解風險的時間和解決問題的方向。

為此有使用開源監(jiān)控系統(tǒng)(例如 Nagios、Zabbix、Prometheus、Grafana等),也有為了滿足自己的業(yè)務需求,會使用自己開發(fā)的監(jiān)控系統(tǒng)(例如小米的open falcon,騰訊內(nèi)部的監(jiān)控系統(tǒng) tnm2【基礎監(jiān)控】、cms【日志監(jiān)控】等)。

隨著業(yè)務系統(tǒng)對監(jiān)控系統(tǒng)的依賴,我們對監(jiān)控系統(tǒng)的高可用性、擴展性等能力都會有更高的要求,那我們應該如何來全面的、系統(tǒng)的看待和提高自身監(jiān)控系統(tǒng)的要求呢?

[[318388]]

二、 能力提升方法

如何進行全面、系統(tǒng)的進行看待監(jiān)控系統(tǒng)的要求,有很多辦法,遇到問題的時候?qū)φ找恍╉敿壒镜膬?yōu)秀監(jiān)控系統(tǒng),找出提升點。

也可以對照由 中國信息通信研究院牽頭 及 BATJ 等各大互聯(lián)網(wǎng)巨頭參與的專家《研發(fā)運營一體化(DevOps)能力成熟度模型》中關于 “監(jiān)控管理” 能力評估內(nèi)容,根據(jù)標準的評估內(nèi)容我們可以看到 BATJ 公司是如何定義一個先進的監(jiān)控系統(tǒng)的能力,下面我們來一起看看:

运维监控做成这样,就达到 BATJ 的水准了

三、 提升點:能力項

我們發(fā)現(xiàn)整個關于“監(jiān)控管理”的能力項分成三個能力項,分別是“監(jiān)控采集”、“數(shù)據(jù)管理” 和 “數(shù)據(jù)應用” 三個,能力項內(nèi)又包括了相關的子能力項,我摘取一些我自己覺得很有代表性的點來進行分析:

运维监控做成这样,就达到 BATJ 的水准了

a)【能力項1:監(jiān)控采集】

1.能力點:“支持提供開放式、自定義的數(shù)據(jù)內(nèi)容采集上報方案”

疑問:為什么需要對上報方案有要求呢?

解讀:比如騰訊內(nèi)部的自研日志監(jiān)控系統(tǒng)CMS,對擁有多種采集方案“Agent、SDK、Kafka、ES等”,各種不同的采集方案應對不同的場景

Agent:類似filebeat,指定服務器的具體路徑,對文件的inode節(jié)點進行偵聽,發(fā)現(xiàn)新增立即進行上報數(shù)據(jù);

SDK:可以嵌入到業(yè)務代碼邏輯里面,應對一些敏感數(shù)據(jù)不落地但是又需要上報的場景,可以在業(yè)務邏輯中對敏感數(shù)據(jù)進行脫敏(染色),然后再進行上報,也可以應對一些日志量太大,不想經(jīng)過日志落盤這個中間消耗性能環(huán)節(jié)的場景;

例如:金融交易場景,要對交易數(shù)據(jù)做監(jiān)控,但是又有一些敏感數(shù)據(jù)不想進入監(jiān)控系統(tǒng),這個時候就需要使用SDK在產(chǎn)生日志的時候進行脫敏,將用戶信息隱藏掉,再上報到監(jiān)控系統(tǒng)內(nèi)部;

Kafka:可以應對一份日志多份消費者的場景,可以讓業(yè)務將日志放入Kafka后,多個消費者進行自行提取即可;

例如:還是金融交易場景,一份日志可以做安全審計,同時也可以做監(jiān)控系統(tǒng),這時候就可以安全審計系統(tǒng)和監(jiān)控系統(tǒng)同時拉取一份Kafka的主題數(shù)據(jù),不用打印多份;

运维监控做成这样,就达到 BATJ 的水准了

2.能力點:“支持多種傳輸方案 ,如同時具備推與拉數(shù)據(jù)”

疑問:為什么需要具備推與拉數(shù)據(jù)呢?具備一種不可以嗎?

解讀:正常的監(jiān)控系統(tǒng)一般都是采用拉數(shù)據(jù)的方案,因為由服務器端發(fā)起,順序和過程可控,但是為什么需要拉數(shù)據(jù)呢?

原因是在幾種場景下需要這種能力:網(wǎng)絡限制,當出現(xiàn)網(wǎng)絡限制時,如安全等保中規(guī)定,高安全等級區(qū)域可以發(fā)起對低安全等級區(qū)域的鏈接,反之則不可以,所以需要從高安全等級區(qū)域推送數(shù)據(jù)至監(jiān)控服務;性能要求,如同 Zabbix 的 active模式 和 passive模式;服務特性,部分服務并么有對外提供請求接口,則需要內(nèi)部邏輯對外進行主動 Push 監(jiān)控數(shù)據(jù)。為了保證對業(yè)務系統(tǒng)和流程全面的監(jiān)控,我們需要有多種能力的滿足;

例如:某個業(yè)務中有個定時任務將離線數(shù)據(jù)統(tǒng)計并更新至數(shù)據(jù)庫,該定時任務并無任何請求訪問接口,我們?nèi)绾文鼙O(jiān)控它的運行狀態(tài)呢?可以在定時任務邏輯內(nèi)部加入一個心跳機制,定期向監(jiān)控系統(tǒng)push自身的監(jiān)控狀況,所以推的傳輸能力也是監(jiān)控必不可少的;

运维监控做成这样,就达到 BATJ 的水准了

b)【能力項2:數(shù)據(jù)管理】

1.能力點:“具備對原始數(shù)據(jù)進行規(guī)則化處理的能力”

疑問:為什么在接收數(shù)據(jù)的時候需要有規(guī)則化的處理呢,落地之后進行規(guī)則化處理不行嗎?

解讀基于性能高效及數(shù)據(jù)完整性的考慮,需要在接收過程具備這個能力,我們還是以騰訊自研日志監(jiān)控系統(tǒng)為例,當我們接收大量的日志Agent上報的時候,可能日志不一定是按照我們的規(guī)則進行上報,如果一旦有日志格式錯誤,會導致大量的入庫數(shù)據(jù)異常,還會導致數(shù)據(jù)污染,這個時候需要一個規(guī)則化處理的能力,將不滿足規(guī)則的數(shù)據(jù)進行清洗。同時如果大量的日志異常,落地之后進行清洗和處理將會消耗大量的算力,對于后來也是很大的壓力,所以具備這個能力是非常有必要的。

运维监控做成这样,就达到 BATJ 的水准了

2.能力點:“對異構數(shù)據(jù)源的關聯(lián)分析處理能力”

疑問:異構數(shù)據(jù)源關聯(lián)分析處理能力具體是指什么?

解讀:異構數(shù)據(jù)源廣義上是指“數(shù)據(jù)結構、存取方式、形式不一樣的多個數(shù)據(jù)源”,我們還是以騰訊內(nèi)部的 自研日志監(jiān)控系統(tǒng)CMS 為例,當 某個服務上報日志里面有 源IP地址 和 業(yè)務關鍵數(shù)據(jù),我們簡單排重和排序就可以知道哪個源IP地址訪問最多,但是如果我們想知道某個城市、省份、甚至是運營商(電信、移動、聯(lián)通),那就需要這個關聯(lián)分析能力,我們知道有一種數(shù)據(jù)是IP地址對應城市、省份 和 運營商(由于不斷在更新,所以需要獨立維護),通過這個數(shù)據(jù)和日志數(shù)據(jù)一關聯(lián)就可以清楚地看到我們要的結果;

运维监控做成这样,就达到 BATJ 的水准了

3.能力點:“具備數(shù)據(jù)一致性、完整性和可用性等管理特性”

疑問:數(shù)據(jù)一致性、完整性和可用性好理解,但是管理特性是什么?

解讀:我們還是以騰訊內(nèi)部的 自研日志監(jiān)控系統(tǒng)CMS 為例,日志監(jiān)控系統(tǒng)是由用戶數(shù)據(jù)上報、數(shù)據(jù)格式化、處理、聚合(統(tǒng)計、維度分析)、入庫/投遞、寫入時序數(shù)據(jù)庫等多個環(huán)節(jié)組成,當用戶看到最終結果異常如何能快速知道哪里出了問題呢?這個就需要有相關的管理特性來實現(xiàn)了,在每個環(huán)節(jié)都增加自監(jiān)控的能力,清晰看到數(shù)據(jù)流和曲線圖,可以快速發(fā)現(xiàn)異常點;

运维监控做成这样,就达到 BATJ 的水准了

c)【能力項3:數(shù)據(jù)應用】

1.能力點:“具備告警風暴管控的能力, 如抑制、收斂等”

疑問:告警收斂能力常用的方式都有哪些呢?

解讀:一般在告警收斂中常用的規(guī)則有“基于時間收斂”、“基于事件收斂” 和 “基于級別收斂”等,根據(jù)不同的業(yè)務需求可以有不同的收斂方式?;跁r間是最常用的,Nagios 和 Zabbix 的基礎配置?;谑录?,一般是需要有主動和被動調(diào)用關系的告警,比如Zabbix 的 trigger-Dependencies 的功能?;诩墑e的收斂更是在開源和自研的系統(tǒng)中被使用。

四、結尾

如何看待和提高監(jiān)控系統(tǒng)的能力,不管是參照開源監(jiān)控系統(tǒng)對比學習,還是從《研發(fā)運營一體化(DevOps)能力成熟度模型》中對比學習,都是一個不錯的方向,當然里面的知識點是集合了多數(shù)大牛的智慧結晶,本文只是摘取了少量的點進行解讀。

 

責任編輯:張燕妮 來源: 高效運維
相關推薦

2011-03-21 14:43:42

2021-12-02 22:45:44

計算

2013-04-12 13:30:47

2019-03-19 08:41:38

Linux運維變更

2019-05-06 10:35:49

運維監(jiān)控白盒

2018-09-21 09:15:39

2020-12-30 08:09:46

運維Prometheus 監(jiān)控

2011-03-25 13:54:00

Nagios

2010-07-09 12:09:34

IT運維Mocha BSM摩卡軟件

2010-06-10 10:24:38

運維業(yè)摩卡北塔

2015-12-24 18:46:39

2020-12-29 10:45:22

運維Prometheus-監(jiān)控

2017-09-25 18:32:11

人肉智能運維服務監(jiān)控

2018-09-27 08:59:29

2019-06-06 08:50:08

運維監(jiān)控工具

2019-09-28 23:17:41

zabbix運維監(jiān)控

2011-06-27 13:58:26

關鍵字北塔軟件北塔BTIM

2014-07-22 10:06:43

運維監(jiān)控虛擬化

2019-03-15 10:13:10

運維云計算運營
點贊
收藏

51CTO技術棧公眾號