偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

短信太多,根本沒人看!這就是你們公司的系統(tǒng)監(jiān)控告警,從根源上失效的原因?

開發(fā) 架構(gòu)
系統(tǒng)監(jiān)控告警,是架構(gòu)設(shè)計中必不可少的一部分??珊芏喙荆捎诟婢?,工程師完全忽視告警消息,最終導(dǎo)致告警失效。為什么會這樣?根本原因,是分級告警策略的缺失。

系統(tǒng)監(jiān)控告警,是架構(gòu)設(shè)計中必不可少的一部分??珊芏喙?,由于告警太多,工程師完全忽視告警消息,最終導(dǎo)致告警失效。為什么會這樣?根本原因,是分級告警策略的缺失。

啥是告警?

監(jiān)控平臺發(fā)現(xiàn)系統(tǒng)異常,向系統(tǒng)負(fù)責(zé)人發(fā)出文字(例如,郵件/短信),色彩(有些公司,編譯不過,CI平臺會亮紅燈),聲音(有些公司,有蜂鳴器嗡嗡響,研發(fā)壓力大呀)等警示,就是告警。

絕大部分公司,主要是通過文字發(fā)出系統(tǒng)異常告警信息。

文字告警有哪些常見的方法?

常見有三類,成本,到達(dá)率,實時性都不一樣:

  • 短信:成本高,實時性好,到達(dá)率高;
  • 郵件:成本低,實時性差,到達(dá)率高;
  • 釘釘/微信:成本低,實時性中,到達(dá)率中;

啥是告警策略?

絕大部分公司,可能都沒有考慮系統(tǒng)監(jiān)控告警策略,一旦發(fā)生異常,就發(fā)郵件/短信通知系統(tǒng)負(fù)責(zé)人,這樣可能導(dǎo)致這樣一些問題:

  • 同一個集群的不同實例出問題,可能會造成重復(fù)告警,浪費帶寬資源,升高短信成本;
  • 系統(tǒng)負(fù)責(zé)人短時間內(nèi)手機被告警短信刷屏,導(dǎo)致產(chǎn)生麻木感;
  • 系統(tǒng)負(fù)責(zé)人短時間內(nèi)手機,郵箱,釘釘,微信同時對一個故障告警,導(dǎo)致員工產(chǎn)生巨大壓力;
  • 員工不重視告警,無法判斷告警的優(yōu)先級,leader又不知情,導(dǎo)致事故影響擴大;

為了解決上述問題,針對不同的服務(wù),在不同的時間段,不同的員工層級,應(yīng)該設(shè)定不同的告警策略,有哪些常見的告警策略呢?

(1) 模塊告警收斂策略:當(dāng)一個模塊/服務(wù)異常時,與其對應(yīng)的所有接口監(jiān)控,與其對應(yīng)集群的多有實例,都會告警,此時,應(yīng)該收斂為一個模塊/服務(wù)告警,常見的實現(xiàn)方式是,模塊/服務(wù)按照集群名稱做告警去重;

(2) 接口告警收斂策略:當(dāng)一個模塊/服務(wù)的一個接口異常,與其對應(yīng)集群的多個實例,都會告警,此時,應(yīng)該收斂為一個接口告警,常見的實現(xiàn)方式是,按照接口名稱做告警去重;

(3) 告警頻率收斂策略:對同一個服務(wù)或者接口,應(yīng)該在固定的時間內(nèi),只發(fā)送有限的告警,常見的方式是,按照1分鐘1次限制告警次數(shù),一來降低研發(fā)的緊張感與壓力感,二來節(jié)省成本;

(4) 不同時段區(qū)分告警方式策略:工作日工作時段在公司時,通過郵件/釘釘/微信發(fā)送告警能更加節(jié)省成本;半夜或者周末發(fā)生故障時,通過郵件發(fā)送告警能保證實時性;

(5) 逐層上報告警策略:每個模塊都應(yīng)該有負(fù)責(zé)人,原則上告警會發(fā)送給模塊的負(fù)責(zé)人,但如果告警連續(xù)1小時未恢復(fù)正常,告警會自動發(fā)送給系統(tǒng)負(fù)責(zé)人的直屬leader,如果告警連續(xù)3個小時未恢復(fù)正常,告警會自動發(fā)送給系統(tǒng)負(fù)責(zé)人的二級leader;

(6) 黑白跳動策略:當(dāng)系統(tǒng)由正常變?yōu)楫惓?,異?;謴?fù)正常,出現(xiàn)正反的變化時,都應(yīng)該發(fā)出告警;

畫外音:額,這么人性化,是“別人家”的公司么?

知其然,知其所以然。 思路比結(jié)論更重要。

責(zé)任編輯:趙寧寧 來源: 架構(gòu)師之路
相關(guān)推薦

2014-04-10 09:59:00

創(chuàng)業(yè)創(chuàng)業(yè)公司

2016-01-12 17:01:45

Bootstrap原因

2022-07-29 21:23:54

Grafana微服務(wù)

2024-04-09 08:00:00

Kubernetes管理系統(tǒng)云原生

2020-07-17 19:31:19

PythonR編程

2022-07-28 06:50:52

微服務(wù)業(yè)務(wù)系統(tǒng)

2023-07-13 09:00:00

人工智能GPT模型

2018-11-08 15:30:04

JavaScriptES6異步

2020-01-07 09:18:41

微服務(wù) MVC系統(tǒng)

2022-05-05 07:25:03

Supervisor監(jiān)控Python

2019-07-11 13:54:20

云端云遷移自動化

2020-03-25 07:14:36

預(yù)測性維護工業(yè)物聯(lián)網(wǎng)IIOT

2015-07-21 10:24:02

Windows RT升級

2014-01-02 14:04:42

2022-01-07 14:35:17

一碼通大數(shù)據(jù)

2019-01-02 04:40:19

物聯(lián)網(wǎng)企業(yè)IOT

2021-09-03 10:44:42

ThreadLocalObject 數(shù)組

2024-12-13 16:37:56

SpringBootJava

2009-12-15 09:55:04

2020-04-26 16:05:01

人臉識別圖像識別人工智能
點贊
收藏

51CTO技術(shù)棧公眾號