偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

聊聊動態(tài)基線預(yù)警,你明白了嗎?

運維
即使我們做了很多工作,基線告警依然不夠準(zhǔn)確,每條告警信息都去處置,肯定忙不過來,很多時候我們只能忽略絕大多數(shù)告警信息。那么問題又來了,在黃油定律的主導(dǎo)下,很可能被我們忽略的某個告警,最終真的出事了。

基線告警是目前大部分?jǐn)?shù)據(jù)庫監(jiān)控軟件的最重要的功能之一,可以說,基線告警是運維人員的眼睛和耳朵,不過搞運維的人都為這個眼鏡耳朵傷透了腦筋,甚至很多人都被鋪天蓋地的無效告警傷害過。

基線告警雖然實現(xiàn)起來很簡單,也一定是有用的,不過每個系統(tǒng)的運行特性都不同,因此基線到底設(shè)置成多少呢是個令人頭痛的事情。IO延時的告警閾值設(shè)置為50毫秒還是20毫秒呢?如果設(shè)置為20毫秒,那么經(jīng)常出告警,但是系統(tǒng)也沒啥問題。如果設(shè)置為50毫秒,有時候并發(fā)量高得時候,30多毫秒系統(tǒng)就出大問題了,甚至有時候IO延時50毫秒了還沒問題,但是有時候才30多毫秒,系統(tǒng)就掛了。

另外一種情況是,我們可能運維了數(shù)十個甚至數(shù)百個大大小小的數(shù)據(jù)庫,數(shù)據(jù)量差異很大,運行負(fù)載也各不相同。如果只是設(shè)計幾種基線模板,適用于這么多系統(tǒng),那么肯定會遇到不太合適的情況。如果能夠根據(jù)每個系統(tǒng)的運行狀態(tài),為每個系統(tǒng)設(shè)置一套基線,情況會好很多,但是工作量是極大的。

另外一方面,數(shù)據(jù)庫系統(tǒng)的基線并不是一成不變的,隨著系統(tǒng)負(fù)載的變化,業(yè)務(wù)增長,設(shè)備的老化,基線每年都在變,總不成每年都根據(jù)系統(tǒng)的情況調(diào)整一次基線?那么DBA也沒時間干別的事情了。

即使我們做了很多工作,基線告警依然不夠準(zhǔn)確,每條告警信息都去處置,肯定忙不過來,很多時候我們只能忽略絕大多數(shù)告警信息。那么問題又來了,在黃油定律的主導(dǎo)下,很可能被我們忽略的某個告警,最終真的出事了。

正是因為這個問題,在設(shè)計D-SMART的告警功能的時候,基線并不是用來報警的,系統(tǒng)告警臺是不推送基線告警的,僅僅推送運維經(jīng)驗告警,而運維經(jīng)驗告警是基于一組規(guī)則的故障模型觸發(fā)的。

雖然不需要通過基線異常來產(chǎn)生系統(tǒng)告警,不過基線告警還是反映指標(biāo)是否正常的最省事的方法,在進(jìn)行診斷分析時我們還是需要判斷某個指標(biāo)是否異常。為了避免基線閾值設(shè)置的不合理問題,指標(biāo)是否異常是通過異常檢測算法來判斷的,并不依賴于基線模板。

雖然如此,我們在系統(tǒng)中還是設(shè)置了基線預(yù)警模板,并根據(jù)這個模板,自動記錄基線異常的告警信息(僅僅記錄,并不推送),基線產(chǎn)生的告警主要用于日檢和月度巡檢時發(fā)現(xiàn)系統(tǒng)“可能”存在的問題。

有一種更加靈活的基線,那就是動態(tài)基線。最早的動態(tài)基線的實現(xiàn)是為了解決每天白天和夜間不同的業(yè)務(wù)負(fù)載時某些指標(biāo)的合力波動范圍的問題的?;蛘呓鉀Q工作日與非工作日,月底業(yè)務(wù)高峰期與平時業(yè)務(wù)高峰期的差異性告警問題。以前我們管理的系統(tǒng)比較少的時候,還可以精工細(xì)作,隨著信息系統(tǒng)規(guī)模的不斷擴大,這種精益化運維的模式極難持續(xù)。如何解決如今IT系統(tǒng)數(shù)量爆炸式增長時加量不加價,實現(xiàn)減員增效,對于大多數(shù)IT運維部門都是一個頭疼的問題。如果這一切能夠變成自動的,那么就可以解決一個大問題了。

圖片

上圖是我們實驗室的一個基線告警的截圖,告警的閾值很多都是有零有整的,這些閾值并不是配置出來的,而是動態(tài)計算出來的。在實現(xiàn)動態(tài)基線的時候,我剛開始的設(shè)想是不設(shè)置基線模板,而是通過異常檢測算法自動計算異常,發(fā)現(xiàn)異常就告警。不過研發(fā)部門認(rèn)為這樣做計算量太大,會導(dǎo)致Monitor任務(wù)變得不穩(wěn)定。因此做了一個變通,那就是將異常檢測算法改造后動態(tài)生成某個指標(biāo)的基線閾值。這樣處理后,Monitor在分析剛剛采集回來的數(shù)據(jù)的時候,就可以按照傳統(tǒng)的基線模板的模式去處理了。

圖片

在配置基線告警的時候,我們引入了一個虛擬模板-“智能基線告警模板”,這個模板不需要預(yù)先配置,而是系統(tǒng)自動生成的。生成這個模板的規(guī)則在圖數(shù)據(jù)庫中以圖譜的方式存儲,每天固定的時間里,后臺任務(wù)會自動計算這個模板所需要的閾值,然后將計算結(jié)果存儲到Redis中,供Monitor做基線評估時使用。

因此當(dāng)系統(tǒng)剛剛上線的時候,這個模板還是一個虛擬的,沒有真實數(shù)據(jù)的模板,等系統(tǒng)跑上十天八天,數(shù)據(jù)就比較精準(zhǔn)了,此時這個智能模板就可以發(fā)揮作用了。目前智能基線模板的功能還是BETA階段,使用起來還不夠方便。比如剛剛接入系統(tǒng)時還不能直接使用該模板,還需要使用常規(guī)模板,系統(tǒng)運行10天以后,模板數(shù)據(jù)比較準(zhǔn)確了,才能切換。這樣使用起來也不夠方便,如果我們有100多套數(shù)據(jù)庫,那么配置起來還是挺費勁的。

圖片

圖片

目前傳統(tǒng)模板提供了一個對象應(yīng)用功能,可以實現(xiàn)一鍵批量綁定,而智能模板是一個虛擬模板,目前在模板管理中是看不見的,因此無法實現(xiàn)一鍵綁定,后續(xù)我們將在V2.2中提供一個這樣的功能。這樣系統(tǒng)剛剛接入時可以使用傳統(tǒng)基線模板,半個月后,再手工設(shè)置為智能基線模板。甚至今后還可以提供更為方便的模式,在設(shè)置基線模板的時候提供一個選型,選擇參數(shù),10天后自動切換為智能基線模板。

而在動態(tài)基線的自適應(yīng)能力方面,也仍然有著極大的提升空間,針對不同的行業(yè)用戶的不同特點,其基線計算是不同的,比如券商的核心交易系統(tǒng),只有在開市期間的負(fù)載才是有意義的,你如果把其他時段的數(shù)據(jù)加入進(jìn)來計算,肯定會影響計算結(jié)果的準(zhǔn)確性。因此在系統(tǒng)中加入“系統(tǒng)特征”這個參數(shù)十分重要?!跋到y(tǒng)特征”可以微調(diào)算法,讓算法更加準(zhǔn)確。

運維自動化系統(tǒng),需要帶給DBA的是準(zhǔn)確高效的報警,便捷的操作。想要做好這一點真的不易,因為大部分的開發(fā)人員都是脫離運維第一線很長時間或者甚至沒有做過一天真正的運維工作。因此開發(fā)人員可能無法感知到運維人員的真實需求。做好一個運維自動化工具的項目還是比較容易的,因為客戶會不斷根據(jù)自己的運維習(xí)慣來提出修改意見,我們總是能把系統(tǒng)修改好;而要做一個好用的運維自動化產(chǎn)品就不易了,系統(tǒng)功能,使用習(xí)慣,面臨的差異化的系統(tǒng)都讓這項工作變得復(fù)雜很多。因此我們堅定的開啟了社區(qū)版的發(fā)布,希望通過社區(qū)的力量,幫我們把產(chǎn)品打磨的更好。

責(zé)任編輯:武曉燕 來源: 白鱔的洞穴
相關(guān)推薦

2023-06-14 08:15:34

算法合并操作Winner

2022-10-24 20:25:40

云原生SpringJava

2022-12-30 08:26:43

基線預(yù)警局限性

2023-04-04 08:42:30

IT成本技術(shù)堆

2022-05-31 07:32:19

JDK8API工具

2021-09-16 21:34:52

5G專線

2024-05-30 08:19:52

微服務(wù)架構(gòu)大型應(yīng)用

2022-07-27 08:31:28

SQL開發(fā)控制

2022-03-03 09:20:08

分布式數(shù)據(jù)庫場景

2024-06-12 08:36:25

2022-12-30 08:35:00

2024-08-09 13:39:27

2023-12-28 08:43:28

前端算法搜索

2022-04-07 11:15:22

PulseEventAPI函數(shù)

2024-01-08 20:05:32

2023-12-08 08:38:15

EventLoopAPI瀏覽器

2022-10-10 18:38:56

inert屬性鍵盤

2022-06-27 08:31:29

數(shù)據(jù)溢出無符號

2024-04-07 08:23:01

JS隔離JavaScript

2022-05-06 08:26:32

JavaSPI機制
點贊
收藏

51CTO技術(shù)棧公眾號