nagios監(jiān)控服務(wù)器的一些策略
nagios監(jiān)控服務(wù)器的一些策略貢獻給大家。
策略一:監(jiān)控對象選擇
在一個規(guī)模較大的網(wǎng)絡(luò)中,監(jiān)控的對象可能包括服務(wù)器、防火墻、交換機、路由器等等設(shè)備,以及運行在各對象上的服務(wù)。但是,我們沒必要把所有的對象都放到這個監(jiān)控系統(tǒng)中來。比如把某些測試系統(tǒng)放到監(jiān)控中,就會產(chǎn)生如上那位老兄整個晚上收到報警短信的麻煩。因此,選擇正確的監(jiān)控對象是實施有效監(jiān)控的前提,個人建議,只有那些重要級別高的,不能隨便停止服務(wù)的對象――如在線交易系統(tǒng)――才是值得監(jiān)控的對象。當然,服務(wù)器的使用者總希望你把它監(jiān)控上,哪怕它不是那么重要。
策略二:故障報警方式選擇
老板非常希望我們不知疲倦的坐在計算機旁,但是他只是一廂情愿而已。對監(jiān)控系統(tǒng)而言,一定要有合適的故障告警機制。目前常用的告警機制包括:郵件、短信、msn、web頁面顯示等幾種手段,這幾種手段中,短信報警***。因為在夜間睡夢中,我們沒辦法隨時收郵件,但是短信去能喚醒我們,通知我們發(fā)生故障了,而且在老板和用戶發(fā)現(xiàn)這個故障以前。對于沒有通道的機構(gòu)來說,租用sp提供的服務(wù)是比較穩(wěn)妥的方式,其他如用移動飛信等方式都不怎么考譜,不適合關(guān)鍵性業(yè)務(wù)運營。另外我使用了一個小技巧,讓監(jiān)控平臺每天下午給我發(fā)一條短信,不管有沒有故障都發(fā),這樣以便讓我知道短信接口是否正常。
策略三:故障報警時效和間隔的選擇
由于網(wǎng)絡(luò)通信等不可控因素,因此可能存在故障誤報的情況。如果把報警發(fā)送設(shè)置成一次探測不成功就發(fā)送報警信息就不是個好策略。經(jīng)驗表明:探測3-4次都失敗再發(fā)送信息,并不耽誤我們?nèi)ヌ幚砉收?。假如探測一次失敗就報警,即可以很快把手機短信空間塞滿,又會讓你睡不好覺。
故障報警開始發(fā)送以后,一般會沒完沒了的發(fā)送,直到故障排除恢復(fù)正常,才會發(fā)一條類似“*** is ok!”的短信。報警發(fā)送間隔設(shè)置,也是需要費一番心思,設(shè)短了,不停的消耗你的短信費用,設(shè)長了,恐怕不足以喚醒沉睡的人;如果沒有人去處理故障,也沒有人去停止這個通知,報警信息就會一直發(fā)送下去。
那怎么樣是一個合適的范圍呢?我的做法是:探測4次失敗開始報警,報警間隔10分鐘,總共發(fā)送8次,然后停止發(fā)送,假如第3次沒有人去處理,我會電話通知,沒回應(yīng)則取消該對象的監(jiān)控,并記錄該次事件。
#p#
策略四:監(jiān)控平臺地點的選擇
對于一個規(guī)模比較大的網(wǎng)絡(luò),為了解決南北互聯(lián)問題而采取多個地點建立數(shù)據(jù)中心的辦法。這時需要對不同地理位置的服務(wù)器進行監(jiān)控,也會遇到訪問慢的問題。解決這個問題有幾種方式:1、選擇一個到各個位置訪問都順暢的數(shù)據(jù)機房;2、采取分步是監(jiān)控平臺,各處自己收集監(jiān)控信息,然后到一處匯總;3、各數(shù)據(jù)中心單獨建監(jiān)控平臺。各人可以根據(jù)自己的實際情況自行選擇。
策略五:流量控制和安全
有不少商業(yè)解決方案采取snmp和客戶端軟件來監(jiān)控各個對象,這會引起額外的流量和帶來安全問題。因此盡量不要使用snmp這樣比較占資源的協(xié)議(具稱snmp v3似乎有所改進)。開源解決方案Nagios在這方面做得比較***,值得推薦一下。它可以以插件方式先收集到各監(jiān)控對象的信息,然后再傳送到監(jiān)控服務(wù)器上,大大節(jié)省網(wǎng)絡(luò)帶寬。
通過文章的詳細介紹,我們可以通過上面的五點策略來幫助你的nagios監(jiān)控!
【編輯推薦】