服務器出故障了怎么辦?SNMP告警七步走
想必大家都經(jīng)歷過手機、電腦等電子設備出問題的情況,跟手機、電腦一樣,服務器運轉過程中也會出點故障。
作為承載了企業(yè)各種業(yè)務的平臺,服務器出故障的影響非同小可,嚴重時可能危及業(yè)務開展,而如果故障發(fā)現(xiàn)不及時,企業(yè)就會蒙受更大的損失。
經(jīng)常有人詢問,如何才能快速發(fā)現(xiàn)服務器出了故障。
對此目前主要有兩種方案,一是通過集中管理平臺管理大量設備,定期對其進行檢查,發(fā)現(xiàn)問題再處理;二是只要服務器出現(xiàn)問題,就第一時間發(fā)送事件通知出來,隨后由管理員根據(jù)通知定位問題做出處理。
可以看出,第二種方法下,管理員只需關注出現(xiàn)問題的設備即可,不僅避免了大量的重復性設備檢查工作,而且有助于問題的及時處理,比如SNMP告警。
SNMP告警
SNMP(Simple Network Management Protocol),即簡單網(wǎng)絡管理協(xié)議,是一種應用層協(xié)議,可用于網(wǎng)絡管理。
通過SNMP,管理員可進行信息查詢、設置、接收告警等,及時發(fā)現(xiàn)網(wǎng)絡設備等出現(xiàn)的問題。
當設備狀態(tài)發(fā)生變化時(比如電源斷電、硬盤被移除、服務器重啟或宕機等),SNMP會發(fā)送Trap消息到管理設備,實現(xiàn)事件通知告警等功能。這種方式下SNMP Agent主動將信息通知到管理設備,由此管理設備不必對大量設備進行定期查看,只要出現(xiàn)問題即可接收到信息。
而為了接收SNMP Agent發(fā)送的通知,管理端需要啟用Trap接收機制——通常使用的是UDP162端口,收到Agent發(fā)送的信息時,接收端的控制臺會顯示事件出來,并帶有描述事件的相關表述。
目前SNMP有v1、v2和v3版本,其中v3版本可以實現(xiàn)加密和認證,相比前兩種版本更加安全,目前大多數(shù)設備都支持此版本,包括戴爾易安信服務器。
出于及時發(fā)現(xiàn)服務器故障的考慮,在服務器上配置SNMP是必要的。接下來我們就具體說明如何在服務器上設置SNMP Trap告警,并配置管理端接收信息。
1. 由于SNMP v3協(xié)議需要支持認證及加密,因此在iDRAC Web UI上,首先要設置用戶支持的協(xié)議類型及認證加密類型。
在iDRAC設置里找到用戶配置,編輯本地用戶后需要在高級設置的SNMP v3 Settings中勾選v3協(xié)議,默認是Disabled,這里需要選擇Enabled來開啟此用戶的SNMP v3的支持。
此外認證及加密類型需要設備支持,有“認證+加密”、“認證+不加密”以及“不認證+不加密”幾種選擇,這里我們自行測試的話,認證及加密類型可以選擇none。
2. 其次,在配置的系統(tǒng)設置中選擇告警配置的選項,為了發(fā)送告警信息,這里需要將默認的Disabled選項調(diào)整為Enabled。
3. 針對告警內(nèi)容,PowerEdge服務器支持多種方式的告警,包括Email、SNMP Trap、ipmi等,這里為了實現(xiàn)Trap功能,需要勾選SNMP Trap類別。
至于告警級別,也包括了“通知”、“警告”、“嚴重”三種等級,對此我們可以根據(jù)具體不同的Category進行設置。
關于類別篩選,我們可以在Alertsand Remote System Log Conguration(警報和遠程系統(tǒng)日志配置)中執(zhí)行操作:
- 系統(tǒng)運行狀況—表示系統(tǒng)機箱內(nèi)與硬件相關的所有警報的系統(tǒng)運行狀況類別(示例包括溫度故障、電壓故障、設備錯誤)。
- 存儲運行狀況—存儲運行狀況類別代表與存儲子系統(tǒng)相關的警報(示例包括控制器錯誤、物理磁盤錯誤、虛擬磁盤錯誤)。
- 配置—表示與硬件、固件和軟件配置更改相關的警報配置類別(示例包括添加/移除的PCI-E卡、更改的RAID配置以及更改的iDRAC許可證)。
- 審核—表示審核日志的審核類別(示例包括用戶登錄/注銷信息、密碼驗證故障、會話信息、電源狀態(tài))。
- 更新—更新類別表示由于固件/驅(qū)動程序升級/降級而生成的警報。
4. 在SNMP Trap格式部分,選擇發(fā)送Trap的版本,一般支持SNMP v1、SNMP v2或SNMP v3,為了實現(xiàn)SNMP v3功能這里需要選擇SNMP v3,隨后單擊應用。SNMP端口號默認162,共同體(Community String)是v1和v2使用的(如圖所示),實際上相當于密碼,若需要可以進行設置,對SNMP v3協(xié)議而言則不需要此項。
5. 在SNMP Traps設置中,勾選State來啟用警報目標可以填寫IPv4地址、IPv6地址或完全限定域名(FQDN),目前最多可以指定八個目標地址;對于Destination Address(添加的發(fā)送目標IP地址),這里的地址為管理設備的地址,比如網(wǎng)管平臺或者Mib Browser客戶端所在的地址等;至于SNMP v3 Users,只有在上一步的Trap格式選擇v3后才可以在此選擇用戶。
6. 服務器端設置完成后,還需要設置管理端,可以通過Mib Browser接受服務器發(fā)送的Trap信息。下圖為Mib Browser的界面,此界面通常會包含Mib庫及告警信息查看的相關內(nèi)容。
管理端設置中可以添加用戶,此用戶要跟PowerEdge服務器上設置的用戶對應,這里首先需要將SNMP版本設置為v3,之后再添加參數(shù)信息。
選擇了v3之后,點擊Add添加用戶信息——添加目標主機的IP地址和端口,當需要從服務器獲取或設置信息時,管理端會與服務器上SNMP Agent的161端口進行通信,這里認證和加密協(xié)議與之前服務器端的設置要保持一致。
7. 設置完成后,打開TrapViewer即可接收告警信息,服務器狀態(tài)改變后,可以看到接收端收到了一條Trap信息。
自此,服務器上的SNMP Trap告警設置完成。
可以看到,通過SNMP Trap的簡單設置,用戶就可以輕而易舉地實現(xiàn)大批量設備管理操作,并且相比于人為從設備上尋找信息,被動地接收告警減少了大量的工作量,也保證了問題的及時發(fā)現(xiàn),從而將損失降到最低。