2019年優(yōu)秀8大IT基礎(chǔ)設施監(jiān)控工具
所有IT部門都在面臨這個問題。當服務器,網(wǎng)絡和應用出現(xiàn)問題時,他們必須盡快做出反應。這些情形往往具有破壞性和高壓性,并可能引發(fā)影響整個組織運營(和利潤)的停機時間。根據(jù)去年的報告,平均IT停機損失高達155萬美元。更嚴重的問題是,暴力事件導致每年545小時的員工產(chǎn)能損失。
出于這些原因,企業(yè)越來越多地投資于應用性能監(jiān)視(APM)和服務器監(jiān)控軟件以及其他解決方案。由于“基礎(chǔ)設施監(jiān)控是否是企業(yè)所需的解決方案”已經(jīng)不再是問題,因此問題就變成了應該使用哪些監(jiān)控工具。
IT基礎(chǔ)設施監(jiān)控工具評估
服務器和網(wǎng)絡監(jiān)控工具的目標是確保IT服務 24x7 小時全天候穩(wěn)定運行,并在出現(xiàn)任何問題時告警給IT支持人員。這樣,我們可以制定更好的災難恢復計劃。
一般來說,所有工具都有共性,但又不盡相同。以下列出了不錯工具列表。
1. Zabbix
Zabbix可以說是市場上健壯的實時監(jiān)控解決方案之一。Zabbix是開源的,它具有一套簡潔的特性,擁有完善可靠的文檔,并且由活躍的社區(qū)用戶更新和支持。其他好處還包括它有良好的易用性,當然,它提供了一個不受制于任何供應商鎖定的解決方案。
Zabbix 的眾多亮點之一是它能夠預測流量趨勢并根據(jù)收集歷史數(shù)據(jù)來提供系統(tǒng)行為預測。
主要特點:
- 主動監(jiān)控
- 容量規(guī)劃
- 內(nèi)置Java應用服務器監(jiān)控功能
- 硬件監(jiān)控
- 網(wǎng)頁服務
- 虛擬機監(jiān)控
Zabbix 可以配置為各種行業(yè)提供監(jiān)控解決方案 —— 從航空航天到金融和零售,同樣也適用于大中型企業(yè)。Romexsoft 團隊依靠此工具為客戶提供24x7全天候IT支持。
2. Prometheus
這是我們團隊最喜歡的另一個開源監(jiān)控工具,它基于時間序列數(shù)據(jù)提供詳細的基礎(chǔ)設施洞悉能力。它是監(jiān)控高動態(tài)環(huán)境(如AWS上的容器)的可靠選擇。
從本質(zhì)上講,Prometheus 爬取(scrape)指標,在本地存儲所有采樣數(shù)據(jù)并在數(shù)據(jù)之上運行其“規(guī)則”(rule)來聚合或生成告警。
Prometheus 的主要優(yōu)勢包括:
- 它既適用于以機器為中心的架構(gòu)的監(jiān)控,又適用于面向服務的架構(gòu)的監(jiān)控;
- 它是服務中斷期間好工具,因為它使得用戶能夠快速診斷問題;
- 即使在故障情況下,用戶也始終可以查看系統(tǒng)的統(tǒng)計信息(每個Prometheus服務器都是獨立的)
3. Grafana
Grafana 是一款用于時間序列的、免費的、出色的分析和監(jiān)控工具。它使我們能夠創(chuàng)建有吸引力的、一目了然的全局數(shù)據(jù)可視化圖像。特別是我們可以可視化系統(tǒng)CPU,內(nèi)存,磁盤和 I/O 利用率等指標。
Grafana這個工具比較厲害,我們可以創(chuàng)建來自不同數(shù)據(jù)源的自定義儀表板和特征數(shù)據(jù),并將它們展示為曲線圖,單一狀態(tài)圖,表格,熱圖或自由文本。
Grafana可以輕松的與 Prometheus、Graphite、InfluxDB、MySQL、PostgreSQL 和 Elasticsearch 集成,還可以通過插件與更多的其他數(shù)據(jù)源連接。雖然Grafana 不是一個獨立的解決方案,但它是一個值得考慮進監(jiān)控體系的優(yōu)秀插件。我們團隊利用Prometheus與Grafana集成來作為作為許多客戶的解決方案。
4. ManageEngine OpManager
ManageEngine OpManager 是一款綜合全面的性能監(jiān)控工具,可提供服務器監(jiān)控,并允許我們主動管理網(wǎng)絡,執(zhí)行網(wǎng)絡配置和網(wǎng)絡流量分析,它還有一個應用性能管理插件。但它必須安裝到每個目標節(jié)點上才能正常使用。
為了滿足我們的需求,我們可以設置可自定義的儀表板來監(jiān)控不同組件的網(wǎng)絡和指標。我們還可以將其用于 LAN/WAN 監(jiān)控,并接收詳細的流量路徑可視化,查看帶寬流量監(jiān)測并運行各種網(wǎng)絡系統(tǒng)性能指標的測定。
與前面的幾個工具不同,ManageEngine 屬于收費工具,它將會根據(jù)業(yè)務需求提供定制性報價。
5. Amazon CloudWatch
Amazon CloudWatch 可以為我們提供更好的應用性能、資源利用率、整體云基礎(chǔ)設施監(jiān)控狀況的可視化能力,并幫助我們識別和糾正問題。
CloudWatch 使我們能夠以日志、指標和事件的形式收集運維數(shù)據(jù)。該工具在AWS和本地服務器上運行,這意味著我們可以真正獲得所有資產(chǎn)的統(tǒng)一視圖。其儀表板是可配置的,允許管理員指示AWS根據(jù)預定義事件采取特定操作。
如果我們最近將基礎(chǔ)設施遷移到AWS云,應考慮使用此云基礎(chǔ)設施管理軟件,至少應該用到某些容量的規(guī)劃上。
6. WhatsUp Gold 2017
其中一些亮點包括以下內(nèi)容:
- 它“plus”版本包括混合云監(jiān)控,實時性能,自動和手動故障轉(zhuǎn)移,以及分布式網(wǎng)絡的可視化;
- 高度可定制的告警系統(tǒng),可包括電子郵件,文本,松弛告警,IFTTT推送,服務重啟和Web警報;
- 自動發(fā)現(xiàn)和整個網(wǎng)絡映射;
- 伴隨移動應用可以隨時洞察應用監(jiān)控;
- WhatsUp Gold 可為不同的用戶提供完全可定制且極其友好的儀表板。
缺點?只有一個——它僅對Windows操作系統(tǒng)提供支持。
7. Icinga
Icinga 是免費監(jiān)控工具之一,它企業(yè)和初創(chuàng)公司的熱門選擇。它的優(yōu)勢在于適應于各種規(guī)模組織的靈活性,它致力于監(jiān)控基礎(chǔ)設施和服務。
而且,它提供了很好的閾值分析和清晰的報告和告警。這些都可以友好的顯示在儀表板上,并可以通過郵件,短信或其他消息應用進行分發(fā)。
此外,它還可以連接到許多流行的 DevOps 工具,為我們的業(yè)務需求創(chuàng)建更加個性化的監(jiān)控解決方案。這些包括 Chef,Puppet,Graylog,Ansible 等。
8. Datadog
Datadog 被設計成一個為混合云生態(tài)系統(tǒng)提供監(jiān)控的服務,它也可以配置為網(wǎng)絡、服務和應用性能提供監(jiān)控。實際上,它附帶了業(yè)內(nèi)受支持應用的集成列表,我們可以安插這些集成來獲得整個生態(tài)系統(tǒng)的統(tǒng)一視圖。
該工具可以聚合以下指標和事件:
- SaaS和云提供商
- 自動化工具
- 數(shù)據(jù)庫和通用服務器組件
- 監(jiān)控和儀表工具
- 源代碼控制和錯誤跟蹤解決方案
用戶根據(jù)一系列可選的圖形、指標和警報來輕松自定義可視化儀表板和報告。擁有最多五臺主機的小公司,可以免費獲得Datadog。專業(yè)版和企業(yè)版則要按每主機定價收費。
























