歡迎光臨
每天分享高質量文章

企業監控調研指引:17個精心準備的開源運維監控系統

監控系統是整個運維環節,乃至整個產品生命周期中最重要的一環,事前及時預警發現故障,事後提供翔實的資料用於追查定位問題。監控系統作為一個成熟的運維產品,業界有很多開源的實現可供選擇。當公司剛剛起步,業務規模較小,運維團隊也剛剛建立的初期,選擇一款開源的監控系統,是一個省時省力,效率最高的方案。之後,隨著業務規模的持續快速增長,監控的物件也越來越多,越來越複雜,監控系統的使用物件也從最初少數的幾個SRE,擴大為更多的DEVS,SRE。這時候,監控系統的容量和用戶的“使用效率”成了最為突出的問題。

監控系統業界有很多傑出的開源監控系統。

1. Zabbix


Zabbix 作為企業級的網絡監控工具,通過從服務器,虛擬機和網絡設備收集的資料提供實時監控,自動發現,映射和可擴展等功能。

Zabbix的企業級監控軟體為用戶提供內置的Java應用服務器監控,硬體監控,VMware監控和CPU,記憶體,網絡,磁盤空間性能監控。

該企業級網絡監控工具能夠每分鐘進行 3,000,000 次檢查,具有更高的安全性和資料中心監控功能。

2. Nagios

Nagios 是一款用於監控IT基礎架構和查看當前狀態、歷史日誌和基本報告的開源軟體工具。 Nagios 用戶可以監控系統指標,網絡協議,應用程式,服務器,網絡基礎架構和接收故障警報。

Nagios提供三種型別的網絡管理工具,Nagios XL,Nagios日誌服務器和Nagios網絡分析器。其中 Nagios XL 最適合網絡監控(儘管其他兩種也提供網絡監控服務)。

Nagios XL提供企業級網絡監控,為用戶提供帶寬報告,網絡心跳監控,自定義URL,電子郵件報告和遠程機器監控。 升級的企業版提供基於Web的服務器控制台訪問,業務流程監控,記錄審核和自動化刪除功能。

3. Cacti

最初發佈於2001年, Cacti 是一款開源的基於Web的網絡監控和專為資料記錄而設計的圖形化工具。它可以用於實時顯示網絡資料,如CPU負載或帶寬利用率。

Cacti是RRDtool的前端應用程式,RRDtool是一種用於儲存實時變化資料的開源資料庫工具,其使用SNMP作為其預設收集演算法,但如果你喜歡本地Perl的PHP腳本,那麼你也可以使用它們。

其最新版本0.8.8h於2016年5月發佈,主要功能包括無限圖形專案、圖形自動填充支持、圖形資料處理、自定義資料採集腳本、內置SNMP支持、圖形模板、資料源模板、主機模板和基於用戶的管理。

4. GroundWork Monitor Core

GroundWork Monitor Core 是監控網絡、應用和雲計算使用情況的平臺。開源版本包含最多可監控50個設備和基於社區的支持的許可證,該軟體還有其對應的商業版本。

在其網絡管理功能方面,GroundWork提供網絡和設備的自發現和維護、拓撲、報警控制、通過API/SNMP/IPMI的資料收集和對OpenDaylight SDN的支持等功能。

GroundWork還提供了儲存管理,支持大規模的企業級供應商,如NetApp和EMC,以及從磁盤、塊或物件儲存的資料收集和儲存緩衝以及中斷可視化。
由於GroundWork的一站式網絡管理方法,這種套件可能更適合那些尋找成熟品牌的大型商業和企業,而不是以開發人員為重點的工具,如Big Brother或Big Sister。

5. Hyperic

VMware的Hyperic工具用於在物理、虛擬或雲環境下監控Web應用程式及其性能。 它適用於應用程式服務器,web服務器,資料庫,操作系統,虛擬機管理程式,訊息傳遞服務和目錄服務器。

Hyperic提供基礎架構和操作系統監控,詳細的報告,應用程式和中間件監控,警報和修複工作流程以及通用可擴展的API。

該網絡監控工具提供了企業版本,可以提高網絡警報功能,並且能更好地創建基準。

6. Observium

基於Linux的Observium是一個自動監測的網絡監控工具。 據該網站介紹,“該工具是由一批經驗豐富的專業網絡工程師和系統管理員開發和維護的,Observium是一個由用戶自己設計和構建的平臺。”

Observium提供社區版本和專業版,使用RRDTool進行緩衝儲存和圖形化功能,並具有易於使用的用戶界面和報告功能。 但是,它沒有報告匯出功能,這可能對商務應用來講會是一個問題。

社區版本將為用戶提供對所有支持設備或指標的完整自動監測功能,通過自動發現協議進行網絡映射,自動識別數百種設備,並且每六個月發佈一個新版本。

而專業版用戶將獲得所有社區版本的功能並且還將獲得實時軟體更新和修複功能,基於規則的自動分組功能,網絡閾值和狀態警報系統以及流量統計系統。

7. NetXMS

NetXMS 提供了企業級開源網絡管理和監控程式,它在Windows和Linux上有一個簡單的用戶界面。

NetXMS通過相對簡單的安裝過程為IT基礎架構的所有層提供了分佈式網絡監控、自動化網絡發現和詳細報告。

此外,服務器設備和代理對於這樣一個全面的產品來說是相當輕量級的。

8. Pandora FMS

定位於企業級, Pandora FMS 提供了一個時尚且整潔的用戶體驗,提供了易於閱讀的快速洞察工具以及重要的網絡統計信息,例如網絡狀態、已上報的告警、已部署的代理數量和其他最近執行任務的串列。

Pandora FMS可以在無需外部訪問的情況下執行網絡診斷,這意味著用戶可以更快地響應任何網絡問題。事實上,FMS聲稱,在代理樣式下的器監控系統響應速度約為10秒。

9. NetDisco

NetDisco專為類 Unix 操作系統而設計,通過NSMP提供基於網絡的自動發現網絡設備的功能,從而生成網絡拓撲圖。它是專為中型到大型網絡而設計的。

該網絡管理工具可用於定位設備,創建設備目錄並報告IP地址和交換機端口使用情況。

NetDisco用戶可以通過MAC或IP在網絡上定位機器,關閉交換機端口,或更改端口的VLAN或PoE狀態,按照型號,供應商,軟體和操作系統對網絡硬體進行清點,並給你的網絡創建一個詳細的拓撲圖。

10.OpenNMS

OpenNMS是在1999年發佈的,旨在為大型企業級用戶提供事件管理,服務監控和性能測量。

使企業用戶受益的主要特點包括外部腳本、向通話系統工程師發送警報、擴展Java本機通知策略API、請求跟蹤(RT)集成、高級警報、IPv4和IPv6網絡可達性超過ICMP、測試狀態和節點庫存信息。

企業服務或是“風格”網絡提供預置事件,通知,資料收集,工作流和附加報告等功能。

11. RANCID

RANCID 聽起來像一個消極的名字,除非你學會Really Awesome New Cisco的配置。這一點意味著它能監視路由器或其他設備的配置,並維護任何更改過的歷史記錄。RANCID 支持很多供應商設備,包括 Juniper路由,HP交換機,Redback的NAS 和 很多對Observium有擴展設備的支持。

RANCID支持許多供應商的設備,包括Juniper路由器,HP交換機,Redback NAS和許多其他設備,以及對Observium的擴展支持。

RANCID提供多種網絡管理功能,包括登錄到路由器表(router.db)中的每個設備,運行各種命令以獲取將被儲存的信息,將之前收集的信息中的任何變化發送到郵件串列,並提交這些更改到版本控制系統。

12. Xymon

另一個需要提及的網絡監控工具是Xymon(以前稱為Hobbit)。 Xymon監控服務器,應用程式和網絡,通過網頁提供有關所有這些網絡組件運行狀況的信息。

其網站上表示Xymon的開發受到Big Brother的啟發,同Big Sister一樣,它試圖解決Big Brother BTF的缺點,如性能方面。 同時,Xymon更容易部署並且是免費的。

13. Big Brother BTF

Big Brother創建於20世紀90年代中期,用於監控網絡系統,後來被Quest Software收購,而其又被戴爾在2012年收購。

許多其他網絡監控工具都是模仿Big Brother的,所以它有一個大型的、詳細的論壇和有幫助的開發人員社區,是初學者的好選擇。

除了可用於學生和非商業用途的開源版本之外,其還提供了名為Big Brother Professional Edition的商業版本。

14. Big Sister

Big Sister創始人托馬斯·艾比(Thomas Aeby)表示,他對Big Brother的網絡監控印象深刻,但希望提高其性能,減少壞事件發生時的警報數量,併進行其他改進。

Big Sister提供網絡監控,節點管理,doxygen過濾器和Web應用程式框架,作為Unix衍生產品和Microsoft Windows操作系統的一部分。

Big Sister對監控網絡系統的IT管理員有所幫助。當系統故障時,它會通知管理員,生成狀態變化歷史記錄日誌並顯示各種系統性能資料。

15. Open Falcon

Open Falcon 是由小米開源的運維監控系統。小米從互聯網公司的一些需求出發,從各位SRE、SA、DEVS的使用經驗和反饋出發,結合業界的一些大的互聯網公司做監控,用監控的一些思考出發,設計開發了小米的監控系統:open-falcon。open-falcon的標的是做最開放、最好用的互聯網企業級監控產品。

其特點是:

  • 強大靈活的資料採集:自動發現,支持falcon-agent、snmp、支持用戶主動push、用戶自定義插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags)

  • 水平擴展能力:支持每個周期上億次的資料採集、告警判定、歷史資料儲存和查詢

  • 高效率的告警策略管理:高效的portal、支持策略模板、模板繼承和改寫、多種告警方式、支持callback呼叫

  • 人性化的告警設置:最大告警次數、告警級別、告警恢復通知、告警暫停、不同時段不同閾值、支持維護周期

  • 高效率的graph組件:單機支撐200萬metric的上報、歸檔、儲存(周期為1分鐘)

  • 高效的歷史資料query組件:採用rrdtool的資料歸檔策略,秒級傳回上百個metric一年的歷史資料

  • dashboard:多維度的資料展示,用戶自定義Screen

  • 高可用:整個系統無核心單點,易運維,易部署,可水平擴展

  • 開發語言: 整個系統的後端,全部golang編寫,portal和dashboard使用python編寫。

16. Icinga

Icinga 起初是 Nagios 的一個分支。Icinga 2 則是做減法得來的,它還能提供分佈式監控和多執行緒框架,這是 Nagios 或 Icinga 1 所不具備的。你可以從 Nagios 遷移到 Icinga 1,然後再遷移到 Icinga 2。

與 Nagios 一樣,Icinga 幾乎也能通吃所有設備,搭配 SNMP、定製插件和擴展使用效果更佳。

Icinga 提供全域性監控和警告框架,只是在 Web UI 上與 Nagios 有所不同

Icinga 有多款 Web UI,它與 Nagios 的不同主要是配置,用戶通過 Web UI 就能搞定,省去了麻煩的配置文件。對於那些在命令列之外管理配置的人來說,這是個重大利好。

Icinga 融入了多款繪圖和監控套件(如 PNP4Nagios、inGraph 和 Graphite),可視化性能絕對可靠。此外,Icinga 還擁有擴展報告功能。

17. Ntop

Ntop 計劃,也就是傳說中的 Ntopng,已經陸陸續續開發了十年。它是一款頂尖的網絡流量監控工具,Web 圖形用戶界面簡潔且順滑。它使用 C 語言編寫且完全獨立,你只需要運行配置,就能監控某個特定網絡接口的單一行程,就這麼簡單。

Ntop 提供了簡單易懂的圖形和表格來顯示當前和過去的網絡流量,包括協議、源、目的地以及特定交易的歷史,甚至兩端的主機。此外,你還會發現廣泛的網絡利用率圖表、實時地圖和趨勢,以及針對各種附加件(例如NetFlow和sFlow)的插件框架。這裡甚至還有專門嵌入到 Ntop 的硬體監控器 Nbox。

Ntop 甚至用上了輕量級 Lua API 框架,通過腳本語言就能支持擴展。Ntop 還可以將主機資料儲存在 RRD 檔案中,以支持持久的資料採集。

Ntop 最便捷的用途就是現場流量檢查。當你發現自己的某個 Cacti PHP Weathermap 突然顯示紅色的網絡鏈接集時,就意味著這些鏈接的利用率超過了 85%,但原因卻不得而知。只要切換到 Ntopng 程式來監控該網絡段,就可以查看最高流量消耗者每分鐘的報表,並立即獲知到底哪個主機在占用流量。

這種可視性算得上是無價之寶了,而且唾手可得。從本質上來講,你可以在被配置成交換機級別的任何端口運行 Ntopng,以便監控任何端口或者 VLAN。



————近期開班————

《馬哥Linux雲計算及架構師》課程,由知名Linux佈道師馬哥創立,經歷了8年的發展,聯合阿裡巴巴、唯品會、大眾點評、騰訊、陸金所等大型互聯網一線公司的馬哥課程團隊的工程師進行深度定製開發,課程採用 Centos7.2系統教學,加入了大量實戰案例,授課案例均來自於一線的技術案例,自動化運維、Devops、雲服務、python等技能一站式搞定,掌握2018年linux雲計算高薪未來。

29期網絡班:2018年02月10日(網絡)

29期面授班:2018年02月27日(鄭州)

30期面授班:2018年03月26日(北京)

掃描二維碼領取學習資料

更多Linux好文請點擊【閱讀原文】哦

↓↓↓

赞(0)

分享創造快樂

© 2022 知識星球   网站地图