歡迎光臨
每天分享高質量文章

企業監控調研指引:17個精心準備的開源運維監控系統

監控系統是整個運維環節,乃至整個產品生命週期中最重要的一環,事前及時預警發現故障,事後提供翔實的資料用於追查定位問題。監控系統作為一個成熟的運維產品,業界有很多開源的實現可供選擇。當公司剛剛起步,業務規模較小,運維團隊也剛剛建立的初期,選擇一款開源的監控系統,是一個省時省力,效率最高的方案。之後,隨著業務規模的持續快速增長,監控的物件也越來越多,越來越複雜,監控系統的使用物件也從最初少數的幾個SRE,擴大為更多的DEVS,SRE。這時候,監控系統的容量和使用者的“使用效率”成了最為突出的問題。

監控系統業界有很多傑出的開源監控系統。

1. Zabbix


Zabbix 作為企業級的網路監控工具,透過從伺服器,虛擬機器和網路裝置收集的資料提供實時監控,自動發現,對映和可擴充套件等功能。

Zabbix的企業級監控軟體為使用者提供內建的Java應用伺服器監控,硬體監控,VMware監控和CPU,記憶體,網路,磁碟空間效能監控。

該企業級網路監控工具能夠每分鐘進行 3,000,000 次檢查,具有更高的安全性和資料中心監控功能。

2. Nagios

Nagios 是一款用於監控IT基礎架構和檢視當前狀態、歷史日誌和基本報告的開源軟體工具。 Nagios 使用者可以監控系統指標,網路協議,應用程式,伺服器,網路基礎架構和接收故障警報。

Nagios提供三種型別的網路管理工具,Nagios XL,Nagios日誌伺服器和Nagios網路分析器。其中 Nagios XL 最適合網路監控(儘管其他兩種也提供網路監控服務)。

Nagios XL提供企業級網路監控,為使用者提供頻寬報告,網路心跳監控,自定義URL,電子郵件報告和遠端機器監控。 升級的企業版提供基於Web的伺服器控制檯訪問,業務流程監控,記錄審核和自動化刪除功能。

3. Cacti

最初釋出於2001年, Cacti 是一款開源的基於Web的網路監控和專為資料記錄而設計的圖形化工具。它可以用於實時顯示網路資料,如CPU負載或頻寬利用率。

Cacti是RRDtool的前端應用程式,RRDtool是一種用於儲存實時變化資料的開源資料庫工具,其使用SNMP作為其預設收集演演算法,但如果你喜歡本地Perl的PHP指令碼,那麼你也可以使用它們。

其最新版本0.8.8h於2016年5月釋出,主要功能包括無限圖形專案、圖形自動填充支援、圖形資料處理、自定義資料採集指令碼、內建SNMP支援、圖形模板、資料源模板、主機模板和基於使用者的管理。

4. GroundWork Monitor Core

GroundWork Monitor Core 是監控網路、應用和雲端計算使用情況的平臺。開源版本包含最多可監控50個裝置和基於社群的支援的許可證,該軟體還有其對應的商業版本。

在其網路管理功能方面,GroundWork提供網路和裝置的自發現和維護、拓撲、報警控制、透過API/SNMP/IPMI的資料收集和對OpenDaylight SDN的支援等功能。

GroundWork還提供了儲存管理,支援大規模的企業級供應商,如NetApp和EMC,以及從磁碟、塊或物件儲存的資料收集和儲存緩衝以及中斷視覺化。
由於GroundWork的一站式網路管理方法,這種套件可能更適合那些尋找成熟品牌的大型商業和企業,而不是以開發人員為重點的工具,如Big Brother或Big Sister。

5. Hyperic

VMware的Hyperic工具用於在物理、虛擬或雲環境下監控Web應用程式及其效能。 它適用於應用程式伺服器,web伺服器,資料庫,作業系統,虛擬機器管理程式,訊息傳遞服務和目錄伺服器。

Hyperic提供基礎架構和作業系統監控,詳細的報告,應用程式和中介軟體監控,警報和修複工作流程以及通用可擴充套件的API。

該網路監控工具提供了企業版本,可以提高網路警報功能,並且能更好地建立基準。

6. Observium

基於Linux的Observium是一個自動監測的網路監控工具。 據該網站介紹,“該工具是由一批經驗豐富的專業網路工程師和系統管理員開發和維護的,Observium是一個由使用者自己設計和構建的平臺。”

Observium提供社群版本和專業版,使用RRDTool進行緩衝儲存和圖形化功能,並具有易於使用的使用者介面和報告功能。 但是,它沒有報告匯出功能,這可能對商務應用來講會是一個問題。

社群版本將為使用者提供對所有支援裝置或指標的完整自動監測功能,透過自動發現協議進行網路對映,自動識別數百種裝置,並且每六個月釋出一個新版本。

而專業版使用者將獲得所有社群版本的功能並且還將獲得實時軟體更新和修複功能,基於規則的自動分組功能,網路閾值和狀態警報系統以及流量統計系統。

7. NetXMS

NetXMS 提供了企業級開源網路管理和監控程式,它在Windows和Linux上有一個簡單的使用者介面。

NetXMS透過相對簡單的安裝過程為IT基礎架構的所有層提供了分散式網路監控、自動化網路發現和詳細報告。

此外,伺服器裝置和代理對於這樣一個全面的產品來說是相當輕量級的。

8. Pandora FMS

定位於企業級, Pandora FMS 提供了一個時尚且整潔的使用者體驗,提供了易於閱讀的快速洞察工具以及重要的網路統計資訊,例如網路狀態、已上報的告警、已部署的代理數量和其他最近執行任務的串列。

Pandora FMS可以在無需外部訪問的情況下執行網路診斷,這意味著使用者可以更快地響應任何網路問題。事實上,FMS聲稱,在代理樣式下的器監控系統響應速度約為10秒。

9. NetDisco

NetDisco專為類 Unix 作業系統而設計,透過NSMP提供基於網路的自動發現網路裝置的功能,從而生成網路拓撲圖。它是專為中型到大型網路而設計的。

該網路管理工具可用於定位裝置,建立裝置目錄並報告IP地址和交換機埠使用情況。

NetDisco使用者可以透過MAC或IP在網路上定位機器,關閉交換機埠,或更改埠的VLAN或PoE狀態,按照型號,供應商,軟體和作業系統對網路硬體進行清點,並給你的網路建立一個詳細的拓撲圖。

10.OpenNMS

OpenNMS是在1999年釋出的,旨在為大型企業級使用者提供事件管理,服務監控和效能測量。

使企業使用者受益的主要特點包括外部指令碼、向通話系統工程師傳送警報、擴充套件Java本機通知策略API、請求跟蹤(RT)整合、高階警報、IPv4和IPv6網路可達性超過ICMP、測試狀態和節點庫存資訊。

企業服務或是“風格”網路提供預置事件,通知,資料收集,工作流和附加報告等功能。

11. RANCID

RANCID 聽起來像一個消極的名字,除非你學會Really Awesome New Cisco的配置。這一點意味著它能監視路由器或其他裝置的配置,並維護任何更改過的歷史記錄。RANCID 支援很多供應商裝置,包括 Juniper路由,HP交換機,Redback的NAS 和 很多對Observium有擴充套件裝置的支援。

RANCID支援許多供應商的裝置,包括Juniper路由器,HP交換機,Redback NAS和許多其他裝置,以及對Observium的擴充套件支援。

RANCID提供多種網路管理功能,包括登入到路由器表(router.db)中的每個裝置,執行各種命令以獲取將被儲存的資訊,將之前收集的資訊中的任何變化傳送到郵件串列,並提交這些更改到版本控制系統。

12. Xymon

另一個需要提及的網路監控工具是Xymon(以前稱為Hobbit)。 Xymon監控伺服器,應用程式和網路,透過網頁提供有關所有這些網路元件執行狀況的資訊。

其網站上表示Xymon的開發受到Big Brother的啟發,同Big Sister一樣,它試圖解決Big Brother BTF的缺點,如效能方面。 同時,Xymon更容易部署並且是免費的。

13. Big Brother BTF

Big Brother建立於20世紀90年代中期,用於監控網路系統,後來被Quest Software收購,而其又被戴爾在2012年收購。

許多其他網路監控工具都是模仿Big Brother的,所以它有一個大型的、詳細的論壇和有幫助的開發人員社群,是初學者的好選擇。

除了可用於學生和非商業用途的開源版本之外,其還提供了名為Big Brother Professional Edition的商業版本。

14. Big Sister

Big Sister創始人託馬斯·艾比(Thomas Aeby)表示,他對Big Brother的網路監控印象深刻,但希望提高其效能,減少壞事件發生時的警報數量,併進行其他改進。

Big Sister提供網路監控,節點管理,doxygen過濾器和Web應用程式框架,作為Unix衍生產品和Microsoft Windows作業系統的一部分。

Big Sister對監控網路系統的IT管理員有所幫助。當系統故障時,它會通知管理員,生成狀態變化歷史記錄日誌並顯示各種系統效能資料。

15. Open Falcon

Open Falcon 是由小米開源的運維監控系統。小米從網際網路公司的一些需求出發,從各位SRE、SA、DEVS的使用經驗和反饋出發,結合業界的一些大的網際網路公司做監控,用監控的一些思考出發,設計開發了小米的監控系統:open-falcon。open-falcon的標的是做最開放、最好用的網際網路企業級監控產品。

其特點是:

  • 強大靈活的資料採集:自動發現,支援falcon-agent、snmp、支援使用者主動push、使用者自定義外掛支援、opentsdb data model like(timestamp、endpoint、metric、key-value tags)

  • 水平擴充套件能力:支援每個週期上億次的資料採集、告警判定、歷史資料儲存和查詢

  • 高效率的告警策略管理:高效的portal、支援策略模板、模板繼承和改寫、多種告警方式、支援callback呼叫

  • 人性化的告警設定:最大告警次數、告警級別、告警恢復通知、告警暫停、不同時段不同閾值、支援維護週期

  • 高效率的graph元件:單機支撐200萬metric的上報、歸檔、儲存(週期為1分鐘)

  • 高效的歷史資料query元件:採用rrdtool的資料歸檔策略,秒級傳回上百個metric一年的歷史資料

  • dashboard:多維度的資料展示,使用者自定義Screen

  • 高可用:整個系統無核心單點,易運維,易部署,可水平擴充套件

  • 開發語言: 整個系統的後端,全部golang編寫,portal和dashboard使用python編寫。

16. Icinga

Icinga 起初是 Nagios 的一個分支。Icinga 2 則是做減法得來的,它還能提供分散式監控和多執行緒框架,這是 Nagios 或 Icinga 1 所不具備的。你可以從 Nagios 遷移到 Icinga 1,然後再遷移到 Icinga 2。

與 Nagios 一樣,Icinga 幾乎也能通吃所有裝置,搭配 SNMP、定製外掛和擴充套件使用效果更佳。

Icinga 提供全域性監控和警告框架,只是在 Web UI 上與 Nagios 有所不同

Icinga 有多款 Web UI,它與 Nagios 的不同主要是配置,使用者透過 Web UI 就能搞定,省去了麻煩的配置檔案。對於那些在命令列之外管理配置的人來說,這是個重大利好。

Icinga 融入了多款繪圖和監控套件(如 PNP4Nagios、inGraph 和 Graphite),視覺化效能絕對可靠。此外,Icinga 還擁有擴充套件報告功能。

17. Ntop

Ntop 計劃,也就是傳說中的 Ntopng,已經陸陸續續開發了十年。它是一款頂尖的網路流量監控工具,Web 圖形使用者介面簡潔且順滑。它使用 C 語言編寫且完全獨立,你只需要執行配置,就能監控某個特定網路介面的單一行程,就這麼簡單。

Ntop 提供了簡單易懂的圖形和表格來顯示當前和過去的網路流量,包括協議、源、目的地以及特定交易的歷史,甚至兩端的主機。此外,你還會發現廣泛的網路利用率圖表、實時地圖和趨勢,以及針對各種附加件(例如NetFlow和sFlow)的外掛框架。這裡甚至還有專門嵌入到 Ntop 的硬體監控器 Nbox。

Ntop 甚至用上了輕量級 Lua API 框架,透過指令碼語言就能支援擴充套件。Ntop 還可以將主機資料儲存在 RRD 檔案中,以支援持久的資料採集。

Ntop 最便捷的用途就是現場流量檢查。當你發現自己的某個 Cacti PHP Weathermap 突然顯示紅色的網路連結集時,就意味著這些連結的利用率超過了 85%,但原因卻不得而知。只要切換到 Ntopng 程式來監控該網路段,就可以檢視最高流量消耗者每分鐘的報表,並立即獲知到底哪個主機在佔用流量。

這種可視性算得上是無價之寶了,而且唾手可得。從本質上來講,你可以在被配置成交換機級別的任何埠執行 Ntopng,以便監控任何埠或者 VLAN。



————近期開班————

《馬哥Linux雲端計算及架構師》課程,由知名Linux佈道師馬哥創立,經歷了8年的發展,聯合阿裡巴巴、唯品會、大眾點評、騰訊、陸金所等大型網際網路一線公司的馬哥課程團隊的工程師進行深度定製開發,課程採用 Centos7.2系統教學,加入了大量實戰案例,授課案例均來自於一線的技術案例,自動化運維、Devops、雲服務、python等技能一站式搞定,掌握2018年linux雲端計算高薪未來。

29期網路班:2018年02月10日(網路)

29期面授班:2018年02月27日(鄭州)

30期面授班:2018年03月26日(北京)

掃描二維碼領取學習資料

更多Linux好文請點選【閱讀原文】哦

↓↓↓

贊(0)

分享創造快樂

© 2024 知識星球   網站地圖