歡迎光臨
每天分享高質量文章

一目瞭然,看民生銀行 IT 運維故障管理可視化案例

本文轉自公眾號“民生運維”

作者:胡經偉

畢業於北京大學信息科學技術學院,之後在中國電信深圳分公司 IT 運營中心從事 IT 運營工作,2010年加入民生銀行,先後擔任系統管理員(SA),資料庫管理員(DBA)。

目前在應用運維二中心擔任高級運維工程師,負責民生銀行人行支付類系統的運維工作,對大資料、可視化、智慧運維等有濃厚興趣,致力於IT運維架構可視化專案在民生銀行運維中的實踐落地。

一、前言

民生銀行 IT 運維工作經歷了多年實踐,已經建設了CMDB、IT運維管理系統(流程平臺)、集中監控系統、交易性能監控系統、自動化運維繫統、日誌管理平臺等管理工具,併在實際工作中不斷深入的優化,在近年還打造了運維大資料平臺,用以支撐 IT 運維管理工作。

在日常工作中,監(各類監控)、管(流程)、控(自動化)和CMDB系統均建立了映射關係,用以打通各系統的資料消費場景。

但實際工作中依然面臨著工具分散,依靠運維人員經驗和頻繁切換各專業分析工具,以實現故障定位、影響分析等操作,運維資料消費效率存在進步空間。


二、建設思路與成果

基於上述背景,民生銀行嘗試借助架構管理可視化工具,將配置資料(CMDB)、監控資料(集中監控告警、交易性能監控)、自動化運維管理工具、IT運維管理系統的變更資料整合到 IT 運維架構圖上,打造統一的運維資料消費場景 – IT運維架構管理可視化平臺,行內稱之為雲圖系統。

在系統建設之初,我們先定義了四類運維資料消費場景,如下圖所示:

下麵,我們先對這四個比較具備代表性的場景進行說明:

1 日常監控

作為運維人員,每個人都需要對各自負責系統的運行情況瞭如指掌。系統本身的各項性能指標可以通過對資料庫、中間件、操作系統和網絡流量分析等監控手段實時主動監測,系統的交易性能情況則需要通過交易性能監控系統進行實時的診斷輸出和告警。

一線值班人員需要打開不同工具的監控視窗,實時監測系統的告警和異常指標,這些視窗占用了大量的終端資源;

二線運維人員接到異常告警後,也需要打開各個監控平臺進行故障判斷和問題定位,往往在登陸和跳轉的過程中浪費一定的時間和精力,無法有效滿足“10分鐘定位故障、10分鐘處置恢復”的“雙十”標的。

通過雲圖系統對上述各專業監控工具的資料實現高效整合,目前已經能夠以應用為中心,在統一的頁面上實現上述多種運行狀態資料的呈現,實時同步的顯示告警資料和性能資料,並與特定場景的可視化相結合,直觀高效,一目瞭然。

舉例:圖1是我行網銀互聯繫統發往工行、農行、中行、建行、交行、招行等14家對手行的交易量、響應時間、響應率和成功率一覽圖,當交易異常告警發生時,告警會實時掛載在應用系統圖標上。

圖1:網銀互聯至對手機構交易情況監控

2 排障定位

在日常IT運維工作中,有時會面對一些較複雜的故障定位場景,比如大量系統幾乎同時涌現高級別告警,這些系統之間依托於各類網絡,存在著支撐和依賴關係,而每個系統本身也被覆雜的系統架構所承載。

這種情況下,如何在有限的時間內定位故障並快速恢復業務,是運維人員面臨的低頻但高風險的疑難問題。

對比傳統排障思路,運維人員需要綜合分析這些告警,確定可能的根因。

一般思路是各應用系統負責人分別找資料庫、操作系統、中間件、網絡等團隊確認是否是本系統導致的。

如果不是,則需要通過事前繪製的上下游系統關係圖梳理可能的根因節點,再查詢相應疑似故障根因系統的架構內是否存在故障,從而進行進一步處理。

由於相關工作既存在跨部門溝通,又需要強大的視圖化邏輯思維能力,對運維人員要求極高。

而通過雲圖系統,我們可以先通過對應用牆的整體查看(如圖2所示),分析各系統告警的分佈情況,之後依照經驗初步判斷交易關鍵節點,點擊鑽取進入應用關係全景圖。

圖2:應用牆展示

在圖中可以查看到基於時序的告警、性能指標曲線、近期變更記錄,從而進一步縮小需要深入判斷的故障域;再基於疑似的故障根因節點鑽取到系統架構圖和網絡拓撲圖,同樣對架構圖中物件的告警、變更、性能資料進行分析,進一步定位故障源頭(如圖3所示)。

圖3:應用交互關係展示

最後,將自動化操作也集成到相應的架構圖中,包括一鍵巡檢等操作,縮短大腦思考和逐一登陸各系統消耗的寶貴時間,完成處理後再次對比相應架構圖中的實時監控資料,確認故障處理效果。

排障結束後,還可借助應用畫像功能(如下圖4所示),對故障的形成原因及解決方法進行復盤,制定預案,為可能的故障二次發生或次生風險提供預防措施和緊急處理指導意見。

圖4:應用畫像展示

3 變更影響分析

在日常的變更管理工作中,分析變更影響,進行變更過程評審是變更管理工作的重點。

就變更影響分析而言,如果CMDB資料中的關係資料不夠完善,影響範圍的確認就變得異常艱辛,需要投入更多的經驗判斷、多方溝通以及大量思考。

依托於雲圖系統,變更影響分析的工作得到了系統化改善。舉例來說,當需要對儲存系統進行維護時,只需要搜索該儲存設備的任意配置項屬性,便可知道哪些系統與該儲存存在關聯關係,同時還可以鏈接到相應的系統架構圖,從而進一步瞭解深層次的影響範圍(如下圖5所示)

圖5:儲存與應用影響關係展示

4 知識共享

知識共享能夠提升人與人之間的協作和分享能力,發揮團隊成員的主動性和創造性。舉例來說,基於配置資料的架構圖,結合相關的監控信息和變更記錄,可以由專業二線人員進行場景組裝,並將其分享給ECC一線值班經理。

值班經理一方面可以通過更易理解的架構圖,熟悉所需管理的各類系統情況,還能夠在故障定位時,更易縮小故障域根因範圍,進而向專業二線傳遞信息,提升整體排障效率。

此外,日常運維中演示彙報是知識共享的場景之一,架構圖作為IT管理領域存在共識的表現形式,本身就具備演示彙報的基礎能力。

不論是對新員工培訓或與運維備份崗的日常溝通過程中,還是在向業務單位介紹IT運維日常工作,又或者是描述一些重要的系統建設成果。

通過該系統的演示樣式都可以有效的提升溝通效率,使整個組織形成知識積累、統一認知、快速分享和實時更新的機制。

圖6:演示彙報大屏樣式

三、未來展望

1 可視化AIOps

近年來AIOps的理念逐漸深入人心,Gartner也在監管控運維架構的基礎上補充了AIOps的核心節點。作為AIOps,從各類資料源彙總成為大資料庫,在這個基礎上進行計算、分析、融入演算法、增加機器學習能力,並最終以可視化供給資料消費是已知的發展路徑。

民生銀行運維大資料平臺已經建設完成,目前也已開展與清華大學智慧運維實驗室的合作,將其機器學習和演算法研究成果投入到生產環境進行積累和學習。

下一步雲圖系統將對接智慧運維繫統的異常監測分析資料,實現AiOps與IT運維架構可視化故障定位的展示能力。

舉例來說,在架構圖中呈現的事件信息,除了經歷了過濾、壓縮、關聯、豐富等操作,還會補充單值標異常檢測系統在性能資料中挖掘的系統異常。

比如業務系統交易響應時長原本定義在100ms生成告警事件,而在異常檢測系統上線後,機器學習會基於資料特征,在低峰期,即便其響應時長只有50ms,也可以發現系統異常,從而進一步補充事件提醒,結合雲圖系統,實現故障預警的可視化,進一步提高運維質量。

圖7:Gartner監管控運維架構

2 自動化場景可視化

下一步,系統將實現應用發佈及災備切換自動化的可視化能力:

應用發佈和災備切換需要管理的各種資源關係複雜,應用系統之間依存性高,自動化運維繫統的流程管理可以清晰定義以上各種關係,有力的保障了災備系統的服務質量、提高應對突發事件的能力。

與此同時,各部門同事及領導可以通過大屏幕,一目瞭然的瞭解流程執行情況,使ECC成為統一的“作戰指揮中心”。

3 深入的場景化建設

基於架構圖和各類資料的集成,架構管理可視化工具已經成為了最貼近運維人員的綜合情勢研判工具。

基於此,系統可以做進一步深化,站在運維人員不同的工作場景進行功能深化和資料封裝。

舉例而言,故障在很多情況下源於變更,在系統變更前需要對變更進行評審,場景化能力可以在評審前,將變更前後需要關註的系統架構、應用交易性能指標、系統和網絡層面負載指標,以及各應用的日誌新產生數量,均封裝在一個頁面上。

當變更日的次日清晨,應用運維人員可以自動收到郵件通知,將上述信息進行彙總,點擊後即可打開封裝好上述資料和圖形的場景化頁面,從而對變更後的狀態一目瞭然,一旦出現問題也可以查看問題表徵,並迅速定位上下游影響。

四、總結

“心靈沒有意象就永遠不能思考”,亞里士多德的這句名言,映射到IT運維管理中,架構圖便是心靈意象的一種可視化呈現。

對於IT架構圖的規範化梳理,一方面在IT治理層面保障了運維管理工作可持續的優化;

另一方面隨著架構可視化管理的深入,以IT架構圖貫穿運維工作思考流的習慣正在逐漸形成。

未來,將配置資料、監控資料、日誌資料、自動化工具、流程工具,基於架構圖進行有機整合,激發了運維人員對運維所需工具的新需求,從而形成更加高效的資料消費場景。

伴隨著工具深入使用和持續優化,相應的需求仍在不斷涌現,未來會根據進展與大家分享。

說明:本文轉自公眾號“民生運維”,已獲原文作者授權發佈。


●編號225,輸入編號直達本文

●輸入m獲取文章目錄

推薦↓↓↓

 

Linux學習

更多推薦18個技術類微信公眾號

涵蓋:程式人生、演算法與資料結構、黑客技術與網絡安全、大資料技術、前端開發、Java、Python、Web開發、安卓開發、iOS開發、C/C++、.NET、Linux、資料庫、運維等。

赞(0)

分享創造快樂