從科研角度談“如何實現基於機器學習的智慧運維”-知識星球

清華大學計算機系副教授裴丹於運維自動化專場發表了題為《基於機器學習的智慧運維》的演講，現場分享了基於機器學習的智慧運維目前面臨的挑戰和解決思路。以下為演講實錄，今天大概內容包括智慧運維背景介紹、如何從基於規則上升到基於學習。

首先會做一個背景的介紹；為什麼清華大學的老師做的科研跟運維有那麼多關係？智慧運維現在已經有一個很清晰的趨勢，從基於規則的智慧運維自動化逐漸轉為基於機器學習了。再介紹幾個跟百度的運維部門、搜尋部門進行合作的案例；最後，還要講一下挑戰與思路。

一、智慧運維背景介紹

談一下參加這次大會的感受，昨天各位講師們的報告，特別是今天早上幾位講師的報告特別精彩，講到了在生產一線過程中遇到的各種挑戰以及大家的實踐和經驗，我們又加了運維的群，對於像我這樣在科研領域做運維相關科研的工作者來說，感覺找到了組織。

介紹一下我的經驗，特別是跟海峰老師開場的時候，講的一個概念是相關的。海峰老師提到說我們做運維很苦，正好我大概在去年這個時候，我在百度的運維部門，講了一下做運維如何做得更高大上一些，我的題目叫做《我的運維之路》。我們先簡單看一下，我個人學術上的官方簡歷。

我讀了博士，然後在AT&T;研究院實習，AT&T;研究院前身是貝爾實驗室的一部分，這裡面大概有200個博士，有C發明者、防火牆之父，當然我其實沒有怎麼見到過他們，但是辦公室是在一起的。之後在裡面做了大概6年時間，發了不少論文，得了一些獎，發表了23項運維相關的專利。然後回清華做了不少科研，這是我的官方簡歷。

實際上我在做什麼事情？我就是一個運維人員。在一個30萬人的大公司裡面做運維，當然主要是透過大資料分析的方法。我讀博期間跟美國各種運維人員打交道了五年；在實習過程中，喜歡上了分析實際的運維資料；真正在那邊工作的時候，基本上就是一個第五級的運維，做的事情是基於大資料技術管理網路和應用的效能，各種網路協議、IPTV、Video等等。

回到清華做科研的時候，開設的也是網路效能管理/應用效能管理相關的課程，所有的科研都是跟運維相關的，在國內有一些合作者，包括百度的運維部門、搜尋部門以及中石油資料中心等等。我可以認為自己是一個運維人員，很高興在這裡跟大家分享我們之前的一些經驗。

為什麼說運維是可以做得很高大上的事情？這是一個會議叫SIGCOMM，網路裡面最頂級的會議，如果計算機網路的事情是像電影一樣，這就是奧斯卡，每年大概錄用三四十篇論文，錄用一篇，就跟中彩票一樣。我們看它的Submission，就是這麼多，跟我們運維相關的佔了40%。

再看評委會，我只列出了AT&T;研究院裡面的前實習人員和前員工的一些同事們，基本上現在都到大學裡當教授了。所以說運維苦不苦，是不是可以做得更高大上一些，取決於怎麼做。

資料分析、機器學習，這是很好的路線。再看評委會，我只列出了AT&T;研究院裡面的前實習人員和前員工的一些同事們，基本上現在都到大學裡當教授了。所以說運維苦不苦，是不是可以做得更高大上一些，取決於怎麼做。資料分析、機器學習，這是很好的路線。

不光是最頂級的會議，我們還有一個專門做運維相關的會議。這個會議，就是這撥人裡面，覺得SIGCOMM這個會一年30多篇，實在是收得太少了，我們再開一個會議，全部都是運維相關的，這是一個頂級的會議，是我科研領域一個主要的戰場之一。

鋪墊一下，就是說運維是有很多可以鑽研的地方，有很多科研問題。

簡單介紹一下我在清華大學的實驗室，叫NetMan。我的網路管理實驗室做的科研，基本上都是跟NPM、APM運維相關的。我們跟網際網路公司做一些合作，主要做運維相關的自動化工作，跟SmoothAPP相關的運維工作，跟清華校園網WiFi做一些網路效能最佳化的工作。我們做了一個核心的基於雲的運維演演算法平臺，具體這些運維的應用，下麵都有一個核心的演演算法，再下麵還有一個大資料分析的平臺，就是常用的各種開源工具。

前面所講的是背景部分。我想要表達的一點，工業界、學術界應該在運維領域裡面能夠密切合作，各取所需。工業界有很多實際問題，有很多的經驗，也有實際的資料，學術界老師們有時間，有演演算法，有學生，大家一起結合，這樣就會產生很好的效果。

值得各位運維界同仁們關註的就是學術界的頂級會議，我比較推薦的是上面圖中的這些會議，這些會基本上一年三五十篇論文的樣子，簡單瀏覽一下，跟大家做得工作是不是相關，瀏覽一下最新的會議論文集，看看有沒有相關的，還是很有幫助的。美國的工業界，像谷歌、Facebook都已經在這些會議上發表過一些論文，包括他們在工程上的一些實踐。

二、從基於規則到基於學習

簡單介紹一下智慧運維大概的歷程，基於規則到基於機器學習。

我簡單回顧一下，我們這個趨勢，不光是說我們這個領域的趨勢，整個人工智慧領域發展的趨勢。人工智慧也是經歷了起起伏伏，最近又非常火。基本歷程，就是從基於專家庫規則到逐漸變成機器學習，再到深度學習。

我講一下幾年前基於專家庫規則到機器學習的經歷。

我們在做降維分析的時候，需要一個規則集，什麼事件導致另外一個事件，再導致額外頂級的事件，最後倒推回來，什麼導致了這個事情。我們當時針對骨幹網做的各種事件的關聯分析，基本上是基於規則的。當時CDN的效能事件，這個事件導致這個事件，單獨對它進行分析，如果這個事件發生，可以透過監測到的各種事件一直推到這兒。當時做出來的時候，起到了很好的效果，發表了論文，審稿評價也很高，也有專利，現在還在非常常規地使用，並且用得很好，效果很好。

但是這裡面有個問題，規則是由運維人員給出來的，為什麼能夠執行的很好？因為在網路骨幹網上面情況不是那麼複雜，網路協議一層接一層，事件比較少，所以比較容易把規則弄出來。

我們跟百度進行合作的時候，發現不是那麼好做。因為在網際網路公司裡面，大家都在講微服務，模組特別多，規模很大，百度這邊一百多個產品線，上萬個微服務模組，上萬臺機器，每天上萬個軟體更新，想透過人把這些規則表達出來，執行到你的系統裡，根本就不行，我們試了一下，很快就碰壁了。

最後怎麼辦？我們採用了基於機器學習，把這些規則挖出來。我們在做的過程中不斷總結，不斷遇到新的問題，實現了基於規則的智慧運維過渡到基於機器學習。

機器學習本身已經有很多年了，有很多成熟的演演算法。要想把機器學習的應用做成功，要有資料，有標註資料，還要有工具(演演算法和系統)，還要有應用。對於我們運維領域來說，這幾點到底是怎麼做的？

第一點，是資料。網際網路的應用天然就有海量日誌作為特徵資料，想各種辦法做最佳化儲存。在執行過程中遇到資料不夠用還能按需自主生成，這是很好的。

第二點，是過程反饋。在運維日常工作中還會產生各種標註資料，比如說工單系統，發生一次運維事件之後，具體負責診斷的人員會記錄下過程，這個過程會被反饋到系統裡面，我們可以從裡面學到東西，反過來提升運維水平。

第三點，就是應用。做出來的系統，我們運維人員就是使用者，我們可以設計、部署、使用、並受益於智慧運維繫統，形成有效閉環。建模、測量、分析、決策、控制，很容易形成一個閉環。我們能夠形成閉環，因為我們有這樣的優勢。

總結一下，基於機器學習的智慧運維具有得天獨厚的基礎，網際網路應用天然有海量日誌作為特徵資料，運維日常工作本身就是產生標註資料的來源，擁有大量成熟的機器學習演演算法和開源系統，可以直接用於改善我們的應用，所以我個人有一個預測，智慧運維在今後若干年會有飛速的發展(待續)。

驀然迴首，自開號以來，本號已經創作430+篇文章，自媒體的紅海時代已經全然來臨(死傷無數)，隨著百家號、今日頭條等知名媒體把推廣重點放在娛樂八卦、人體藝術和小影片上之後，技術號生存空間變得更小。本號之所以一直堅持創作，其源動力基本來自幾萬粉絲精神的支援，如果覺得文章對大家有用，請大家不吝動動手指分享給更多讀者(源動力)。也不知道什麼時候會停筆，但不到萬不得已相信會堅持寫下去。

利用週末時間(一般都是週末)，對“Ceph技術架構、生態和特性詳細對比分析”進行了第二版掃清，掃清內容包含Ceph架構，故障機制、後端物件儲存演進、Ceph跟Glustre FS和華為分散式OceanStor 9000產品對比分析。感興趣的讀者可透過原文連結檢視詳情。

>>>推薦閱讀

溫馨提示：
請搜尋“ICT_Architect”或“掃一掃”下麵二維碼關註公眾號，獲取更多精彩內容。

聽說點贊和分享的朋友都已走上人生巔峰了

從科研角度談“如何實現基於機器學習的智慧運維”

相關推薦

熱門標籤

熱門文章

分享創造快樂