歡迎光臨
每天分享高質量文章

阿裡雲故障,僅是運維操作失誤?

6月27日,阿裡雲出現大範圍故障,今天凌晨,阿裡雲官方微博公佈了故障的原因,直接原因是由於”運維操作失誤”,改進措施是”復盤改進自動化運維技術和釋出驗證流程”。

能坦誠的公佈問題,而不是用系統抖動或者光纖挖斷之類的詞來敷衍大家,這一點值得肯定。

除了公告提到的增強釋出流程驗證之外,重新審視系統整體的隔離保護體系我覺得也值得一做。故障的時間偏長,暴露了對突發問題處理手段及預案的匱乏。

一個不斷演進的系統,出現問題不可避免,反覆的強調或者追求不出問題未必是最佳的方向,讓團隊具備快速解決問題的能力通常來說更加可行。出了問題後,只要有相應的手段來隔斷問題的範圍(類似大樓裡面的防火門),減少對非故障模組的幹擾,通常不會對使用者整體造成幹擾。

從昨天的情況來看,要麼就沒有防火門的設計,要麼系統有類似的機制,但是處理人員不能熟練地啟用。如果是前者,則需要重新審視整體架構,如果是後者,那就是團隊內部需要反思的問題。

本文由 Tim (微博 @TimYang)投稿,轉載本文請註明出處,技術原創及架構實踐文章,歡迎透過公眾號選單「聯絡我們」進行投稿。

高可用架構

改變網際網路的構建方式

長按二維碼 關註「高可用架構」公眾號

贊(0)

分享創造快樂