歡迎光臨
每天分享高質量文章

騰訊雲: 光纖挖斷後的150秒!

週末的一起光纖中斷事故引發了一場聲勢浩大的斷網危機。

3月23日下午,上海南匯網路光纖因施工被意外挖斷,導致該區不少網際網路公司的業務受到不同程度的影響。

“大概是從下午3點左右開始吧,網咖裡面就有不少使用者反饋,多款遊戲開始出現掉線,無法登陸,甚至無法充值等情況。”來自上海的南匯區的一位網友在微信群裡吐槽。

這並非個別情況。隨即不少群友開始接連反饋遇到類似的問題:“還以為我手機問題,重啟好多次啦”、“可怕,4G,wifi都登不上去,以為我家路由器壞了”等等。

與網際網路使用者的慌亂鮮明形成對比的是,不少企業使用者的情況卻相對穩定。據騰訊雲的一位使用者反饋,故障發生後,他們運維人員立即啟動監測,但是未發生業務掉線。

下午4點52分,騰訊雲率先對外公告稱,騰訊雲平臺在2019年03月23日監控到上海電信使用者訪問騰訊雲外網有抖動,目前已經逐漸恢復。

一位騰訊雲的合作伙伴發表朋友圈說,“今天必須要替騰訊雲打一下廣告,現有光纖監測技術無法實現毫秒級的監控需求,只能做到10分鐘級。騰訊雲現在已經可以把預警提升到秒級,相信很快可以再往前提升為毫秒級!這樣就不怕一鏟子將光纖挖斷啦……”

在雲服務越來越普及的今天,如何在面對網路故障的情況下,盡可能保證服務的穩定性和連續性,是所有企業都需要重視的問題。

智慧化流量排程系統大顯身手

當天下午,騰訊雲網路監控平臺監測到上海到浙江電信出現小範圍公網質量下降。騰訊雲隨即啟動流量智慧排程系統,將上海地區公網流量透過騰訊雲內部T級骨幹網,引導至騰訊雲廣州區電信出口,再由電信骨幹網直達浙江電信。

這項技術的厲害之處在於,即使遇到運營商的光纖故障,這套排程系統能夠根據需要自動繞過故障點,從而第一時間恢復公網使用者的網路改寫。

—— 騰訊雲工程師 kris

正常來說,如果沒有這套流量排程系統,只能被動的等待運營商來完成修複,這樣的結果是可能需要更長的時間。

從架構上看,騰訊雲公網流量智慧排程系統,一方面透過介面自動執行並反饋管理臺下發的各種排程和控制資訊;另一方面和公網出口裝置建立BGP(公網路由協議)連線,透過採集裝置路由資訊,根據排程需求向不同路由裝置下發流量排程命令,從而實現領先的公網自動化流量工程技術。

最終結果是,此次光纖故障,騰訊雲從發現到恢復故障,全程只有2分鐘(抖動時間:14:40:15-14:42:45),並且所有流程自動化執行,在短短150秒之內就快速恢復了網路,企業運維人員幾乎無任何感知。

“四纖三路由”高冗餘架構

能否做到上述效果與騰訊雲自身高度冗餘的網路架構以及智慧自愈機制有很大關係。

首先,騰訊雲在基礎設施的高可用方案為網路的平穩運營提供了重要前提和支撐。騰訊雲目前在每個區域,例如上海南匯,引入並劃分了多個可用區,可用區之間提供可靠的風火水電物理全隔離,同時又妥善考量了各個可用區之間的網路低延遲,這就從基礎設施層面有效保證使用者的網路高可用性和穩定性。

另外,從架構層面看,此次光纖故障,騰訊雲網路能夠在極短時間內自動恢復,一個重要原因要歸功於它可用區之間互聯的底層網路,這套網路採用了運營商級“四纖三路由”的高冗餘架構設計。什麼意思呢?通俗一點來說就是騰訊雲每個可用區與可用區之間都採用3條獨立光纖連線(分別來自不同方向),並同時接入兩套完全物理分離的波分系統,從而有效保障光纖意外中斷時,能夠在50毫秒級自動切換。

▲ 騰訊雲四纖三路由高度冗餘架構

除此之外,騰訊雲波分系統中部署有光時域反射儀,在產生光纜中斷時,系統可以主動探測光纜具體中斷情況,第一時間精準定位光纜中斷的具體位置,並及時反饋給運營商,為此次光纜的順利修複提供非常準確的資訊。

能夠在光纖中斷這種極端事件中,仍然保證客戶網路的平穩執行,得益於騰訊雲多年來在骨幹網、運營商領域深厚的技術和資源積累,同時,騰訊雲自身眾多海量業務的打磨,也助推騰訊雲在智慧化網路架構領域的探索更進一步。

正如騰訊雲的合作伙伴在朋友圈評價的那樣,“接觸騰訊這麼久,我很相信,做雲,你們真的是認真的!”

相關閱讀:

正在緊急搶修中斷光纖,騰訊回應伺服器崩潰!

溫馨提示:

請識別二維碼關註公眾號,點選原文連結獲取更多雲端計算和微服務技術資料總結