騰訊云詳解宕機故障:光纖挖斷后的150秒
3 月 23 日 16 時左右,騰訊服務器發(fā)生了大規(guī)模宕機,有網(wǎng)友發(fā)微博稱旗下《王者榮耀》、《刺激戰(zhàn)場》等多款熱門游戲和網(wǎng)絡服務產(chǎn)品“集體陣亡”。
除了騰訊系手游出現(xiàn)問題,比如王者榮耀、奇跡暖暖、掌盟、紅警等等登錄不了,微信、QQ、QQ 音樂全民 K 歌等服務也受到波及。
@騰訊游戲在當日 16 時做出了回應,稱本次崩潰是因上海當?shù)鼐W(wǎng)絡運營商的光纖線路大面積故障,使得騰訊游戲及外部多個網(wǎng)絡應用的使用均受到影響。目前運營商正在緊急搶修中,公司也正在積極做容災處理,業(yè)務陸續(xù)恢復中。
晚上 19 點 54 分,騰訊回應已基本修復,各業(yè)務基本正常運行。類目太多未公布各類游戲補償獎勵。
據(jù)騰訊 2018 年財報顯示,全年游戲營收 1284 億,核算停止營運 4 個小時,粗略損失 5800 多萬收入;而這 4 個小時其他運營成本沒有減少。
此事也被當?shù)仉娨曅侣劗斖韴蟮?,未披露施工方信息,目前還沒有相關單位發(fā)聲明對此事負責。
3 月初,阿里云出現(xiàn)大規(guī)模宕機故障,華北地區(qū)很多互聯(lián)網(wǎng)公司都受波及,一大波程序員、運維專員都從睡夢中被叫醒跑去辦公室干活。
對此,阿里云官方回應稱,宕機原因為:華北 2 地域可用區(qū) C 部分 ECS 服務器等實例出現(xiàn) IO HANG,后經(jīng)緊急排查處理后逐步恢復。
3 月 20 日淘寶、天貓、淘寶直播、閑魚等 App 崩潰,緊接著 12306 也躺槍。這次騰訊光纖又被挖,AT 兩大巨頭僅時隔三天。
對此次事故,有網(wǎng)民評價道:“上次是蕭山拔阿里網(wǎng)線,這次是上海拔企鵝的網(wǎng)線!什么互聯(lián)網(wǎng)+大數(shù)據(jù),終究干不過傳統(tǒng)工業(yè)的一鏟子。”
接下來,我們來看看騰訊云在光纖被挖斷后的 150 秒到底發(fā)生了什么?
光纖挖斷后的 150 秒
上周末的這起光纖中斷事故引發(fā)了一場聲勢浩大的斷網(wǎng)危機。在云服務越來越普及的今天,如何在面對網(wǎng)絡故障的情況下,盡可能保證服務的穩(wěn)定性和連續(xù)性,是所有企業(yè)都需要重視的問題。
智能化流量調度系統(tǒng)大顯身手
當天下午,騰訊云網(wǎng)絡監(jiān)控平臺監(jiān)測到上海到浙江電信出現(xiàn)小范圍公網(wǎng)質量下降。
騰訊云隨即啟動流量智能調度系統(tǒng),將上海地區(qū)公網(wǎng)流量通過騰訊云內(nèi)部 T 級骨干網(wǎng),引導至騰訊云廣州區(qū)電信出口,再由電信骨干網(wǎng)直達浙江電信。
“ 這項技術的厲害之處在于,即使遇到運營商的光纖故障,這套調度系統(tǒng)能夠根據(jù)需要自動繞過故障點,從而***時間恢復公網(wǎng)用戶的網(wǎng)絡覆蓋。”
—— 騰訊云工程師 kris
正常來說,如果沒有這套流量調度系統(tǒng),只能被動的等待運營商來完成修復,這樣的結果是可能需要更長的時間。
從架構上看,騰訊云公網(wǎng)流量智能調度系統(tǒng):
- 一方面通過接口自動執(zhí)行并反饋管理臺下發(fā)的各種調度和控制信息。
- 另一方面和公網(wǎng)出口設備建立 BGP(公網(wǎng)路由協(xié)議)連接,通過采集設備路由信息,根據(jù)調度需求向不同路由設備下發(fā)流量調度命令,從而實現(xiàn)領先的公網(wǎng)自動化流量工程技術。
最終結果是,此次光纖故障,騰訊云從發(fā)現(xiàn)到恢復故障,全程只有 2 分鐘(抖動時間:14:40:15-14:42:45),并且所有流程自動化執(zhí)行,在短短 150 秒之內(nèi)就快速恢復了網(wǎng)絡,企業(yè)運維人員幾乎無任何感知。
“四纖三路由”高冗余架構
能否做到上述效果與騰訊云自身高度冗余的網(wǎng)絡架構以及智能自愈機制有很大關系。
首先,騰訊云在基礎設施的高可用方案為網(wǎng)絡的平穩(wěn)運營提供了重要前提和支撐。
騰訊云目前在每個區(qū)域,例如上海南匯,引入并劃分了多個可用區(qū),可用區(qū)之間提供可靠的風火水電物理全隔離。
同時又妥善考量了各個可用區(qū)之間的網(wǎng)絡低延遲,這就從基礎設施層面有效保證了用戶的網(wǎng)絡高可用性和穩(wěn)定性。
另外,從架構層面看,此次光纖故障,騰訊云網(wǎng)絡能夠在極短時間內(nèi)自動恢復,一個重要原因要歸功于它可用區(qū)之間互聯(lián)的底層網(wǎng)絡,這套網(wǎng)絡采用了運營商級“四纖三路由”的高冗余架構設計。
什么意思呢?通俗一點來說就是騰訊云每個可用區(qū)與可用區(qū)之間都采用 3 條獨立光纖連接(分別來自不同方向),并同時接入兩套完全物理分離的波分系統(tǒng),從而有效保障光纖意外中斷時,能夠在 50 毫秒級自動切換。
騰訊云四纖三路由高度冗余架構
除此之外,騰訊云波分系統(tǒng)中部署有光時域反射儀,在產(chǎn)生光纜中斷時,系統(tǒng)可以主動探測光纜具體中斷情況,***時間精準定位光纜中斷的具體位置,并及時反饋給運營商,為此次光纜的順利修復提供非常準確的信息。
對于騰訊此次光纖故障導致的大規(guī)模宕機你想說什么?歡迎底部留言分享。