AWS宕機(jī)11個(gè)小時(shí),都是光纖被挖斷惹的禍?
原創(chuàng)【51CTO.com原創(chuàng)稿件】2019年6月2日凌晨?jī)牲c(diǎn)開(kāi)始,AWS北京區(qū)域出現(xiàn)大面積癱瘓,據(jù)稱是因?yàn)镃N-NORTH-1地區(qū)有多處光纜在夜晚道路施工中被切斷,導(dǎo)致該區(qū)域的***個(gè)可用區(qū)中EC2實(shí)例不能訪問(wèn),同時(shí)不能在整個(gè)CN-NORTH-1區(qū)域中新建EC2實(shí)例。
Amazon Elastic Compute Cloud(Beijing)的處理進(jìn)展如下:
02:38,我們正在調(diào)查CN-NORTH-1的網(wǎng)絡(luò)連接問(wèn)題。
04:17,我們正在調(diào)查CN-NORTH-1的所有可用區(qū)的EC2 API錯(cuò)誤率上升的問(wèn)題以及啟動(dòng)新的EC2實(shí)例失敗的問(wèn)題。我們也在調(diào)查CN-NORTH-1區(qū)域EBS API的錯(cuò)誤率上升和延遲增大的問(wèn)題。
06:36,我們已經(jīng)找到了CN-NORTH-1區(qū)所有可用區(qū)中EC2 API和EBS API錯(cuò)誤率上升的問(wèn)題,以及新的EC2實(shí)例啟動(dòng)失敗的問(wèn)題的原因,我們正在修復(fù)這個(gè)問(wèn)題。
09:27,我們已經(jīng)確定了CN2-NORTH-1區(qū)域內(nèi)所有可用區(qū)域內(nèi)新EC2實(shí)例的EC2和EBS API錯(cuò)誤率增加以及啟動(dòng)失敗的原因,并正在努力解決問(wèn)題。因?yàn)榫W(wǎng)絡(luò)連接導(dǎo)致無(wú)法成功完成Runlnstances API請(qǐng)求,將影響CN-NORTH-1所有區(qū)域。對(duì)其中一個(gè)可用區(qū)中的現(xiàn)有運(yùn)行實(shí)例沒(méi)有任何影響。
14:56,在北京時(shí)間,2:00AM到13:48PM之間,在CN-NORTH-1區(qū)域,客戶遇到在所有區(qū)域中EC2 API調(diào)用失敗率增高以及無(wú)法新建實(shí)例的故障,目前故障已經(jīng)解決,服務(wù)恢復(fù)正常。
回顧去年的AWS故障事件:3月,亞馬遜AWS網(wǎng)絡(luò)服務(wù)出現(xiàn)問(wèn)題,故障時(shí)間不詳。5月,北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障,AWS再次出現(xiàn)連接問(wèn)題,持續(xù)時(shí)間30分鐘。7月,AWS管理控制臺(tái)故障,故障持續(xù)近6小時(shí)。11月,AWS韓國(guó)服務(wù)器中斷,故障時(shí)間持續(xù)一個(gè)多小時(shí)。相比之下,此次的從2點(diǎn)到14點(diǎn),11個(gè)多小時(shí)的故障不得不稱為最近AWS宕機(jī)事件中的大事。
AWS此次的恢復(fù)時(shí)間為什么長(zhǎng)達(dá)11個(gè)多小時(shí)?這不得不讓人聯(lián)想到AWS沒(méi)有做好網(wǎng)絡(luò)冗余設(shè)計(jì)。網(wǎng)絡(luò)冗余設(shè)計(jì)主要通過(guò)重復(fù)設(shè)置網(wǎng)絡(luò)鏈路和網(wǎng)絡(luò)設(shè)備冗余措施,并制定網(wǎng)絡(luò)重要系統(tǒng)和數(shù)據(jù)備份策略等。網(wǎng)絡(luò)鏈路冗余指為了確保業(yè)務(wù)正常運(yùn)轉(zhuǎn),除配置主線路外,同時(shí)做好第二種、第三種線路的部署。
據(jù)悉,AWS北京區(qū)域使用的是光環(huán)新網(wǎng)的數(shù)據(jù)中心,該公司在北京擁有酒仙橋、太和橋、光環(huán)新谷、東直門(mén)、房山和亦莊6個(gè)數(shù)據(jù)中心,每個(gè)都擁有高達(dá)100G的BGP總出口帶寬,多運(yùn)營(yíng)商通信鏈路。光環(huán)新網(wǎng)并未對(duì)此事作出回應(yīng)。
正值6.18中國(guó)電商大促階段,不僅亞馬遜中國(guó)官網(wǎng)(www.amazon.cn)的頁(yè)面一度崩潰,VIPKID、流利說(shuō)、三星應(yīng)用商店等用戶均受到不同程度的影響。筆者也是VIPKID的用戶,所幸當(dāng)天并未約課,只是無(wú)法完成課后作業(yè)及預(yù)習(xí)課程。而約了課的家長(zhǎng)就比較抓狂,取消已約課程,重新約課…
雖然云服務(wù)不可能保證100%不出現(xiàn)問(wèn)題,但是扎扎實(shí)實(shí)做好災(zāi)備,把宕機(jī)帶來(lái)的影響降到***是云廠商的重要職責(zé)。
對(duì)于用戶來(lái)說(shuō),除了選擇更安全的云服務(wù)外,使用多家云服務(wù),實(shí)施多云戰(zhàn)略也是未來(lái)的重要方向。
首先,優(yōu)化了業(yè)務(wù)負(fù)載。由于根據(jù)企業(yè)負(fù)載的不同,為之匹配不同廠商間最適合的云技術(shù),可以明顯提高企業(yè)業(yè)務(wù)運(yùn)轉(zhuǎn)效率。
第二,確保服務(wù)的可靠性。再可靠的云服務(wù)也不能保證100%的安全,即使云計(jì)算提供商在多個(gè)區(qū)域提供數(shù)據(jù)中心服務(wù),并可以確保安全的冗余級(jí)別,但仍然會(huì)存在各種突出事件,影響云服務(wù)的可靠性。而通過(guò)實(shí)施在多個(gè)云平臺(tái)之間故障轉(zhuǎn)移,無(wú)論發(fā)生什么類型的中斷,都可以盡快完成災(zāi)備,保持應(yīng)用程序的運(yùn)行。
國(guó)際數(shù)據(jù)公司 IDC 的一項(xiàng)預(yù)測(cè)表明:“截止到2020年,90%以上的企業(yè)將使用多個(gè)云服務(wù)和平臺(tái)”。著名研究機(jī)構(gòu) 451 Research 公司的調(diào)查也顯示:“IT 的未來(lái)是多云和混合云,69%的受訪企業(yè)表示,計(jì)劃到2019年采用各種類型的多云環(huán)境。”
***筆者還想說(shuō),光纜、管道等基礎(chǔ)設(shè)施的保護(hù)也應(yīng)受到重視,輕而易舉的被破壞,在當(dāng)今的云時(shí)代,付出的代價(jià)太大了!
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】