年終盤點 | 2020云巨頭們的宕機事件
本文轉載自微信公眾號「SDNLAB」。轉載本文請聯(lián)系SDNLAB公眾號。
今年,疫情的爆發(fā)給云計算帶來了一次非凡的考驗——云計算不僅要提供正常運營業(yè)務的能力,還需要具有在負載激增的情況下保持可用性的能力。目前,云計算已被很多企業(yè)采用,但是,在此過程中也出現(xiàn)了許多問題。
以下是今年規(guī)模巨大的十大宕機事件,隨著這些問題的出現(xiàn)和解決,云計算技術正面臨著新的挑戰(zhàn)和機遇。
1. 3月份,Microsoft Azure
3月,微軟發(fā)生兩次大規(guī)模宕機事件。
3月3日,微軟位于美國東部的數(shù)據(jù)中心發(fā)生了服務中斷,持續(xù)六小時,導致美國北部的客戶無法使用Azure云服務。
微軟稱,這次故障應歸咎于冷卻系統(tǒng)故障。發(fā)生故障的樓宇自動化控制導致氣流減少,隨后整個數(shù)據(jù)中心的溫度達到峰值,影響了網(wǎng)絡設備的性能,使得計算和存儲都無法繼續(xù)使用。
3月24日-26日,Azure Pipelines發(fā)生故障,這是DevOps團隊使用的持續(xù)交付服務,接下來的幾天,軟件開發(fā)管道遇到了嚴重的延遲,開發(fā)人員受到的影響特別大。
微軟證實,由于全球疫情爆發(fā),需求激增,虛擬機容量受限使得設備重新映像的時間增加,導致可用代理的等待時間也隨之增加。
2. 3月26日,Google Cloud Platform
3月26日,Google多個云服務出現(xiàn)無法訪問的問題。Google用戶發(fā)Twitter稱,他們遇到了Google 500和502錯誤代碼——500代碼代表因內部錯誤導致請求失敗;502代碼則代表網(wǎng)關出現(xiàn)故障。
Google最終將這次故障歸咎于“基礎設施組件”問題。據(jù)Downdetector稱,美國東部沿海地區(qū)的Google客戶受到的影響最大。
3. 4月10日,華為云
4 月 10 日,華為云出現(xiàn)大面積宕機,華為云登錄、管理后臺無法訪問,部分公司業(yè)務無法正常維持。本次宕機持續(xù)約三小時。
不少網(wǎng)友在微博反映,華為云登錄、管理后臺便開始無法訪問,并出現(xiàn)了“服務器暫時過載或處于維護中,請稍后重試。”、“建立數(shù)據(jù)庫連接時出錯”等提示。華為云官方微博隨后發(fā)布公告回應稱:“檢測到部分主機異常,目前故障基本修復,部分客戶的業(yè)務正在配合恢復中。”
對此,有消息稱這次宕機主要是由于北京的機房出現(xiàn)故障導致的,廣州和上海的用戶表示能夠正常使用。
4. 4月21日,GitHub
微軟旗下的源代碼存儲庫GitHub在4月底發(fā)生了多次宕機。
4月21日,多個GitHub服務出現(xiàn)訪問異常,持續(xù)了一個半小時。4月22日,服務再次出現(xiàn)中斷,持續(xù)時間至少兩小時。4月23日,多個GitHub服務也遇到了各種問題的影響,持續(xù)了近三小時。軟件工程師經(jīng)常使用的API請求、Webhooks等服務被標注為 "已降級"。
官方?jīng)]有提供任何原因,也沒有公布恢復過程的信息。雖然GitHub網(wǎng)站上更新了微軟試圖修復各種故障的情況,但并沒有提供任何關于問題的細節(jié),開發(fā)者們在Twitter上抨擊微軟缺乏透明度。
(5) 6月9日,IBM Cloud
6月9日,IBM Cloud 遭遇了重大宕機故障,平臺上托管的多項服務也因此中斷,其中就包括知名科技新聞聚合網(wǎng)站 Techmeme。本次宕機事件從下午2點30分左右開始,并快速蔓延至全球。
IBM Cloud頁面也在故障發(fā)生期間短暫關閉,然后在下午6:30之后報告稱一系列問題已經(jīng)得以解決。
IBM網(wǎng)站解釋到,INM網(wǎng)絡運營團隊調整了路由策略,處理了第三方提供商引入的問題,這次故障也得以解決。
(6) 8月24日,Zoom
8月24日,Zoom發(fā)生了部分中斷,導致用戶無法訪問其離線會議和在線視頻會議,本次中斷持續(xù)了3小時。Zoom并未解釋造成中斷的原因,他只是在狀態(tài)頁面上說找到并解決了問題。
Zoom現(xiàn)在每天約有1.15億活躍用戶,該公司的服務可能已成為2020年在家工作的關鍵詞。
(7) 9月28日,Microsoft 365和Azure
9月29日,Microsoft Office 365辦公軟件和Azure云產品出現(xiàn)故障,導致部分用戶服務中斷數(shù)小時。
微軟表示,故障涉及Outlook電郵服務和Teams辦公協(xié)作工具的部分用戶,其中Teams具備聊天和視頻會議功能,在新冠疫情期間其用戶增長迅速。微軟表示,一些用戶無法登錄這些服務,但已經(jīng)登錄上去的不受影響。
當天,Azure云計算用戶也遭遇了與Office365套件類似的問題。Azure是微軟的大規(guī)模云計算系統(tǒng),許多企業(yè)都依靠其存儲和分析數(shù)據(jù)。
(8) 10月7日,Microsoft Office 365
10月7日,Microsoft更新了其網(wǎng)絡基礎結構,隨后,Microsoft Teams,Outlook,SharePoint Online,OneDrive for Business和Outlook.com的功能均下降。
當天下午2:48,Twitter上的Microsoft 365官方號確認中斷。微軟隨后表示,網(wǎng)絡基礎結構的最新更新對Microsoft 365服務產生了影響,目前環(huán)境正在恢復更新。
(9) 11月25日,AWS
11月25日,亞馬遜云服務出現(xiàn)中斷,大量網(wǎng)站和服務受到影響。本次宕機持續(xù)約5小時。
AWS發(fā)布通知稱,處理流媒體數(shù)據(jù)的Kinesis服務出現(xiàn)問題,大量網(wǎng)站受到影響,錯誤率上升。并且,宕機還影響了它向狀態(tài)頁發(fā)布更新的能力。
據(jù)了解,此次宕機導致亞馬遜智能安全子公司Ring、Roku、軟件開發(fā)商Autodesk紐約大都會運輸署的地鐵網(wǎng)站,論壇出版集團旗下的《芝加哥論壇報》和《巴爾的摩太陽報》等一些公司或機構的服務受到了影響,網(wǎng)站頻頻出現(xiàn)錯誤。
值得注意的是,AWS 的大客戶蘋果、Slack、Netflix 并沒有受到宕機的影響,仍然運行正常。
(10) 12月14日,Google Cloud
12月14日晚間,Google服務器又一次全球宕機。這是近5個月來第3次全球宕機。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服務出現(xiàn)死機,用戶無法正常使用,全球多個國家及地區(qū)用戶均受到影響。
Google隨后發(fā)推文確認,由于內部存儲配額問題,Google身份驗證系統(tǒng)中斷。宕機45分后問題得以解決,現(xiàn)在所有服務都已恢復。
互聯(lián)網(wǎng)時代對系統(tǒng)的可靠性提出了更高的要求。關鍵系統(tǒng)往往要求每年的不可用時間不能超過53分鐘,而以上事故很多都遠遠超過了故障預算。
未來,系統(tǒng)架構會越來越復雜,整體的數(shù)據(jù)和流量也會越來越大,有專家表示,快速響應和控制影響半徑,是當前的互聯(lián)網(wǎng)需要重視起來的兩個實踐方向。