每小時(shí)損失200萬美元!AWS宕機(jī)事件為CIO敲響IT韌性警鐘

周一上午,AWS發(fā)生了大范圍的中斷,影響了數(shù)千名客戶,進(jìn)而引發(fā)多個(gè)數(shù)字服務(wù)出現(xiàn)問題。最初,為將數(shù)百項(xiàng)AWS服務(wù)恢復(fù)至美國東部-1(US-East-1)區(qū)域所做的努力,在一定程度上緩解了困難,但并未完全解決問題,這使得亞馬遜不得不在當(dāng)天晚些時(shí)候找出并糾正根本原因。
根據(jù)該公司狀態(tài)頁面上的更新信息,該公司將問題歸因于一個(gè)負(fù)責(zé)監(jiān)控其網(wǎng)絡(luò)負(fù)載均衡器健康狀況的內(nèi)部子系統(tǒng)。
“我們已采取了額外的緩解措施,以助力負(fù)責(zé)監(jiān)控我們網(wǎng)絡(luò)負(fù)載均衡器健康狀況的基礎(chǔ)內(nèi)部子系統(tǒng)恢復(fù),目前,AWS服務(wù)的連接性和API已開始恢復(fù)。”美國東部時(shí)間中午左右,該公司這樣表示,不過其仍將服務(wù)狀態(tài)列為“降級(jí)”。
云服務(wù)中斷可能會(huì)波及數(shù)字服務(wù),同時(shí)擾亂多個(gè)應(yīng)用程序的運(yùn)行,阻礙業(yè)務(wù)連續(xù)性計(jì)劃的實(shí)施。當(dāng)受影響的超大規(guī)模云服務(wù)商是市場份額領(lǐng)先的AWS時(shí),其影響會(huì)更為嚴(yán)重。
根據(jù)Gartner的估算,去年,亞馬遜的云服務(wù)吸引了所有IaaS支出中的37.7%,而微軟的市場份額為23.9%。谷歌去年僅控制了9%的支出。
Info-Tech Research Group的數(shù)字基礎(chǔ)設(shè)施實(shí)踐負(fù)責(zé)人John Annand表示,云服務(wù)中斷為CIO們敲響了警鐘,有助于他們評(píng)估自身IT資產(chǎn)的彈性。
“試圖將任何風(fēng)險(xiǎn)降至零,其難度會(huì)呈指數(shù)級(jí)上升,”Annand說,“你希望風(fēng)險(xiǎn)越低,所需付出的成本就越高?!?/p>
IT壓力測試
對(duì)于CIO們來說,供應(yīng)商選擇是構(gòu)建彈性的拼圖之一,但Annand表示,從架構(gòu)角度來看,依賴多個(gè)重疊供應(yīng)商的云系統(tǒng)可能會(huì)過于復(fù)雜。
“這在紙面上看起來很美好,人們也在會(huì)議上談?wù)撍珜?shí)際上他們并不會(huì)這么做,”Annand說,“你必須選擇一個(gè)云平臺(tái)的有效性和易用性,然后試著圍繞你知道無論如何都會(huì)發(fā)生中斷的時(shí)間來制定計(jì)劃?!?/p>
Omdia的IT運(yùn)營首席分析師Roy Illsley表示,對(duì)于CIO們來說,此類中斷事件的關(guān)鍵啟示在于要制定雙源策略。
“這一事件表明,即使是像AWS這樣的服務(wù)商也會(huì)受到影響,而且除非你有應(yīng)急預(yù)案,否則你將陷入困境。”他在一封電子郵件中這樣說道。
Illsley說,多云提供了額外的彈性層,但在云之間遷移工作負(fù)載頗具挑戰(zhàn)性。理想情況下,CIO們應(yīng)考慮將多云與本地環(huán)境相結(jié)合,不過他提醒說,這一策略的成本更高,也更為復(fù)雜。
“沒有靈丹妙藥,”Illsley說,“但CIO們必須盡職調(diào)查,并考慮制定一個(gè)獨(dú)立于主要云服務(wù)供應(yīng)商之外的穩(wěn)健恢復(fù)計(jì)劃?!?/p>
對(duì)于正在應(yīng)對(duì)業(yè)務(wù)中斷的企業(yè)來說,IT中斷可能會(huì)導(dǎo)致巨大的成本。根據(jù)New Relic上個(gè)月公布的數(shù)據(jù),技術(shù)問題導(dǎo)致的每小時(shí)運(yùn)營停機(jī),會(huì)使公司損失的中位數(shù)達(dá)到200萬美元。該公司發(fā)現(xiàn),云服務(wù)故障是導(dǎo)致IT停機(jī)的主要原因。
去年,當(dāng)向Windows設(shè)備推送的CrowdStrike有缺陷的更新導(dǎo)致大規(guī)模中斷時(shí),全球IT系統(tǒng)陷入了混亂。2024年7月的這一事件,導(dǎo)致《財(cái)富》500強(qiáng)公司估計(jì)直接經(jīng)濟(jì)損失超過50億美元,其中醫(yī)療保健行業(yè)受到的財(cái)務(wù)沖擊最大。
分析師和專家此前表示,非計(jì)劃性的IT故障可以提供一個(gè)重新評(píng)估業(yè)務(wù)連續(xù)性計(jì)劃的機(jī)會(huì)。
“問題不在于服務(wù)是否會(huì)中斷,”Annand說,“而在于何時(shí)會(huì)中斷。作為CIO,你的工作是與公司高層一起管理這一風(fēng)險(xiǎn),并制定出一個(gè)計(jì)劃。”
























