最新AWS故障分析報(bào)告出爐:詳解事故原因與根源

10月19日晚11:48至10月20日凌晨2:40期間,亞馬遜DynamoDB在美國(guó)弗吉尼亞州US-East-1區(qū)域(部署應(yīng)用程序的主要區(qū)域)出現(xiàn)了“API錯(cuò)誤率上升”的情況。
這導(dǎo)致包括Snapchat、Fortnite、Ring、Roblox、Coinbase和即時(shí)通訊應(yīng)用Signal在內(nèi)的各種應(yīng)用程序和服務(wù)無(wú)法使用。
AWS描述了在此期間,“依賴DynamoDB的客戶和其他AWS服務(wù)無(wú)法與該服務(wù)建立新連接”。
AWS表示,此次事件是由服務(wù)自動(dòng)化DNS管理系統(tǒng)中的“潛在缺陷”(即隱藏故障)引發(fā)的。AWS指出,這導(dǎo)致了DynamoDB的端點(diǎn)解析失敗。
DNS(也被稱為互聯(lián)網(wǎng)電話簿)是將Forbes.com等域名轉(zhuǎn)換為IP地址的系統(tǒng),以便瀏覽器加載互聯(lián)網(wǎng)資源。
AWS表示,像DynamoDB這樣的服務(wù)在每個(gè)區(qū)域“維護(hù)著數(shù)十萬(wàn)條DNS記錄,以運(yùn)營(yíng)一個(gè)由大量異構(gòu)負(fù)載均衡器組成的龐大集群”?!白詣?dòng)化對(duì)于確保這些DNS記錄頻繁更新至關(guān)重要,以便在有可用容量時(shí)增加容量、正確處理硬件故障,以及高效分配流量以優(yōu)化客戶體驗(yàn)?!盇WS稱。
但是,DynamoDB DNS管理系統(tǒng)中的“潛在競(jìng)態(tài)條件”(即當(dāng)多個(gè)請(qǐng)求同時(shí)發(fā)送到同一端點(diǎn)時(shí)發(fā)生的情況)導(dǎo)致該服務(wù)區(qū)域端點(diǎn)(dynamodb.us-east-1.amazonaws.com)的DNS記錄出現(xiàn)不正確的空記錄,而自動(dòng)化系統(tǒng)未能修復(fù)這一問(wèn)題。
網(wǎng)絡(luò)負(fù)載均衡器的問(wèn)題
隨后,當(dāng)系統(tǒng)開(kāi)始恢復(fù)時(shí),10月20日凌晨5:30至下午2:09,同一區(qū)域的部分網(wǎng)絡(luò)負(fù)載均衡器出現(xiàn)了連接錯(cuò)誤增加的情況?!斑@是由NLB集群中的健康檢查失敗導(dǎo)致的,進(jìn)而使部分NLB的連接錯(cuò)誤增加?!盇WS解釋道。
與此同時(shí),10月20日凌晨2:25至上午10:36,新的EC2實(shí)例啟動(dòng)失敗。AWS表示,雖然從上午10:37開(kāi)始實(shí)例啟動(dòng)逐漸成功,但部分新啟動(dòng)的實(shí)例出現(xiàn)了連接問(wèn)題,這些問(wèn)題在下午1:50得到解決。
“新啟動(dòng)的EC2實(shí)例網(wǎng)絡(luò)狀態(tài)傳播延遲也對(duì)網(wǎng)絡(luò)負(fù)載均衡器服務(wù)和使用NLB的AWS服務(wù)造成了影響?!盇WS稱。
亞馬遜就服務(wù)中斷事件致歉并說(shuō)明后續(xù)措施
AWS現(xiàn)已就此事件發(fā)布道歉聲明。“我們?yōu)榇舜问录o客戶帶來(lái)的影響深表歉意?!盇WS寫道,“盡管我們?cè)谶\(yùn)營(yíng)服務(wù)方面一直保持著高可用性的良好記錄,但我們深知服務(wù)對(duì)客戶、他們的應(yīng)用程序和終端用戶以及業(yè)務(wù)的重要性。我們深知此次事件對(duì)許多客戶造成了重大影響。我們將竭盡所能從此次事件中吸取教訓(xùn),并利用它進(jìn)一步提升我們的可用性?!?/p>
AWS表示,它“正在因此次運(yùn)營(yíng)事件做出多項(xiàng)調(diào)整”。
例如,它已在全球范圍內(nèi)禁用了DynamoDB DNS規(guī)劃器和DNS執(zhí)行器自動(dòng)化系統(tǒng)?!霸谥匦聠⒂么俗詣?dòng)化系統(tǒng)之前,我們將修復(fù)競(jìng)態(tài)條件場(chǎng)景,并增加額外保護(hù)措施,以防止應(yīng)用不正確的DNS計(jì)劃?!?/p>
對(duì)于NLB,AWS正在增加一個(gè)速度控制機(jī)制,以限制當(dāng)健康檢查失敗導(dǎo)致可用區(qū)故障轉(zhuǎn)移時(shí)單個(gè)NLB可以移除的容量。
對(duì)于EC2,AWS正在構(gòu)建一個(gè)額外的測(cè)試套件,以擴(kuò)充其現(xiàn)有的規(guī)模測(cè)試,該測(cè)試將演練DWFM恢復(fù)工作流程,以“識(shí)別未來(lái)可能出現(xiàn)的任何問(wèn)題”。
此次AWS服務(wù)中斷事件影響巨大,部分公司因依賴的應(yīng)用程序出現(xiàn)問(wèn)題而數(shù)小時(shí)無(wú)法運(yùn)營(yíng)。AWS迅速發(fā)布了事后分析報(bào)告,這一點(diǎn)值得肯定。然而,其聲譽(yù)已經(jīng)受到了損害。





















