ChatGPT也遭殃,亞馬遜服務(wù)器故障,半個(gè)互聯(lián)網(wǎng)都崩了
亞馬遜一聲咳嗽,半個(gè)互聯(lián)網(wǎng)都地震了。
由于亞馬遜AWS服務(wù)器宕機(jī),大量互聯(lián)網(wǎng)服務(wù)被迫中斷,ChatGPT也被殃及。
故障發(fā)生在美國(guó)東部us-east-1區(qū)域,是AWS全球服務(wù)最核心的一塊。
根據(jù)故障追蹤平臺(tái)Downdetector的數(shù)據(jù),當(dāng)天累計(jì)收到超過650萬份用戶故障報(bào)告。
△非完全列舉
AWS這波事故,也讓Reddit在內(nèi)的社交平臺(tái)服務(wù)崩潰,人們差點(diǎn)連吐槽都沒法吐。
而且連AWS自己的客戶支持提單系統(tǒng)都掛了,想報(bào)個(gè)錯(cuò)同樣找不到門路。
不過好在馬斯克的X沒用AWS,也就沒受影響,才給了網(wǎng)友們機(jī)會(huì)討論AWS的這波故障。
有網(wǎng)友用表情包調(diào)侃,馬斯克才是這波事件的最大贏家。

但玩笑歸玩笑,被這件事波及的人,可能一點(diǎn)也笑不出來……
亞馬遜服務(wù)故障波及各行各業(yè)
亞馬遜的這次宕機(jī)波及面究竟有多廣?先來看開發(fā)者群體的情況。
Docker是一個(gè)重要的應(yīng)用容器引擎,有開發(fā)者發(fā)現(xiàn)Docker全線癱瘓了,多個(gè)核心服務(wù)集體中斷。

除了Docker,另一個(gè)重要開發(fā)工具npm也出現(xiàn)了同樣的問題,還有備受青睞的AI編程工具Cursor、Vercel一樣未能幸免。
除了開發(fā)者,其他打工人也受到影響——視頻會(huì)議軟件Zoom、OpenAI同款辦公平臺(tái)Slack,全都崩了。
抓馬的是,據(jù)說今年亞馬遜內(nèi)部開會(huì)開始改用Zoom,這樣一來,沒有Zoom的話AWS就開不了線上會(huì)議,但AWS不修復(fù)Zoom就用不了……

既然工作干不了,那干脆直接摸魚呢?
也不行,因?yàn)橛螒蚱脚_(tái)Epic、索尼PlayStation,還有Reddit等社交平臺(tái)以及Netflix、Disney+、Max等流媒體視頻網(wǎng)站也宕機(jī)了。
那我學(xué)習(xí)總行了吧?對(duì)不起,多鄰國(guó)也崩了,還有學(xué)生群體也登錄不了作業(yè)平臺(tái)Canvas。
AI工具方面,最著名的ChatGPT也被認(rèn)為受到波及,還有著名AI搜索工具Perplexity也榜上有名。

而且影響也從線上蔓延到了線下,打車軟件崩了,麥當(dāng)勞星巴克崩了,日常生活中的叫車、點(diǎn)餐都無法進(jìn)行。
還有航空公司,美聯(lián)航和達(dá)美航空都受到了影響,無法給乘客辦理值機(jī)和行李托運(yùn)。

比上不了飛機(jī)更慘的是在飛機(jī)上下不去,小紅書上就有網(wǎng)友現(xiàn)身說法,表示自己乘坐的達(dá)美航空班機(jī)落地后無法停靠,一飛機(jī)的人只能在跑道等待,機(jī)長(zhǎng)廣播通知原因正是亞馬遜宕機(jī)。

更慘的是智能門鎖用戶,受網(wǎng)絡(luò)影響無法解鎖,但門鎖的報(bào)警功能卻是好的,引來了警察上門。

當(dāng)然像Alexa等亞馬遜自家其他的智能家居,更是因?yàn)闆]有網(wǎng)絡(luò)服務(wù)全面罷工。
事情甚至影響到了大西洋另一邊的英國(guó)。
比如英超官方宣布,由于受到AWS故障的影響,西漢姆聯(lián)對(duì)陣布倫特福德的比賽當(dāng)中半自動(dòng)越位系統(tǒng)故障,將比賽中若有需要,將采用以往的人工畫線方式來輔助判定。
當(dāng)然,除此之外“受害者”名單還有很長(zhǎng)……
互聯(lián)網(wǎng)為何如此脆弱
這次發(fā)生問題的是AWS的us-east-1服務(wù)器,直接原因是DNS(Domain Name System)解析問題。
AWS的說法則是,問題起源于EC2內(nèi)部網(wǎng)絡(luò)的一個(gè)子系統(tǒng),該子系統(tǒng)用于監(jiān)控和管理網(wǎng)絡(luò)負(fù)載均衡器的健康狀態(tài)。
該監(jiān)控系統(tǒng)的異常導(dǎo)致了網(wǎng)絡(luò)連接不穩(wěn)定、數(shù)據(jù)庫訪問延遲以及部分API請(qǐng)求失敗。在連鎖反應(yīng)下,多項(xiàng)核心云服務(wù)出現(xiàn)大范圍故障。
us-east-1是AWS最早建立的區(qū)域,基礎(chǔ)設(shè)施歷史最長(zhǎng),服務(wù)種類最多,大量企業(yè)都在us-east-1部署核心服務(wù)。
us-east-1不僅是計(jì)算/存儲(chǔ)資源的大本營(yíng),也是許多全球控制面服務(wù)的集中托管區(qū)域,這意味著其他區(qū)域即便本地運(yùn)行正常,部署、身份驗(yàn)證、權(quán)限變更等控制層操作仍需依賴us-east-1。

這也就導(dǎo)致了us-east-1相比亞馬遜其他服務(wù)器與眾不同,其故障能夠影響全球。
而且這也不是us-east-1第一次崩了,過去幾年(2020、2021、2023年)也發(fā)生過類似的“大范圍癱瘓”事件,每次都會(huì)影響一大批線上服務(wù)。
故障本身在所難免,但故障的波及面,揭示了互聯(lián)網(wǎng)存在的問題——
像亞馬遜這樣的大型云服務(wù)的確提升了全球網(wǎng)絡(luò)安全和穩(wěn)定性,但成也蕭何,這種標(biāo)準(zhǔn)、集中化的服務(wù),意味著任何一個(gè)小故障,都有可能造成災(zāi)難性的后果。
為了避免這種情況,網(wǎng)站開發(fā)者需要設(shè)置一種彈性機(jī)制。
Hacker News上就有網(wǎng)友表示,其靜態(tài)站點(diǎn)通過CloudFront連接多個(gè)區(qū)域,沒有全部押注us-east-1,因此在這次事件中沒有受到影響。

而且這種原生多區(qū)域、故障轉(zhuǎn)移的部署方式,技術(shù)上并不復(fù)雜,成本也不會(huì)顯著增加。
網(wǎng)絡(luò)服務(wù)開發(fā)者們,是時(shí)候重新審視一下自己的部署策略了。





















