偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

總結(jié)這幾年運(yùn)維工作中犯的錯(cuò)

運(yùn)維 系統(tǒng)運(yùn)維
這幾年犯過(guò)很多次嚴(yán)重影響線上服務(wù)的錯(cuò)誤,像重啟了錯(cuò)誤的節(jié)點(diǎn)這樣的事情應(yīng)該算作能夠?qū)€上造成影響的最微不足道的錯(cuò)誤,就只簡(jiǎn)單說(shuō)幾件現(xiàn)在都還讓我心有余悸的事吧。

得知下廚房的數(shù)據(jù)被誤刪了,正在緊張恢復(fù)中。作為犯過(guò)很多次嚴(yán)重錯(cuò)誤的人,我最想說(shuō)的是,善待當(dāng)事人吧,此刻他在承受著巨大的壓力,比其他任何人都要心焦,他會(huì)很感激你的善言和善意。

這幾年犯過(guò)很多次嚴(yán)重影響線上服務(wù)的錯(cuò)誤,像重啟了錯(cuò)誤的節(jié)點(diǎn)這樣的事情應(yīng)該算作能夠?qū)€上造成影響的最微不足道的錯(cuò)誤,就只簡(jiǎn)單說(shuō)幾件現(xiàn)在都還讓我心有余悸的事吧。

停用線上 memcache 集群

在調(diào)整 memcache 客戶端配置的使用和部署方式之前,盡管經(jīng)過(guò)了多次測(cè)試,比如在部分節(jié)點(diǎn)先上線,確認(rèn)沒(méi)有問(wèn)題之后上線所有的應(yīng)用服務(wù)器,但還是使用了錯(cuò)誤的配置,導(dǎo)致線上所有應(yīng)用禁用了 memcache,巨大的訪問(wèn)壓力瞬間拖垮了數(shù)據(jù)庫(kù),從發(fā)現(xiàn)問(wèn)題到完全恢復(fù)持續(xù)了將近二十分鐘。

軟件 bug 導(dǎo)致線上 memcache 集群被污染

上線的代碼在特定條件下會(huì)禁掉對(duì) memcache 的使用,導(dǎo)致在本應(yīng)清除 cache 的情況下沒(méi)有清除,污染了整個(gè)線上的 memcache 集群,后果是各處功能出現(xiàn)詭異的問(wèn)題,比如提醒死也叉不掉… 不得不將整個(gè) memcache 集群 flush 一遍消除影響,耗時(shí)半天。

恢復(fù)數(shù)據(jù)時(shí)刪除了更多數(shù)據(jù)

線上有豆列被誤刪了,從備份緊急恢復(fù)時(shí),使用 mysqldump 導(dǎo)出需要恢復(fù)的那部分?jǐn)?shù)據(jù),但是遺憾的是連 DROP TABLE ... 也一起 dump 了,并且在線上執(zhí)行之前都沒(méi)有意識(shí)到。結(jié)果,原本需要恢復(fù)的只是一個(gè)豆列,恢復(fù)之后只剩下了一個(gè)豆列,豆列功能緊急只讀,重新恢復(fù)數(shù)據(jù)并做數(shù)據(jù)合并…

數(shù)據(jù)庫(kù)主從切換時(shí)從庫(kù)還未跟上同步

我在給從庫(kù)熱身,準(zhǔn)備切換主從,這時(shí)候有兩個(gè)不愿意透露姓名的同事來(lái)找我聊另外一件事情,很愉快地聊完,我愉快地發(fā)現(xiàn)已經(jīng)熱身完了,于是愉快地用土腳本做了主從切換,然后悲劇地收到了報(bào)警,數(shù)據(jù)沖突同步中斷了,原來(lái)是熱身過(guò)程中從庫(kù)因?yàn)閴毫Ρ容^高造成的滯后還未追平,而我已經(jīng)愉快地做了切換。

誤操作并誤刪數(shù)據(jù)文件

在一次主從切換之后,我突然發(fā)現(xiàn)新的 slave 同步在繼續(xù),但是 binlog 卻停止寫入了,之后驚訝地發(fā)現(xiàn) master 上的 SQL_LOG_BIN 竟然是一個(gè) global 級(jí)別的變量,并且值是 0。原來(lái)是之前在 slave 上調(diào)整索引時(shí),本該 SET SQL_LOG_BIN=0,卻無(wú)意識(shí)地執(zhí)行了 SET GLOBAL SQL_LOG_BIN=0,禁用了整個(gè) slave 實(shí)例而不只是當(dāng)前 session 的 binlog,主從切換之后,整個(gè)集群就只剩下了一個(gè)節(jié)點(diǎn)有完整的數(shù)據(jù),在我發(fā)現(xiàn)并修復(fù)這個(gè)問(wèn)題之前,新 slave 上已經(jīng)缺失了 3 分鐘的數(shù)據(jù)。嘗試了各種方法,想要準(zhǔn)確無(wú)誤地修復(fù)這 3 分鐘的數(shù)據(jù)還是挺有難度的,尤其是在承受巨大精神壓力的情況下,只好選擇了從 master 重建。然而在我備份完 master 節(jié)點(diǎn),重建新 slave 時(shí)又誤刪了 slave 上的數(shù)據(jù)文件,這下更刺激了,在新的 slave 重建完成之前,如果 master 宕機(jī),我就真的連一個(gè)可以應(yīng)付線上壓力的節(jié)點(diǎn)都沒(méi)有了,哪怕是一個(gè)缺少了 3 分鐘數(shù)據(jù)的實(shí)例。

在發(fā)生這些事情時(shí),真的是想死的心都有,支撐我的還有一個(gè)信念:無(wú)論如何把這個(gè)爛攤子收拾完了再死!而有過(guò)這樣的經(jīng)歷,我就非常感激那些本來(lái)有絕對(duì)權(quán)利責(zé)難我,但在事情發(fā)生時(shí)立刻馬上挽起袖子和我一起解決問(wèn)題,事后幫我一起想辦法如何避免這樣的問(wèn)題再發(fā)生的人,比如不愿意透露姓名的 hongqn 和 flycondor。

經(jīng)歷和看到過(guò)越多這樣的事情,我就越覺(jué)得犯錯(cuò)是不可避免的,無(wú)論你思維有多縝密,行事有多謹(jǐn)慎,只要做事就無(wú)可避免地會(huì)犯錯(cuò)誤,或大或小,甚至現(xiàn)在每隔一段時(shí)間發(fā)現(xiàn)自己沒(méi)有在線上犯錯(cuò)誤,就會(huì)想:我最近在干嘛?

最后,備份不做,日子甭過(guò),真的會(huì)有半夜鬼敲門,另外,作為 SA 或 DBA,真的需要確保每一個(gè)危險(xiǎn)操作都至少是可以 rollback 到上一步的,并且在進(jìn)行下一步操作之前,要確認(rèn)所有已知狀態(tài)都是正常的,工具比人更擅長(zhǎng)做這些事,人的精力應(yīng)該花在讓這些工具更加可靠上。

注:最后一個(gè)問(wèn)題涉及 MySQL 5.5 相對(duì)于之前版本的一個(gè)行為變化,參考:

  1. Bug #67433 Using SET GLOBAL SQL_LOG_BIN should not be allowed
  2. Twitter 修復(fù)了它

原文鏈接:http://blog.xupeng.me/2013/06/27/mistakes-in-production-system-these-years/

責(zé)任編輯:黃丹 來(lái)源: blog.xupeng.me
相關(guān)推薦

2019-12-23 08:48:24

Java技術(shù)全局變量

2020-12-08 15:02:15

運(yùn)維計(jì)算機(jī)IT

2024-02-06 10:31:15

Redis工具運(yùn)維

2021-02-26 13:50:37

Java并發(fā)代碼

2014-06-25 09:06:10

外部管理

2021-07-15 08:12:31

體系感面試邏輯思維

2021-04-18 21:07:32

門面模式設(shè)計(jì)

2024-12-17 08:20:50

2018-07-09 10:55:14

視頻系統(tǒng)經(jīng)驗(yàn)

2018-09-19 14:45:21

初級(jí)程序員錯(cuò)誤

2022-05-11 14:26:54

網(wǎng)絡(luò)安全遠(yuǎn)程工作

2021-04-14 09:02:22

模式 設(shè)計(jì)建造者

2014-03-07 11:16:12

2021-02-25 15:39:26

Python編程語(yǔ)言PYPL

2019-12-11 15:21:12

PythonExcel瀏覽器

2017-07-12 15:49:32

ASGit開發(fā)

2018-04-18 16:27:11

互聯(lián)網(wǎng)技術(shù)學(xué)習(xí)

2015-08-24 08:59:13

Git技巧

2013-01-06 10:12:32

Web前端Web異步文件上傳

2021-11-03 06:57:41

Vue源碼應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)