記一次線上重大事故:二狗子竟然把線上數(shù)據(jù)庫刪了??!
圖片來自 Pexels
作者個人研發(fā)的在高并發(fā)場景下,提供的簡單、穩(wěn)定、可擴展的延遲消息隊列框架,具有精準的定時任務和延遲隊列處理功能。自開源半年多以來,已成功為十幾家中小型企業(yè)提供了精準定時調(diào)度方案,經(jīng)受住了生產(chǎn)環(huán)境的考驗。為使更多童鞋受益,現(xiàn)給出開源框架地址:
https://github.com/sunshinelyz/mykit-delay
寫在前面
估計二狗子這幾天是大姨夫來了,心情很郁悶,情緒也很低落,工作的時候也有點心不在焉。讓他發(fā)個版本,結果,一行命令下去把線上的數(shù)據(jù)庫刪了!你沒聽錯:是刪掉了線上的數(shù)據(jù)庫!運營那邊頓時炸了鍋:怎么回事?系統(tǒng)不能訪問了!什么情況啊?!很多客戶都在投訴了!!
盡管運營那邊慌慌張張的不知所措,但是,我們作為技術人員還是要淡定,不就是刪了數(shù)據(jù)庫嗎?沒事,哥幫你搞定!
事件背景
- MySQL數(shù)據(jù)庫每日零點自動全備
- 某天上午9點,二狗子不小心drop了一個數(shù)據(jù)庫
- 我們需要通過全備的數(shù)據(jù)文件,以及增量的binlog文件進行數(shù)據(jù)恢復
主要思想與原理
- 利用全備的sql文件中記錄的CHANGE MASTER語句,binlog文件及其位置點信息,找出binlog文件增量的部分
- 用mysqlbinlog命令將上述的binlog文件導出為sql文件,并剔除其中的drop語句
- 通過全備文件和增量binlog文件的導出sql文件,就可以恢復到完整的數(shù)據(jù)
過程示意圖
操作過程
模擬數(shù)據(jù)
- CREATE TABLE `student` (
- `id` int(11) NOT NULL AUTO_INCREMENT,
- `name` char(20) NOT NULL,
- `age` tinyint(2) NOT NULL DEFAULT '0',
- PRIMARY KEY (`id`),
- KEY `index_name` (`name`)
- ) ENGINE=InnoDB AUTO_INCREMENT=8 DEFAULT CHARSET=utf8
- mysql> insert student values(1,'zhangsan',20);
- mysql> insert student values(2,'lisi',21);
- mysql> insert student values(3,'wangwu',22);
全備命令
- # mysqldump -uroot -p -B -F -R -x --master-data=2 test|gzip >/server/backup/test_$(date +%F).sql.gz
參數(shù)說明:
- -B 指定數(shù)據(jù)庫
- -F 刷新日志
- -R 備份存儲過程等
- -x 鎖表
- --master-data 在備份語句里添加CHANGE MASTER語句以及binlog文件及位置點信息
繼續(xù)插入數(shù)據(jù)并刪庫
- mysql> insert student values(4,'xiaoming',20);
- mysql> insert student values(5,'xiaohong',20);
在插入數(shù)據(jù)的時候我們模擬誤操作,刪除test數(shù)據(jù)庫。
- mysql> drop database test;
此時,全備之后到誤操作時刻之間,用戶寫入的數(shù)據(jù)在binlog中,需要恢復出來。
查看全備之后新增的binlog文件
- # cd /server/backup/
- # ls
- test_2020-08-19.sql.gz
- # gzip -d test_2020-08-19.sql.gz
- # grep CHANGE test_2020-08-19.sql
- -- CHANGE MASTER TO MASTER_LOG_FILE='mysql-bin.000003', MASTER_LOG_POS=107;
這是全備時刻的binlog文件位置,即mysql-bin.000003的107行,因此在該文件之前的binlog文件中的數(shù)據(jù)都已經(jīng)包含在這個全備的sql文件中了
移動binlog文件,并讀取sql,剔除其中的drop語句
- # cp /data/3306/mysql-bin.000003 /server/backup/
- # mysqlbinlog -d test mysql-bin.000003 >mysql-bin.000003.sql
接下來,使用vim編輯mysql-bin.000003.sql文件,剔除drop語句
注意:在恢復全備數(shù)據(jù)之前必須將該binlog文件移出,否則恢復過程中,會繼續(xù)寫入語句到binlog,最終導致增量恢復數(shù)據(jù)部分變得比較混亂
恢復數(shù)據(jù)
- # mysql -uroot -p < test_2020-08-19.sql
- # mysql -uroot -p -e "select * from test.student;"
- +----+----------+-----+
- | id | name | age |
- +----+----------+-----+
- | 1 | zhangsan | 20 |
- | 2 | lisi | 21 |
- | 3 | wangwu | 22 |
- +----+----------+-----+
此時恢復了全備時刻的數(shù)據(jù),然后使用mysql-bin.000003.sql文件恢復全備時刻到刪除數(shù)據(jù)庫之間,新增的數(shù)據(jù)。
- # mysql -uroot -p test < mysql-bin.000003.sql
- # mysql -uroot -p -e "select * from test.student;"
- +----+----------+-----+
- | id | name | age |
- +----+----------+-----+
- | 1 | zhangsan | 20 |
- | 2 | lisi | 20 |
- | 3 | wangwu | 20 |
- | 4 | xiaoming | 20 |
- | 5 | xiaohong | 20 |
- +----+----------+-----+
此時,整個恢復過程結束,是不是很簡單呢?沒錯,就是這么簡單!!
總結
- 適合人為SQL語句造成的誤操作或者沒有主從復制等的熱備情況宕機時的修復。
- 恢復條件要全備和增量的所有數(shù)據(jù)。
- 恢復時建議對外停止更新,即禁止更新數(shù)據(jù)庫。
- 先恢復全量,然后把全備時刻點以后的增量日志,按順序恢復成SQL文件,然后把文件中有問題的SQL語句刪除(也可通過時間和位置點),再恢復到數(shù)據(jù)庫。
本文轉載自微信公眾號「 冰河技術」,可以通過以下二維碼關注。轉載本文請聯(lián)系 冰河技術公眾號。