數(shù)據(jù)庫日常管理 ? 我有這些經(jīng)驗淺談交給你
普遍的問題
博主就職于一家專注數(shù)據(jù)庫產(chǎn)品及服務(wù)的公司,見過上千家的客戶場景,和各行業(yè)的人、系統(tǒng)打過交道,那么我們來看看普遍遇到的問題。
為什么會這樣?
我認為造成現(xiàn)在數(shù)據(jù)庫問題頻發(fā)的原因有 4 點:
1. 傳統(tǒng)的 IT 建設(shè)方式、管理方式導(dǎo)致了今天的問題
傳統(tǒng)的建設(shè)方式:一大堆廠商的產(chǎn)品簡單堆疊、松散拼湊。 傳統(tǒng)的管理方式:用戶的運維人員 + 一大堆廠商。
2. 缺乏專業(yè)規(guī)劃的 IT 架構(gòu),缺乏穩(wěn)定性,增加管理復(fù)雜性
架構(gòu)缺乏規(guī)劃和合理化設(shè)計,借助一大堆廠商提供的分散的單機、雙機、備份一體機、虛擬化、超融合等技術(shù)的簡單堆疊,參見 :如何規(guī)劃、建設(shè)你的數(shù)據(jù)庫架構(gòu)
3. 傳統(tǒng)的數(shù)據(jù)庫管理方式無法滿足今天的業(yè)務(wù)要求
4. 高速的業(yè)務(wù)增長導(dǎo)致數(shù)據(jù)平臺面臨巨大挑戰(zhàn)
今天,業(yè)務(wù)高度依賴 IT,IT 的重要程度。。。 今天,IT 系統(tǒng)的使用者、數(shù)據(jù)量的規(guī)模一直在快速增長,且體量***的大;
愿景——大邏輯
說到數(shù)據(jù)庫管理,有合理規(guī)劃的架構(gòu)必然是前提,架構(gòu)是基礎(chǔ),在穩(wěn)定的基礎(chǔ)上配備合理的管理手段,管理制度,在上層要有及時的服務(wù) (很多企業(yè)沒有 DBA、沒有懂得人也許這是***的問題)
細化管理
架構(gòu)層面不再贅述,如何可視化管理? 如何制定管理制度? 如何快速準確消滅問題? 如何輕松、簡單?
工具篇
首先普遍缺乏 DBA 的企業(yè)中是否可以找到一個稱手的工具,正所謂 "武林***,寶刀屠龍,號令天下,莫敢不從,倚天不出,誰與爭鋒"
稱手的工具產(chǎn)品對于管理數(shù)據(jù)庫更為重要,對于武林高手 (資深 DBA) 工具能起到的作用——方便,對于非專業(yè)數(shù)據(jù)庫人員起到的左右——一個 DBA 小秘書
那么現(xiàn)在的數(shù)據(jù)庫稱手兵器應(yīng)該做到什么?? (個人覺得至少要下述內(nèi)容)
- 統(tǒng)一管理,統(tǒng)一呈現(xiàn)
- 實時知道復(fù)雜的數(shù)據(jù)庫運行狀態(tài),運行了哪些語句,運行的怎么樣?
- 告警,問題及時自動報告
- 知道過去發(fā)生了什么,就像 “攝像頭” 記錄分分秒秒,記錄案發(fā)現(xiàn)場
- 指標(biāo)全面,支撐解決問題,可以應(yīng)對數(shù)據(jù)庫的復(fù)雜場景,生僻問題
- 智能化,自動化巡檢,一鍵發(fā)現(xiàn)潛在隱患
- 智能化,解決問題 (性能、日常運維)
這樣的工具也許就是知道數(shù)據(jù)庫的 “昨天、今天、明天”,也就是 “過去、現(xiàn)在和將來”
當(dāng)然,現(xiàn)在的運維管理工具產(chǎn)品越來越強大,強大到甚至讓我這 10 年的老司機都感覺到要被取代,往往非專業(yè)的 DBA 缺少的是:
- 解決問題所需要的數(shù)據(jù)支撐
- 分析問題的邏輯
- 解決問題的手段
那相應(yīng)的工具產(chǎn)品中也要做到數(shù)據(jù)指標(biāo)全面,而且對分析問題的流程和邏輯做到只需 “按步驟點擊” ,比如突然一個時間點系統(tǒng)慢了,要幫助管理人員清晰的展示出分析問題的邏輯!
也許這就是所謂的 “工欲善其事,必先利其器”
管理篇
除了稱手的工具外,標(biāo)準化管理流程也是必要的,再牛逼得工具不用也是白扯,博主之前做 DBA 的時候的管理流程分享給大家,很多人也問 DBA 都要做些什么,統(tǒng)一回答:
- 日常巡檢,保證系統(tǒng)穩(wěn)定 (DBA 最重要的工作),經(jīng)常會有客戶的數(shù)據(jù)庫,備份策略錯誤,作業(yè)失敗,磁盤空間爆滿等等一系列的基本問題,這些都應(yīng)該通過日常巡檢處理
注:不是流于表面 CPU、IO、內(nèi)存,而要深入數(shù)據(jù)庫各項指標(biāo),并生成報告,匯報
周期:每周 / 每月
- 新上線系統(tǒng) / 功能的評估,現(xiàn)在的企業(yè)系統(tǒng)中經(jīng)常會有新接口的上線,這些功能是否會對原有系統(tǒng)造成性能影響?
注:企業(yè)對新功能的上線過程要嚴格把控,嚴格控制風(fēng)險,往往問題都是日積月累不重視而產(chǎn)生的
周期:每次
- 日常性能優(yōu)化,數(shù)據(jù)庫是動態(tài)的過程,需要不斷的優(yōu)化,而不是一次優(yōu)化以后就沒問題了,買車還需要定期保養(yǎng)吧!
- 應(yīng)急問題處理,突發(fā)問題是避免不了的,但是要做到少突發(fā),提前消滅 (這也是巡檢的左右),突發(fā)問題一旦產(chǎn)品,數(shù)據(jù)記錄、問題日志就是必要的,快速處理問題、減少損失是必須的
- 協(xié)作 (開發(fā)部門、軟件廠商、集成商) 處理各種花式問題
專業(yè)服務(wù)篇
數(shù)據(jù)庫是整個 IT 系統(tǒng)的***層,而漏斗形的 IT 結(jié)構(gòu)讓數(shù)據(jù)庫成為整個 IT 的瓶頸,在沒有 DBA 的企業(yè)中對數(shù)據(jù)庫的管理更為重要,常見的管理一般只有定期的巡檢,軟件廠商、集成商等等,而且是簡單的巡檢,這樣對隱患的排查極其弱,無法起到該有的效果,而在數(shù)據(jù)庫的專業(yè)服務(wù)中,博主認為應(yīng)該做到下述方面:
- 定期的深度、有效巡檢
- 通過專業(yè)管理工具產(chǎn)品讓多人協(xié)作、及時分析、高效解決
- 對多系統(tǒng)趨勢分析,何時瓶頸
- 根據(jù)壓力、業(yè)務(wù)如何系統(tǒng)的整合、拆分,對基礎(chǔ)架構(gòu)進行不斷升級
- 在問題發(fā)生前解決而非在發(fā)生時救火
服務(wù)中也許只有三點:及時、專業(yè)、懂得客戶
總結(jié)
大多數(shù)企業(yè)存在這樣的問題:我們沒 DBA,我們只對業(yè)務(wù)精通,對程序了解,但數(shù)據(jù)庫我只懂一點
數(shù)據(jù)庫指標(biāo)多而雜,出現(xiàn)問題不知道怎么排查?
因為錯過問題出現(xiàn)的時間點,問題原因無法得知,問題無法解決
長期 “頭疼醫(yī)頭” 的 “救火” 運維留下了病根
巡檢? 啥是巡檢? 根本沒做過
總來說,數(shù)據(jù)庫管理要有明確的規(guī)劃,如何構(gòu)建平穩(wěn)的架構(gòu),如何有一套輕松、簡單的管理方法,如何借助專業(yè)的工具、公司或人來管理。
也許很簡單
早發(fā)現(xiàn)早治療——預(yù)防機制
當(dāng)場發(fā)現(xiàn)及時治療——實時機制
徹底治療而非緩解——全面、重視
原文鏈接:https://www.cnblogs.com/double-K/p/9140424.html