我們一起聊聊運(yùn)維知識(shí)的呈現(xiàn)需要個(gè)性化嗎?
這些年數(shù)據(jù)庫運(yùn)維工具的領(lǐng)域各種概念層出不窮,每個(gè)用戶好像都有自己的特殊情況,他們需要的運(yùn)維工具的功能也千差萬別,搞的有時(shí)候讓我都感到有些弄不明白用戶到底需要什么樣的產(chǎn)品了。有些運(yùn)維工具是企業(yè)的剛需,是高頻使用的功能,比如說數(shù)據(jù)庫的安裝部署、自動(dòng)打補(bǔ)丁升級(jí),批量修改數(shù)據(jù)庫配置等。隨著企業(yè)私有云的建設(shè),這些功能會(huì)逐步納入到云平臺(tái)管理的范圍之中。
而對(duì)于運(yùn)維監(jiān)控、系統(tǒng)預(yù)警、系統(tǒng)巡檢等方面的功能,大家的需求就千差萬別了。我們是做運(yùn)維知識(shí)自動(dòng)化系統(tǒng)的,目的是通過將運(yùn)維知識(shí)數(shù)字化幫助DBA進(jìn)行運(yùn)維監(jiān)控、故障預(yù)警、根因分析、系統(tǒng)巡檢、SQL審計(jì)、容量管理、安全管理等工作,通過數(shù)字化的運(yùn)維知識(shí)直接輔助DBA工作,從而降低人工運(yùn)維的成本。
我們的產(chǎn)品在某些用戶那邊很受歡迎,覺得工具確實(shí)對(duì)他們很有幫助。而對(duì)于某些用戶來說,他們覺得還是更相信DBA的判斷,還是需要依靠以前的模式來監(jiān)控和管理數(shù)據(jù)庫系統(tǒng)。還有一些企業(yè)有十分嚴(yán)格的管控,通過什么方式來監(jiān)控系統(tǒng),甚至使用什么命令,都有十分嚴(yán)格的要求,如果沒有按照規(guī)程操作,系統(tǒng)出了問題,責(zé)任是很大的。
作為D-SMART產(chǎn)品實(shí)際上的產(chǎn)品經(jīng)理,我也經(jīng)常從運(yùn)維人員的角度在思考問題,“運(yùn)維知識(shí)自動(dòng)化”如何才能給一線運(yùn)維人員更多的幫助。前兩天的一次與客戶的線上交流給了我很大的啟示,雖然這只是某一個(gè)用戶的需求表達(dá),不過我感覺可能他們遇到的問題還是有一定代表性的。首先他們對(duì)“運(yùn)維知識(shí)自動(dòng)化”這個(gè)概念十分認(rèn)可,他們覺得以前買過很多數(shù)據(jù)庫運(yùn)維工具,但是買來的都只是工具,并沒有買來運(yùn)維數(shù)據(jù)庫的知識(shí),因此這些工具在他們那里使用效果都不太好,大部分買過來半年后就沒人用了,我們這個(gè)工具是他們覺得可以長期使用的。
不過雖然我們的工具理念和他們比較吻合,但是我們的工具目前還無法覆蓋他們?nèi)粘_\(yùn)維監(jiān)控工作的全部,一些他們?nèi)粘5谋O(jiān)控功能還沒有覆蓋。后來我和他們交流了一些他們?nèi)粘9ぷ鞯膬?nèi)容。我發(fā)現(xiàn)實(shí)際上我們的工具中的一些功能基本上能夠替代他們以前的一些監(jiān)控行為。因?yàn)槲覀冎g的一些運(yùn)維理念存在差異,某些我們覺得可以通過日檢來解決的問題,他們需要每天定時(shí)去做一些檢查。某些我們可以通過其他方式來進(jìn)行評(píng)估的風(fēng)險(xiǎn),他們習(xí)慣于用自己的方法去分析。
其實(shí)大家都在使用自己的“運(yùn)維知識(shí)”來進(jìn)行日常的運(yùn)維工作,不過運(yùn)維知識(shí)體系是十分復(fù)雜的,大家日常所依靠的運(yùn)維知識(shí)雖然從理論基礎(chǔ)上看是不矛盾的,不過在實(shí)際工作中,人們更習(xí)慣于按照自己的習(xí)慣去監(jiān)控和管理數(shù)據(jù)庫系統(tǒng)。這些習(xí)慣的差異還是會(huì)為運(yùn)維人員帶來很多困擾。
比如說有個(gè)客戶在他們的運(yùn)維手冊里要求定期到服務(wù)器上采集listener的狀態(tài),我們的工具里并沒有l(wèi)istener探活的指標(biāo),而是通過真實(shí)連接去探活數(shù)據(jù)庫的可用性。其實(shí)我們的探活包含了對(duì)監(jiān)聽的探活,能夠真正連接數(shù)據(jù)庫,肯定監(jiān)聽是工作正常的,否則我們會(huì)采集到監(jiān)聽失敗的消息。對(duì)于這個(gè)問題我們可以通過說服用戶去接受我們的指標(biāo),不過對(duì)于用戶來說,最佳的使用體驗(yàn)是能夠直接看到監(jiān)聽狀態(tài)的指標(biāo)數(shù)據(jù),這樣的話,就完全不需要改變他們的運(yùn)維習(xí)慣了。
作為運(yùn)維工具的開發(fā)商,我們不能只是從工具的角度去考慮問題,讓用戶來適應(yīng)工具的特性,甚至我還聽說過某位工具廠商的朋友說要對(duì)用戶的運(yùn)維習(xí)慣進(jìn)行教育,讓他們的運(yùn)維能力得到提升。對(duì)于某些用戶,可能能夠完全接受一種全新的監(jiān)控工作模式,不過對(duì)于一些用戶來說,并不一定能夠做到如此。在十多年的運(yùn)維工作中,他們已經(jīng)積累下了一些被證明有效的運(yùn)維經(jīng)驗(yàn),完全丟棄也是一種浪費(fèi)。
大語言模型在運(yùn)維領(lǐng)域受到追捧的一個(gè)十分重要的原因也是如此,因?yàn)樗梢杂媚闼?xí)慣 的知識(shí)語言體系來回答你的問題,讓你不需要做任何知識(shí)體系轉(zhuǎn)換。這種特性也是運(yùn)維工具廠商需要去學(xué)習(xí)的。通過簡單的配置實(shí)現(xiàn)運(yùn)維知識(shí)的個(gè)性化呈現(xiàn),盡可能地讓工具貼近用戶現(xiàn)有的運(yùn)維習(xí)慣,既可以讓用戶更快更好地使用工具,也可以最大限度地發(fā)揮工具的作用。
我欣然接受了客戶的要求,表示一定全力配合他們,盡可能把他們所有的日常運(yùn)維工具的能力都納入到系統(tǒng)中去,盡可能不改變他們現(xiàn)有運(yùn)維習(xí)慣的前提下提升他們的監(jiān)控預(yù)警與故障分析能力。通過交流,雙方都覺得通過這個(gè)合作,利用現(xiàn)有平臺(tái)的基礎(chǔ)能力,可以實(shí)現(xiàn)絕大多數(shù)日常運(yùn)維工作的白屏化,進(jìn)一步再實(shí)現(xiàn)部分操作的無屏化。
要實(shí)現(xiàn)這一點(diǎn),首先需要將他們的所有日常監(jiān)控、巡檢操作都實(shí)現(xiàn)自動(dòng)化采集,并通過一個(gè)集成界面讓他們便捷查看。然后逐步結(jié)合一些分析算法,對(duì)這些狀態(tài)和數(shù)據(jù)進(jìn)行自動(dòng)化分析,形成可預(yù)警的故障模型,當(dāng)系統(tǒng)出現(xiàn)某類異常的時(shí)候進(jìn)行自動(dòng)預(yù)警。經(jīng)過一段時(shí)間的磨合后,運(yùn)維人員可以對(duì)系統(tǒng)的預(yù)警產(chǎn)生一定的信賴,那么運(yùn)維人員今后就不一定需要定期去查看監(jiān)控屏幕了,運(yùn)維工作也可以逐步從白屏化向無屏化演進(jìn)了。