運(yùn)維人員不具備這些能力,你就是別人眼中的咸魚
運(yùn)維的核心能力有哪些?
運(yùn)維,在部分沒有接觸過IT的小伙伴的概念中覺得是一個(gè)比較低級的職位,很容易從字面理解為運(yùn)營、維護(hù)、很多朋友認(rèn)為,無論IDC機(jī)房運(yùn)維、網(wǎng)絡(luò)運(yùn)維、桌面運(yùn)維、Linux系統(tǒng)運(yùn)維、數(shù)據(jù)庫運(yùn)維、云計(jì)算運(yùn)維、等在互聯(lián)網(wǎng)公司中的工作就是安裝系統(tǒng),部署服務(wù)、處理緊急故障,為公司開發(fā)人員及其它部門提供支持。同時(shí)負(fù)責(zé)內(nèi)外網(wǎng)的網(wǎng)絡(luò)穩(wěn)定。上面描述的工作的確是運(yùn)維的一部分工作,但并不是全部,或者說是中小公司低級的運(yùn)維勞動(dòng),并不能詮釋運(yùn)維的核心能力。
1 運(yùn)維人員必須具備運(yùn)維思想
在我看來,除了上面的角色外,運(yùn)維人員還是管理、制度、規(guī)范、流程的制定和推行、監(jiān)督角色。運(yùn)維的核心是運(yùn)維思想,非運(yùn)維技術(shù)本身(如部署服務(wù)等,這是部分朋友的誤區(qū))。上百臺以上的服務(wù)器的規(guī)模如果沒有好的管理流程、規(guī)范、制度策略,是無法協(xié)調(diào)工作的,上千臺、上萬臺更是如此。運(yùn)維流程、運(yùn)維規(guī)范、運(yùn)維制度、自動(dòng)化、智能化、批量部署、批量管理、網(wǎng)站架構(gòu)優(yōu)化、監(jiān)控預(yù)警、流量及日志分析統(tǒng)計(jì)、成本控制(注意字眼是控制,不是節(jié)省)才是真正的運(yùn)維人員需要做的。
如何推進(jìn)并完善上面的工作,提升工作效率,提升團(tuán)隊(duì)以一當(dāng)十的戰(zhàn)斗力才是最核心的內(nèi)容。運(yùn)維的宗旨:保護(hù)數(shù)據(jù)安全、7*24小時(shí)網(wǎng)絡(luò)穩(wěn)定、用戶體驗(yàn)良好(用戶包括內(nèi)部的員工、外部的網(wǎng)站用戶)所以,我們做什么都不要離開運(yùn)維的宗旨,否則,你的工作都可能是徒勞的無用功(起碼和目標(biāo)沒直接對接)。有經(jīng)驗(yàn)的運(yùn)維人員會先思考在動(dòng)作,經(jīng)驗(yàn)不足的運(yùn)維人員會先做,遇到問題在思考,這是完全不同的層次和境界。試想蓋一座大樓如果先蓋好在思考,那還能蓋好么?所以,請別輕易說你精通什么什么服務(wù),會多少多少軟件,那只是幾塊磚頭、幾袋水泥、幾根鋼筋而已。蓋好大樓,這些僅僅是基本的元素,運(yùn)維同樣是如此!
2 運(yùn)維人員必須對即將面對威脅要特別清楚
專家研究和大量企業(yè)實(shí)踐表明,IT項(xiàng)目生命周期中,大約80%的時(shí)間與IT項(xiàng)目運(yùn)營維護(hù)有關(guān),而該階段的投資僅占整個(gè)IT投資的20%,形成了典型的“輕服務(wù)、重技術(shù)”現(xiàn)象。國際著名咨詢調(diào)查機(jī)構(gòu)Gartner集團(tuán)的調(diào)查發(fā)現(xiàn),在經(jīng)常出現(xiàn)的問題中,源自技術(shù)或產(chǎn)品(包括硬件、軟件、網(wǎng)絡(luò)、電力失常及天災(zāi)等)方面的問題其實(shí)只占20%,而流程失誤問題占40%,人員疏失問題占40%。流程失誤包括未做好變更管理、超載、無測試等程序上的錯(cuò)誤或不完整,人員疏失包括忘做某些事情、訓(xùn)練不足、備份錯(cuò)誤或安全疏忽等。 面對如此高的要求和壓力,IT部門就需要有一套完善的并可管理的IT服務(wù)流程,對IT運(yùn)維進(jìn)行有效地管理、使信息系統(tǒng)更加適應(yīng)業(yè)務(wù)持續(xù)變化的需求、使IT部門從成本中心轉(zhuǎn)變?yōu)槔麧欀行?。?dāng)現(xiàn)代企業(yè)建立完善而成熟的IT運(yùn)維管理體制后,通過流程管理,不斷提高IT運(yùn)維質(zhì)量,實(shí)現(xiàn)高效運(yùn)維,提升組織內(nèi)IT服務(wù)滿意度。
我們的IT運(yùn)維要如何保障
服務(wù)支持 事故管理 :有效解決沖突事件,盡快恢復(fù)IT服務(wù) 問題管理 :找尋問題的根源和解決方案,消除或減少問題事件的發(fā)生 配置管理 :管理更改的實(shí)施過程,避免或者減少變更的影響變更管理 :控制IT系統(tǒng)的軟件的發(fā)布過程及版本發(fā)布管理 :管理IT系統(tǒng)的所有元素及相關(guān)信息,描述IT元素之間的相互關(guān)系
服務(wù)交付
服務(wù)級別管理:提供與服務(wù)級別對等的服務(wù)內(nèi)容完成量化服務(wù)器管理
可用性管理:監(jiān)控IT重要資源和運(yùn)行指標(biāo),保障整個(gè)業(yè)務(wù)系統(tǒng)的可用性
能力管理:監(jiān)控和提高系統(tǒng)性能行進(jìn)性能規(guī)劃
持續(xù)性管理:簡歷業(yè)務(wù)持續(xù)計(jì)劃,實(shí)現(xiàn)業(yè)務(wù)可持續(xù)化運(yùn)行
財(cái)務(wù)管理:IT服務(wù)的預(yù)算管理,成本管理
3 運(yùn)維人員必須具備故障管理及庫管理的能力
故障管理:
故障管理,通過系統(tǒng)預(yù)定義好的故障情況,準(zhǔn)確定位故障的級別,并通過多樣的告警方法將故障信息派發(fā)給直接負(fù)責(zé)人員,避免故障的無法及時(shí)處理和是否升級的判定。
故障管理通過設(shè)定故障規(guī)則,能夠?yàn)橐粋€(gè)設(shè)備設(shè)定多個(gè)報(bào)警規(guī)則或多個(gè)設(shè)備統(tǒng)一為一個(gè)事件報(bào)警規(guī)則,為每個(gè)事件規(guī)則設(shè)定相關(guān)的級別,由系統(tǒng)來確定故障級別和通知對象,并自動(dòng)觸發(fā)相關(guān)的工單給相關(guān)人員。故障信息可以通過聲音、告警燈、短信、郵件、腳本等形式告知故障處理負(fù)責(zé)人。配置管理提供系統(tǒng)配置功能,包括報(bào)警配置、事件配置、視圖配置、用戶權(quán)限、監(jiān)測配置等供配置控制模塊調(diào)用。IT部門可以通過此模塊簡單的進(jìn)行配置控制,對配置信息進(jìn)行變更,對系統(tǒng)設(shè)置進(jìn)行管理。
問題庫管理
提供問題庫的管理,管理人員可以把在運(yùn)維過程中遇到的無法解決的問題錄入到知識庫中,讓系統(tǒng)對相關(guān)的問題進(jìn)行分配,讓對應(yīng)職位的人員進(jìn)行處理。同時(shí)提出人還可以對問題進(jìn)行跟蹤,這樣就不會讓提出的問題石沉大海。
知識庫管理
用來記錄系統(tǒng)故障情況及維修記錄的;- 用來幫助管理員排查系統(tǒng)故障的工具;- 用來給管理員提供問題的處理辦法的;- 用來給管理員提供運(yùn)維經(jīng)驗(yàn)。
預(yù)案庫管理
提供預(yù)案庫管理,管理人員可以讓對相關(guān)事件有過處理經(jīng)驗(yàn)的人員就相關(guān)的情況編寫一份處理預(yù)案,當(dāng)不熟悉這個(gè)事件處理流程的人員進(jìn)行處理時(shí)有據(jù)可以。同時(shí)極大的縮短了人員培訓(xùn)的時(shí)間,也幫企業(yè)節(jié)約了成本
4 運(yùn)維人員必須具過硬的專業(yè)技能
運(yùn)維人員保護(hù)數(shù)據(jù)安全、7*24小時(shí)網(wǎng)絡(luò)穩(wěn)定、用戶體驗(yàn)良好(用戶包括內(nèi)部的員工、外部的網(wǎng)站用戶),必須具備以下技能!
1、扎實(shí)的Linux操作系統(tǒng)和網(wǎng)絡(luò)基礎(chǔ)知識;
2、熟悉阿里云、騰訊云等云廠商產(chǎn)品知識,例如ECS、RDS、VPC等;
3:精通一門以上腳本語言(shell/python/go等其中一種);
4:至少熟悉一種開源監(jiān)控系統(tǒng)(zabbix、prometheus、open-falcon等),對監(jiān)控優(yōu)化有深入理解;
5、熟悉CI/CD持續(xù)集成與持續(xù)交付,熟悉Gitlab、Jenkins、Ansible、Grafana等工具使用;
6:熟悉Nginx、Tomcat、MySQL、Redis、MongoDB、MQ、ELK等的日常維護(hù)與優(yōu)化,且熟練操作Mysql、Mongodb、Redis;
7、熟悉Docker容器技術(shù),對docker的網(wǎng)絡(luò)、存儲、安全有良好的理解;
8、熟悉Kubernetes部署、了解微服務(wù)架構(gòu)更佳;優(yōu)化具備良好的自我驅(qū)動(dòng)和主動(dòng)思考習(xí)慣
9、要是掌握自動(dòng)化運(yùn)維工具的開發(fā)前途不可限量