WOT架構(gòu)師系列訪談(3)——金山西山居架構(gòu)師劉宇
原創(chuàng)【編者按】 51CTO 2014 WOT全球軟件技術(shù)峰會將在2014年7月25-26日在北京富力萬麗酒店召開。從本周開始,我們將陸續(xù)公布會議內(nèi)容,并針對即將參會的架構(gòu)師訪談,以便大家進(jìn)一步了解會議內(nèi)容。會議詳細(xì)議程見: http://wot.51cto.com/2014/。
本次訪談的對象是劉宇。他目前就職于金山西山居游戲。近十年的運維經(jīng)驗。從網(wǎng)管到架構(gòu)師,每一次的歷練都是全新的挑戰(zhàn)。在本次的WOT軟件技術(shù)峰會中,劉宇老師將在“自動化運維”這個專場給大家做分享,關(guān)注自動化運維的同學(xué)們有耳??【凑埰诖?!
【講師簡歷】
劉宇,金山*西山居架構(gòu)師,曾任職于新浪、百度,擔(dān)任高級系統(tǒng)工程?!禤uppet實戰(zhàn)作者》,InfoQ社區(qū)編輯,自動化運維專家。近10年運維工作經(jīng)驗,精通分布式自動化管理平臺、分布式監(jiān)控平臺、云平臺;對視頻點播、直播架構(gòu)、文件加速、調(diào)度系統(tǒng)和數(shù)據(jù)分析都有非常深入的研究,實踐經(jīng)驗極為豐富。同時致力于技術(shù)分享,多次并不斷分享自己的經(jīng)驗,http://linuxtone.org聯(lián)合創(chuàng)始人,曾被評為infoq金牌講師和51cto博客之星。
劉宇 (@守住每一天)
以下是對劉宇老師的訪談實錄:
記者:以您這么多年的運維經(jīng)驗來看,如何才能做到在復(fù)雜的服務(wù)鏈上,定位運行所在的環(huán)節(jié),并在發(fā)生故障時預(yù)估影響范圍?
劉宇:我個人認(rèn)為,對自己運維的系統(tǒng)都要做到熟記于心。當(dāng)然不是所有系統(tǒng)你都能全部記住,但是系統(tǒng)的核心必須熟記,現(xiàn)在很多系統(tǒng)管理員,都過份依賴筆記和電腦,而忘記了人的大腦就是***的計算機(jī)。只需要我們更加用心,服務(wù)鏈復(fù)雜也好,系統(tǒng)再龐大也好,都能做到得心應(yīng)手,在發(fā)生故障時不必驚慌。以下幾點是我認(rèn)為很有必要做到的:
- 各個系統(tǒng)做好高可用,每一個環(huán)節(jié)都需要考慮預(yù)案;
- 監(jiān)控一切可以監(jiān)控的信息,不要放過任何一個小的監(jiān)控;
- 遇到故障時,需要有一顆龐大的內(nèi)心,盡快解決問題;解決問題后要善于總結(jié);
- 熟記系統(tǒng)核心關(guān)鍵點后,快速思考影響及故障級別,做到良好反饋與排查;
- 如有條件,開發(fā)一個關(guān)聯(lián)關(guān)系系統(tǒng)。
如果做到這些,在遇到故障時,可以快速定位,更高效地處理解決問題。
記者:在自動化運維工具的選擇上,您是怎么考慮的?目前您接觸過的自動化運維工具有哪些?
劉宇:首先,我并不是一個工具控,在開源產(chǎn)品的了解層面上,我還比較欠缺,我的好友@ARGV在這方面了解比我廣泛。我個人比較推薦將一款工具運用到***,根據(jù)產(chǎn)品及公司的應(yīng)用場景進(jìn)行系統(tǒng)的對比,選擇適合自己的工具,然后深入研究并使用,與業(yè)務(wù)完整的結(jié)合。所以說別人使用的工具,并不是一定適合你自己。
我所熟悉的自動化運維工具不多,但都是大家熟悉的:
- 持續(xù)集成:Jenkins
- 命令執(zhí)行:Ansible,Salt,F(xiàn)unc,Pssh等
- 配置管理:Puppet ,Chef等
- 監(jiān)控:Nagios ,Zabbix等
記者:在自動化運維部署的過程中,有哪些需要注意的事項?可以從規(guī)劃、建設(shè)、管理、監(jiān)控這些環(huán)節(jié)中說明。
劉宇:其實做自動化運維最難的是規(guī)范,從無到有是一個漫長的過程,這需要多個部門長時間的溝通與磨合。然而需要執(zhí)行下去的時候就需要有一個良好的流程及規(guī)范來約束,往往不成功的地方都在這里,諸多原因吧。因此我建議可以按以下步驟進(jìn)行嘗試:
- 從內(nèi)部開始,慢慢試用,再嘗試推廣;
- 先定好規(guī)范,再談建設(shè);
- 技術(shù)能解決的問題不要采用非技術(shù)手段。
從工具做起,慢慢發(fā)展為平臺。過程為:工具->系統(tǒng)->平臺。
記者:自動化運維是一個大命題,很多人認(rèn)為規(guī)模比較小的企業(yè)無需做自動化運維部署,您是怎么看待這個問題的?
劉宇:以前也有朋友問過這個問題,我的建議是做。先不從公司層面考慮這個問題,運維人員是可以從中學(xué)到很多知識,了解熟悉工具,從流程及系統(tǒng)層面知道自動化運維。這也是一個突破。有一些人覺得沒有必要,規(guī)模達(dá)不到這個要求,但你可以參考自動化運維的思想自己來實現(xiàn)一套自有的系統(tǒng),不是很cool么?你可以將所有機(jī)器的管理全部web化,這樣工作起來不是更輕松?
記者:就您個人而言,您目前最關(guān)注的技術(shù)是什么?您自己是如何學(xué)習(xí)并掌握新技術(shù)的?
劉宇:我目前比較關(guān)注的是自動化運維和云計算,以及一些實用的小技巧與技術(shù)。每個人每個階段都需要去學(xué)習(xí)不同層面的東西,這些都是因人而異的。
對于新技術(shù)的學(xué)習(xí)成本的確很高,特別是現(xiàn)在互聯(lián)網(wǎng)信息泛濫,信息過于膨脹了,各種工具,各種系統(tǒng)。我所做的事情主要有三件:
***件就是過濾,第二件就是實踐,第三件就是總結(jié)。
- 對當(dāng)前有用的,加入todolist;
- 對當(dāng)前沒用的,以后可能會用上的,收藏;
- 收藏一個月也沒有看過的,刪除;
- 實踐過覺得還不錯的,加入總結(jié)list;
- 自己寫個總結(jié)文檔。
這些是我自己平時的一些方法和經(jīng)驗,雖然看起來不起眼,但是長期積累后,會有很大的收獲。(全文完)
阿里、百度、京東、淘寶、谷歌、Facebook、Tesla都到2014 WOT全球軟件技術(shù)峰會了,你還等什么?這些***的公司將***對外公開技術(shù),涵蓋八大主題,共有40+課程,部署實施、運維開發(fā)、大數(shù)據(jù)、Spark、敏捷開發(fā)一個都不少。除了***手的經(jīng)驗之外,還有未來兩三年的技術(shù)趨勢,你會讓自己錯過這樣的技術(shù)大會嗎?