專訪許楊毅:揭秘新浪微博敏捷運(yùn)維背后的故事
原創(chuàng)【51CTO專稿】2013年11月22日-23日,Hadoop中國技術(shù)峰會(huì)(China Hadoop Summit 2013)在北京福朋喜來登集團(tuán)酒店隆重召開,作為國內(nèi)唯一專注于Hadoop技術(shù)與應(yīng)用分享的大規(guī)模行業(yè)盛會(huì),吸引了來自國內(nèi)外各行業(yè)領(lǐng)域的近千名CIO、CTO、架構(gòu)師、IT經(jīng)理、咨詢顧問、工程師、Hadoop技術(shù)愛好者。本次技術(shù)峰會(huì)上,51CTO記者有幸采訪到新浪網(wǎng)研發(fā)中心系統(tǒng)架構(gòu)師許楊毅,就新浪微博的敏捷運(yùn)維問題進(jìn)行探討,了解其背后的故事。
(左:許楊毅 右:51CTO記者)
【嘉賓簡介】許楊毅,新浪網(wǎng)研發(fā)中心系統(tǒng)架構(gòu)師,14年互聯(lián)網(wǎng)系統(tǒng)平臺(tái)工作經(jīng)驗(yàn),目前負(fù)責(zé)新浪研發(fā)中心的各類系統(tǒng)平臺(tái)的架構(gòu)優(yōu)化和技術(shù)組織工作。 包括新浪微博敏捷運(yùn)維體系的建立和平臺(tái)架構(gòu)優(yōu)化,數(shù)據(jù)體系工程,視頻整體系統(tǒng)架構(gòu)的質(zhì)量改進(jìn)/優(yōu)化工作。
新浪敏捷運(yùn)維產(chǎn)生的背景
“由于業(yè)務(wù)壓力導(dǎo)致,在sina微博這個(gè)大規(guī)模數(shù)據(jù)量的產(chǎn)品上,故障的響應(yīng)時(shí)間的要求就非常高,處理得稍微晚一點(diǎn),這個(gè)故障可能就會(huì)從一個(gè)小范圍擴(kuò)散到全國范圍內(nèi)的用戶。”許楊毅談到,“正是由于處于在這樣的背景下,所以怎么把運(yùn)維工作做到更好更快是運(yùn)維團(tuán)隊(duì)需要考量的問題。
首先,要有效的判斷超大型業(yè)務(wù)系統(tǒng)的運(yùn)行狀態(tài);微博服務(wù)平臺(tái)有數(shù)萬臺(tái)各類設(shè)備,部署在全國多個(gè)IDC,是一個(gè)超大型的業(yè)務(wù)系統(tǒng),在其上部署了非常復(fù)雜的各種業(yè)務(wù)邏輯架構(gòu)。通過DIP平臺(tái)來準(zhǔn)實(shí)時(shí)/離線的搜集各個(gè)業(yè)務(wù)監(jiān)控平面的指標(biāo)以及業(yè)務(wù)指標(biāo)的模式分析,建立業(yè)務(wù)運(yùn)行的健康和監(jiān)控標(biāo)準(zhǔn)(這一平臺(tái)在新浪內(nèi)部被稱為SinaBench)。
其次,通過實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)對(duì)系統(tǒng)運(yùn)行指標(biāo)的多維提取 (異常值、告警區(qū)間,多維分析的漏斗模型 )來進(jìn)行業(yè)務(wù)異常狀態(tài)的 自動(dòng)化發(fā)現(xiàn)。
最后接入新浪的告警系統(tǒng)(SinaWatch),這樣就形成敏捷運(yùn)維的效果。
敏捷運(yùn)維與傳統(tǒng)運(yùn)維的區(qū)別和聯(lián)系
許楊毅稱:“敏捷運(yùn)維并沒有完全脫離傳統(tǒng)運(yùn)維,只是在傳統(tǒng)運(yùn)維的基礎(chǔ)上去整理和梳理的工作方法。采取一些運(yùn)維工具,結(jié)合工作流程,去做優(yōu)化,提升故障管理的效率。自動(dòng)發(fā)現(xiàn)各個(gè)監(jiān)控平面和業(yè)務(wù)環(huán)節(jié)的異常后,利用這些異常事件來快速定位和解決故障的問題隨之而來。”Sina是如何解決這些問題的呢?許楊毅表示,“這一方面Sina用到了DIP的大數(shù)據(jù)處理能力(HADOOP+圖計(jì)算框架)。通過業(yè)務(wù)數(shù)據(jù),能夠進(jìn)行業(yè)務(wù)整體的全拓?fù)浞治?,自?dòng)建立故障事件的告警路徑,再進(jìn)行可視化回溯分析來快速定位。”
敏捷運(yùn)維過程中遇到的挑戰(zhàn)
“由于敏捷運(yùn)維并非是一個(gè)獨(dú)立的團(tuán)隊(duì)來做,包括所有和sina微博業(yè)務(wù)系統(tǒng)保障的部門,比如說:微博開發(fā)者團(tuán)隊(duì),平臺(tái)的運(yùn)維團(tuán)隊(duì)、系統(tǒng)和底層架構(gòu)等團(tuán)隊(duì),把在某一個(gè)點(diǎn)或者面上的運(yùn)維擴(kuò)散到一個(gè)全業(yè)務(wù)、全流程的體系。所以在敏捷運(yùn)維的過程中,需要協(xié)調(diào)跨部門的同事來進(jìn)行,牽涉到很多業(yè)務(wù)單元,要把這些事情連動(dòng)起來,難度是比較大的。”許楊毅如是說。
整合不同部門的人員和多種多樣的技術(shù),來保證業(yè)務(wù)的可擴(kuò)展性(靈活性),能事半功倍、更好的協(xié)同和更高效的做好工作,這是新浪敏捷運(yùn)維背后的一些故事。如欲了解更多內(nèi)容詳情,請從下邊的視頻中獲悉,或許你會(huì)發(fā)現(xiàn)更多驚喜。