新浪微博廖博:WAIC實時流計算平臺的成長和繁衍
原創(chuàng)【51CTO.com原創(chuàng)稿件】七年一劍,華麗蛻變。自2012年起連續(xù)6年15場峰會,凝聚大量技術(shù)專家,博觀而約取,厚積而薄發(fā)。2018WOT全球軟件與運維技術(shù)峰會5月18日揚帆起航,圍繞12大核心熱點,匯聚海內(nèi)外60位一線專家,打造高端技術(shù)盛宴!
在5月19日下午的C會場“高并發(fā)與實時處理”專場中,新浪微博實時流技術(shù)平臺負(fù)責(zé)人廖博將帶來精彩的分享。會前,51CTO記者有幸采訪到他,針對“WAIC實時流計算平臺的成長和繁衍”這一主題進(jìn)行了深入的交流。
隨著新浪微博業(yè)務(wù)的不斷推進(jìn),對數(shù)據(jù)處理的實時性要求越來越高。例如,大家所熟悉的微博熱詞,需要在很短的時間內(nèi)完成數(shù)據(jù)處理以供在線系統(tǒng)使用。WAIC實時流計算平臺為新浪微博提供可靠的毫秒級和秒級實時數(shù)據(jù)處理服務(wù),通過提供統(tǒng)一的數(shù)據(jù)源和配置化接入方式,幫助提高新浪微博實時作業(yè)的開發(fā)效率,降低部門開發(fā)與運營的成本。
新浪微博實時流技術(shù)平臺負(fù)責(zé)人廖博
廖博介紹,目前WAIC實時流計算平臺經(jīng)歷了三個發(fā)展階段:
- ***階段,是由各種需求驅(qū)動的自由發(fā)展時期,新浪微博技術(shù)團(tuán)隊在這一階段進(jìn)行實時計算技術(shù)的研究和業(yè)務(wù)應(yīng)用;
- 第二階段,隨著行業(yè)的發(fā)展以及業(yè)務(wù)對實時數(shù)據(jù)處理需求的急速增加,迫切需要一個實時流計算平臺來支撐快速的業(yè)務(wù)發(fā)展需求,該階段完成了實時流計算平臺的初步建設(shè);
- 第三階段,是繁榮生長的階段,包括統(tǒng)一監(jiān)控平臺、實時數(shù)據(jù)對賬系統(tǒng)、實時數(shù)據(jù)源建設(shè)等基礎(chǔ)設(shè)施建設(shè),以及樣本生成平臺、第三方特征接入平臺等各類子服務(wù)平臺。
WAIC實時流計算平臺用storm、kafka、scribe、flume、http、docker等較為成熟的技術(shù)進(jìn)行平臺構(gòu)建,以統(tǒng)一監(jiān)控平臺、實時數(shù)據(jù)對賬系統(tǒng)、實時數(shù)據(jù)源為平臺基礎(chǔ),利用新浪自主研發(fā)的weipig開發(fā)框架進(jìn)行實時計算方法的沉淀和配置化開發(fā)工具。據(jù)介紹,WAIC平臺滿足了新浪微博實時打標(biāo)簽,feed、Push等業(yè)務(wù)的實時特征生成,以及圖片、音視頻等多媒體文件分析的業(yè)務(wù)需求。
業(yè)內(nèi)人士都知道,吞吐量和擴(kuò)展性是考驗實時流技術(shù)的重要標(biāo)準(zhǔn)。目前,WAIC實時流計算平臺的吞吐量在40W/s左右。擴(kuò)展性方面,WAIC平臺采用插拔式的接入方式,只需按照規(guī)范開發(fā)相應(yīng)的weibox:首先將接入方式進(jìn)行抽象,制定相應(yīng)的規(guī)范,需要擴(kuò)展的實時集群只要按規(guī)范接入即可。
***,廖博提到,WAIC實時流計算平臺仍有一些問題尚未解決,包括實時流計算任務(wù)的統(tǒng)一資源調(diào)度,case統(tǒng)一追蹤平臺,多媒體分析平臺,以及多機(jī)房多網(wǎng)絡(luò)容災(zāi)。其中,前三項是新浪微博實時流技術(shù)平臺下一步建設(shè)的重點。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】






















