羅李:基于Hadoop數(shù)據(jù)服務(wù)平臺(tái)
2013年4月26日-27日,由51CTO傳媒集團(tuán)旗下WOT(World Of Tech)品牌主辦的2013大數(shù)據(jù)全球技術(shù)峰會(huì)在北京富力萬(wàn)麗酒店召開(kāi)。本次峰會(huì)將圍繞大數(shù)據(jù)基礎(chǔ)架構(gòu)與上層應(yīng)用的生態(tài)系統(tǒng),解決大規(guī)模數(shù)據(jù)引發(fā)的問(wèn)題,探索大數(shù)據(jù)基礎(chǔ)的解決方案,激發(fā)數(shù)據(jù)挖掘帶來(lái)的競(jìng)爭(zhēng)力,讓數(shù)據(jù)發(fā)出聲音。51CTO作為本次峰會(huì)的主辦方,將全程視頻、圖文直播報(bào)道這場(chǎng)數(shù)據(jù)的盛宴,更多內(nèi)容請(qǐng)點(diǎn)擊專(zhuān)題:2013大數(shù)據(jù)全球技術(shù)峰會(huì)。
2013大數(shù)據(jù)全球技術(shù)峰會(huì)專(zhuān)題
來(lái)自于阿里巴巴集團(tuán)分布式團(tuán)隊(duì)成員羅李與在場(chǎng)觀眾分享,阿里的大數(shù)據(jù)發(fā)展經(jīng)歷幾個(gè)階段。
首先是單機(jī)版。但是面臨著容量問(wèn)題,一臺(tái)機(jī)器放不下怎么辦?同時(shí)單機(jī)的性能也不能達(dá)到要求。
之后阿里用了市面上流行的分布式數(shù)據(jù)庫(kù)方案,容量和計(jì)算能力比單機(jī)版翻了好幾倍,當(dāng)時(shí)滿足淘寶和阿里巴巴業(yè)務(wù)的發(fā)展。但發(fā)展到一定程度后,這種方式的問(wèn)題初見(jiàn)端倪,首先容量有限制,作為一款商業(yè)軟件,它的價(jià)格不菲,按照容量收費(fèi)導(dǎo)致軟件越用越貴。同時(shí)在大數(shù)據(jù)場(chǎng)景下,系統(tǒng)的穩(wěn)定性也不是特別好。
再后來(lái)阿里內(nèi)部有一些部門(mén)開(kāi)始使用Hadoop,08年時(shí)阿里擁有7-8個(gè)大大小小的Hadoop集群,從十幾臺(tái)到一兩百臺(tái),基本用于處理離線數(shù)據(jù)處理。但各個(gè)集群都各自為政獨(dú)立發(fā)展,卻又有千絲萬(wàn)縷的聯(lián)系,雖相互依賴(lài),但集群規(guī)模和運(yùn)行水平卻參差不齊,所以集群的穩(wěn)定性一直是一個(gè)問(wèn)題,***的問(wèn)題就是集群重復(fù)建設(shè),高成本,低效率。
那么什么才是適合阿里巴巴的大數(shù)據(jù)解決方案?
云梯Hadoop服務(wù)集群
• HDFS - 海量數(shù)據(jù)存儲(chǔ)服務(wù)
• 分組,通過(guò)quota(空間/文件數(shù))限制:/group/taobao
• 數(shù)據(jù)共享:淘寶/天貓/一淘/B2B/支付寶
• MapReduce - 大規(guī)模分布式計(jì)算服務(wù)
• 分組,slot限制,按需申請(qǐng),集中分配和調(diào)度
• 生產(chǎn) / 開(kāi)發(fā) / 測(cè)試共享集群,白天開(kāi)發(fā),晚上生產(chǎn)
• 服務(wù)特色
• 單一大集群
• 多用戶(hù)共享
• 計(jì)算分時(shí)
• 資源按需申請(qǐng),按使用量計(jì)費(fèi)
Hadoop最重要的兩項(xiàng)服務(wù)是HDFS和MapReduce,阿里通過(guò)分組對(duì)資源做了切分,HDFS通過(guò)文件數(shù)和空間的配額做限制,mapreduce是做slot的限制。數(shù)據(jù)可以在阿里的平臺(tái)上方便的共享,計(jì)算資源通過(guò)分時(shí)共享,白天進(jìn)行開(kāi)發(fā)和測(cè)試任務(wù),晚上進(jìn)行生產(chǎn)任務(wù)。
云梯提供的其他Hadoop服務(wù)有哪些?
其實(shí)這些服務(wù)都來(lái)自于Hadoop開(kāi)源生態(tài)圈,并且可以很方便的吸收進(jìn)來(lái),這就是使用開(kāi)源軟件的優(yōu)勢(shì)。
最重要的服務(wù)是Hive,如果要遷移oracle的任務(wù),就必須提供SQL語(yǔ)法的支持,hive做到了。之后阿里平臺(tái)發(fā)展壯大也主要是hive的功勞,現(xiàn)在阿里平臺(tái)上80%以上的作業(yè)是hive的。同時(shí)還提供了streaming,mahout,pig等工具。
阿里的HBase服務(wù)區(qū)別于獨(dú)立的HBase集群,hbase機(jī)器和云梯其他slave機(jī)器是共享的,和其他的Mapreduce任務(wù)共享一個(gè)HDFS,阿里期望在云梯大規(guī)模數(shù)據(jù)和計(jì)算能力背景下,吸收HBase存儲(chǔ)服務(wù)的特色,為云梯用戶(hù)提供更好的在線服務(wù)體驗(yàn)。
結(jié)尾:以上是51CTO.com記者從一線為您帶來(lái)的精彩報(bào)道。后續(xù)我們還有更加精彩的獨(dú)家報(bào)道,敬請(qǐng)關(guān)注。