基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)
CarbonData在數(shù)據(jù)查詢(xún)的性能表現(xiàn)比Parquet好很多,在寫(xiě)一次讀多次的場(chǎng)景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時(shí)。目前官網(wǎng)發(fā)布版本1.3.0與***的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時(shí)入庫(kù)等新特性,相信會(huì)有越來(lái)越多的項(xiàng)目會(huì)使用到。
一、評(píng)測(cè)環(huán)境
1)網(wǎng)絡(luò)拓?fù)鋱D

2)配置參數(shù)
Ø 服務(wù)器配置

二、性能對(duì)比
目前主流hadoop的文件存儲(chǔ)格式有行存儲(chǔ)的CSV格式,列式存儲(chǔ)的ORC和Parquet等。本章給出的是Parquet+Spark和CarbonData+Spark在過(guò)濾查詢(xún)場(chǎng)景和聚合計(jì)算場(chǎng)景的性能測(cè)試結(jié)果。
1)測(cè)試數(shù)據(jù)
創(chuàng)建沈陽(yáng)社保的數(shù)據(jù)倉(cāng)庫(kù),導(dǎo)入、集成1年的測(cè)試數(shù)據(jù),如下表:

生成CarbonData格式文件,如下表:

2)過(guò)濾查詢(xún)場(chǎng)景測(cè)試


Parquet和CarbonData在過(guò)濾查詢(xún)場(chǎng)景下的性能對(duì)比
3)聚合計(jì)算場(chǎng)景測(cè)試
Parquet和CarbonData在聚合計(jì)算場(chǎng)景下的性能對(duì)比
4)總結(jié)分析
在過(guò)濾查詢(xún)中,CarbonData的查詢(xún)效率比parquet效率好,主要體現(xiàn)在列數(shù)據(jù)的索引查詢(xún),極大地提高了精確查詢(xún)的性能。在聚合查詢(xún)中,CarbonData通過(guò)使用全局字典編碼來(lái)加快計(jì)算速度,這使得處理、查詢(xún)引擎可以直接在編碼好的數(shù)據(jù)上進(jìn)行處理而不需要轉(zhuǎn)換數(shù)據(jù),數(shù)據(jù)只有在返回結(jié)果給用戶(hù)的時(shí)候才轉(zhuǎn)換成用戶(hù)可讀的形式,通過(guò)索引有效過(guò)濾文件數(shù)據(jù)塊減少磁盤(pán)的IO,提高查詢(xún)性能。

三、小結(jié)
CarbonData在數(shù)據(jù)查詢(xún)的性能表現(xiàn)比Parquet好很多,在寫(xiě)一次讀多次的場(chǎng)景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時(shí)。目前官網(wǎng)發(fā)布版本1.3.0與***的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時(shí)入庫(kù)等新特性,相信會(huì)有越來(lái)越多的項(xiàng)目會(huì)使用到。















 
 
 





 
 
 
 