偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

存儲 存儲軟件 Hadoop
CarbonData在數(shù)據(jù)查詢的性能表現(xiàn)比Parquet好很多,在寫一次讀多次的場景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時。目前官網(wǎng)發(fā)布版本1.3.0與最新的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時入庫等新特性,相信會有越來越多的項(xiàng)目會使用到。加米谷大數(shù)據(jù)轉(zhuǎn)給大家參考學(xué)習(xí)。

[[264630]]

 CarbonData在數(shù)據(jù)查詢的性能表現(xiàn)比Parquet好很多,在寫一次讀多次的場景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時。目前官網(wǎng)發(fā)布版本1.3.0與***的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時入庫等新特性,相信會有越來越多的項(xiàng)目會使用到。

一、評測環(huán)境

1)網(wǎng)絡(luò)拓?fù)鋱D

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

2)配置參數(shù)

Ø 服務(wù)器配置

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

二、性能對比

目前主流hadoop的文件存儲格式有行存儲的CSV格式,列式存儲的ORC和Parquet等。本章給出的是Parquet+Spark和CarbonData+Spark在過濾查詢場景和聚合計(jì)算場景的性能測試結(jié)果。

1)測試數(shù)據(jù)

創(chuàng)建沈陽社保的數(shù)據(jù)倉庫,導(dǎo)入、集成1年的測試數(shù)據(jù),如下表:

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

生成CarbonData格式文件,如下表:

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

2)過濾查詢場景測試

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

Parquet和CarbonData在過濾查詢場景下的性能對比

3)聚合計(jì)算場景測試

Parquet和CarbonData在聚合計(jì)算場景下的性能對比

4)總結(jié)分析

在過濾查詢中,CarbonData的查詢效率比parquet效率好,主要體現(xiàn)在列數(shù)據(jù)的索引查詢,極大地提高了精確查詢的性能。在聚合查詢中,CarbonData通過使用全局字典編碼來加快計(jì)算速度,這使得處理、查詢引擎可以直接在編碼好的數(shù)據(jù)上進(jìn)行處理而不需要轉(zhuǎn)換數(shù)據(jù),數(shù)據(jù)只有在返回結(jié)果給用戶的時候才轉(zhuǎn)換成用戶可讀的形式,通過索引有效過濾文件數(shù)據(jù)塊減少磁盤的IO,提高查詢性能。

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲格式CarbonData(性能篇)

三、小結(jié)

CarbonData在數(shù)據(jù)查詢的性能表現(xiàn)比Parquet好很多,在寫一次讀多次的場景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時。目前官網(wǎng)發(fā)布版本1.3.0與***的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時入庫等新特性,相信會有越來越多的項(xiàng)目會使用到。

責(zé)任編輯:武曉燕 來源: 今日頭條
相關(guān)推薦

2018-07-03 08:33:04

Hadoop存儲CarbonData

2017-06-15 10:21:30

Apache Hado存儲引擎性能

2016-12-20 16:40:13

CarbonData數(shù)據(jù)存儲大數(shù)據(jù)

2017-01-05 09:48:51

大數(shù)據(jù)數(shù)據(jù)格式生態(tài)

2023-03-29 11:11:42

2013-11-04 16:57:21

Hadoop大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)

2022-01-06 18:21:00

Hadoop生態(tài)系統(tǒng)

2011-12-09 11:02:52

NoSQL

2011-04-26 10:08:47

Linux存儲生態(tài)環(huán)境

2021-11-23 20:54:34

AI 生態(tài)系統(tǒng)

2015-06-08 12:44:58

大數(shù)據(jù)InterlAMPCamp

2013-05-27 10:01:33

HadoopHadoop系統(tǒng)

2018-03-19 15:17:37

Hadoop大數(shù)據(jù)數(shù)據(jù)

2019-01-13 15:00:52

區(qū)塊鏈生態(tài)系統(tǒng)

2009-12-25 14:49:55

2011-05-19 15:15:39

Oracle生態(tài)系統(tǒng)

2015-04-01 11:23:23

2012-04-25 10:52:30

生態(tài)系統(tǒng)AppleGoogle

2010-05-12 11:16:00

SAP

2022-06-08 14:49:32

F5NGINXAzure
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號