云計算開源產(chǎn)業(yè)聯(lián)盟發(fā)布融合數(shù)據(jù)白皮書,Apache CarbonData成為主流融合存儲技術(shù)
為了更好的探討如何引導IT基礎(chǔ)設(shè)施向更加智能化的方向發(fā)展,構(gòu)建部署靈活、自動化的云環(huán)境,開創(chuàng)產(chǎn)業(yè)的嶄新未來,12月22日,由中國信息通信研究院主辦,云計算開源產(chǎn)業(yè)聯(lián)盟承辦,中國移動蘇州研發(fā)中心協(xié)辦的“2017首屆全球存儲大會”在北京國賓酒店舉行。在會議上,云計算開源產(chǎn)業(yè)聯(lián)盟融合數(shù)據(jù)項目組組長,中國信息通信研究院馬飛博士代表項目組,發(fā)布了《融合數(shù)據(jù)白皮書***部分:融合數(shù)據(jù)存儲》。
馬飛博士表示,在大數(shù)據(jù)時代,大型企業(yè)數(shù)據(jù)爆發(fā)式增長。在企業(yè)快速轉(zhuǎn)型過程中,企業(yè)數(shù)據(jù)處理場景日益豐富,數(shù)據(jù)分析要求越來越靈活,從傳統(tǒng)的報表分析、OLAP、OLTP業(yè)務,到新興的批處理、實時數(shù)據(jù)分析、機器學習,新的數(shù)據(jù)分析模式層出不窮。但是,不同數(shù)據(jù)處理架構(gòu)對底層數(shù)據(jù)的存儲/組織、檢索(引擎),乃至處理接口都提出不同要求,對一份數(shù)據(jù)需要配套構(gòu)建多套不同結(jié)構(gòu)的數(shù)據(jù)集,導致數(shù)據(jù)冗余嚴重,數(shù)據(jù)不能共享。這導致了平臺維護成本、數(shù)據(jù)冗余和數(shù)據(jù)轉(zhuǎn)換代價的與日俱增,嚴重阻礙了大數(shù)據(jù)分析技術(shù)的應用和發(fā)展。而融合數(shù)據(jù)存儲通過一份數(shù)據(jù)存儲,可以實現(xiàn)海量復雜數(shù)據(jù)(總量達到EB級的,單表數(shù)據(jù)達百億行級別以上,單表屬性維度達百維以上的數(shù)據(jù))的歸并,并支持多維度任意組合查詢和分析,支持多種快速查詢需求(如過濾查詢、快速掃描、詳單查詢等)的統(tǒng)一響應。將有效解決多業(yè)務場景下多份數(shù)據(jù)存儲的問題。因此,融合數(shù)據(jù)是大數(shù)據(jù)未來的發(fā)展方向。
馬飛博士介紹了不同行業(yè)對融合數(shù)據(jù)存儲的不同需求,以及目前業(yè)界典型的大數(shù)據(jù)系統(tǒng)存儲方案,在面對行業(yè)融合數(shù)據(jù)存儲需求時的局限和不足。并介紹了以Apache社區(qū)的ORC、Parquet和CarbonData等為代表的目前業(yè)界主流的融合存儲技術(shù),這些主流技術(shù)的技術(shù)對比,以及在10億數(shù)據(jù)規(guī)模下的過濾查詢場景和聚合計算場景下的性能對比。
表1 開源融合數(shù)據(jù)存儲技術(shù)特性對比
ORC |
Parquet |
CarbonData |
|
開源 |
Apache***項目 |
Apache***項目 |
Apache***項目 |
社區(qū)活躍度 |
中 (10 commits/month) |
中 (10 commits/month) |
高 (300+commits/month) |
大數(shù)據(jù)生態(tài)集成 |
支持所有計算框架集成,與Hive集成較好 |
支持所有計算框架集成,與Spark集成較好 |
支持所有計算框架集成,與Spark集成較好 |
開發(fā)語言 |
Java |
Java |
Java,Scala |
索引 |
粗粒度,不支持全局索引 |
粗粒度,不支持全局索引 |
支持全局索引 |
編碼 |
RLE、DELTA |
RLE、DELTA |
全局字段編碼、RLE、DELTA |
數(shù)據(jù)更新、刪除 |
支持 |
不支持 |
支持 |
數(shù)據(jù)分區(qū) |
支持 |
支持 |
支持 |
數(shù)據(jù)壓縮率 |
3-9倍 |
3-8倍 |
3-7倍 |
數(shù)據(jù)預聚合 |
不支持 |
不支持 |
支持 |
實時數(shù)據(jù)導入 |
不支持 |
不支持 |
支持 |
時序數(shù)據(jù)分析 |
部分支持 |
部分支持 |
支持 |
文本數(shù)據(jù)分析 |
不支持 |
不支持 |
支持 |
圖6 Parquet和CarbonData在過濾查詢場景下的性能對比
圖7 Parquet和CarbonData在聚合計算場景下的性能對比
***,馬飛博士也就融合存儲技術(shù)的發(fā)展進行了展望。希望一方面用戶企業(yè)積極參與開源社區(qū)的活動,通過貢獻需求與場景,推動融合數(shù)據(jù)存儲技術(shù)的業(yè)務落地。另一方面利用產(chǎn)業(yè)組織、會展活動、技術(shù)交流等場合加強廠商間的溝通與合作,共同促進技術(shù)的發(fā)展與應用水平的提升。
Apache® CarbonData™介紹:
Apache® CarbonData™是由華為開源貢獻的大數(shù)據(jù)高效存儲格式解決方案。Apache® CarbonData™致力于推動大數(shù)據(jù)開源技術(shù)的持續(xù)發(fā)展,以一份數(shù)據(jù)同時滿足多種業(yè)務場景訴求,打造高效、開放、完整生態(tài)的大數(shù)據(jù)新融合數(shù)倉存儲方案。目前,CarbonData技術(shù)已經(jīng)在華為云MRS服務獲得使用。華為云MRS服務,在完全兼容開源組件的基礎(chǔ)上,融合CarbonData優(yōu)勢,支持大規(guī)模的數(shù)據(jù)存儲、分析和計算,為客戶提供云時代企業(yè)級一站式大數(shù)據(jù)服務,幫助企業(yè)輕松駕馭海量數(shù)據(jù),洞察數(shù)據(jù)價值,在商海中占得先機。
點擊了解華為云存儲產(chǎn)品:http://www.huaweicloud.com/product/