偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

走進(jìn)列數(shù)據(jù)庫Infobright的世界

數(shù)據(jù)庫 其他數(shù)據(jù)庫
提到列數(shù)據(jù)庫,我們總會(huì)想到Sybase IQ。今天我們要介紹的是Infobright數(shù)據(jù)庫,包括它的優(yōu)點(diǎn)及工作原理,帶領(lǐng)大家走進(jìn)Infobright的神秘世界。

Sysbase可以說是列式數(shù)據(jù)庫的先驅(qū),Sysbase IQ 15 就是Sybase 目前***的列式數(shù)據(jù)庫。它具有強(qiáng)大的功能,包括數(shù)據(jù)的快速加載、超高速的分析性能、強(qiáng)大的業(yè)務(wù)智能分析、領(lǐng)先的數(shù)據(jù)建模能力等等。 Infobright是一個(gè)基于MySQL的數(shù)據(jù)倉庫系統(tǒng),共工的不周山的blog上有挺詳細(xì)的介紹。

同樣是列式數(shù)據(jù)庫,但是Infobright和Sybase IQ系列還是有很大的不同。Infobright采用的Knowledge Grid來組織數(shù)據(jù),Infobright內(nèi)部是沒有索引,就這點(diǎn)就節(jié)省了不少的空間。而Sybase IQ系列還是使用了索引,而這些索引我個(gè)人的理解就是位圖索引的改進(jìn)版。白皮書上說,Infobright的數(shù)據(jù)壓縮比可以是10:1到40:1,個(gè)人拿龐大的日志數(shù)據(jù)庫做了個(gè)小小實(shí)驗(yàn),感覺壓縮也沒那么夸張。如果依據(jù)位圖索引的思想,每列數(shù)據(jù)的相似度越高就會(huì)具有越高的壓縮比。Infobright應(yīng)該也是滿足這一點(diǎn)的,但是具體Knowledge Grid內(nèi)部如何實(shí)現(xiàn)還不清楚,有待繼續(xù)考究。  

Infobright的優(yōu)點(diǎn)有很多,簡單列舉如下:  

Infobright的優(yōu)點(diǎn):

(1)高壓縮比率

(2)快速響應(yīng)復(fù)雜的分析查詢語句

(3)隨著數(shù)據(jù)庫的逐漸增大,查詢和裝載性能基本保持穩(wěn)定

(4)沒有特殊的數(shù)據(jù)倉庫模型(比如星狀模型、雪花模型)要求

(5)無需要物化視圖、復(fù)雜的數(shù)據(jù)分區(qū)策略、索引

(6)實(shí)施和管理簡單,需要極少的管理

(7)和眾多的BI套件相容,比如Pentaho、Cognos、Jaspersoft。

Infobright有兩個(gè)版本ICE和IEE,目前ICE的版本是3.3.1,支持64位Linux和32位windows。ICE不支持DML,也就是不支持insert、update等操作。

粗糙集(Rough Sets)是Infobright的核心技術(shù)之一。Infobright在執(zhí)行查詢的時(shí)候會(huì)根據(jù)知識(shí)網(wǎng)絡(luò)(Knowledge Grid)把DP分成三類:

相關(guān)的DP(Relevant Packs),滿足查詢條件限制的DP

不相關(guān)的DP(Irrelevant Packs),不滿足查詢條件限制的DP

可疑的DP(Suspect Packs),DP里面的數(shù)據(jù)部分滿足查詢條件的限制

下面是一個(gè)案例:

如圖所示,每一列總共有5個(gè)DP,其中限制條件是A>6。所以A1、A2、A4就是不相關(guān)的DP,A3是相關(guān)的DP,A5是可疑的DP。那么執(zhí)行查詢的時(shí)候只需要計(jì)算B5中滿足條件的記錄的和然后加上Sum(B3),Sum(B3)是已知的。此時(shí)只需要解壓縮B5這個(gè)DP。從上面的分析可以知道,Infobright能夠很高效地執(zhí)行一些查詢,而且執(zhí)行的時(shí)候where語句的區(qū)分度越高越好。where區(qū)分度高可以更精確地確認(rèn)是否是相關(guān)DP或者是不相關(guān)DP亦或是可以DP,盡可能減少DP的數(shù)量、減少解壓縮帶來的性能損耗。在做條件判斷的使用,一般會(huì)用到上一章所講到的Histogram和CMAP,它們能夠有效地提高查詢性能。

多表連接的的時(shí)候原理也是相似的。先是利用Pack-To-Pack產(chǎn)生join的那兩列的DP之間的關(guān)系。

比如:SELECT MAX(X.D) FROM T JOIN X ON T.B = X.C WHERE T.A > 6。Pack-To-Pack產(chǎn)生T.B和X.C的DP之間的關(guān)系矩陣M。假設(shè)T.B的***個(gè)DP和X.C的***個(gè)DP之間有元素交叉,那么M[1,1]=1,否則M[1,1]=0。這樣就有效地減少了join操作時(shí)DP的數(shù)量。

前面降到了解壓縮,順便提一提DP的壓縮。每個(gè)DP中的64K個(gè)元素被當(dāng)成是一個(gè)序列,其中所有的null的位置都會(huì)被單獨(dú)存儲(chǔ),然后其余的non-null的數(shù)據(jù)會(huì)被壓縮。數(shù)據(jù)的壓縮跟數(shù)據(jù)的類型有關(guān),infobright會(huì)根據(jù)數(shù)據(jù)的類型選擇壓縮算法。infobright會(huì)自適應(yīng)地調(diào)節(jié)算法的參數(shù)以達(dá)到***的壓縮比。

原文鏈接:http://blog.chinaunix.net/u2/72637/showart_2306093.html

責(zé)任編輯:彭凡 來源: ChinaUnix
相關(guān)推薦

2010-08-26 09:13:02

Infobright

2010-08-26 14:39:54

Infobright數(shù)

2010-08-26 16:16:11

Infobright

2010-05-27 09:11:50

列數(shù)據(jù)庫NoSQL

2011-08-29 09:59:26

2010-09-14 10:15:24

2011-06-02 09:39:29

ADO.NET

2021-01-15 11:01:42

IT系統(tǒng)漏洞網(wǎng)絡(luò)攻擊

2021-09-09 09:28:08

面向列數(shù)據(jù)庫面向行

2024-03-04 10:48:15

PostgreSQL數(shù)據(jù)庫

2010-07-05 09:07:42

2010-08-26 17:16:19

Infobright

2022-03-18 08:22:18

數(shù)據(jù)庫碎片化信息化

2023-06-28 11:14:18

2021-01-21 15:40:45

VRARVR眼鏡

2010-07-16 15:53:19

SQL Server數(shù)

2011-03-28 14:29:46

SQL Server數(shù)主鍵列

2010-06-09 12:35:41

世界杯數(shù)據(jù)庫

2011-11-21 10:09:40

開源技術(shù)數(shù)據(jù)庫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)