偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

走進(jìn)列數(shù)據(jù)庫(kù)Infobright的世界

數(shù)據(jù)庫(kù) 其他數(shù)據(jù)庫(kù)
提到列數(shù)據(jù)庫(kù),我們總會(huì)想到Sybase IQ。今天我們要介紹的是Infobright數(shù)據(jù)庫(kù),包括它的優(yōu)點(diǎn)及工作原理,帶領(lǐng)大家走進(jìn)Infobright的神秘世界。

Sysbase可以說(shuō)是列式數(shù)據(jù)庫(kù)的先驅(qū),Sysbase IQ 15 就是Sybase 目前***的列式數(shù)據(jù)庫(kù)。它具有強(qiáng)大的功能,包括數(shù)據(jù)的快速加載、超高速的分析性能、強(qiáng)大的業(yè)務(wù)智能分析、領(lǐng)先的數(shù)據(jù)建模能力等等。 Infobright是一個(gè)基于MySQL的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),共工的不周山的blog上有挺詳細(xì)的介紹。

同樣是列式數(shù)據(jù)庫(kù),但是Infobright和Sybase IQ系列還是有很大的不同。Infobright采用的Knowledge Grid來(lái)組織數(shù)據(jù),Infobright內(nèi)部是沒有索引,就這點(diǎn)就節(jié)省了不少的空間。而Sybase IQ系列還是使用了索引,而這些索引我個(gè)人的理解就是位圖索引的改進(jìn)版。白皮書上說(shuō),Infobright的數(shù)據(jù)壓縮比可以是10:1到40:1,個(gè)人拿龐大的日志數(shù)據(jù)庫(kù)做了個(gè)小小實(shí)驗(yàn),感覺壓縮也沒那么夸張。如果依據(jù)位圖索引的思想,每列數(shù)據(jù)的相似度越高就會(huì)具有越高的壓縮比。Infobright應(yīng)該也是滿足這一點(diǎn)的,但是具體Knowledge Grid內(nèi)部如何實(shí)現(xiàn)還不清楚,有待繼續(xù)考究。  

Infobright的優(yōu)點(diǎn)有很多,簡(jiǎn)單列舉如下:  

Infobright的優(yōu)點(diǎn):

(1)高壓縮比率

(2)快速響應(yīng)復(fù)雜的分析查詢語(yǔ)句

(3)隨著數(shù)據(jù)庫(kù)的逐漸增大,查詢和裝載性能基本保持穩(wěn)定

(4)沒有特殊的數(shù)據(jù)倉(cāng)庫(kù)模型(比如星狀模型、雪花模型)要求

(5)無(wú)需要物化視圖、復(fù)雜的數(shù)據(jù)分區(qū)策略、索引

(6)實(shí)施和管理簡(jiǎn)單,需要極少的管理

(7)和眾多的BI套件相容,比如Pentaho、Cognos、Jaspersoft。

Infobright有兩個(gè)版本ICE和IEE,目前ICE的版本是3.3.1,支持64位Linux和32位windows。ICE不支持DML,也就是不支持insert、update等操作。

粗糙集(Rough Sets)是Infobright的核心技術(shù)之一。Infobright在執(zhí)行查詢的時(shí)候會(huì)根據(jù)知識(shí)網(wǎng)絡(luò)(Knowledge Grid)把DP分成三類:

相關(guān)的DP(Relevant Packs),滿足查詢條件限制的DP

不相關(guān)的DP(Irrelevant Packs),不滿足查詢條件限制的DP

可疑的DP(Suspect Packs),DP里面的數(shù)據(jù)部分滿足查詢條件的限制

下面是一個(gè)案例:

如圖所示,每一列總共有5個(gè)DP,其中限制條件是A>6。所以A1、A2、A4就是不相關(guān)的DP,A3是相關(guān)的DP,A5是可疑的DP。那么執(zhí)行查詢的時(shí)候只需要計(jì)算B5中滿足條件的記錄的和然后加上Sum(B3),Sum(B3)是已知的。此時(shí)只需要解壓縮B5這個(gè)DP。從上面的分析可以知道,Infobright能夠很高效地執(zhí)行一些查詢,而且執(zhí)行的時(shí)候where語(yǔ)句的區(qū)分度越高越好。where區(qū)分度高可以更精確地確認(rèn)是否是相關(guān)DP或者是不相關(guān)DP亦或是可以DP,盡可能減少DP的數(shù)量、減少解壓縮帶來(lái)的性能損耗。在做條件判斷的使用,一般會(huì)用到上一章所講到的Histogram和CMAP,它們能夠有效地提高查詢性能。

多表連接的的時(shí)候原理也是相似的。先是利用Pack-To-Pack產(chǎn)生join的那兩列的DP之間的關(guān)系。

比如:SELECT MAX(X.D) FROM T JOIN X ON T.B = X.C WHERE T.A > 6。Pack-To-Pack產(chǎn)生T.B和X.C的DP之間的關(guān)系矩陣M。假設(shè)T.B的***個(gè)DP和X.C的***個(gè)DP之間有元素交叉,那么M[1,1]=1,否則M[1,1]=0。這樣就有效地減少了join操作時(shí)DP的數(shù)量。

前面降到了解壓縮,順便提一提DP的壓縮。每個(gè)DP中的64K個(gè)元素被當(dāng)成是一個(gè)序列,其中所有的null的位置都會(huì)被單獨(dú)存儲(chǔ),然后其余的non-null的數(shù)據(jù)會(huì)被壓縮。數(shù)據(jù)的壓縮跟數(shù)據(jù)的類型有關(guān),infobright會(huì)根據(jù)數(shù)據(jù)的類型選擇壓縮算法。infobright會(huì)自適應(yīng)地調(diào)節(jié)算法的參數(shù)以達(dá)到***的壓縮比。

原文鏈接:http://blog.chinaunix.net/u2/72637/showart_2306093.html

責(zé)任編輯:彭凡 來(lái)源: ChinaUnix
相關(guān)推薦

2010-08-26 09:13:02

Infobright

2010-08-26 14:39:54

Infobright數(shù)

2010-08-26 16:16:11

Infobright

2010-05-27 09:11:50

列數(shù)據(jù)庫(kù)NoSQL

2011-08-29 09:59:26

2010-09-14 10:15:24

2021-09-09 09:28:08

面向列數(shù)據(jù)庫(kù)面向行

2011-06-02 09:39:29

ADO.NET

2021-01-15 11:01:42

IT系統(tǒng)漏洞網(wǎng)絡(luò)攻擊

2024-03-04 10:48:15

PostgreSQL數(shù)據(jù)庫(kù)

2010-08-26 17:16:19

Infobright

2010-07-05 09:07:42

2023-06-28 11:14:18

2022-03-18 08:22:18

數(shù)據(jù)庫(kù)碎片化信息化

2011-03-28 14:29:46

SQL Server數(shù)主鍵列

2010-07-16 15:53:19

SQL Server數(shù)

2021-01-21 15:40:45

VRARVR眼鏡

2011-11-21 10:09:40

開源技術(shù)數(shù)據(jù)庫(kù)

2010-06-09 12:35:41

世界杯數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)