偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

走進(jìn)列數(shù)據(jù)庫(kù)Infobright的世界

作者：benjamin 2010-08-26 09:01:27

數(shù)據(jù)庫(kù) 其他數(shù)據(jù)庫(kù)

提到列數(shù)據(jù)庫(kù)，我們總會(huì)想到Sybase IQ。今天我們要介紹的是Infobright數(shù)據(jù)庫(kù)，包括它的優(yōu)點(diǎn)及工作原理，帶領(lǐng)大家走進(jìn)Infobright的神秘世界。

Sysbase可以說(shuō)是列式數(shù)據(jù)庫(kù)的先驅(qū)，Sysbase IQ 15 就是Sybase 目前***的列式數(shù)據(jù)庫(kù)。它具有強(qiáng)大的功能，包括數(shù)據(jù)的快速加載、超高速的分析性能、強(qiáng)大的業(yè)務(wù)智能分析、領(lǐng)先的數(shù)據(jù)建模能力等等。 Infobright是一個(gè)基于MySQL的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，共工的不周山的blog上有挺詳細(xì)的介紹。

同樣是列式數(shù)據(jù)庫(kù)，但是Infobright和Sybase IQ系列還是有很大的不同。Infobright采用的Knowledge Grid來(lái)組織數(shù)據(jù)，Infobright內(nèi)部是沒有索引，就這點(diǎn)就節(jié)省了不少的空間。而Sybase IQ系列還是使用了索引，而這些索引我個(gè)人的理解就是位圖索引的改進(jìn)版。白皮書上說(shuō)，Infobright的數(shù)據(jù)壓縮比可以是10：1到40：1，個(gè)人拿龐大的日志數(shù)據(jù)庫(kù)做了個(gè)小小實(shí)驗(yàn)，感覺壓縮也沒那么夸張。如果依據(jù)位圖索引的思想，每列數(shù)據(jù)的相似度越高就會(huì)具有越高的壓縮比。Infobright應(yīng)該也是滿足這一點(diǎn)的，但是具體Knowledge Grid內(nèi)部如何實(shí)現(xiàn)還不清楚，有待繼續(xù)考究。

Infobright的優(yōu)點(diǎn)有很多，簡(jiǎn)單列舉如下：

Infobright的優(yōu)點(diǎn)：

（1）高壓縮比率

（2）快速響應(yīng)復(fù)雜的分析查詢語(yǔ)句

（3）隨著數(shù)據(jù)庫(kù)的逐漸增大，查詢和裝載性能基本保持穩(wěn)定

（4）沒有特殊的數(shù)據(jù)倉(cāng)庫(kù)模型（比如星狀模型、雪花模型）要求

（5）無(wú)需要物化視圖、復(fù)雜的數(shù)據(jù)分區(qū)策略、索引

（6）實(shí)施和管理簡(jiǎn)單，需要極少的管理

（7）和眾多的BI套件相容，比如Pentaho、Cognos、Jaspersoft。

Infobright有兩個(gè)版本ICE和IEE，目前ICE的版本是3.3.1，支持64位Linux和32位windows。ICE不支持DML，也就是不支持insert、update等操作。

粗糙集（Rough Sets）是Infobright的核心技術(shù)之一。Infobright在執(zhí)行查詢的時(shí)候會(huì)根據(jù)知識(shí)網(wǎng)絡(luò)（Knowledge Grid）把DP分成三類：

相關(guān)的DP（Relevant Packs），滿足查詢條件限制的DP

不相關(guān)的DP（Irrelevant Packs），不滿足查詢條件限制的DP

可疑的DP（Suspect Packs），DP里面的數(shù)據(jù)部分滿足查詢條件的限制

下面是一個(gè)案例：

如圖所示，每一列總共有5個(gè)DP，其中限制條件是A>6。所以A1、A2、A4就是不相關(guān)的DP，A3是相關(guān)的DP，A5是可疑的DP。那么執(zhí)行查詢的時(shí)候只需要計(jì)算B5中滿足條件的記錄的和然后加上Sum（B3），Sum（B3）是已知的。此時(shí)只需要解壓縮B5這個(gè)DP。從上面的分析可以知道，Infobright能夠很高效地執(zhí)行一些查詢，而且執(zhí)行的時(shí)候where語(yǔ)句的區(qū)分度越高越好。where區(qū)分度高可以更精確地確認(rèn)是否是相關(guān)DP或者是不相關(guān)DP亦或是可以DP，盡可能減少DP的數(shù)量、減少解壓縮帶來(lái)的性能損耗。在做條件判斷的使用，一般會(huì)用到上一章所講到的Histogram和CMAP，它們能夠有效地提高查詢性能。

多表連接的的時(shí)候原理也是相似的。先是利用Pack-To-Pack產(chǎn)生join的那兩列的DP之間的關(guān)系。

比如：SELECT MAX(X.D) FROM T JOIN X ON T.B = X.C WHERE T.A > 6。Pack-To-Pack產(chǎn)生T.B和X.C的DP之間的關(guān)系矩陣M。假設(shè)T.B的***個(gè)DP和X.C的***個(gè)DP之間有元素交叉，那么M[1,1]=1，否則M[1,1]=0。這樣就有效地減少了join操作時(shí)DP的數(shù)量。

前面降到了解壓縮，順便提一提DP的壓縮。每個(gè)DP中的64K個(gè)元素被當(dāng)成是一個(gè)序列，其中所有的null的位置都會(huì)被單獨(dú)存儲(chǔ)，然后其余的non-null的數(shù)據(jù)會(huì)被壓縮。數(shù)據(jù)的壓縮跟數(shù)據(jù)的類型有關(guān)，infobright會(huì)根據(jù)數(shù)據(jù)的類型選擇壓縮算法。infobright會(huì)自適應(yīng)地調(diào)節(jié)算法的參數(shù)以達(dá)到***的壓縮比。

原文鏈接：http://blog.chinaunix.net/u2/72637/showart_2306093.html

責(zé)任編輯：彭凡來(lái)源： ChinaUnix

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)