偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="u53i5"><table id="u53i5"></table></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Hadoop 如何推動現(xiàn)代數(shù)據(jù)倉庫技術(shù)的變革

2016-04-05 10:59:59

大數(shù)據(jù) 數(shù)據(jù)倉庫 Hadoop

2006年雅虎等團隊開始研發(fā)Hadoop技術(shù)至今已整整十年。在此之間技術(shù)發(fā)展迅速，Hadoop上的生態(tài)系統(tǒng)逐漸擴大。各個行業(yè)的用戶逐漸開始基于這一新的技術(shù)來開發(fā)全新的應(yīng)用，甚至將原先的應(yīng)用向Hadoop之上進行遷移。

在2016 Hadoop技術(shù)峰會的主題演講上，星環(huán)科技創(chuàng)始人孫元浩深入淺出的闡述了Hadoop是如何推動數(shù)據(jù)倉庫技術(shù)進行深刻變革。

一、數(shù)據(jù)庫技術(shù)進入戰(zhàn)略轉(zhuǎn)折點

今年大會的主題是Hadoop十年。2006年雅虎等團隊開始研發(fā)Hadoop技術(shù)至今已整整十年。在此之間技術(shù)發(fā)展迅速，Hadoop上的生態(tài)系統(tǒng)逐漸擴大。各個行業(yè)的用戶逐漸開始基于這一新的技術(shù)來開發(fā)全新的應(yīng)用，甚至將原先的應(yīng)用向Hadoop之上進行遷移。未來，Hadoop會成為企業(yè)數(shù)據(jù)中心的核心。經(jīng)過這10年的發(fā)展，今年開始進入一個戰(zhàn)略轉(zhuǎn)折點(strategic inflection point)。這意味著新的技術(shù)開始逐漸取代和超越老的技術(shù)，并在各個行業(yè)迅速發(fā)展。未來的若干年之內(nèi)，取代過程會不斷加速。星環(huán)近3年的發(fā)展，經(jīng)過持續(xù)的研發(fā)、投入以及大量的案例積累，達到新的高度。去年12月份Gartner分析師把星環(huán)科技(Transwarp)列為了國際主流的Hadoop發(fā)行版廠商之一，其他幾家包括Cloudera、Hortonworks、MapR。另外還有兩家公司分別是IBM和Pivotal，他們采用Open data Platform。全球共有6家公司上榜，星環(huán)也很榮幸能成為其中一家。

今年2月份Gartner發(fā)布的數(shù)據(jù)倉庫魔力象限當(dāng)中，星環(huán)科技也被放入了遠見者(Visionaries)象限當(dāng)中。這個象限里基本上都是采用 Hadoop技術(shù)的創(chuàng)業(yè)公司。這些公司采用全新的技術(shù)，逐漸替代傳統(tǒng)數(shù)據(jù)庫來構(gòu)造新的數(shù)據(jù)平臺。另外雖然目前***象限(Leaders)仍是大廠商，如 Oracle、Teradata等，但是經(jīng)過這10年的經(jīng)驗技術(shù)的積累，逐漸達到戰(zhàn)略轉(zhuǎn)折點，技術(shù)的取代過程明顯加速。如果關(guān)注這些***公司股票在過去一年的價格變化，就會發(fā)現(xiàn)市場預(yù)期在2016至2017年技術(shù)會發(fā)生非常大的變化。在企業(yè)客戶中，使用新技術(shù)的步伐會明顯加速。

二、中美Hadoop應(yīng)用統(tǒng)計對比

今天我演講的題目是介紹Hadoop是如何推動數(shù)據(jù)倉庫技術(shù)進行深刻變革的。這里有一組統(tǒng)計數(shù)據(jù)：

左邊的數(shù)據(jù)是Wikibon的分析師做的美國市場中Hadoop新技術(shù)的應(yīng)用場景統(tǒng)計。他采訪了上千名Hadoop的用戶，這其中有60%的用戶使用 Hadoop技術(shù)來做數(shù)據(jù)倉庫，有25%的用戶是按照交互式BI的，在 Hadoop之上用報表工具、可視化工具來做交互式分析數(shù)據(jù)報表。同時有6%的用戶是在用HBase、Cassandra來做OLAP的簡單輕量級 Key-Value查詢。有4%用戶使用MongoDB、Couchbase文檔式數(shù)據(jù)庫進行文檔存儲，還有5%的用戶使用流處理來做實時數(shù)據(jù)研判，由此構(gòu)成一個完整的100%的應(yīng)用分類。當(dāng)然還有可能有一些其他的應(yīng)用漏掉了，但這幾個是主要的應(yīng)用產(chǎn)品。

在中國市場，根據(jù)我們的樣本中幾百名企業(yè)用戶進行統(tǒng)計，結(jié)果跟美國稍微有點差異。分析結(jié)果顯示，有56%的客戶是做數(shù)據(jù)倉庫的，包括ODS、 ETL、數(shù)據(jù)清洗等，如在我們的客戶中，用于取代關(guān)系型數(shù)據(jù)庫提供完整的數(shù)據(jù)倉庫支持，來建構(gòu)各種主題模型。這個比例是比較接近美國用戶的。但是我們只有 8%的用戶在做交互式BI。自主BI這一塊在國內(nèi)也開始興起。注意到和美國市場相比，顯著不一樣的地方在于我們有24%的客戶是用來做輕量級查詢的，這個百分比指的是客戶數(shù)量占比而不是客戶集群規(guī)模(構(gòu)成的集群節(jié)點數(shù)量)。這個比較有趣的現(xiàn)象說明，實際上在中國，應(yīng)用比較簡單，因為客戶的數(shù)據(jù)量非常巨大，才會使用新技術(shù)解決問題。實際上中國客戶的數(shù)據(jù)量，跟美國同類型客戶的數(shù)據(jù)量相比是要大一個數(shù)量級(10倍)的，簡單的查詢對中國的客戶來說是有巨大的困難的。所以我們可以看到有24%的客戶在用Hyperbase(HBase)組件進行簡單查詢。還有2%的客戶是用我們的產(chǎn)品來進行文檔的搜索和圖檢索。另外還有個很大的不同是有10%的用戶是用流處理的。從圖中就可以發(fā)現(xiàn)，我們國家的工業(yè)4.0制造業(yè)傳感器的網(wǎng)絡(luò)建設(shè)速度是快于美國的。我們的用戶群中比例明顯就超過了美國的市場比例。

三、傳統(tǒng)數(shù)據(jù)倉庫面臨的四大挑戰(zhàn)

實際上大家可以看到，Hadoop技術(shù)在過去一段時間之內(nèi)，至少在2015年逐漸開始往數(shù)據(jù)倉庫方向轉(zhuǎn)變。當(dāng)然，Hadoop在早年剛開始創(chuàng)建的時候，主要也是作為數(shù)據(jù)倉庫的，所以現(xiàn)在越來越多的行業(yè)也開始用Hadoop技術(shù)做數(shù)據(jù)倉庫。那么什么是數(shù)據(jù)倉庫?Gartner的解釋是：數(shù)據(jù)倉庫不僅是一個單一的數(shù)據(jù)庫，它是一整套的數(shù)據(jù)管理系統(tǒng)，包含很多的輔助工具、一些設(shè)計理念和管理方法。傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)，經(jīng)過快20年或者更長時間的發(fā)展，已經(jīng)面臨了一些瓶頸。

***個問題，我們看到隨著數(shù)據(jù)量增大，包括復(fù)雜程序應(yīng)用的增多，傳統(tǒng)數(shù)據(jù)倉庫越來越不堪重負。我們有一個客戶在數(shù)據(jù)倉庫建立了5000個統(tǒng)計報表應(yīng)用。我們也有客戶使用著數(shù)據(jù)量近20個PB的商業(yè)系統(tǒng)。對于大部分的企業(yè)用戶，數(shù)據(jù)量一般在幾十個TB 或者幾百個TB左右。這么大的數(shù)據(jù)量對傳統(tǒng)的倉庫系統(tǒng)來說是非常大的負擔(dān)。單一的數(shù)據(jù)倉庫無法處理這么大量的數(shù)據(jù)，所以在這一塊需要新的技術(shù)，特別是利用分布式計算來取代原本單一的計算方式來進行橫向擴展。我們認為Hadoop技術(shù)能成功的最根本的原因是它是從單機的集中式運算變成了分布式計算，這是它***的計算模式的演變。把集中計算變成分布計算是一個必然趨勢，這是碰到的***個困難，一是需要一些新型的分布式數(shù)據(jù)庫技術(shù)進行性能的加速，來處理這種幾百 TB或者上PB的數(shù)據(jù)量。二是隨著數(shù)據(jù)源的不斷增多，訪問數(shù)據(jù)的方式變得非常復(fù)雜。我們很多客戶有幾百個庫表，有幾千上萬張表，這樣復(fù)雜的數(shù)據(jù)模型通常很難把所有數(shù)據(jù)存儲到一個數(shù)據(jù)庫當(dāng)中，只能分攤到很多個庫當(dāng)中。對數(shù)據(jù)的使用者帶來了很大的困難，因為他們需要把多種數(shù)據(jù)全部存儲起來。這個是***個大的困難。

第二個問題是數(shù)據(jù)的類型發(fā)生變化，過去是以結(jié)構(gòu)化數(shù)據(jù)為主，80%是結(jié)構(gòu)化數(shù)據(jù)?，F(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)逐漸增多，這個值開始反過來，80%是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。但是從價值度來講， 80%的價值密度仍然是來自于結(jié)構(gòu)化數(shù)據(jù)。而對于企業(yè)來講，需要這些非結(jié)構(gòu)化數(shù)據(jù)，進行存儲分析。另外在數(shù)據(jù)源變多以后，用戶和業(yè)務(wù)部門也變多。這些部門之間如何進行資源有效管理和隔離，變成一個非常嚴重的問題。例如過去有些銀行客戶是采用行政處罰措施，如果有人寫一條SQL，把數(shù)據(jù)倉庫資源耗盡，導(dǎo)致其他人不能使用，那么這個人今年的獎勵就沒有了。采用這種方式是沒有效果的，因為用戶根本就不知道他寫的這個SQL，會不會把數(shù)據(jù)倉庫跑掛掉。另外做訪問控制也是很痛苦的，為了使不同的分支機構(gòu)只能訪問自己的數(shù)據(jù)，需要創(chuàng)建視圖。如果用戶有1000張表，同時還有幾十個分支機構(gòu)，那么久需要創(chuàng)建上萬個視圖，這對數(shù)據(jù)的視圖管理會帶來巨大的挑戰(zhàn)。所以在幾年前，分析機構(gòu)就提出要建邏輯數(shù)據(jù)倉庫。邏輯數(shù)據(jù)倉庫就是在過去幾年當(dāng)中一直被數(shù)據(jù)倉庫***反復(fù)強調(diào)，我們需要去建一個邏輯上大的數(shù)據(jù)倉庫，他底下可以包括多個數(shù)據(jù)源—-通過database federation(數(shù)據(jù)聯(lián)邦)功能，同時它可以跨多種數(shù)據(jù)源，可以把結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一處理。Michael Stonebraker在前段時間講過，未來不管是傳統(tǒng)數(shù)據(jù)庫技術(shù)還是大數(shù)據(jù)技術(shù)，大家都會統(tǒng)一到使用SQL接口，包括結(jié)構(gòu)化數(shù)據(jù)與非機構(gòu)化數(shù)據(jù)，非結(jié)構(gòu)化數(shù)據(jù)也會被結(jié)構(gòu)化后進行處理。所以邏輯數(shù)據(jù)倉庫適應(yīng)于這種變化，通過統(tǒng)一接口統(tǒng)一方式訪問數(shù)據(jù)源，完成跨各種數(shù)據(jù)源的訪問，同時也會建造一個有多租戶管理、資源管控的環(huán)境，能夠被很多部門、用戶進行使用。這從理論上來講是區(qū)別于傳統(tǒng)數(shù)據(jù)倉庫的應(yīng)用場景。

第三個挑戰(zhàn)是數(shù)據(jù)處理的延時太長。過去整個數(shù)據(jù)架構(gòu)前面是OLTP系統(tǒng)，中間是ODS，后面是數(shù)據(jù)倉庫層，再往后是數(shù)據(jù)集市。那么在數(shù)據(jù)倉庫這一層，數(shù)據(jù)是T+1的，意味著第二天才訪問前一天的數(shù)據(jù)。但是很多行業(yè)需要更實時的數(shù)據(jù)，為了了解當(dāng)前的生產(chǎn)運營狀況,它們需要基于T+0、準實時的，甚至是實時的幾分鐘幾秒鐘之內(nèi)的數(shù)據(jù)。這種需求就演變成第三種數(shù)據(jù)倉庫運營模式——Operational Data Warehouse。這種業(yè)務(wù)模式的設(shè)計初衷是希望把數(shù)據(jù)實時或準實時的導(dǎo)入到數(shù)據(jù)倉庫當(dāng)中，能夠?qū)崟r數(shù)據(jù)進行快速的分析和挖掘。傳統(tǒng)的數(shù)據(jù)倉庫是每天晚上數(shù)據(jù)導(dǎo)入，花7-8個小時進行批處理計算，第二天才能看到報表。所以傳統(tǒng)技術(shù)面臨一個普遍的問題：不能實現(xiàn)實時處理。

第四個挑戰(zhàn)是原先的邏輯數(shù)據(jù)模型不能有效支撐數(shù)據(jù)快速分析和價值發(fā)現(xiàn)。過去大家做統(tǒng)計是對數(shù)據(jù)做一些常見的聚合以及連接關(guān)聯(lián)操作。遵循關(guān)系數(shù)據(jù)庫的模式，有很多模型和各種范式，像很多廠商在相關(guān)行業(yè)設(shè)計了十大主題模型、八大主題模型，中間數(shù)據(jù)的關(guān)聯(lián)程度是非常高的。一個有幾千個數(shù)據(jù)源表的業(yè)務(wù)系統(tǒng)，中間層需要用上萬張數(shù)據(jù)表來滿足它的模型。這樣一個復(fù)雜的模型所帶來的弊端就是數(shù)據(jù)結(jié)構(gòu)一旦發(fā)生變化或者增加時，模型就不堪重負。預(yù)先設(shè)定的模型沒法適應(yīng)業(yè)務(wù)的快速變化，所以我們經(jīng)常能看到銀行花幾年時間建立一個數(shù)據(jù)倉庫，反復(fù)投入，每年在改造它。近期了解到一家銀行科技部門，前后10年投入十幾億來建數(shù)據(jù)倉庫。而今天一方面大量數(shù)據(jù)在產(chǎn)生，同時新的數(shù)據(jù)也在增加，有些來自內(nèi)部的數(shù)據(jù)，有些來自新的外部數(shù)據(jù)。數(shù)據(jù)處理方法的確到了應(yīng)該變革的時候。通過利用新的機器學(xué)習(xí)的統(tǒng)計方法，不僅做傳統(tǒng)SQL的統(tǒng)計，還希望能夠從數(shù)據(jù)關(guān)聯(lián)上面發(fā)現(xiàn)規(guī)律、關(guān)聯(lián)模式、時序上的特征。通過對它進行一些預(yù)測分析，能夠發(fā)現(xiàn)統(tǒng)計學(xué)意義上的因果關(guān)系。這就變得對企業(yè)更加重要。這一塊是第四種數(shù)據(jù)倉庫新的設(shè)計模式，叫context independent data warehouse，也就是說拋棄這些邏輯關(guān)聯(lián)模型，在不知道這些模型的情況下，也能通過機器學(xué)習(xí)的方法找到數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，能夠找到他們之間統(tǒng)計學(xué)的因果關(guān)系。

四、全新的數(shù)據(jù)倉庫設(shè)計模式

這四個應(yīng)用模式，這四個困境引出了新的數(shù)據(jù)倉庫的設(shè)計模式。意味著這四種應(yīng)用模式需要全新的技術(shù)支撐，這也是我們看到新的技術(shù)，特別是Hadoop產(chǎn)生以后，衍生出來新的技術(shù)演進逐步在滿足這些需求。

現(xiàn)在講***個，傳統(tǒng)數(shù)據(jù)倉庫為了應(yīng)對數(shù)據(jù)量的增加，需要采用新的方式。我們看到計算模式在過去的十幾年里發(fā)生了非常明顯的變化，從單機開始，首先是***步計算并行化。計算并行化就是我們稱為并行數(shù)據(jù)庫——數(shù)據(jù)庫引擎并行化，但是對存儲無法有效擴展，所以就演變出了第二代計算和存儲的分布式化，產(chǎn)生了第二代分布式技術(shù)，大規(guī)模并行數(shù)據(jù)庫就是MPP數(shù)據(jù)庫，這個數(shù)據(jù)庫解決了一部分問題——幾個TB級別的數(shù)據(jù)的高速處理問題。但是在數(shù)量增加的時候，又遇到一個瓶頸，它需要一個新一代的技術(shù)。新一代的計算模式發(fā)生了變化，這個是Google在2003、2004年中發(fā)布的兩篇論文中，解釋了 MapReduce的計算模式。大家發(fā)現(xiàn)，經(jīng)過這么多年發(fā)展，MapReduce計算模式仍然是***的分布式計算模式，它把計算和存儲有效地結(jié)合了起來，它仍然是現(xiàn)在***有擴展性、***容錯性，現(xiàn)在隨著我們星環(huán)新的技術(shù)實現(xiàn)，它甚至是性能***的計算模式。這樣一個演變使得新的數(shù)據(jù)倉庫技術(shù)能夠處理從幾個 TB到幾十個PB的數(shù)據(jù)量，能夠線性擴展，而且在每個數(shù)量級上都可以比傳統(tǒng)的數(shù)據(jù)處理技術(shù)快若干倍甚至一個數(shù)量級(10倍)。這里有一組數(shù)據(jù)，是我們在春節(jié)前測試的數(shù)據(jù)結(jié)果，今天的演講也是為了介紹我們在TPC-DS標準測試集上的***進展。去年的時候我們已經(jīng)做到了基于TPC-DS benchmark從1TB到100TB都能有效地處理，而且處理的性能是，我們用29臺機器，能夠在40個小時內(nèi)完成100TB總共99個報表處理。我們測試使用的是普通的兩路的服務(wù)器，CPU還是比較弱的，今天能夠在TPC-DS benchmark上跑過100TB的數(shù)據(jù)倉庫，應(yīng)該是***的。大家可以發(fā)現(xiàn)新的技術(shù)，在處理100TB上是沒有壓力的。

***個問題我們可以通過分布式計算來解決，第二個是通過數(shù)據(jù)聯(lián)邦技術(shù)處理多數(shù)據(jù)源以及解決多租戶的問題，這個是 Gartner分析師在幾年之前提出來的，叫邏輯數(shù)據(jù)倉庫。邏輯data warehouse能夠比較有效地解決這個問題。分析師認為，邏輯數(shù)倉應(yīng)該有三個部分。***個部分是中心的Repository，所有數(shù)據(jù)全部集中放在這個上面。第二個是需要有一個數(shù)據(jù)庫虛擬化，或者叫數(shù)據(jù)庫聯(lián)邦技術(shù)，能夠把多種數(shù)據(jù)源融合起來，從應(yīng)用角度來看使用更加方便。第三個是在邏輯數(shù)倉之上，最核心的就是分布式計算。同時其中有兩個特性是需要滿足的，一個就是能不能按需對數(shù)據(jù)倉庫進行擴張、能不能實現(xiàn)多個用戶共享一個平臺。這個是邏輯數(shù)據(jù)倉庫必須要解決的問題。第二個是對于元數(shù)據(jù)的管理、對數(shù)據(jù)質(zhì)量管理的有效方法、對數(shù)據(jù)訪問要有審計，這也是邏輯數(shù)據(jù)庫核心設(shè)計的原則。當(dāng)然我們這里介紹的兩個技術(shù)，是星環(huán)用來支撐邏輯數(shù)據(jù)庫建設(shè)的。

我們在SQL層也支持傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)聯(lián)邦的概念，可以支持DBlink的語法。我們把這個計算分散開，劃到多個數(shù)據(jù)源上面。這里有兩種實現(xiàn)方式，一種是傳統(tǒng)關(guān)系型數(shù)據(jù)庫的方式，把Hadoop作為另外備用的計算引擎。另外一種，星環(huán)是建造SQL翻譯層，把源數(shù)據(jù)放到Hadoop上的執(zhí)行計劃里，但是如果數(shù)據(jù)在關(guān)系型數(shù)據(jù)庫上，我們會把SQL給到關(guān)系型數(shù)據(jù)庫執(zhí)行，執(zhí)行的時候?qū)嶋H上計算仍然是分布式的，仍然在Hadoop上進行運算，只不過數(shù)據(jù)源在關(guān)系型數(shù)據(jù)庫里。這里面有兩個優(yōu)化技術(shù)，一個優(yōu)化是把數(shù)據(jù)抽取到多個節(jié)點上進行分布式計算，同時把SQL中的一些過濾條件下推(pushdown)到關(guān)系型數(shù)據(jù)庫。這種方式的變化就是關(guān)系型數(shù)據(jù)庫以及傳統(tǒng)上現(xiàn)在處于***象限的廠商實際上希望是以他們的數(shù)據(jù)庫為主，而我們是希望以Hadoop為主，來構(gòu)造這樣一個數(shù)據(jù)聯(lián)邦的實現(xiàn)方案。今天看來，這種技術(shù)是***的，因為我們的計算是全部分布式化的，所以我們的性能比他們更有優(yōu)勢。第二個，為了構(gòu)造邏輯數(shù)倉引入了微服務(wù)的概念，那微服務(wù)的實現(xiàn)是用容器來實現(xiàn)的。我們有個產(chǎn)品，也有相應(yīng)的演講是介紹新的產(chǎn)品TOS(Transwarp Operating System)，這個產(chǎn)品是基于Docker和kubernetes來構(gòu)造彈性的基于容器化的計算環(huán)境。在這之上我們把傳統(tǒng)的數(shù)據(jù)倉庫的應(yīng)用，即剛才我們講的上千個應(yīng)用，全部容器化，放在我們的應(yīng)用商店當(dāng)中。應(yīng)用商店里面的每一項應(yīng)用都是標準的服務(wù)，這些服務(wù)在實例化的時候可能會由幾百個上千個容器組成。那么我們會把這個應(yīng)用打包成一個服務(wù)，作為整體進行調(diào)度。通過這種方式，我們可以有效地實現(xiàn)把數(shù)據(jù)庫本身的服務(wù)當(dāng)成平臺服務(wù)，能夠一件一件部署，能夠進行靈活地擴張，同時我們也可以把上層應(yīng)用像蘋果的apple store安裝應(yīng)用一樣，在我們的應(yīng)用商店中快速地部署。同時，不同應(yīng)用之間可以通過容器技術(shù)進行有效的隔離。

第三種就是實現(xiàn)實時數(shù)據(jù)倉庫。我們需要有一種新的方法把數(shù)據(jù)實時導(dǎo)入到數(shù)倉當(dāng)中，一種方法是把傳統(tǒng)的OLTP數(shù)據(jù)庫通過ETL抽入到一個operational database當(dāng)中。過去，這就是關(guān)系型數(shù)據(jù)庫，現(xiàn)在，很多人是用HBase或Cassandra來實現(xiàn)。但是有一個普遍的問題就是數(shù)據(jù)進入這個operational database以后，大家需要對數(shù)據(jù)進行復(fù)雜的分析，因為數(shù)據(jù)倉庫是用來做分析的。數(shù)據(jù)分析的復(fù)雜程度可能是在上面跑幾十萬行SQL統(tǒng)計。同時，它的一個復(fù)雜分析可能就有上萬行，需要快速地完成。這樣的一個要求實際上是很難滿足的，因為它的特點是要對數(shù)據(jù)進行實時的寫入，同時也要對它進行復(fù)雜的分析，目前沒有一項數(shù)據(jù)庫技術(shù)能夠同時滿足這兩個需求。當(dāng)然有的廠商號稱既能支持OLTP又能支持OLAP。有一個新的類別叫Hybrid Transactional &AnalyticalDatabase，這種數(shù)據(jù)庫也有相關(guān)分析報告，但目前好像沒有技術(shù)能比較成熟地來解決這個問題。那我們在實現(xiàn)該設(shè)計模式的時候，底層采用的技術(shù)其實就是基于Hadoop，我們是在HDFS上構(gòu)造自己的分布數(shù)據(jù)庫，存儲格式改進了ORC的存儲格式，可以支持增刪查改，也可以支持分布式事務(wù)處理。我們前面開發(fā)了一個ETL的工具，可以把數(shù)據(jù)庫的日志進行重放，直接插入到ORC事務(wù)表里面去。這是一個準實時的操作，通常是幾分鐘內(nèi)能完成從交易型數(shù)據(jù)庫實時同步到Hadoop當(dāng)中，然后在這個上面的做復(fù)雜關(guān)系，這個分析是非常高效的。這是一種實現(xiàn)方式，但是他的延時還不夠快，因為它是分鐘級別的，比如是業(yè)務(wù)數(shù)據(jù)庫，如DB2借助IBM Datastage把操作日志放出來之后，再解讀這個日志，寫到倉庫中去。但是還有一些客戶希望是更實時的，他希望在幾秒鐘之內(nèi)能夠完成計算，這個時候我們采用第二種方法是把數(shù)據(jù)與復(fù)雜計算前推到流處理框架中去。前置的交易系統(tǒng)通常是采用這種方式，今天有很多金融機構(gòu)的應(yīng)用，特別是網(wǎng)銀，像互聯(lián)網(wǎng)金融，全部的交易訂單都在消息隊列中，如RabbitMQ、Kafka，這個時候我們天生的優(yōu)勢，就是可以直接從交易隊列中把數(shù)據(jù)取出來，在流上進行運算。流上的計算實際上也是在數(shù)據(jù)倉庫中的一個復(fù)雜的運算，也有大量存儲過程和SQL，這方面星環(huán)做了大量的工作，我們能夠在流上進行復(fù)雜的SQL運算，支持標準 SQL2003和存儲過程，包括DB2和Oracle存儲過程，也就意味著你可以把原來在后端的復(fù)雜的SQL運算前置到流上面來做，例如時間窗口中的數(shù)據(jù)構(gòu)成一張表，這張表跟普通表不一樣的地方是，它是一直處于變化流動當(dāng)中。這種方式適合對計算延時要求很高的，我們有一個客戶要在一秒鐘之內(nèi)對市場行情進行運算，他有160個復(fù)雜模型，有些復(fù)雜模型其實是用存儲過程來寫得偏微分方程的構(gòu)成。這就意味著我們需要在流上面做復(fù)雜計算，然后延時要在幾秒鐘內(nèi)完成，新型的高頻交易的場合就非常需要這種模式。

第四種數(shù)據(jù)倉庫設(shè)計模式指的是，叫context independent Data warehouse，一種上下文無關(guān)的數(shù)據(jù)倉庫設(shè)計架構(gòu)。這個架構(gòu)通常需要完成幾項重要的工作。首先就是說，這個數(shù)據(jù)倉庫應(yīng)該能夠支持關(guān)聯(lián)分析，對于數(shù)據(jù)和表，能夠通過相關(guān)性找到它們之間的關(guān)聯(lián)關(guān)系，同時也能發(fā)現(xiàn)一些統(tǒng)計學(xué)上的因果關(guān)系。這一塊我們是借助R語言來實現(xiàn)的。只不過我們把R語言的很多算法分布式化了，但是對用戶來講，體驗是跟R語言一模一樣的。如果用戶有熟悉R語言的專家，可以很快上手，能夠用R語言來做復(fù)雜的關(guān)聯(lián)分析和機器學(xué)習(xí)。其實這一塊，也就意味著是不需要復(fù)雜模型模式，對數(shù)據(jù)特征抽取以后就可以進行機器學(xué)習(xí)，也不需要太多的專家來幫你設(shè)計規(guī)則，它是通過機器學(xué)習(xí)方法自動幫你補充的。這是***大功能，第二是網(wǎng)絡(luò)分析、圖分析的能力。現(xiàn)在特別是社交網(wǎng)絡(luò)分析、通訊網(wǎng)絡(luò)分析，又比如銀行資金轉(zhuǎn)賬鏈、擔(dān)保關(guān)系、企業(yè)投資關(guān)系，都要用圖的技術(shù)來實現(xiàn)。圖技術(shù)就廣泛地運用到金融機構(gòu)的反欺詐當(dāng)中。在這樣一個數(shù)據(jù)倉庫中，圖的分析能力也是一個重要的關(guān)鍵能力。第三塊是需要文本的分析挖掘能力，也需要文本制作能力。第四個就是我們希望能摒棄過去設(shè)計復(fù)雜的邏輯模型，有幾萬張中間表，這種模型代價非常高，而且固定下來就很難變化。我們希望能自由地進行探索，我們希望能有一個自主的工具對它進行數(shù)據(jù)挖掘分析，這一塊也需要工具上的支撐。所以我們今天在實現(xiàn)這種數(shù)據(jù)倉庫架構(gòu)的時候，綜合使用了我們的絕大部分組件，我們使用了Inceptor分析型數(shù)據(jù)庫，對數(shù)據(jù)特征進行清洗，甚至SQL能直接用圖的算法進行分析。同時，我們在Hyperbase上還能支持文檔搜索、文本搜索，也支持大規(guī)模圖的并發(fā)查詢，我們對外提供 DataFrame的抽象，就是R語言的DataFrame的抽象，和R語言的原始DataFrame是一樣的，可以用R的算法去訪問這些 DataFrame，同時我們也提供幾十種分布式機器學(xué)習(xí)算法，讓用戶來做大規(guī)模的機器學(xué)習(xí)。中間演變出幾種應(yīng)用模式，有風(fēng)險分析、有精準營銷的，也有反欺詐、文本分析。當(dāng)然我們也綜合了傳統(tǒng)的R的單機算法包，也提供傳統(tǒng)的R的體驗。

這些技術(shù)組件構(gòu)建出一個完整的數(shù)據(jù)倉庫。如果把這些數(shù)據(jù)倉庫全部放在一張紙上的話，那我們就能看到整個架構(gòu)的底層其實是用TOS實現(xiàn)資源管理多租戶的能力，用容器來隔離，中間層是一個邏輯數(shù)據(jù)倉庫，把結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)全部放到這個邏輯層當(dāng)中，同時上層是借助TOS創(chuàng)建邏輯集群來構(gòu)建如自由探索的應(yīng)用，也可以用來構(gòu)建傳統(tǒng)數(shù)據(jù)倉庫、構(gòu)造數(shù)據(jù)集市、構(gòu)造實時數(shù)據(jù)倉庫。整體來說就是可以用全新的技術(shù)來打造一個新的企業(yè)數(shù)據(jù)平臺，這也是為什么我們被 Gartner選為數(shù)據(jù)倉庫中在遠見象限中是最右邊的廠商，是因為我們的技術(shù)在支持這四類新的數(shù)據(jù)倉庫中是最領(lǐng)先的而且是最完備的廠商。

責(zé)任編輯：Ophira 來源： 36大數(shù)據(jù)

Hadoop 數(shù)據(jù)倉庫架構(gòu)設(shè)計

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="kadd0"><strong id="kadd0"></strong></pre>