偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

從問題域出發(fā)認識Hadoop生態(tài)系統(tǒng)

作者：Dong 2013-05-27 10:01:33

運維系統(tǒng)運維 Hadoop

Hadoop作為一個生態(tài)系統(tǒng)，每個系統(tǒng)只解決某一個特定的問題域（甚至可能很窄），這也是Hadoop的魅力所在：不搞統(tǒng)一型的一個全能系統(tǒng)，而是小而精的多個小系統(tǒng)。本文重點討論分布式領(lǐng)域的幾個系統(tǒng)問題域。

近些年來Hadoop生態(tài)系統(tǒng)發(fā)展迅猛，它本身包含的軟件越來越多，同時帶動了周邊系統(tǒng)的繁榮發(fā)展。尤其是在分布式計算這一領(lǐng)域，系統(tǒng)繁多紛雜，時不時冒出一個系統(tǒng)，號稱自己比MapReduce或者Hive高效幾十倍，幾百倍。有一些無知的人，總是跟著瞎起哄，說Impala將取代Hive，Spark將取代Hadoop MapReduce等。本文則從問題域觸發(fā)，解釋說明Hadoop中每個系統(tǒng)獨特的作用/魅力以及它們的不可替代性。

Hadoop作為一個生態(tài)系統(tǒng)，每個系統(tǒng)只解決某一個特定的問題域（甚至可能很窄），這也是Hadoop的魅力所在：不搞統(tǒng)一型的一個全能系統(tǒng)，而是小而精的多個小系統(tǒng)。本文重點討論分布式計算領(lǐng)域的幾個開源系統(tǒng)可以解決的問題域。

（1）MapReduce：古老的分布式計算框架，它的特點是擴展性、容錯性好，易于編程，適合離線數(shù)據(jù)處理，不擅長流式處理、內(nèi)存計算、交互式計算等領(lǐng)域。MapReduce網(wǎng)址是：http://hadoop.apache.org/

（2）Hive：披著SQL外衣的MapReduce。Hive是為方便用戶使用MapReduce而在外面包了一層SQL，由于Hive采用了SQL，它的問題域比MapReduce更窄，因為很多問題，SQL表達不出來，比如一些數(shù)據(jù)挖掘算法，推薦算法、圖像識別算法等，這些仍只能通過編寫MapReduce完成。Hive網(wǎng)址是：http://hive.apache.org/

（3）Pig：披著腳本語言外衣的MapReduce，為了突破Hive SQL表達能力的限制，采用了一種更具有表達能力的腳本語言PIG。由于pig語言強大的表達能力，Twitter甚至基于Pig實現(xiàn)了一個大規(guī)模機器學(xué)習(xí)平臺（參考Twitter在SIGMOD2012的文章“Large-Scale Machine Learning at Twitter”）。Pig網(wǎng)址是：http://pig.apache.org/

（4）Stinger Initiative（Tez optimized Hive）：Hortonworks開源了一個DAG計算框架Tez，該框架可以像MapReduce一樣，可以用來設(shè)計DAG應(yīng)用程序，但需要注意的是，Tez只能運行在YARN上。Tez的一個重要應(yīng)用是優(yōu)化Hive和PIG這種典型的DAG應(yīng)用場景，它通過減少數(shù)據(jù)讀寫IO，優(yōu)化DAG流程使得Hive速度提供了很多倍。（Stinger正在開發(fā)中，Tez代碼：https://svn.apache.org/repos/asf/incubator/tez/branches/）

（5）Spark：為了提高MapReduce的計算效率，伯克利開發(fā)了spark，spark可看做基于內(nèi)存的MapReduce實現(xiàn)，此外，伯克利還在Spark基礎(chǔ)上包了一層SQL，產(chǎn)生了一個新的類似Hive的系統(tǒng)Shark，但目前Spark和Shark尚屬于實驗室產(chǎn)品。Spark網(wǎng)站是：http://spark-project.org/

（6）Storm/S4：Hadoop在實時計算/流式計算領(lǐng)域（MapReduce假設(shè)輸入數(shù)據(jù)是靜態(tài)的，處理過程中不能被修改，而流式計算則假設(shè)數(shù)據(jù)源是流動的，數(shù)據(jù)會源源不斷流入系統(tǒng)），一直比較落后，還好，Twitter開源的Storm和yahoo！開源的S4彌補了這一缺點，Storm在淘寶，mediaV等公司得到廣泛的應(yīng)用。Storm網(wǎng)址是：http://storm-project.net/，S4網(wǎng)址是：http://incubator.apache.org/s4/

（7）Cloudera Impala/Apache drill：Google Dremel的開源實現(xiàn)，也許是因為交互式計算需求太過強烈，發(fā)展迅猛，impala僅用了一年左右便推出1.0GA版本。這種系統(tǒng)適用于交互式處理場景，***產(chǎn)生的數(shù)據(jù)量一定要少。Impala盡管發(fā)布了1.0版本，但在容錯性、擴展性、支持自定義函數(shù)等方面，有很長的路要走。Cloudera Impala網(wǎng)址是：https://github.com/cloudera/impala，Apache drill網(wǎng)址是：http://incubator.apache.org/drill/。

Hortonworks將應(yīng)用需求進行了如下劃分：

映射到上面幾種系統(tǒng)，可知：

（1）實時應(yīng)用場景(0~5s)：Storm、S4、Cloudera Impala，Apache Drill等；

（2）交互式場景（5s~1m）：這種場景通常能要求必須支持SQL，則可行系統(tǒng)有：Cloudera Impala、Apache Drill、Shark等；

（3）非交互式場景（1m~1h）：通常運行時間較長，處理數(shù)據(jù)量較大，對容錯性和擴展性要求較高，可行系統(tǒng)有：MapReduce、Hive、Pig、Stinger等；

（4）批處理場景（1h+）：通常運行時間很長，處理數(shù)據(jù)量很大，對容錯性和擴展性要求很高，可行系統(tǒng)有：MapReduce、Hive、Pig、Stinger等。

【作者信息】本文作者：Dong（董西成），專注于大規(guī)模數(shù)據(jù)處理相關(guān)技術(shù)，作者的Hadoop新書《Hadoop技術(shù)內(nèi)幕：深入解析MapReduce架構(gòu)設(shè)計與實現(xiàn)原理》已經(jīng)開始在當(dāng)當(dāng)、京東、卓越等網(wǎng)站銷售。感興趣的讀者朋友們可以去看看。

責(zé)任編輯：黃丹來源：董的博客

Hadoop Hadoop系統(tǒng)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<samp id="wzfj0"></samp><center id="wzfj0"></center>

^{<tt id="wzfj0"></tt>}

<nav id="wzfj0"></nav>

<tt id="wzfj0"></tt>

<del id="wzfj0"></del>

<samp id="wzfj0"><b id="wzfj0"></b></samp>