偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越批量處理與MapReduce:如何讓Hadoop走得更遠

譯文
大數(shù)據(jù) Hadoop
數(shù)據(jù)可以說是現(xiàn)代世界當中的新型貨幣資源。能夠充分發(fā)掘數(shù)據(jù)價值的企業(yè)將制定出更有利于自身運營及發(fā)展的正確決策,并進一步引導客戶一同邁向勝利的彼岸。作為現(xiàn)實層面上不可替代的大數(shù)據(jù)平臺,Apache Hadoop允許企業(yè)用戶構(gòu)建起具備高度可擴展性且極具成本效益的數(shù)據(jù)存儲體系。

[[121026]]

Apache Tez框架開啟了一道大門,引導我們邁向高性能、交互型、分布式數(shù)據(jù)處理應用程序的全新世代。

數(shù)據(jù)可以說是現(xiàn)代世界當中的新型貨幣資源。能夠充分發(fā)掘數(shù)據(jù)價值的企業(yè)將制定出更有利于自身運營及發(fā)展的正確決策,并進一步引導客戶一同邁向勝利的彼岸。作為現(xiàn)實層面上不可替代的大數(shù)據(jù)平臺,Apache Hadoop允許企業(yè)用戶構(gòu)建起具備高度可擴展性且***成本效益的數(shù)據(jù)存儲體系。企業(yè)能夠借此針對數(shù)據(jù)運行大規(guī)模并行及高性能分析型工作負載,進而解開長久以來受技術(shù)或者經(jīng)濟成本束縛而塵封于深處的指導性結(jié)論。Hadoop能夠以***的規(guī)模及效率實現(xiàn)數(shù)據(jù)價值——這在很大程度上要歸功于Apache Tez以及YARN的鼎力協(xié)助。

分析型應用程序以目的驅(qū)動型導向?qū)?shù)據(jù)進行處理,因此不同類型的業(yè)務問題或者差異化供應商產(chǎn)品設(shè)計都會給處理過程帶來差異化特性。要針對Hadoop數(shù)據(jù)訪問創(chuàng)建出目的驅(qū)動型應用程序,首先需要滿足兩大先決條件。***,用戶的“操作系統(tǒng)”(類似于Windows或者Linux)必須能夠在共享式Hadoop環(huán)境當中托管、管理并運行這些應用程序。Apache YARN正是這樣一套面向Hadoop的數(shù)據(jù)操作系統(tǒng)。第二個先決條件在于,開發(fā)人員需要一套能夠編寫出可運行在YARN上的數(shù)據(jù)訪問應用程序的應用構(gòu)建框架以及通用型標準。

Apache Tez恰好滿足這兩大決定性因素。Tez是一套可嵌入且具備擴展性的框架,能夠允許與YARN相結(jié)合并允許開發(fā)人員編寫出足以涵蓋各類交互式批量工作負載的原生YARN應用程序。Tez利用Hadoop那***的強大能力對PB級別的數(shù)據(jù)集進行處理,從而保證Apache Hadoop生態(tài)系統(tǒng)中的各類項目能夠?qū)崿F(xiàn)與目的相符的數(shù)據(jù)處理邏輯、迅捷的響應時間以及***化數(shù)據(jù)吞吐能力。Tez能夠為Hive及Pig等Apache項目帶來史無前例的卓越處理速度及可擴展性,并逐步成為越來越多專門用于同Hadoop內(nèi)存儲數(shù)據(jù)進行高速交互的針對性第三方軟件應用實現(xiàn)設(shè)計效果的重要前提與依托。

后MapReduce時代下的Hadoop

熟悉MapReduce的朋友們肯定急于了解Tez到底擁有哪些獨特的差異化能力。Tez是一套適用范圍極廣且更為強大的框架,在繼承了MapReduce的優(yōu)勢之外也修正了后者的一部分固有局限。Tez身上沿襲自MapReduce的優(yōu)勢包括以下幾點:

• 橫向可擴展能力,包括增加數(shù)據(jù)規(guī)模以及計算容量。

• 具備資源彈性機制,能夠同時在容量充裕或者有限的情況下正常運作。

• 對于分布式系統(tǒng)中的各類不可避免及多發(fā)故障擁有理想的容錯效果及恢復能力。

• 利用內(nèi)置Hadoop安全機制實現(xiàn)數(shù)據(jù)處理安全保護。

不過Tez本身并不屬于處理引擎。相反,Tez的作用在于通過自身靈活性與可定制性優(yōu)勢幫助使用者構(gòu)建應用程序及引擎。開發(fā)人員可以利用Tez庫編寫出MapReduce任務,而Tez代碼在內(nèi)置于MapReduce當中之后能夠?qū)⑶罢叩母咝匦耘c后者的現(xiàn)有任務結(jié)合起來,最終實現(xiàn)MapReduce處理流程的成效提升。

MapReduce曾經(jīng)是(當然現(xiàn)在也是)那些單純只打算初步嘗試Hadoop使用體驗的用戶的理想選擇。不過當下企業(yè)級Hadoop應用已經(jīng)逐步成為現(xiàn)實,這套被廣泛接受的平臺開始幫助越來越多用戶利用保存在其內(nèi)部集群中的數(shù)據(jù)挖掘出***商業(yè)價值,與之相關(guān)的投資力度也在持續(xù)擴大。有鑒于此,定制化應用程序開始取代以MapReduce為代表的各類通用型引擎,旨在實現(xiàn)更為卓越的資源利用率以及性能表現(xiàn)提升。

Tez框架的設(shè)計理念

Apache Tez專門針對這些運行在Hadoop當中的定制化數(shù)據(jù)處理應用進行了優(yōu)化。它能夠?qū)?shù)據(jù)處理流程整理成一套數(shù)據(jù)流程圖模型,這樣Apache Hadoop生態(tài)系統(tǒng)中的各類項目就能夠借此滿足人機交互時對響應時間以及PB級別極端數(shù)據(jù)吞吐能力的要求。數(shù)據(jù)流程圖中的每個節(jié)點都代表著一部分業(yè)務邏輯,專門負責對應的數(shù)據(jù)傳輸或者分析工作。不同節(jié)點之間的連接則代表著數(shù)據(jù)在不同傳輸體系間的出入往返。

一旦應用程序邏輯通過這套流程圖被確定下來,Tez就會對該邏輯進行并行化、進而在Hadoop對其加以執(zhí)行。如果某款數(shù)據(jù)處理應用程序能夠通過這種方式進行建模,則意味著用戶可以利用Tez對其加以構(gòu)建。提取、傳輸與載入(簡稱ETL)任務在Hadoop數(shù)據(jù)處理體系當中隨處可見,而任何一款定制型ETL應用程序都非常適合通過Tez進行打理。其它適合Tez框架的項目還包括查詢處理引擎——例如Apache Hive——以及腳本語言——例如Apache Pig,此外還有Cascadig for Java以及Scalding for Scala等語言集成及數(shù)據(jù)處理API。

在與其它Apache項目結(jié)合加以使用時,Tez框架允許大家執(zhí)行更多更具成效的處理任務。Apache Hive與Tez相結(jié)合能夠為Hadoop帶來極為出色的高性能SQL執(zhí)行效果,而Apache Pig與Tez聯(lián)姻后則可以對Hadoop當中的大規(guī)模復雜ETL任務進行優(yōu)化。Cascading與Scalding遇見Tez框架之后將大大提升Java與Scala代碼的轉(zhuǎn)譯效率。

Tez框架當中包含有直觀的Java API,能夠幫助開發(fā)人員更為輕松地創(chuàng)建出獨特的數(shù)據(jù)處理流程圖,從而***程度提升應用程序的執(zhí)行效率。在一套流程被定義完成后,Tez框架能夠?qū)㈩~外API納入到定制化業(yè)務邏輯當中,并使其運行在任務流程之內(nèi)。這些API將與模塊化環(huán)境當中的輸入信息(即讀取數(shù)據(jù))、輸出信息(即寫入數(shù)據(jù))以及處理機制(即處理數(shù)據(jù))相結(jié)合。大家不妨將此視為在數(shù)據(jù)分析領(lǐng)域搭建自己的樂高積木。

利用這些API構(gòu)建而成的應用程序能夠高效運行在Hadoop環(huán)境當中,而Tez框架則負責處理其與其它堆棧組件之間的復雜交互任務。這樣一來,我們就獲得了一款定制優(yōu)化且與YARN實現(xiàn)原生集成的應用程序,其具備出色的執(zhí)行效率、可擴展性、容錯能力并能夠在多租戶Hadoop環(huán)境中保障安全效果。

Tez框架的應用

因此,企業(yè)用戶可以利用Tez框架在Hadoop當中創(chuàng)建目的驅(qū)動型分析應用程序。當選擇這種實施方式時,大家可以在Tez當中采取兩種不同類型的應用程序定制方式:要么對數(shù)據(jù)流程加以定義,要么對業(yè)務邏輯進行定制。

***步是對數(shù)據(jù)流程加以定義以解決相關(guān)難題。大家可以利用多種數(shù)據(jù)流程圖實現(xiàn)同樣的解決成效,但從其中選擇最理想的方案則能夠大大改善應用程序的執(zhí)行性能。舉例來說,Apache Hive的性能表現(xiàn)能夠通過在利用Tez API所構(gòu)建的***連接圖的支持下得到顯著提升。

接下來,如果數(shù)據(jù)處理流程已經(jīng)確定,那么企業(yè)用戶還可以對任務執(zhí)行中的輸入信息、輸出信息以及處理機制作出調(diào)整,從而實現(xiàn)業(yè)務邏輯的定制化設(shè)計。

需要注意的是,除了企業(yè)用戶能夠?qū)?shù)據(jù)處理應用程序進行定制化設(shè)計,互聯(lián)網(wǎng)服務供應商及其它廠商也能夠利用Tez框架實現(xiàn)自己的獨特價值主張。舉例來說,存儲服務供應商可以為其存儲服務實現(xiàn)定制化輸入與輸出實施方案。如果一家供應商擁有更為先進的硬件配置——例如RDMA或者InfiniBand連接機制——那么他們將能夠更輕松地將優(yōu)化方案引入現(xiàn)有業(yè)務實施體系。

大數(shù)據(jù)擁有光明甚至堪稱爆炸性的迅猛發(fā)展前景,其中由Apache Hadoop負責實現(xiàn)的數(shù)據(jù)捕捉、存儲以及處理等任務必然衍生出規(guī)模龐大且各類各異的新型表現(xiàn)形式。由于其在成本削減、復雜程度控制以及大數(shù)據(jù)管理風險緩沖等方面的出色表現(xiàn),Hadoop已經(jīng)在現(xiàn)代數(shù)據(jù)架構(gòu)當中牢牢占據(jù)著舉足輕重的地位——即成為企業(yè)級數(shù)據(jù)倉庫當中的一大主要組成部分。

Apache Tez的出現(xiàn)讓Hadoop在適用性方面得到了進一步提升,并能夠在滿足現(xiàn)有使用需求的同時開拓出更多新型目的驅(qū)動型應用程序類別。Tez框架為大數(shù)據(jù)架開啟了一道通往新世代高度的大門,大家能夠利用它在無需摒棄現(xiàn)有處理流程或者應用程序方案的前提下在Hadoop中打造出性能卓越的交互型應用程序。

原文鏈接:http://www.infoworld.com/article/2690634/hadoop/hadoop-batch-processing-mapreduce.html

責任編輯:林師授 來源: 51CTO
相關(guān)推薦

2017-04-19 11:17:48

SparkHadoopMapReduce

2020-04-26 16:32:57

AI云計算人工智能

2015-12-02 10:51:42

PaaSSaaS云應用

2013-12-02 00:02:58

2017-11-01 07:41:53

程序員

2010-06-03 16:18:07

Hadoop MapR

2023-09-27 15:34:48

數(shù)據(jù)編程

2016-11-02 09:20:01

SparkHadoop MapR大數(shù)據(jù)

2017-03-01 14:10:42

華為全云化

2015-05-05 11:18:18

大數(shù)據(jù)Hadoop技術(shù)處理

2009-10-22 16:47:37

綜合布線技術(shù)

2016-09-19 15:14:41

Hadoop Hadoop MapRWordCount

2014-11-10 15:02:21

大數(shù)據(jù)云計算Hadoop

2013-01-21 13:22:56

IBMdW

2015-03-24 15:08:21

mapreducehadoop

2020-07-13 09:34:10

合合信息AI大數(shù)據(jù)

2013-04-24 10:47:48

Hadoop集群

2015-08-07 14:52:35

運營商
點贊
收藏

51CTO技術(shù)棧公眾號