偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Hortonworks CTO:Hadoop的現(xiàn)在和將來

開發(fā) 前端 Hadoop
Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月聯(lián)合創(chuàng)建。在激烈的市場環(huán)境中,與其他競爭者相比Hortonworks有著自己的優(yōu)勢。出身于名門Yahoo!,Hortonworks擁有著許多Hadoop架 構師和源代碼貢獻者,這些源代碼貢獻者以前均效力于Yahoo,而且已經為Apache Hadoop項目貢獻了超過80%的源代碼,Hortonworks這樣說道。

Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月聯(lián)合創(chuàng)建。在激烈的市場環(huán)境中,與其他競爭者相比Hortonworks有著自己的優(yōu)勢。出身于名門Yahoo,Hortonworks擁有著許多Hadoop架 構師和源代碼貢獻者,這些源代碼貢獻者以前均效力于Yahoo,而且已經為Apache Hadoop項目貢獻了超過80%的源代碼,Hortonworks這樣說道。這些工程師同時也為分布式領域的一些其他項目(如HCatalog、 Ambari和Pig等)做出了貢獻,此外,在Yahoo還都曾參與過在4萬臺服務器規(guī)模集群中運行Hadoop的經驗。

Hortonworks是如何幫助企業(yè)采用Hadoop的?Hortonworks的CTO Eric談到了三個步驟:

  1. 了解需求,這和別的供應商是一樣的;
  2. 和大家不一樣的是,Hortonworks會通過廣泛的Apache Hadoop社區(qū)的力量來根據(jù)客戶需求開發(fā)新軟件;
  3.  在開發(fā)完成了之后,需要將軟件進行打包,然后進行企業(yè)級測試,保證可用性和穩(wěn)定性 

Hortonworks提供的企業(yè)級Hadoop是什么樣子的呢?請看下圖。

除了在底層擁有Hadoop的核心之外,他們在上層加入了FLUME和SQOOP,用于將數(shù)據(jù)注入Hadoop中。其次,又添加了Hive、PIG、 HABASE、HCATALOG來簡化Hadoop中的數(shù)據(jù)管理。最后也添加了一些Apache Hadoop項目,AMBARI和OOZIE,用于管理和監(jiān)控集群,管理和監(jiān)控任務和工作流。這樣就能形成一個純開源,純Apache的平臺。

接著,他分享了一些他覺得在現(xiàn)在的Apache版本中比較激動人心的一些項目。

第 一個就是HCatalog。它是HIVE在表級別上的抽象,這就意味著表級別就開放了,所有的數(shù)據(jù)工具和Hadoop都能在這個更高層級的抽象上開展工 作??梢詫Ρ砭帉慚ap-Reduce,用PIG來做ETL,用HIVE格式來存儲,所以它是可以在這些工具之間進行協(xié)作的。除此之外,它的開放性也支持 通過集群外來訪問。所以,現(xiàn)在就可以用第三方的SQL工具,通過表查詢的方法來查詢其中的數(shù)據(jù),這樣就把Hadoop帶到了更多的使用場景中。

第二個就是Ambari。它是Apache的孵化項目,主要關注于Hadoop的配置、管理和監(jiān)控。他自己的團隊在過去的一年中感覺到的是,企業(yè)不需要一個 單獨管理Hadoop的終端,企業(yè)希望能夠把Hadoop的管理工作集成至自己喜歡的工具中。所以Ambari非常注重添加API。Ambari添加的 API即可被現(xiàn)有的管理工具集成。另一個亮點是Ambari有任務診斷功能,用戶可以直接診斷Hadoop中的任務為什么性能低,為什么會失敗,等等。通 過集群歷史(Cluster Histroy),可以直觀地了解到集群的運行情況,從而判斷目前集群的狀態(tài)。

接下來,他談到了Hadoop 2.0中幾個比較重大的改進。

第 一是在可擴展性上要做得更好。今天大概最大的集群的量級在4000~4500個節(jié)點左右,2.0的目標是要支持萬級的節(jié)點數(shù)量。企業(yè)可以信賴Hadoop 因為它可以持續(xù)提供不斷成長的數(shù)據(jù)管理架構。Eric也談到他對大數(shù)據(jù)的定義是,企業(yè)有了大數(shù)據(jù)的問題,現(xiàn)有的工具根本不能解決,或不能通過低成本的方式 去解決。所以Hadoop也需要不斷提升,從而保持住大數(shù)據(jù)最佳解決方案的地位。

除了可擴展性之外,Hadoop 20.0真正的關注點在其延展性上。這正是采用YARN的原因。YARN是Hadoop的重構和處理模型。在Hadoop 1.0中,只有一種語言,就是MapReduce。在Hadoop 2.0中,核心資源管理被分離出來,可以將集群中的某部分資源分配于某些非MapReduce的特定工作。所以MapReduce就成為了眾多可以在 Hadoop中使用的編程模型之一。除了MapReduce之外,大家還能看見很多其他的框架,有的已經可用了。例如處理流的低延遲性框架,支持SQL查 詢的,還有其它的一些服務性框架,例如有人提議將CloudFoundary作為Hadoop的一個服務。這樣的話,就能利用Hadoop進行更開放地創(chuàng) 新。

Tez是其中的一個框架,它是Apache的孵化項目,主要是為了在Hadoop 2.0中提供低延遲性的編程框架。Tez分成兩個部分,第一個部分關注內循環(huán)上,也就是如何更高效地處理大量數(shù)據(jù)行的訪問;第二部分是關注如何能夠更快地 開始進行計算,如何保證集群的熱度(warm)和可用性,以確保在提交查詢后幾秒鐘就開始處理,而不是幾分鐘或者幾十秒。

Tez 是一項大的倡議當中的一部分,即Stinger??赡艽蠹覜]見過Stinger Apache,因為Stinger是一項大的倡議,旨在集中社區(qū)的力量來將Hive變得更優(yōu)秀。主要的關注點是如何實現(xiàn)Hadoop中的低延遲SQL查 詢。之前的事實已經證明了Hive的優(yōu)異,比如可擴展性,和高強度負載下的穩(wěn)定性,功能也很完整。Stinger中把對Hive的改進分解成了三個方面。 第一個方面已經談到過,就是Tez。第二方面是對核心Hive的改進,即提供更好的查詢計劃。例如通過更少的任務,更快地完成查詢。第三方面是要提供更優(yōu) 化的列存儲格式。這三方面結合起來,Hive的性能可能會得到成百倍地增強。

Knox也是Apache的孵化項目,專注于Hadoop的安全性。Knox Gateway通過在Hadoop集群之前的REST代理,可以使用現(xiàn)有工具來提供單點登錄,然后就可以使用Hadoop了。

Falcon是數(shù)據(jù)生命周期管理的項目。第一是解決了數(shù)據(jù)生命周期管理的問題;第二也提供了移動數(shù)據(jù)的問題,即如何將數(shù)據(jù)移送至集群中,并在集群間移動;其它還包括如何自動化ETL流。

 

責任編輯:陳四芳 來源: 51CTO
相關推薦

2010-10-27 13:54:47

2012-02-23 14:08:44

2010-02-04 18:46:54

2021-09-26 10:47:12

預訓練模型GPT

2016-08-28 15:55:04

Hadoop大數(shù)據(jù)

2018-10-12 14:01:14

2013-07-02 10:56:46

2013-02-26 09:40:00

HortonworksWindowsHadoop

2012-11-12 10:13:09

2013-10-17 09:35:33

大數(shù)據(jù)HadoopHortonworks

2013-12-20 09:46:56

Hadoop大數(shù)據(jù)數(shù)據(jù)處理

2013-04-19 10:28:10

紅帽

2019-07-19 15:42:57

Hadoop大數(shù)據(jù)YuniKorn

2012-02-16 09:10:31

JavaScript

2022-05-16 10:25:03

Web內部垃圾收集安全性

2017-08-08 15:40:26

OpenStack轉型基金會

2013-06-14 09:24:59

Hadoop云服務Altiscale

2014-11-17 09:36:46

2017-03-22 20:36:34

深度學習機器學習人工智能

2020-05-26 11:17:34

區(qū)塊鏈金融技術
點贊
收藏

51CTO技術棧公眾號