偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

了解關(guān)于Hadoop的12個事實

運維 系統(tǒng)運維 Hadoop
本文中,分析師給出了關(guān)于Hadoop的12點事實,幫助您認(rèn)識一個真實的Apache Hadoop生態(tài)系統(tǒng)。

現(xiàn)如今,Apache Hadoop已經(jīng)無人不知無人不曉。當(dāng)年雅虎搜索工程師Doug Cutting開發(fā)出這個用以創(chuàng)建分布式計算機環(huán)境的開源軟件庫,并以自己兒子的大象玩偶為其命名的時候,誰能想到它有一天會占據(jù)“大數(shù)據(jù)”技術(shù)的頭把交椅呢。

  雖然Hadoop伴隨大數(shù)據(jù)一同火爆起來,但相信還是有許多用戶對于它不甚了解。在上周名的TDWI解決方案峰會中, TDWI研究主任兼行業(yè)分析師Philip Russom發(fā)表了“關(guān)于Hadoop的12點事實”的主題演講,下面是演講精華內(nèi)容的總結(jié),希望對您進一步了解Hadoop有所幫助。

  事實1:Hadoop是由多個產(chǎn)品組成的。

  人們在談?wù)揌adoop的時候,常常把它當(dāng)做單一產(chǎn)品來看待,但事實上它由多個不同的產(chǎn)品共同組成。

  Russom說:“Hadoop是一系列開源產(chǎn)品的組合,這些產(chǎn)品都是Apache軟件基金會的項目。”

  一提到Hadoop,人們往往將其與MapReduce放在一起,但其實HDFS和MapReduce一樣,也是Hadoop的基礎(chǔ)。

  事實2:Apache Hadoop是開源技術(shù),但專有廠商也提供Hadoop產(chǎn)品。

  由于Hadoop屬于開源技術(shù),可免費下載,所以IBM、Cloudera和EMC Greenplum等廠商都可以推出他們各自的Hadoop特別發(fā)行版本。

  這些特別發(fā)行版本一般都會有一些附加特性,比如高級管理工具及相關(guān)的支持維護服務(wù)。有人可能對此嗤之以鼻:既然開源社區(qū)是免費的,那么我們?yōu)槭裁催€要為它的服務(wù)付費?Russom解釋道,這些版本的HDFS對一些IT部門更合適,特別是企業(yè)IT系統(tǒng)已經(jīng)相對成熟的用戶。

  事實3:Hadoop是一個生態(tài)系統(tǒng),而非一個產(chǎn)品。

  Hadoop是由開源社區(qū)和各個廠商共同開發(fā)和推動的。具體說來,廠商的Hadoop的產(chǎn)品其結(jié)構(gòu)化和關(guān)系性更強一些。

  Russom說:“一直以來報表平臺、數(shù)據(jù)集成平臺在為更新的平臺提供各種各樣的接口,Hadoop當(dāng)然也不例外。”

  事實4:HDFS是文件系統(tǒng),而不是數(shù)據(jù)庫管理系統(tǒng)。

  Russom最無法忍受的,就是人們常常把二者混為一談。能夠?qū)?shù)據(jù)集進行管理是數(shù)據(jù)管理系統(tǒng)很重要的特性之一,這一點HDFS是不具備的。

  數(shù)據(jù)庫管理系統(tǒng)中,我們通過查詢索引可以實現(xiàn)對數(shù)據(jù)的隨機訪問,它往往處理的是結(jié)構(gòu)化的數(shù)據(jù),而在Hadoop中不會處理這樣的數(shù)據(jù)類型。

  事實5:Hive與SQL類似,卻非標(biāo)準(zhǔn)SQL。

  傳統(tǒng)獲取數(shù)據(jù)的業(yè)務(wù)工具大多都是基于SQL的,這比較讓人頭疼,因為Hadoop使用的是一種類似SQL但不是SQL的語言——Apache Hive和HiveQL。

  Russom說:“我常聽到別人說,‘Hive學(xué)起來非常簡單,直接學(xué)Hive就行。’但這并不能解決與SQL工具兼容的根本問題。”

  Russom認(rèn)為兼容性只是一個短時間問題,但卻阻礙了Hadoop的普及。

  事實6:Hadoop與MapReduce相互關(guān)聯(lián),但不相互依賴。

  MapReduce早在HDFS出現(xiàn)以前就由Google開發(fā)推出。除此之外,諸如MapR一類的廠商一直在宣傳MapReduce功能的多樣性,無需HDFS支持。

  盡管如此,Russom卻認(rèn)為它們具有很好的互補性。HDFS的大部分價值都體現(xiàn)在可層疊到分布式文件系統(tǒng)的工具上。

  事實7:MapReduce提供的是對分析的控制,而不是分析本身。

  MapReduce是一種通用執(zhí)行驅(qū)動引擎,可協(xié)助大數(shù)據(jù)分析。它能讀取手寫代碼數(shù)據(jù),對其進行并行自動處理,并將結(jié)果映射到單一集合中。然而我們需要明確一點,MapReduce自身并不進行分析工作。

  Russom說:“MapReduce可以看作是升級版的MPP架構(gòu)。你無論怎樣編寫代碼,它都可以把它們并行化,非常強大。”

  事實8:Hadoop的意義不僅僅在于數(shù)據(jù)量,更在于數(shù)據(jù)的多樣化。

  有人把Hadoop歸類為海量數(shù)據(jù)處理技術(shù),但是Hadoop真正的價值卻是對多樣化數(shù)據(jù)處理的能力。

  Russom說:“Hadoop的處理范圍為大多數(shù)數(shù)據(jù)倉庫所不及,比如針對半結(jié)構(gòu)化與完全非結(jié)構(gòu)化的數(shù)據(jù)。”

  事實9:Hadoop是數(shù)據(jù)倉庫的補充,不是數(shù)據(jù)倉庫的替代品。

  Hadoop對多樣化數(shù)據(jù)類型進行管理的能力使得“數(shù)據(jù)倉庫將死”的言論四起,然而Russom卻進行了反駁。

  他反問道:“在IT領(lǐng)域,人們多久替換一項技術(shù)?幾乎從來沒有過。”

  數(shù)據(jù)倉庫在其領(lǐng)域中的性能仍然出色,Hadoop可起到對數(shù)據(jù)倉庫技術(shù)進行補充的作用。數(shù)據(jù)倉庫和其他系統(tǒng)的架構(gòu)越來越多地開始向分布式靠攏,Hadoop在這里將發(fā)揮其作用。

  事實10:Hadoop不僅僅是Web分析。

  Hadoop在互聯(lián)網(wǎng)中的運用非常普遍,Russom認(rèn)為Hadoop普及趨勢的部分原因是因為它可以處理更多類型的分析。

  Russom舉了鐵路公司、機器人和零售業(yè)的例子。鐵路公司可使用傳感器對異常高溫的軌道車輛進行探測,以阻止事故的發(fā)生。

  Russom盡管十分看好Hadoop的前景,但同時認(rèn)為它的普及還需要數(shù)年時間。

  事實11:大數(shù)據(jù)不一定非Hadoop不可。

  別看現(xiàn)在大數(shù)據(jù)和Hadoop已經(jīng)密不可分,Russom卻認(rèn)為Hadoop并不是大數(shù)據(jù)的“唯一”。他提到了許多其他廠商的產(chǎn)品,如Teradata、Sybase IQ(被SAP收購)和Vertica(被HP收購)等。

  除此之外,在Hadoop沒有誕生之時,一些企業(yè)就已經(jīng)開始研究大數(shù)據(jù)了。例如,電信行業(yè)多年以前就有呼叫明細(xì)記錄。

  事實12:Hadoop不是“免費午餐”。

  雖然Hadoop屬于開源技術(shù),但是軟件的安裝部署是需要花錢的。Russom稱,由于Hadoop在管理工具與支持服務(wù)方面的不足,企業(yè)在使用過程中很容易產(chǎn)生額外費用。另外,由于它沒有優(yōu)化程序,我們只能請專業(yè)人士在運行環(huán)境中手寫輸入代碼,而這些專業(yè)人士的薪酬價碼都不菲。

  更不用提部署Hadoop集群的硬件和相關(guān)配置的成本。

  他說:“千萬別以為Hadoop是免費的或者很便宜,它背后的隱性開銷你是一下子看不到的。”

責(zé)任編輯:黃丹 來源: TechTarget中國
相關(guān)推薦

2017-11-16 18:48:48

Hadoop數(shù)據(jù)庫數(shù)據(jù)處理

2016-04-18 10:25:53

DevOps自動化

2024-09-23 14:46:24

2010-07-02 13:12:12

Meego開發(fā)

2020-09-21 06:08:00

惡意軟件網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2017-02-06 13:52:05

Docker

2014-07-24 09:39:52

Android L

2020-05-22 16:05:56

UbuntuLinux物聯(lián)網(wǎng)

2023-02-15 14:07:03

2016-05-12 10:55:46

UbuntuUnity 8效率

2011-10-19 07:58:50

2021-05-19 09:40:14

Android 12Android

2021-04-29 16:05:14

加密貨幣數(shù)字資產(chǎn)以太坊

2011-12-31 10:12:10

2023-01-28 08:34:59

2012-04-24 09:49:13

手機購物

2019-11-28 08:23:14

容器Kubernetes編排

2022-11-04 15:56:41

2017-09-06 08:04:49

2024-05-28 14:45:00

點贊
收藏

51CTO技術(shù)棧公眾號