偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Hadoop之后:大數(shù)據(jù)的未來

大數(shù)據(jù) Hadoop
在實時數(shù)據(jù)世界里,為什么我們還這么執(zhí)著于Hadoop?

在實時數(shù)據(jù)世界里,為什么我們還這么執(zhí)著于Hadoop?

根據(jù)451 Research調(diào)查數(shù)據(jù)顯示,圍繞批處理架構的Hadoop仍然是大數(shù)據(jù)[注]的代表技術,盡管其聲譽仍然超過實際部署情況。

 Hadoop之后:大數(shù)據(jù)的未來

還沒有真正部署Hadoop的企業(yè)可能想要再等一等。而隨著Apache Spark等其他技術(Storm、Kafka等)的出現(xiàn),我們似乎與Hadoop的批處理漸行漸遠,逐漸轉向實時數(shù)據(jù)的未來。

批處理不是重點

Cloudera的Doug Cutting是一個非常聰明的人,也是開源開發(fā)人員,Hadoop、Lucene等大數(shù)據(jù)工具的開發(fā)都有他的功勞。

雖然Cutting承認實時流媒體技術的重要性,但他并沒有否認面向批處理的Hadoop的價值,他表示:

并不是因為我們覺得批處理是***的,所以Hadoop圍繞批處理而構建。批處理(特別是MapReduce)很自然是***步,因為它相對容易部署, 并提供很重要的價值。在Hadoop之前,沒有辦法使用開源軟件在商品硬件存儲和處理千兆字節(jié)。Hadoop的MapReduce是很大的進步。

我們很難說清楚大數(shù)據(jù)的商品化對這個世界的重要性。這并不是說在Hadoop之前我們沒有存儲和分析大量數(shù)據(jù),而是Hadoop讓我們非常廉價地實現(xiàn)這個過程。

總之,Hadoop民主化了大數(shù)據(jù)。

轉向流數(shù)據(jù)?

然而,Hadoop并沒有讓大數(shù)據(jù)分析變得容易。正如DataStax***布道者Patrick McFadin表示,從企業(yè)數(shù)據(jù)挖掘價值并沒有那么簡單:

我們都聽說過存儲和分析PB級數(shù)據(jù)的投資回報率的問題。谷歌、雅虎和Facebook都在從中創(chuàng)造驚人的價值,而大部分企業(yè)都在試圖研究如何分析所有數(shù)據(jù),***:收集所有數(shù)據(jù);第二:……;第三:利潤!

在數(shù)據(jù)收集和利潤之間有很多麻煩的步驟。隨著企業(yè)試圖加快對實時數(shù)據(jù)的分析能力,新技術為他們提供了可能。

McFadin發(fā)現(xiàn)了這個新大數(shù)據(jù)堆棧的關鍵要素。首先是一個排隊系統(tǒng),Kafka、RabbitMQ和Kinesis等。然后是流處理層,這可能 包括Storm、Spark Streaming或者Samza。對于高速存儲,企業(yè)經(jīng)常轉向Cassandra、HBase、MongoDB或者MySQL等關系型數(shù)據(jù)庫。

最有趣的是批處理仍然有用武之地。McFadin表示,批處理現(xiàn)在可用于處理,即匯總和更深入的分析。批處理和實時的融合被稱為“Lambda架構”,這涉及讓三個元素和諧地共處:批處理、速度和服務。

換句話說,批處理仍然有用。

淘汰批處理

但并不是每個人都同意。Zoomdata公司***執(zhí)行官和聯(lián)合創(chuàng)始人Justin Langseth認為Lambda是“不必要的”,并稱,“現(xiàn)在有端到端工具可以從采購、運輸、存儲到分析和可視化來處理數(shù)據(jù),而不需要批處理”。

在他看來,批處理是大數(shù)據(jù)過去的遺留物:

實時數(shù)據(jù)顯然***應該作為流來處理,而且還可以加載歷史數(shù)據(jù),正如你的DVR可以加載電影《飄》或者上周的電視節(jié)目《美國偶像》到你的電視。這種區(qū)別很重要,Zoomdata認為將數(shù)據(jù)作為流來分析可以增加可擴展性和靈活性,而無論數(shù)據(jù)是實時還是歷史數(shù)據(jù)。

然而,超越可擴展性和靈活性好處的可能是將批處理從大數(shù)據(jù)過程移除所帶來的簡單性。Langseth認為,“當你不需要擔心批處理窗口以及從批處理故障中恢復時,這可以極大地簡化大數(shù)據(jù)架構。”

流分析取代Hadoop?

Cutting稱,還沒有那么快。

Cutting認為未來Hadoop等技術并不會完全被淘汰,流分析會得以發(fā)展,Cloudera的Enterprise Data Hub也是一樣。事實上,他不認為會廣泛轉向流分析,而是為大家?guī)砹擞忠环N選擇。

更有趣的是,大數(shù)據(jù)的大爆炸會讓行業(yè)催生出一些好方法來應對數(shù)據(jù)處理。

我認為我們不會再那么頻繁地看到Spark這樣的主要技術增加,隨著時間的推移,我們將會標準化這些工具,為大多數(shù)人提供功能來滿足其大數(shù)據(jù)應用需求。Hadoop帶來了技術爆炸,但我們可能會進入比較正常的演化過程,在各行業(yè)廣泛使用這些技術。

DataStax社區(qū)經(jīng)理Scott Hirleman同意說:“批處理并不會消失,總是會需要對大量數(shù)據(jù)的大規(guī)模分析。”現(xiàn)在大家對流分析有極大的興趣,但稱現(xiàn)在還不清楚這種趨勢對大數(shù)據(jù)計劃的影響。

總之,流分析完全是關于“和”,而不是“或者”,這是對圍繞批處理系統(tǒng)(例如Hadoop)的很好的補充,但這肯定不會完全取代Hadoop。

責任編輯:王雪燕 來源: 36大數(shù)據(jù)
相關推薦

2019-08-06 14:18:33

Hadoop大數(shù)據(jù)數(shù)據(jù)分析

2017-05-01 22:54:01

Hadoop大數(shù)據(jù)開源

2012-11-07 13:31:53

Hadoop大數(shù)據(jù)

2015-03-31 09:28:28

Hadoop大數(shù)據(jù)技術大數(shù)據(jù)未來道路

2016-02-16 14:30:00

HadoopDoug Cuttin大數(shù)據(jù)

2021-10-28 16:36:32

大數(shù)據(jù)數(shù)據(jù)分析大數(shù)據(jù)平臺

2014-06-17 09:44:30

Hadoop

2016-06-16 17:13:59

Hadoop

2014-06-16 16:07:37

大數(shù)據(jù)商業(yè)

2016-12-20 18:21:29

Hadoop大數(shù)據(jù)面試

2015-09-18 14:07:34

O'Reilly Me

2012-12-12 09:41:51

大數(shù)據(jù)論壇

2016-12-23 08:48:38

大數(shù)據(jù)集成分析

2021-05-10 09:40:02

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)應用

2023-04-03 14:25:08

大數(shù)據(jù)機器學習

2013-05-06 10:22:28

大數(shù)據(jù)Hadoop

2021-04-12 09:35:23

大數(shù)據(jù)據(jù)分析數(shù)據(jù)

2012-05-31 14:54:59

Hadoop大數(shù)據(jù)

2012-06-29 09:19:39

大數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號