偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)與Hadoop之間的關系

運維 系統(tǒng)運維 Hadoop
大數(shù)據(jù),一種新興的數(shù)據(jù)挖掘技術,它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術一旦進入超級計算時代,很快便可應用于普通企業(yè),在遍地開花的過程中,它將改變許多行業(yè)業(yè)務經營的模式。但是很多人對大數(shù)據(jù)存在誤解,下面就來縷一縷大數(shù)據(jù)與Hadoop之間的關系。

我們都聽過這個預測:到2020年,電子數(shù)據(jù)存儲量將在2009年的基礎上增加44倍,達到35萬億GB。根據(jù)IDC數(shù)據(jù)顯示,截止到2010年,這個數(shù)字已經達到了120萬PB,或1.2ZB。如果把所有這些數(shù)據(jù)都存入DVD光盤,光盤高度將等同于從地球到月球的一個來回也就是大約 480,000英里。

  對于那些喜歡杞人憂天的人來說,這是數(shù)據(jù)存儲的末日即將到來的不祥預兆。而對于機會主義者們而言,這就好比是個信息金礦,隨著技術的進步,金礦開采會變得越來越容易。

  走進大數(shù)據(jù),一種新興的數(shù)據(jù)挖掘技術,它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術一旦進入超級計算時代,很快便可應用于普通企業(yè),在遍地開花的過程中,它將改變許多行業(yè)業(yè)務經營的模式。

  在計算機世界里,大數(shù)據(jù)被定義為一種使用非傳統(tǒng)的數(shù)據(jù)過濾工具,對大量有序或無序數(shù)據(jù)集合進行的挖掘過程,它包括但不僅限于分布式計算(Hadoop)。

  大數(shù)據(jù)已經站在了數(shù)據(jù)存儲宣傳的風口浪尖,也存在著大量不確定因素,這點上非常像“云”。我們請教了一些分析人士和大數(shù)據(jù)愛好者,請他們解釋一下大數(shù)據(jù)究竟是什么,以及它對于未來數(shù)據(jù)存儲的意義。

  大數(shù)據(jù)走進歷史舞臺

  適用于企業(yè)的大數(shù)據(jù)已經出現(xiàn),這在部分程度上要歸功于計算能耗的降低以及系統(tǒng)已具備執(zhí)行多重處理的能力這樣一個事實。而且隨著主存儲器成本的不斷下降,和過去相比,公司可以將更多的數(shù)據(jù)存到存儲器中。并且,將多臺計算機連到服務器集群也變得更容易了。這三個變化加在一起成就了大數(shù)據(jù),IDC 數(shù)據(jù)庫管理分析師Carl Olofson如是說。

  “我們不僅要把這些事情做好,還要能承受得起相應的開支”,他說。 “過去的某些超級計算機也具有執(zhí)行系統(tǒng)多重處理的能力,(這些系統(tǒng)緊密相連,形成了一個集群)但因為要使用專門的硬件,它的成本高達幾十萬美元甚至更多。”現(xiàn)在我們可以使用普通硬件完成相同的配置。正因為這樣,我們能更快更省得處理更多數(shù)據(jù)。"

  大數(shù)據(jù)技術還沒有在有大型數(shù)據(jù)倉庫的公司中得到廣泛普及。IDC認為,想讓大數(shù)據(jù)技術得到認可,首先技術本身一定要足夠便宜,然后,必須滿足IBM稱之為3V標準中的2V,即:類型(variety),量(volume)和速度(velocity)。

  種類要求指的是待存儲數(shù)據(jù)的類型分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。量是指存儲和分析的數(shù)據(jù)量可以很龐大。 “數(shù)據(jù)量不只是幾百TB,”

  Olofson說: “要視具體情況而定,因為速度和時間的關系,有時幾百GB可能就算很多了。如果我現(xiàn)在一秒能完成過去要花一小時才能完成的300GB的數(shù)據(jù)分析,那結果將大為不同。大數(shù)據(jù)就是這樣一種技術,它可以滿足這三個要求中的至少兩個,并且普通企業(yè)也能夠部署。”

  關于大數(shù)據(jù)的三大誤解

  對于大數(shù)據(jù)是什么以及大數(shù)據(jù)能干什么存在很多誤會。下面就是有關大數(shù)據(jù)的三個誤解:

  1、關系數(shù)據(jù)庫無法大幅增容,因此不能被認為是大數(shù)據(jù)技術(不對)

  2、無需考慮工作負載或具體使用情況,Hadoop或以此類推的任何MapReduce都是大數(shù)據(jù)的最佳選擇。(也不對)

  3、圖解式管理系統(tǒng)時代已經結束。圖解的發(fā)展只會成為大數(shù)據(jù)應用的攔路虎。(可笑的錯誤)

  大數(shù)據(jù)與開源的關系

  “很多人認為Hadoop和大數(shù)據(jù)基本上是一個意思。這是錯誤的,”Olofson說。并解釋道: Teradata, MySQL和“智能聚合技術”的某些安裝啟用都用不到Hadoop,但它們也可以被認為是大數(shù)據(jù)。

  Hadoop是一種用于大數(shù)據(jù)的應用程序,因為它是建立在MapReduce基礎上的,所以引起了極大的關注。(MapReduce是一種用于超級計算的普通方法,之后經過了主要由Google資助的一個項目的優(yōu)化,因此被簡化并變得考究了。) Hadoop是幾個緊密關聯(lián)的Apache項目組成的混合體的主要安裝啟用程序,其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫。

  為了充分利用Hadoop和類似的先進技術,軟件開發(fā)商們絞盡腦汁研發(fā)出了各種各樣的技術,其中很多都是在開源社區(qū)里開發(fā)出來的。

  Olofson 說“他們已經開發(fā)出了大量的所謂noSQL數(shù)據(jù)庫,種類之多讓人眼花繚亂,其中大部分都是鍵值配對數(shù)據(jù)庫,能利用多種技術對性能或種類或容量進行優(yōu)化。”

  開源技術還沒有得到商業(yè)支持。“所以在這方面還需要經過一段時間的發(fā)展完善,這一過程可能需要幾年?;谶@個原因,大數(shù)據(jù)可能需要一些時日才能在市場上走向成熟”他補充道。

  據(jù)IDC預計,年內至少有三家商業(yè)公司能以某種方式給予Hadoop支持。同時,包括Datameer 在內的幾家企業(yè)將發(fā)布配有Hadoop組件的分析工具,這種工具能幫助企業(yè)開發(fā)自己的應用程序。Cloudera和Tableau公司的產品清單里已經出現(xiàn)了Hadoop。

責任編輯:黃丹 來源: IT168
相關推薦

2015-08-03 10:20:39

大數(shù)據(jù)Hadoop

2021-07-13 19:33:41

大數(shù)據(jù)云計算

2020-04-03 15:22:49

Hadoop數(shù)據(jù)倉庫數(shù)據(jù)庫

2016-08-03 15:10:03

2019-03-12 11:12:50

大數(shù)據(jù)HadoopSpark

2018-09-30 15:55:56

2017-08-01 14:51:45

人工智能大數(shù)據(jù)深度學習

2021-01-14 12:17:52

大數(shù)據(jù)數(shù)據(jù)分析技術

2015-08-31 11:20:08

大數(shù)據(jù)

2015-09-01 14:06:24

hadoop大數(shù)據(jù)趨勢

2014-08-06 09:00:55

2018-09-07 18:25:47

2021-12-02 22:41:10

區(qū)塊鏈大數(shù)據(jù)數(shù)據(jù)安全

2018-08-14 05:05:25

2019-07-22 10:45:31

2022-03-14 09:46:10

Hadoop大數(shù)據(jù)

2020-05-12 16:58:05

LinuxUnix技術

2023-08-30 11:35:29

大數(shù)據(jù)分析數(shù)據(jù)驅動

2016-12-20 18:21:29

Hadoop大數(shù)據(jù)面試

2013-01-14 09:54:31

大數(shù)據(jù)SQLHadoop
點贊
收藏

51CTO技術棧公眾號