偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)計(jì)算:Hadoop的前世今生

云計(jì)算 Hadoop
大數(shù)據(jù)計(jì)算我們把它理解成為一個(gè)什么事情呢?目前現(xiàn)在這個(gè)時(shí)代通信、網(wǎng)絡(luò)等等這些電子信息技術(shù)發(fā)展,使數(shù)據(jù)規(guī)模得到了極大的增加。

包括以下四個(gè)方面內(nèi)容:

***,大數(shù)據(jù)計(jì)算的背景和問題

第二,介紹Hadoop這個(gè)軟件是一個(gè)什么樣的東西

第三,我們?cè)谶@方面做的一些工作

第四,實(shí)際應(yīng)用案例

大數(shù)據(jù)計(jì)算我們把它理解成為一個(gè)什么事情呢?目前現(xiàn)在這個(gè)時(shí)代通信、網(wǎng)絡(luò)等等這些電子信息技術(shù)發(fā)展,使數(shù)據(jù)規(guī)模得到了極大的增加。剛才蔣先生也提到了2011年整個(gè)全球產(chǎn)生的數(shù)據(jù)量達(dá)到1.8ZT,這樣的數(shù)據(jù)量為傳統(tǒng)的處理數(shù)據(jù)的技術(shù)提出了挑戰(zhàn)。傳統(tǒng)的技術(shù)處理不了這樣規(guī)模大的數(shù)據(jù)量。所以現(xiàn)在提到了,企業(yè)里怎么樣才能把數(shù)據(jù)變成價(jià)值?以前我們都說叫業(yè)務(wù)為王,現(xiàn)在這個(gè)時(shí)代,我認(rèn)為它已經(jīng)轉(zhuǎn)換到了以數(shù)據(jù)為王的時(shí)代。

這兒有一個(gè)例子,如果我們要處理100TB的數(shù)據(jù),如果用一臺(tái)機(jī)器處理的話,假設(shè)每秒鐘掃描50兆,需要35000分鐘,用1000臺(tái)機(jī)器干這個(gè)事可以縮到35分鐘,這說明這么大的數(shù)據(jù)只能用多機(jī)分布并行的方式處理才能夠把時(shí)間大大的縮短。在應(yīng)用領(lǐng)域,比如說數(shù)據(jù)倉庫、日志分析、用戶行為分析、在線行為分析,這些都屬于大數(shù)據(jù)應(yīng)用計(jì)算的應(yīng)用領(lǐng)域。數(shù)據(jù)的一些具體問題這里有一些數(shù)字,去年Facebook已經(jīng)有6億用戶,現(xiàn)在這個(gè)數(shù)字已經(jīng)變成9億了,每個(gè)月這些人上傳照片10億,每天產(chǎn)生300TB的數(shù)據(jù),所以什么樣的公司能承受這樣的數(shù)據(jù)量?它一定有自己的辦法。

國內(nèi)淘寶大概有3.7億會(huì)員,商品是8.8億,每天交易近1000萬筆,每天會(huì)產(chǎn)生20TB數(shù)據(jù)。從總的全球數(shù)據(jù)增長趨勢(shì)看,我們現(xiàn)在2010年是1.8, 20年后會(huì)增大44倍。60%創(chuàng)造的數(shù)據(jù)會(huì)因?yàn)闆]有辦法存儲(chǔ)而丟失,所以整個(gè)挑戰(zhàn)就是數(shù)據(jù)報(bào)帳對(duì)存儲(chǔ)效率都會(huì)提出一個(gè)挑戰(zhàn)。

***個(gè)矛盾就是數(shù)據(jù)的增長太快了,但是想一想,我們?nèi)绻氚堰@些東西存儲(chǔ)下來必須要有機(jī)器,必須要盤陣等等一系列的東西。等你發(fā)現(xiàn)數(shù)據(jù)中心擴(kuò)容中心和數(shù)據(jù)增長的速度相比較而言不匹配的時(shí)候,就會(huì)產(chǎn)生一個(gè)很劇烈的矛盾。我們?cè)诤虵acebook做一些合作的時(shí)候,09年的時(shí)候他們出現(xiàn)了這樣的問題,老的數(shù)據(jù)已經(jīng)滿了,新的數(shù)據(jù)正在建還沒有建好,這樣的空檔期所有的數(shù)據(jù)都有可能被扔掉。大家知道互聯(lián)網(wǎng)企業(yè)對(duì)數(shù)據(jù)價(jià)值很重視,所以我們合作的時(shí)候發(fā)明了一項(xiàng)新技術(shù),使得它在原有600臺(tái)機(jī)器的情況下平滑的遷移。

第二個(gè)是業(yè)務(wù)深度不斷加強(qiáng)。但是現(xiàn)在處理性能和處理技術(shù)跟不上。我希望從大數(shù)據(jù)里挖掘更有價(jià)值的東西但是沒有“金剛鉆”,所以歸結(jié)起來大家看到的矛盾就是這兩方面的矛盾。

解決這個(gè)問題的思路就是我先要能存下來這些數(shù)據(jù),要盡量多的存更多的數(shù)據(jù)。第二個(gè)思路就是怎么能夠加快海量數(shù)據(jù)計(jì)算的速度和性能。舉一個(gè)例子Facebook的09年的例子,(PPT)紅框里是核心業(yè)務(wù),最核心的是Hadoop,這是一個(gè)很大規(guī)模的集群,09年的時(shí)候大概是600到1000臺(tái)的規(guī)模,現(xiàn)在規(guī)模更大了。Hadoop就是把所有的數(shù)據(jù)全部存到這個(gè)集群里,這個(gè)集群不光是存儲(chǔ),它是一臺(tái)一臺(tái)的機(jī)器,利用每臺(tái)機(jī)器硬盤存儲(chǔ)空間存儲(chǔ)數(shù)據(jù)。這些數(shù)據(jù)包括哪些?***用戶的信息、前端服務(wù)器和用戶信息服務(wù)器和所有的日志就是用戶在上面點(diǎn)擊產(chǎn)生的數(shù)據(jù)都會(huì)放到Hadoop集群里。放到這里干什么用呢?就是要挖掘關(guān)聯(lián)關(guān)系,分析用戶行為。

比如說舉一個(gè)簡單的例子,我通過用戶日志的分析能夠判別你的偏好,你喜歡哪些方面的內(nèi)容?或者說你本人是什么性別、年齡段,都可以通過這種方式分析。所以可想而知,這些數(shù)據(jù)對(duì)于像Facebook這樣的互聯(lián)網(wǎng)公司是多么的重要。這些數(shù)據(jù)除了直接可以在上面做分析以外,還可以給BI工具提供一個(gè)輸入。這是09年的架構(gòu)。這個(gè)架構(gòu)到現(xiàn)在為止應(yīng)該有一些變化,但是Hadoop核心定位是沒有變的。包括國內(nèi)一些大的很著名的互聯(lián)網(wǎng)公司都借鑒了這樣的架構(gòu)。所以可想而知Hadoop在互聯(lián)網(wǎng)公司的作用是多么的重要。

下面講一下Hadoop的來源。Hadoop 是Doug做的這么一個(gè)軟件,02年他打算做一個(gè)網(wǎng)頁檢索軟件,沒有任何思路。03年Google發(fā)表了兩篇論文,他受到這兩篇論文的啟發(fā),把這兩篇論文主要的思想借鑒過來,形成了現(xiàn)在的Hadoop的雛形。06年的時(shí)候他命名這套軟件是Hadoop,這套軟件最早開始的是06年開始的。08年的時(shí)候Hadoop軟件成為了Apache的基金項(xiàng)目,雅虎在后面支撐這個(gè)軟件的開發(fā)。Hadoop它有一些特點(diǎn),是全部用JAVA來寫的,它可以跑在我們常見的商用的高故障率的服務(wù)器上甚至PC上。

雅虎內(nèi)部人告訴我說說Hadoop是繼Linux以來最成功的開源軟件。Hadoop組成部分,包括克隆了Google的GISI系統(tǒng),包括克隆了并行計(jì)算框架,上面有很多不同的組成部分。它上面有MapReduce它可以提供一個(gè)接口,DBA可以利用這個(gè)接口寫數(shù)據(jù)處理。此外還有多其他的組成部分,整個(gè)這樣一套東西叫Hadoop。目前現(xiàn)在看起來這些所有上的東西都一個(gè)一個(gè)逐漸的變成了一些Apache的***項(xiàng)目了,但是我們通常把這一套叫Hadoop。

Hadoop HDFS體系結(jié)構(gòu):

它是多集群處理,利用每個(gè)機(jī)器硬盤處理。它的數(shù)據(jù)分成塊,這些塊是有副本的,這些副本是存在不同的機(jī)器上的。為什么要這么做呢?就是因?yàn)橛布锌赡艹龉收希绻布龉收弦院蟠鎯?chǔ)在機(jī)器上的這個(gè)塊不可用了,但是因?yàn)橐哺北?,所以其他機(jī)器上可以把相應(yīng)的塊拿出來用,所以整個(gè)系統(tǒng)可靠性非常高。

第二個(gè)就是處理流程。處理流程是兩個(gè)計(jì)算過程。***個(gè)計(jì)算過程相當(dāng)于分配任務(wù),我可以把任務(wù)分幾百萬分,分到很多機(jī)器上去算,計(jì)算完了以后有一個(gè)歸約過程,把中間結(jié)果再歸約處理,***得出結(jié)果。這種處理方向很適合做文本處理。再講一下我們做的實(shí)際工作:

我們做的工作是跟Facebook的合作,就是叫行列混合式數(shù)據(jù)存儲(chǔ)技術(shù),英文是RCFile。大家知道關(guān)系數(shù)據(jù)是一張表,這個(gè)表怎么存到硬盤上?有很多種不同的格式,我們選取的格式希望有利于節(jié)省存儲(chǔ)空間。比他們先進(jìn)的地方就在于,我們用的是行列混合式,既不是行式,也不是列式,是混合在一起。這樣比純粹行存儲(chǔ)節(jié)省20%的空間。比如他們?cè)瓉?00臺(tái)機(jī)器存不下了,用這個(gè)模式就存下了。比純粹列式要節(jié)省23%。

第二個(gè)技術(shù)是CCIndex技術(shù),這個(gè)技術(shù)是希望在數(shù)據(jù)模型中間取一個(gè)折中,讓數(shù)據(jù)庫有查詢的能力。它最終的效果就是,我們比它最傳統(tǒng)的二級(jí)索引快10倍。

下面講一個(gè)實(shí)際應(yīng)用:我們是和淘寶合作,這是淘寶的一個(gè)應(yīng)用,叫數(shù)據(jù)魔方,它能夠把所有交易數(shù)據(jù)拿出來,去到敏感的,拿給第三方看,相當(dāng)于是數(shù)據(jù)服務(wù)。這個(gè)界面是淘寶網(wǎng)女裝行業(yè),一個(gè)月成交金額是35億6千萬人民幣,平均單價(jià)是179塊錢。我們做的工作是什么呢?我們做的工作主要是在硬件規(guī)模保持不變的前提下,把系統(tǒng)處理的數(shù)據(jù)時(shí)效范圍從7天擴(kuò)大到3個(gè)月,數(shù)據(jù)量是幾個(gè)TB,這些數(shù)據(jù)中我們要實(shí)時(shí)的算出來,比如總金額、平均單價(jià),平均件數(shù)等都要實(shí)時(shí)的算出來。對(duì)比之前的數(shù)據(jù),大概處理數(shù)據(jù)規(guī)模增大了一個(gè)數(shù)量級(jí),而延遲甚至比原來的小。

總結(jié):大數(shù)據(jù)計(jì)算技術(shù)的發(fā)展趨勢(shì)就是三個(gè)字“大、快、準(zhǔn)”,我們目前處在的階段是“快”階段,“準(zhǔn)”這個(gè)事目前還沒有太好的技術(shù)能夠出現(xiàn)。

第二個(gè)就是數(shù)據(jù)計(jì)算模式是有變化的,以前是以計(jì)算為中心,以機(jī)器為中心,現(xiàn)在以數(shù)據(jù)為中心。在這樣的變化前提下,很多新的技術(shù)涌現(xiàn)出來,比如說Hadoop。出現(xiàn)了這些新的技術(shù),新的市場也會(huì)出現(xiàn)。目前看起來一些大的軟件廠商,比如說Oracle,它直接在它的Big Data里內(nèi)嵌了一個(gè)Hadoop做大數(shù)據(jù)處理。這些廠商也在關(guān)注Hadoop軟件。

第三,數(shù)據(jù)規(guī)模對(duì)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的技術(shù)提出了挑戰(zhàn)。關(guān)系型數(shù)據(jù)庫技術(shù)也在經(jīng)歷一些變革。NoSQL技術(shù)是對(duì)關(guān)系數(shù)據(jù)庫的一個(gè)有利補(bǔ)充,這是實(shí)際需求導(dǎo)致的結(jié)果。實(shí)際需求就是量太大了,但是功能并不像SQL那么全,我只需要一個(gè)子集,這樣技術(shù)可以簡化,NoSQL技術(shù)比關(guān)系數(shù)據(jù)庫技術(shù)要簡單,但是它的價(jià)值取向是快,是可以擴(kuò)展的,性能要好。

責(zé)任編輯:芳馨 來源: IT168
相關(guān)推薦

2016-12-29 18:21:01

2016-08-01 10:57:50

2024-01-19 08:04:13

2014-07-30 10:55:27

2015-11-18 14:14:11

OPNFVNFV

2025-02-12 11:25:39

2011-08-23 09:52:31

CSS

2011-05-13 09:43:27

產(chǎn)品經(jīng)理PM

2015-06-11 11:10:09

對(duì)象存儲(chǔ)云存儲(chǔ)

2019-08-05 10:08:25

軟件操作系統(tǒng)程序員

2021-04-15 07:01:28

區(qū)塊鏈分布式DLT

2013-11-14 16:03:23

Android設(shè)計(jì)Android Des

2019-04-28 09:34:06

2022-11-07 14:23:35

RPA人工智能流程自動(dòng)化管理

2014-07-15 10:31:07

asyncawait

2014-07-21 12:57:25

諾基亞微軟裁員

2016-12-29 13:34:04

阿爾法狗圍棋計(jì)算機(jī)

2021-06-17 07:08:19

Tapablewebpack JavaScript

2013-05-23 16:23:42

Windows Azu微軟公有云

2019-06-04 09:00:07

Jenkins X開源開發(fā)人員
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)