偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于Hadoop大數(shù)據(jù)分析應(yīng)用場(chǎng)景與實(shí)戰(zhàn)

數(shù)據(jù)庫(kù) 數(shù)據(jù)分析 Hadoop
為了滿(mǎn)足日益增長(zhǎng)的業(yè)務(wù)變化,京東的京麥團(tuán)隊(duì)在京東大數(shù)據(jù)平臺(tái)的基礎(chǔ)上,采用了Hadoop等熱門(mén)的開(kāi)源大數(shù)據(jù)計(jì)算引擎,打造了一款為京東運(yùn)營(yíng)和產(chǎn)品提供決策性的數(shù)據(jù)類(lèi)產(chǎn)品-北斗平臺(tái)。

[[204025]]

為了滿(mǎn)足日益增長(zhǎng)的業(yè)務(wù)變化,京東的京麥團(tuán)隊(duì)在京東大數(shù)據(jù)平臺(tái)的基礎(chǔ)上,采用了Hadoop等熱門(mén)的開(kāi)源大數(shù)據(jù)計(jì)算引擎,打造了一款為京東運(yùn)營(yíng)和產(chǎn)品提供決策性的數(shù)據(jù)類(lèi)產(chǎn)品-北斗平臺(tái)。

一、Hadoop的應(yīng)用業(yè)務(wù)分析

大數(shù)據(jù)是不能用傳統(tǒng)的計(jì)算技術(shù)處理的大型數(shù)據(jù)集的集合。它不是一個(gè)單一的技術(shù)或工具,而是涉及的業(yè)務(wù)和技術(shù)的許多領(lǐng)域。

目前主流的三大分布式計(jì)算系統(tǒng)分別為:Hadoop、Spark和Strom:

  • Hadoop當(dāng)前大數(shù)據(jù)管理標(biāo)準(zhǔn)之一,運(yùn)用在當(dāng)前很多商業(yè)應(yīng)用系統(tǒng)??梢暂p松地集成結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化數(shù)據(jù)集。
  • Spark采用了內(nèi)存計(jì)算。從多迭代批處理出發(fā),允許將數(shù)據(jù)載入內(nèi)存作反復(fù)查詢(xún),此外還融合數(shù)據(jù)倉(cāng)庫(kù),流處理和圖形計(jì)算等多種計(jì)算范式。Spark構(gòu)建在HDFS上,能與Hadoop很好的結(jié)合。它的RDD是一個(gè)很大的特點(diǎn)。
  • Storm用于處理高速、大型數(shù)據(jù)流的分布式實(shí)時(shí)計(jì)算系統(tǒng)。為Hadoop添加了可靠的實(shí)時(shí)數(shù)據(jù)處理功能

Hadoop是使用Java編寫(xiě),允許分布在集群,使用簡(jiǎn)單的編程模型的計(jì)算機(jī)大型數(shù)據(jù)集處理的Apache的開(kāi)源框架。 Hadoop框架應(yīng)用工程提供跨計(jì)算機(jī)集群的分布式存儲(chǔ)和計(jì)算的環(huán)境。 Hadoop是專(zhuān)為從單一服務(wù)器到上千臺(tái)機(jī)器擴(kuò)展,每個(gè)機(jī)器都可以提供本地計(jì)算和存儲(chǔ)。

Hadoop適用于海量數(shù)據(jù)、離線(xiàn)數(shù)據(jù)和負(fù)責(zé)數(shù)據(jù),應(yīng)用場(chǎng)景如下:

場(chǎng)景1:數(shù)據(jù)分析,如京東海量日志分析,京東商品推薦,京東用戶(hù)行為分析

場(chǎng)景2:離線(xiàn)計(jì)算,(異構(gòu)計(jì)算+分布式計(jì)算)天文計(jì)算

場(chǎng)景3:海量數(shù)據(jù)存儲(chǔ),如京東的存儲(chǔ)集群

基于京麥業(yè)務(wù)三個(gè)實(shí)用場(chǎng)景

  • 京麥用戶(hù)分析
  • 京麥流量分析
  • 京麥訂單分析

都屬于離線(xiàn)數(shù)據(jù),決定采用Hadoop作為京麥數(shù)據(jù)類(lèi)產(chǎn)品的數(shù)據(jù)計(jì)算引擎,后續(xù)會(huì)根據(jù)業(yè)務(wù)的發(fā)展,會(huì)增加Storm等流式計(jì)算的計(jì)算引擎,下圖是京麥的北斗系統(tǒng)架構(gòu)圖:

 

(圖一)京東北斗系統(tǒng)

二、淺談Hadoop的基本原理

Hadoop分布式處理框架核心設(shè)計(jì)

  • HDFS :(Hadoop Distributed File System)分布式文件系統(tǒng)
  • MapReduce: 是一種計(jì)算模型及軟件架構(gòu)

2.1 HDFS

HDFS(Hadoop File System),是Hadoop的分布式文件存儲(chǔ)系統(tǒng)。

將大文件分解為多個(gè)Block,每個(gè)Block保存多個(gè)副本。提供容錯(cuò)機(jī)制,副本丟失或者宕機(jī)時(shí)自動(dòng)恢復(fù)。默認(rèn)每個(gè)Block保存3個(gè)副本,64M為1個(gè)Block。將Block按照key-value映射到內(nèi)存當(dāng)中。

 

(圖二)數(shù)據(jù)寫(xiě)入HDFS

 

(圖三)HDFS讀取數(shù)據(jù)

2.2 MapReduce

MapReduce是一個(gè)編程模型,封裝了并行計(jì)算、容錯(cuò)、數(shù)據(jù)分布、負(fù)載均衡等細(xì)節(jié)問(wèn)題。MapReduce實(shí)現(xiàn)最開(kāi)始是映射map,將操作映射到集合中的每個(gè)文檔,然后按照產(chǎn)生的鍵進(jìn)行分組,并將產(chǎn)生的鍵值組成列表放到對(duì)應(yīng)的鍵中?;?jiǎn)(reduce)則是把列表中的值化簡(jiǎn)成一個(gè)單值,這個(gè)值被返回,然后再次進(jìn)行鍵分組,直到每個(gè)鍵的列表只有一個(gè)值為止。這樣做的好處是可以在任務(wù)被分解后,可以通過(guò)大量機(jī)器進(jìn)行并行計(jì)算,減少整個(gè)操作的時(shí)間。但如果你要我再通俗點(diǎn)介紹,那么,說(shuō)白了,Mapreduce的原理就是一個(gè)分治算法。

算法:

MapReduce計(jì)劃分三個(gè)階段執(zhí)行,即映射階段,shuffle階段,并減少階段。

映射階段:映射或映射器的工作是處理輸入數(shù)據(jù)。一般輸入數(shù)據(jù)是在文件或目錄的形式,并且被存儲(chǔ)在Hadoop的文件系統(tǒng)(HDFS)。輸入文件被傳遞到由線(xiàn)映射器功能線(xiàn)路。映射器處理該數(shù)據(jù),并創(chuàng)建數(shù)據(jù)的若干小塊。

減少階段:這個(gè)階段是:Shuffle階段和Reduce階段的組合。減速器的工作是處理該來(lái)自映射器中的數(shù)據(jù)。處理之后,它產(chǎn)生一組新的輸出,這將被存儲(chǔ)在HDFS。 

 

(圖四)MapReduce

2.3 HIVE

hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢(xún)功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行,這套SQL 簡(jiǎn)稱(chēng)HQL。使不熟悉mapreduce 的用戶(hù)很方便的利用SQL 語(yǔ)言查詢(xún),匯總,分析數(shù)據(jù)。而mapreduce開(kāi)發(fā)人員可以把己寫(xiě)的mapper 和reducer 作為插件來(lái)支持Hive 做更復(fù)雜的數(shù)據(jù)分析。

 

(圖五)HIVE體系架構(gòu)圖

由上圖可知,hadoop和mapreduce是hive架構(gòu)的根基。Hive架構(gòu)包括如下組件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。

三、Hadoop走過(guò)來(lái)的那些坑

進(jìn)行HIVE操作的時(shí)候,HQL寫(xiě)的不當(dāng),容易造成數(shù)據(jù)傾斜,大致分為這么幾類(lèi):空值數(shù)據(jù)傾斜、不同數(shù)據(jù)類(lèi)型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜和Join的數(shù)據(jù)偏斜。只有理解了Hadoop的原理,熟練使用HQL,就會(huì)避免數(shù)據(jù)傾斜,提高查詢(xún)效率。 

責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2017-08-07 09:39:52

HBase大數(shù)據(jù)存儲(chǔ)

2019-03-27 15:35:35

大數(shù)據(jù)招聘互聯(lián)網(wǎng)

2021-09-06 15:39:00

大數(shù)據(jù)技術(shù)醫(yī)療

2019-05-05 09:03:06

HBase大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)

2013-09-09 15:55:12

SDN應(yīng)用場(chǎng)景

2015-09-25 10:39:16

大數(shù)據(jù)工具應(yīng)用場(chǎng)景

2017-01-22 16:25:01

大數(shù)據(jù)軟件工具應(yīng)用場(chǎng)景

2018-08-17 16:13:52

大數(shù)據(jù)工具分析

2015-08-14 10:28:09

大數(shù)據(jù)

2017-10-11 11:10:02

Spark Strea大數(shù)據(jù)流式處理

2019-03-20 08:44:52

大數(shù)據(jù)算法統(tǒng)計(jì)分布

2019-08-01 13:09:57

大數(shù)據(jù)分析建模信息化

2011-03-07 15:24:17

LBS

2010-08-31 19:45:26

DHCP server

2018-06-15 20:44:40

Hadoop數(shù)據(jù)分析數(shù)據(jù)

2021-03-08 08:48:02

應(yīng)用場(chǎng)景項(xiàng)目

2012-05-30 11:29:14

Hadoop大數(shù)據(jù)

2023-11-13 08:31:25

SpringRedis存儲(chǔ)

2011-09-02 10:59:02

大數(shù)據(jù)數(shù)據(jù)分析Hadoop

2013-04-28 10:01:28

HDInsightWindows AzuHadoop
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)