偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sup id="kyeo6"><rt id="kyeo6"><form id="kyeo6"></form></rt></sup>

<cite id="kyeo6"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Hive的查詢注意事項(xiàng)以及優(yōu)化總結(jié)

作者：數(shù)據(jù)為王 2017-04-06 09:49:55

大數(shù)據(jù)

Hive是將符合SQL語(yǔ)法的字符串解析生成可以在Hadoop上執(zhí)行的MapReduce的工具。使用Hive盡量按照分布式計(jì)算的一些特點(diǎn)來(lái)設(shè)計(jì)sql，和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)有區(qū)別，所以需要去掉原有關(guān)系型數(shù)據(jù)庫(kù)下開(kāi)發(fā)的一些固有思維。

Hive是將符合SQL語(yǔ)法的字符串解析生成可以在Hadoop上執(zhí)行的MapReduce的工具。使用Hive盡量按照分布式計(jì)算的一些特點(diǎn)來(lái)設(shè)計(jì)sql，和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)有區(qū)別，所以需要去掉原有關(guān)系型數(shù)據(jù)庫(kù)下開(kāi)發(fā)的一些固有思維。

基本原則：

1：盡量盡早地過(guò)濾數(shù)據(jù)，減少每個(gè)階段的數(shù)據(jù)量,對(duì)于分區(qū)表要加分區(qū)，同時(shí)只選擇需要使用到的字段

select ... from A 
 
join B 
 
on A.key = B.key 
 
where A.userid>10 
 
     and B.userid<10 
 
        and A.dt='20120417' 
 
        and B.dt='20120417'; 
 
應(yīng)該改寫為： 
 
select .... from (select .... from A 
 
                  where dt='201200417' 
 
                                    and userid>10 
 
                              ) a 
 
join ( select .... from B 
 
       where dt='201200417' 
 
                     and userid < 10    
 
     ) b 
 
on a.key = b.key;

2、對(duì)歷史庫(kù)的計(jì)算經(jīng)驗(yàn) (這項(xiàng)是說(shuō)根據(jù)不同的使用目的優(yōu)化使用方法)

歷史庫(kù)計(jì)算和使用，分區(qū)

3：盡量原子化操作，盡量避免一個(gè)SQL包含復(fù)雜邏輯

可以使用中間表來(lái)完成復(fù)雜的邏輯

4 jion操作小表要注意放在join的左邊(目前TCL里面很多都小表放在join的右邊)。

否則會(huì)引起磁盤和內(nèi)存的大量消耗

5：如果union all的部分個(gè)數(shù)大于2，或者每個(gè)union部分?jǐn)?shù)據(jù)量大，應(yīng)該拆成多個(gè)insert into 語(yǔ)句，實(shí)際測(cè)試過(guò)程中，執(zhí)行時(shí)間能提升50%

insert overwite table tablename partition (dt= ....) 
 
select ..... from ( 
 
                   select ... from A 
 
                   union all 
 
                   select ... from B 
 
                   union all 
 
                   select ... from C 
 
                               ) R 
 
where ...;

可以改寫為：

insert into table tablename partition (dt= ....) 
 
select .... from A 
 
WHERE ...; 
 
 
insert into table tablename partition (dt= ....) 
 
select .... from B 
 
WHERE ...; 
 
  
 
insert into table tablename partition (dt= ....) 
 
select .... from C 
 
WHERE ...;

5：寫SQL要先了解數(shù)據(jù)本身的特點(diǎn)，如果有join ,group操作的話，要注意是否會(huì)有數(shù)據(jù)傾斜

如果出現(xiàn)數(shù)據(jù)傾斜，應(yīng)當(dāng)做如下處理：

set hive.exec.reducers.max=200;  
set mapred.reduce.tasks= 200;---增大Reduce個(gè)數(shù)

set hive.groupby.mapaggr.checkinterval=100000 ;--這個(gè)是group的鍵對(duì)應(yīng)的記錄條數(shù)超過(guò)這個(gè)值則會(huì)進(jìn)行分拆,值根據(jù)具體數(shù)據(jù)量設(shè)置

set hive.groupby.skewindata=true; --如果是group by過(guò)程出現(xiàn)傾斜應(yīng)該設(shè)置為true

set hive.skewjoin.key=100000; --這個(gè)是join的鍵對(duì)應(yīng)的記錄條數(shù)超過(guò)這個(gè)值則會(huì)進(jìn)行分拆,值根據(jù)具體數(shù)據(jù)量設(shè)置

set hive.optimize.skewjoin=true;--如果是join 過(guò)程出現(xiàn)傾斜應(yīng)該設(shè)置為true

(1) 啟動(dòng)一次job盡可能的多做事情，一個(gè)job能完成的事情,不要兩個(gè)job來(lái)做

通常來(lái)說(shuō)前面的任務(wù)啟動(dòng)可以稍帶一起做的事情就一起做了,以便后續(xù)的多個(gè)任務(wù)重用,與此緊密相連的是模型設(shè)計(jì),好的模型特別重要.

(2) 合理設(shè)置reduce個(gè)數(shù)

reduce個(gè)數(shù)過(guò)少?zèng)]有真正發(fā)揮hadoop并行計(jì)算的威力，但reduce個(gè)數(shù)過(guò)多，會(huì)造成大量小文件問(wèn)題，數(shù)據(jù)量、資源情況只有自己最清楚，找到個(gè)折衷點(diǎn),

(3) 使用hive.exec.parallel參數(shù)控制在同一個(gè)sql中的不同的job是否可以同時(shí)運(yùn)行，提高作業(yè)的并發(fā)

2、讓服務(wù)器盡量少做事情，走***的路徑，以資源消耗最少為目標(biāo)

比如:

(1) 注意join的使用

若其中有一個(gè)表很小使用map join，否則使用普通的reduce join，注意hive會(huì)將join前面的表數(shù)據(jù)裝載內(nèi)存,所以較小的一個(gè)表在較大的表之前,減少內(nèi)存資源的消耗

(2)注意小文件的問(wèn)題

在hive里有兩種比較常見(jiàn)的處理辦法

***是使用Combinefileinputformat，將多個(gè)小文件打包作為一個(gè)整體的inputsplit，減少map任務(wù)數(shù)

set mapred.max.split.size=256000000; 
set mapred.min.split.size.per.node=256000000 
set Mapred.min.split.size.per.rack=256000000 
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

第二是設(shè)置hive參數(shù)，將額外啟動(dòng)一個(gè)MR Job打包小文件

hive.merge.mapredfiles = false 是否合并 Reduce 輸出文件，默認(rèn)為 False

hive.merge.size.per.task = 256*1000*1000 合并文件的大小

(3)注意數(shù)據(jù)傾斜

在hive里比較常用的處理辦法

***通過(guò)hive.groupby.skewindata=true控制生成兩個(gè)MR Job,***個(gè)MR Job Map的輸出結(jié)果隨機(jī)分配到reduce做次預(yù)匯總,減少某些key值條數(shù)過(guò)多某些key條數(shù)過(guò)小造成的數(shù)據(jù)傾斜問(wèn)題

第二通過(guò)hive.map.aggr = true(默認(rèn)為true)在Map端做combiner,假如map各條數(shù)據(jù)基本上不一樣, 聚合沒(méi)什么意義，做combiner反而畫(huà)蛇添足,hive里也考慮的比較周到通過(guò)參數(shù)hive.groupby.mapaggr.checkinterval = 100000 (默認(rèn))hive.map.aggr.hash.min.reduction=0.5(默認(rèn)),預(yù)先取100000條數(shù)據(jù)聚合,如果聚合后的條數(shù)/100000>0.5，則不再聚合。

(4)善用multi insert,union all

multi insert適合基于同一個(gè)源表按照不同邏輯不同粒度處理插入不同表的場(chǎng)景，做到只需要掃描源表一次，job個(gè)數(shù)不變，減少源表掃描次數(shù)

union all用好，可減少表的掃描次數(shù)，減少job的個(gè)數(shù),通常預(yù)先按不同邏輯不同條件生成的查詢union all后，再統(tǒng)一group by計(jì)算,不同表的union all相當(dāng)于multiple inputs,同一個(gè)表的union all,相當(dāng)map一次輸出多條

(5) 參數(shù)設(shè)置的調(diào)優(yōu)

集群參數(shù)種類繁多,舉個(gè)例子比如

可針對(duì)特定job設(shè)置特定參數(shù),比如jvm重用,reduce copy線程數(shù)量設(shè)置(適合map較快，輸出量較大)

如果任務(wù)數(shù)多且小，比如在一分鐘之內(nèi)完成，減少task數(shù)量以減少任務(wù)初始化的消耗?？梢酝ㄟ^(guò)配置JVM重用選項(xiàng)減少task的消耗

一、控制Hive中Map和reduce的數(shù)量

Hive中的sql查詢會(huì)生成執(zhí)行計(jì)劃，執(zhí)行計(jì)劃以MapReduce的方式執(zhí)行，那么結(jié)合數(shù)據(jù)和集群的大小，map和reduce的數(shù)量就會(huì)影響到sql執(zhí)行的效率。

除了要控制Hive生成的Job的數(shù)量，也要控制map和reduce的數(shù)量。

1、 map的數(shù)量，通常情況下和split的大小有關(guān)系，之前寫的一篇blog“map和reduce的數(shù)量是如何定義的”有描述。

hive中默認(rèn)的hive.input.format是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，對(duì)于combineHiveInputFormat,它的輸入的map數(shù)量

由三個(gè)配置決定，

mapred.min.split.size.per.node，一個(gè)節(jié)點(diǎn)上split的至少的大小

mapred.min.split.size.per.rack 一個(gè)交換機(jī)下split至少的大小

mapred.max.split.size 一個(gè)split***的大小

它的主要思路是把輸入目錄下的大文件分成多個(gè)map的輸入, 并合并小文件, 做為一個(gè)map的輸入. 具體的原理是下述三步:

a、根據(jù)輸入目錄下的每個(gè)文件,如果其長(zhǎng)度超過(guò)mapred.max.split.size,以block為單位分成多個(gè)split(一個(gè)split是一個(gè)map的輸入),每個(gè)split的長(zhǎng)度都大于mapred.max.split.size, 因?yàn)橐詁lock為單位, 因此也會(huì)大于blockSize, 此文件剩下的長(zhǎng)度如果大于mapred.min.split.size.per.node, 則生成一個(gè)split, 否則先暫時(shí)保留.

b、現(xiàn)在剩下的都是一些長(zhǎng)度效短的碎片,把每個(gè)rack下碎片合并, 只要長(zhǎng)度超過(guò)mapred.max.split.size就合并成一個(gè)split, ***如果剩下的碎片比mapred.min.split.size.per.rack大, 就合并成一個(gè)split, 否則暫時(shí)保留.

c、把不同rack下的碎片合并, 只要長(zhǎng)度超過(guò)mapred.max.split.size就合并成一個(gè)split, 剩下的碎片無(wú)論長(zhǎng)度, 合并成一個(gè)split.

舉例: mapred.max.split.size=1000

mapred.min.split.size.per.node=300  
mapred.min.split.size.per.rack=100

輸入目錄下五個(gè)文件,rack1下三個(gè)文件,長(zhǎng)度為2050,1499,10, rack2下兩個(gè)文件,長(zhǎng)度為1010,80. 另外blockSize為500.

經(jīng)過(guò)***步, 生成五個(gè)split: 1000,1000,1000,499,1000. 剩下的碎片為rack1下:50,10; rack2下10:80

由于兩個(gè)rack下的碎片和都不超過(guò)100, 所以經(jīng)過(guò)第二步, split和碎片都沒(méi)有變化.

第三步,合并四個(gè)碎片成一個(gè)split, 長(zhǎng)度為150.

如果要減少map數(shù)量, 可以調(diào)大mapred.max.split.size, 否則調(diào)小即可.

其特點(diǎn)是: 一個(gè)塊至多作為一個(gè)map的輸入，一個(gè)文件可能有多個(gè)塊，一個(gè)文件可能因?yàn)閴K多分給做為不同map的輸入，一個(gè)map可能處理多個(gè)塊，可能處理多個(gè)文件。

2、 reduce數(shù)量

可以在hive運(yùn)行sql的時(shí)，打印出來(lái)，如下：

Number of reduce tasks not specified. Estimated from input data size: 1  
In order to change the average load for a reducer (in bytes):  
set hive.exec.reducers.bytes.per.reducer=<number>  
In order to limit the maximum number of reducers:  
set hive.exec.reducers.max=<number>  
In order to set a constant number of reducers:  
set mapred.reduce.tasks=<number>

reduce數(shù)量由以下三個(gè)參數(shù)決定，

mapred.reduce.tasks(強(qiáng)制指定reduce的任務(wù)數(shù)量)

hive.exec.reducers.bytes.per.reducer(每個(gè)reduce任務(wù)處理的數(shù)據(jù)量，默認(rèn)為1000^3=1G)

hive.exec.reducers.max(每個(gè)任務(wù)***的reduce數(shù)，默認(rèn)為999)

計(jì)算reducer數(shù)的公式很簡(jiǎn)單N=min( hive.exec.reducers.max ，總輸入數(shù)據(jù)量/ hive.exec.reducers.bytes.per.reducer )

只有一個(gè)reduce的場(chǎng)景：

a、沒(méi)有g(shù)roup by 的匯總

b、order by

c、笛卡爾積

二、join和Group的優(yōu)化

對(duì)于普通的join操作，會(huì)在map端根據(jù)key的hash值，shuffle到某一個(gè)reduce上去，在reduce端做join連接操作，內(nèi)存中緩存join左邊的表，遍歷右邊的表，一次做join操作。所以在做join操作時(shí)候，將數(shù)據(jù)量多的表放在join的右邊。

當(dāng)數(shù)據(jù)量比較大，并且key分布不均勻，大量的key都shuffle到一個(gè)reduce上了，就出現(xiàn)了數(shù)據(jù)的傾斜。

對(duì)于Group操作，首先在map端聚合，***在reduce端坐聚合，hive默認(rèn)是這樣的，以下是相關(guān)的參數(shù)

· hive.map.aggr = true是否在 Map 端進(jìn)行聚合，默認(rèn)為 True

· hive.groupby.mapaggr.checkinterval = 100000在 Map 端進(jìn)行聚合操作的條目數(shù)目

對(duì)于join和Group操作都可能會(huì)出現(xiàn)數(shù)據(jù)傾斜。

三、以下有幾種解決這個(gè)問(wèn)題的常見(jiàn)思路

1、參數(shù)hive.groupby.skewindata = true,解決數(shù)據(jù)傾斜的***鑰匙，查詢計(jì)劃會(huì)有兩個(gè) MR Job。***個(gè) MR Job 中，Map 的輸出結(jié)果集合會(huì)隨機(jī)分布到 Reduce 中，每個(gè) Reduce 做部分聚合操作，并輸出結(jié)果，這樣處理的結(jié)果是相同的 Group By Key 有可能被分發(fā)到不同的 Reduce 中，從而達(dá)到負(fù)載均衡的目的;第二個(gè) MR Job 再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照 Group By Key 分布到 Reduce 中(這個(gè)過(guò)程可以保證相同的 Group By Key 被分布到同一個(gè) Reduce 中)，***完成最終的聚合操作。

2、where的條件寫在join里面，使得減少join的數(shù)量(經(jīng)過(guò)map端過(guò)濾，只輸出復(fù)合條件的)

3、mapjoin方式，無(wú)reduce操作，在map端做join操作(map端cache小表的全部數(shù)據(jù))，這種方式下無(wú)法執(zhí)行Full/RIGHT OUTER join操作

4、對(duì)于count(distinct)操作，在map端以group by的字段和count的字段聯(lián)合作為key，如果有大量相同的key，那么會(huì)存在數(shù)據(jù)傾斜的問(wèn)題

5、數(shù)據(jù)的傾斜還包括，大量的join連接key為空的情況，空的key都hash到一個(gè)reduce上去了，解決這個(gè)問(wèn)題，***把空的key和非空的key做區(qū)分

空的key不做join操作。

當(dāng)然有的hive操作，不存在數(shù)據(jù)傾斜的問(wèn)題，比如數(shù)據(jù)聚合類的操作，像sum、count，因?yàn)橐呀?jīng)在map端做了聚合操作了，到reduce端的數(shù)據(jù)相對(duì)少一些，所以不存在這個(gè)問(wèn)題。

四、小文件的合并

大量的小文件導(dǎo)致文件數(shù)目過(guò)多，給HDFS帶來(lái)壓力，對(duì)hive處理的效率影響比較大，可以合并map和reduce產(chǎn)生的文件

· hive.merge.mapfiles = true是否和并 Map 輸出文件，默認(rèn)為 True

· hive.merge.mapredfiles = false是否合并 Reduce 輸出文件，默認(rèn)為 False

· hive.merge.size.per.task = 256*1000*1000合并文件的大小

五、in/exists(not)

通過(guò)left semi join 實(shí)現(xiàn) in操作，一個(gè)限制就是join右邊的表只能出現(xiàn)在join條件中

六、分區(qū)裁剪

通過(guò)在條件中指定分區(qū)，來(lái)限制數(shù)據(jù)掃描的范圍，可以極大提高查詢的效率

七、排序

order by 排序，只存在一個(gè)reduce，這樣效率比較低。

可以用sort by操作,通常結(jié)合distribute by使用做reduce分區(qū)鍵

責(zé)任編輯：武曉燕來(lái)源：數(shù)據(jù)為王

Hive 注意事項(xiàng)優(yōu)化

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="53yis"></sub>

<p id="53yis"><li id="53yis"></li></p>

<style id="53yis"></style>

<sub id="53yis"></sub>