偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

大數(shù)據(jù)
Hive究竟是什么,為什么在Hadoop家族中占有這么重要的地位,本篇文章將圍繞Hive的體系結(jié)構(gòu)(架構(gòu))、Hive的操作、Hive與Hbase的區(qū)別等對(duì)Hive進(jìn)行全方面的闡述。

前言

Hive這個(gè)框架在Hadoop的生態(tài)體系結(jié)構(gòu)中占有及其重要的地位,在實(shí)際的業(yè)務(wù)當(dāng)中用的也非常多,可以說Hadoop之所以這么流行在很大程度上是因?yàn)镠ive的存在。那么Hive究竟是什么,為什么在Hadoop家族中占有這么重要的地位,本篇文章將圍繞Hive的體系結(jié)構(gòu)(架構(gòu))、Hive的操作、Hive與Hbase的區(qū)別等對(duì)Hive進(jìn)行全方面的闡述。

在此之前,先給大家介紹一個(gè)業(yè)務(wù)場(chǎng)景,讓大家感受一下為什么Hive如此的受歡迎:

業(yè)務(wù)描述:統(tǒng)計(jì)業(yè)務(wù)表consumer.txt中北京的客戶有多少位?下面是相應(yīng)的業(yè)務(wù)數(shù)據(jù):

  1. id      city    name    sex            
  2. 0001    beijing zhangli man  
  3. 0002    guizhou lifang  woman  
  4. 0003    tianjin wangwei man  
  5. 0004    chengde wanghe  woman  
  6. 0005    beijing lidong  man  
  7. 0006    lanzhou wuting  woman  
  8. 0007    beijing guona   woman  
  9. 0008    chengde houkuo  man  

首先我先用大家所熟悉的MapReduce程序來實(shí)現(xiàn)這個(gè)業(yè)務(wù)分析,完整代碼如下:

  1. package IT; 
  2.  
  3. import java.io.IOException; 
  4. import java.net.URI; 
  5.  
  6. import org.apache.hadoop.conf.Configuration; 
  7. import org.apache.hadoop.fs.FSDataInputStream; 
  8. import org.apache.hadoop.fs.FileSystem; 
  9. import org.apache.hadoop.fs.Path; 
  10. import org.apache.hadoop.io.IOUtils; 
  11. import org.apache.hadoop.io.LongWritable; 
  12. import org.apache.hadoop.io.Text; 
  13. import org.apache.hadoop.mapreduce.Job; 
  14. import org.apache.hadoop.mapreduce.Mapper; 
  15. import org.apache.hadoop.mapreduce.Reducer; 
  16. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
  17. import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
  18. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
  19. import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
  20. import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner; 
  21.  
  22. public class Consumer 
  23.     public static String path1 = "hdfs://192.168.80.80:9000/consumer.txt"
  24.     public static String path2 = "hdfs://192.168.80.80:9000/dir"
  25.     public static void main(String[] args) throws Exception 
  26.     { 
  27.           FileSystem fileSystem = FileSystem.get(new URI(path1) , new Configuration()); 
  28.           if(fileSystem.exists(new Path(path2))) 
  29.           { 
  30.               fileSystem.delete(new Path(path2), true); 
  31.           } 
  32.            
  33.           Job job = new Job(new Configuration(),"Consumer"); 
  34.           FileInputFormat.setInputPaths(job, new Path(path1)); 
  35.           job.setInputFormatClass(TextInputFormat.class); 
  36.           job.setMapperClass(MyMapper.class); 
  37.           job.setMapOutputKeyClass(Text.class); 
  38.           job.setMapOutputValueClass(LongWritable.class); 
  39.            
  40.           job.setNumReduceTasks(1); 
  41.           job.setPartitionerClass(HashPartitioner.class); 
  42.              
  43.           job.setReducerClass(MyReducer.class); 
  44.           job.setOutputKeyClass(Text.class); 
  45.           job.setOutputValueClass(LongWritable.class); 
  46.           job.setOutputFormatClass(TextOutputFormat.class); 
  47.           FileOutputFormat.setOutputPath(job, new Path(path2)); 
  48.           job.waitForCompletion(true); 
  49.           //查看執(zhí)行結(jié)果 
  50.           FSDataInputStream fr = fileSystem.open(new Path("hdfs://hadoop80:9000/dir/part-r-00000")); 
  51.           IOUtils.copyBytes(fr, System.out, 1024, true); 
  52.      } 
  53.     public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable> 
  54.     {       
  55.             public static long sum = 0L; 
  56.             protected void map(LongWritable k1, Text v1,Context context) throws IOException, InterruptedException 
  57.             { 
  58.                   String[] splited = v1.toString().split("\t"); 
  59.                   if(splited[1].equals("beijing")) 
  60.                   { 
  61.                       sum++; 
  62.                   } 
  63.             } 
  64.             protected void cleanup(Context context)throws IOException, InterruptedException 
  65.             { 
  66.                   String str = "beijing"
  67.                   context.write(new Text(str),new LongWritable(sum)); 
  68.             } 
  69.     } 
  70.     public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable> 
  71.     { 
  72.             protected void reduce(Text k2, Iterable<LongWritable> v2s,Context context)throws IOException, InterruptedException 
  73.             { 
  74.                   for (LongWritable v2 : v2s) 
  75.                  { 
  76.                      context.write(k2, v2); 
  77.                  } 
  78.             }    
  79.     }    

MapReduce程序代碼運(yùn)行結(jié)果如下: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

從運(yùn)行結(jié)果可以看出:在consumer.txt業(yè)務(wù)表中,北京的客戶共有三位。下面我們將用Hive來實(shí)現(xiàn)相同的功能,即統(tǒng)計(jì)業(yè)務(wù)表consumer.txt中北京的客戶有多少位?

Hive操作如下: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

Hive運(yùn)行結(jié)果如下:

  1. OK 
  2. beijing 3 
  3. Time taken: 19.768 seconds, Fetched: 1 row(s) 

到這里,是不是感覺Hive這個(gè)運(yùn)行框架很神奇-----對(duì)于相同的業(yè)務(wù)邏輯只需要寫幾行Sql命令就可以獲取我們所需要的結(jié)果,這也恰恰是Hive為什么這么流行的原因,Hive的優(yōu)勢(shì)主要體現(xiàn)在:

①Hive支持標(biāo)準(zhǔn)的SQL語(yǔ)法,免去了用戶編寫MapReduce程序的過程,大大減少了公司的開發(fā)成本

②Hive的出現(xiàn)可以讓那些精通SQL技能、但是不熟悉MapReduce 、編程能力較弱與不擅長(zhǎng)Java語(yǔ)言的用戶能夠在HDFS大規(guī)模數(shù)據(jù)集上很方便地利用SQL 語(yǔ)言查詢、匯總、分析數(shù)據(jù),畢竟精通SQL語(yǔ)言的人要比精通Java語(yǔ)言的多得多

③Hive是為大數(shù)據(jù)批量處理而生的,Hive的出現(xiàn)解決了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)(MySql、Oracle)在大數(shù)據(jù)處理上的瓶頸

好了,上面通過一個(gè)簡(jiǎn)單的小業(yè)務(wù)場(chǎng)景說明了Hive的巨大優(yōu)勢(shì),接下來將進(jìn)入本篇文章的正題。

一:Hive體系結(jié)構(gòu)(架構(gòu))的介紹

1、Hive的概念:

①Hive是為了簡(jiǎn)化用戶編寫MapReduce程序而生成的一種框架,使用MapReduce做過數(shù)據(jù)分析的人都知道,很多分析程序除業(yè)務(wù)邏輯不同外,程序流程基本一樣。在這種情況下,就需要Hive這樣的用戶編程接口。Hive提供了一套類SQL的查詢語(yǔ)言,稱為QL,而在創(chuàng)造Hive框架的過程中之所以使用SQL實(shí)現(xiàn)Hive是因?yàn)榇蠹覍?duì)SQL語(yǔ)言非常的熟悉,轉(zhuǎn)換成本低,可以大大普及我們Hadoop用戶使用的范圍,類似作用的Pig就不是通過SQL實(shí)現(xiàn)的。

Hive是基于Hadoop的一個(gè)開源數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,Hive可以把SQL中的表、字段轉(zhuǎn)換為HDFS中的目錄、文件。

②Hive是建立在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架、是為了減少M(fèi)apReduce編寫工作的批處理系統(tǒng),Hive本身不存儲(chǔ)和計(jì)算數(shù)據(jù),它完全依賴于HDFS和MapReduce。Hive可以理解為一個(gè)客戶端工具,將我們的sql操作轉(zhuǎn)換為相應(yīng)的MapReduce jobs,然后在Hadoop上面運(yùn)行。

在開始為大家列舉的consumer.txt小業(yè)務(wù)當(dāng)中,從編寫Sql到最后得出Beijing 3的分析結(jié)果實(shí)際上中間走的是MapReduce程序, 只不過這個(gè)MapReduce程序不用用戶自己編寫,而是由Hive這個(gè)客戶端工具將我們的sql操作轉(zhuǎn)化為了相應(yīng)的MapReduce程序,下面是我們運(yùn)行sql命令時(shí)顯示的相關(guān)日志:

  1. hive> select city,count(*) 
  2.     > from t4     
  3.     > where city='beijing' 
  4.     > group by city; 
  5. Total MapReduce jobs = 1 
  6. Launching Job 1 out of 1 
  7. Number of reduce tasks not specified. Estimated from input data size: 1 
  8. In order to change the average load for a reducer (in bytes): 
  9.   set hive.exec.reducers.bytes.per.reducer=<number> 
  10. In order to limit the maximum number of reducers: 
  11.   set hive.exec.reducers.max=<number> 
  12. In order to set a constant number of reducers: 
  13.   set mapred.reduce.tasks=<number> 
  14. Starting Job = job_1478233923484_0902, Tracking URL = http://hadoop22:8088/proxy/application_1478233923484_0902/ 
  15. Kill Command = /usr/local/hadoop/bin/hadoop job  -kill job_1478233923484_0902 
  16. Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 
  17. 2016-11-09 11:36:36,688 Stage-1 map = 0%,  reduce = 0% 
  18. 2016-11-09 11:36:42,018 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec 
  19. 2016-11-09 11:36:43,062 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec 
  20. 2016-11-09 11:36:44,105 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec 
  21. 2016-11-09 11:36:45,149 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec 
  22. 2016-11-09 11:36:46,193 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec 
  23. 2016-11-09 11:36:47,237 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec 
  24. 2016-11-09 11:36:48,283 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec 
  25. 2016-11-09 11:36:49,329 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 3.7 sec 
  26. 2016-11-09 11:36:50,384 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 3.7 sec 
  27. MapReduce Total cumulative CPU time: 3 seconds 700 msec 
  28. Ended Job = job_1478233923484_0902 
  29. MapReduce Jobs Launched:  
  30. Job 0: Map: 1  Reduce: 1   Cumulative CPU: 3.7 sec   HDFS Read: 419 HDFS Write: 10 SUCCESS 
  31. Total MapReduce CPU Time Spent: 3 seconds 700 msec 
  32. OK 
  33. beijing 3 
  34. Time taken: 19.768 seconds, Fetched: 1 row(s) 

從日志可以看出,Hive將我們的sql命令解析成了相應(yīng)的MapReduce任務(wù),最后得到了我們的分析結(jié)果。

③Hive可以認(rèn)為是MapReduce的一個(gè)封裝、包裝。Hive的意義就是在業(yè)務(wù)分析中將用戶容易編寫、會(huì)寫的Sql語(yǔ)言轉(zhuǎn)換為復(fù)雜難寫的MapReduce程序,從而大大降低了Hadoop學(xué)習(xí)的門檻,讓更多的用戶可以利用Hadoop進(jìn)行數(shù)據(jù)挖掘分析。

為了讓大家容易理解Hive的實(shí)質(zhì)-------“Hive就是一個(gè)SQL解析引擎,將SQL語(yǔ)句轉(zhuǎn)化為相應(yīng)的MapReduce程序”這句話,博主用一個(gè)圖示進(jìn)行示例: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

從圖示可以看出,Hive從某種程度上講就是很多“SQL—MapReduce”框架的一個(gè)封裝,可以將用戶編寫的Sql語(yǔ)言解析成對(duì)應(yīng)的MapReduce程序,最終通過MapReduce運(yùn)算框架形成運(yùn)算結(jié)果提交給Client。

2、Hive體系結(jié)構(gòu)的介紹

下面是Hive的體系結(jié)構(gòu)圖: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

Hive的體系結(jié)構(gòu)可以分為以下幾個(gè)部分:

①用戶接口:包括shell命令、Jdbc/Odbc和WebUi,其中最常用的是shell這個(gè)客戶端方式對(duì)Hive進(jìn)行相應(yīng)操作

②Hive解析器(驅(qū)動(dòng)Driver):Hive解析器的核心功能就是根據(jù)用戶編寫的Sql語(yǔ)法匹配出相應(yīng)的MapReduce模板,形成對(duì)應(yīng)的MapReduce job進(jìn)行執(zhí)行。

③Hive元數(shù)據(jù)庫(kù)(MetaStore):Hive將表中的元數(shù)據(jù)信息存儲(chǔ)在數(shù)據(jù)庫(kù)中,如derby(自帶的)、Mysql(實(shí)際工作中配置的),Hive中的元數(shù)據(jù)信息包括表的名字、表的列和分區(qū)、表的屬性(是否為外部表等)、表的數(shù)據(jù)所在的目錄等。Hive中的解析器在運(yùn)行的時(shí)候會(huì)讀取元數(shù)據(jù)庫(kù)MetaStore中的相關(guān)信息。

在這里和大家說一下為什么我們?cè)趯?shí)際業(yè)務(wù)當(dāng)中不用Hive自帶的數(shù)據(jù)庫(kù)derby,而要重新為其配置一個(gè)新的數(shù)據(jù)庫(kù)Mysql,是因?yàn)閐erby這個(gè)數(shù)據(jù)庫(kù)具有很大的局限性:derby這個(gè)數(shù)據(jù)庫(kù)不允許用戶打開多個(gè)客戶端對(duì)其進(jìn)行共享操作,只能有一個(gè)客戶端打開對(duì)其進(jìn)行操作,即同一時(shí)刻只能有一個(gè)用戶使用它,自然這在工作當(dāng)中是很不方便的,所以我們要重新為其配置一個(gè)數(shù)據(jù)庫(kù)。

④Hadoop:Hive用HDFS進(jìn)行存儲(chǔ),用MapReduce進(jìn)行計(jì)算-------Hive這個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)在HDFS中,業(yè)務(wù)實(shí)際分析計(jì)算是利用MapReduce執(zhí)行的。

從上面的體系結(jié)構(gòu)中可以看出,在Hadoop的HDFS與MapReduce以及MySql的輔助下,Hive其實(shí)就是利用Hive解析器將用戶的SQl語(yǔ)句解析成對(duì)應(yīng)的MapReduce程序而已,即Hive僅僅是一個(gè)客戶端工具,這也是為什么我們?cè)贖ive的搭建過程中沒有分布與偽分布搭建的原因。(Hive就像是劉邦一樣,合理的利用了張良、韓信與蕭何的輔助,從而成就了一番大事!)

3、Hive的運(yùn)行機(jī)制

Hive的運(yùn)行機(jī)制如下圖所示: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

Hive的運(yùn)行機(jī)制正如圖所示:創(chuàng)建完表之后,用戶只需要根據(jù)業(yè)務(wù)需求編寫Sql語(yǔ)句,而后將由Hive框架將Sql語(yǔ)句解析成對(duì)應(yīng)的MapReduce程序,通過MapReduce計(jì)算框架運(yùn)行job,便得到了我們最終的分析結(jié)果。

在Hive的運(yùn)行過程中,用戶只需要?jiǎng)?chuàng)建表、導(dǎo)入數(shù)據(jù)、編寫Sql分析語(yǔ)句即可,剩下的過程將由Hive框架自動(dòng)完成,而創(chuàng)建表、導(dǎo)入數(shù)據(jù)、編寫Sql分析語(yǔ)句其實(shí)就是數(shù)據(jù)庫(kù)的知識(shí)了,Hive的運(yùn)行過程也說明了為什么Hive的存在大大降低了Hadoop的學(xué)習(xí)門檻以及為什么Hive在Hadoop家族中占有著那么重要的地位。

二:Hive的操作

Hive的操作對(duì)于用戶來說實(shí)際上就是表的操作、數(shù)據(jù)庫(kù)的操作。下面我們將圍繞兩個(gè)方面進(jìn)行介紹:

1、Hive的基本命令.

啟動(dòng)hive命令行:

  1. $>hive/bin/hive 
  2.     $hive>show databases ;                              -- 顯式數(shù)據(jù)庫(kù) 
  3.     $hive>create database mydb ;                        -- 創(chuàng)建數(shù)據(jù)庫(kù) 
  4.     $hive>use mydb ;                                    -- 使用庫(kù) 
  5.     $hive>create table custs(id int , name string) ;    -- 建表 
  6.     $hive>desc custs ;                                  -- 查看表結(jié)構(gòu) 
  7.     $hive>desc formatted custs ;                        -- 查看格式化表結(jié)構(gòu) 
  8.     $hive>insert into custs(id,namevalues(1,'tom');   -- 插入數(shù)據(jù),轉(zhuǎn)成mr. 
  9.     $hive>select * from custs ;                         -- 查詢,沒有mr 
  10.     $hive>select * from custs order by id desc ;        -- 全排序,會(huì)生成mr. 
  11.     $hive>exit ;                                        -- 退出終端 
  12.  
  13.  
  14. 查看mysql中的元信息: 
  15.     select * from dbs ;                                 -- 存放庫(kù)信息 
  16.     select * from tbls ;                                -- 存放表信息 

2、Hive表------內(nèi)部表、外部表、分區(qū)表的創(chuàng)建

所謂內(nèi)部表就是普通表,創(chuàng)建語(yǔ)法格式為: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

實(shí)際操作: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

外部表(external table)的創(chuàng)建語(yǔ)法格式為: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

注意:最后一行寫到的是目錄dir,文件就不用寫了,Hive表會(huì)自動(dòng)到dir目錄下讀取所有的文件file

我在實(shí)際的操作過程當(dāng)中發(fā)現(xiàn),location關(guān)聯(lián)到的目錄下面必須都是文件,不能含有其余的文件夾,不然讀取數(shù)據(jù)的時(shí)候會(huì)報(bào)錯(cuò)。 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

實(shí)際操作: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

內(nèi)部表與外部表的區(qū)別:

  • 內(nèi)部表在加載數(shù)據(jù)的過程中,實(shí)際數(shù)據(jù)會(huì)被移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)目錄中(hive.metastore.warehouse.dir),之后用戶對(duì)數(shù)據(jù)的訪問將會(huì)直接在數(shù)據(jù)倉(cāng)庫(kù)目錄中完成;刪除內(nèi)部表時(shí),內(nèi)部表中的數(shù)據(jù)和元數(shù)據(jù)信息會(huì)被同時(shí)刪除。
  • 外部表在加載數(shù)據(jù)的過程中,實(shí)際數(shù)據(jù)并不會(huì)被移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)目錄中,只是與外部表建立一個(gè)鏈接(相當(dāng)于文件的快捷方式一樣);刪除外部表時(shí),僅刪除該鏈接。

補(bǔ)充:在工作中發(fā)現(xiàn),對(duì)于外部表,即使hive中的表刪除了,但是在HDFS中表的location仍然存在。

分區(qū)表的概念:指的是我們的數(shù)據(jù)可以分區(qū),即按照某個(gè)字段將文件劃分為不同的標(biāo)準(zhǔn),分區(qū)表的創(chuàng)建是通過在創(chuàng)建表時(shí)啟用partitioned by來實(shí)現(xiàn)的。

分區(qū)表的創(chuàng)建語(yǔ)法格式為: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

注意:分區(qū)表在加載數(shù)據(jù)的過程中要指定分區(qū)字段,否則會(huì)報(bào)錯(cuò),正確的加載方式如下:

  1. load data local inpath ‘/usr/local/consumer.txt’ into table t1 partition (day=2) ; 

其余的操作和內(nèi)部表、外部表是一樣的。

實(shí)際操作: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

參考2:

  1. CREATE EXTERNAL TABLE `fdm_buffalo_3_5_task_exec_time`( 
  2.   `task_id`      int COMMENT '任務(wù)id',  
  3.   `task_version` string COMMENT '任務(wù)版本',  
  4.   `exec_time`    string COMMENT '平均執(zhí)行時(shí)長(zhǎng)'
  5. PARTITIONED BY (  
  6.   `dt` string) 
  7. ROW FORMAT DELIMITED  
  8.   FIELDS TERMINATED BY '\t'
  9.  
  10.  
  11. 實(shí)際: 
  12. hive> show create table fdm_buffalo_3_5_task_exec_time; 
  13. OK 
  14. CREATE EXTERNAL TABLE `fdm_buffalo_3_5_task_exec_time`( 
  15.   `task_id` int COMMENT '任務(wù)id',  
  16.   `task_version` string COMMENT '任務(wù)版本',  
  17.   `exec_time` string COMMENT '平均執(zhí)行時(shí)長(zhǎng)'
  18. PARTITIONED BY (  
  19.   `dt` string) 
  20. ROW FORMAT DELIMITED  
  21.   FIELDS TERMINATED BY '\t'  
  22. STORED AS INPUTFORMAT  
  23.   'org.apache.hadoop.mapred.TextInputFormat'  
  24. OUTPUTFORMAT  
  25.   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 
  26. LOCATION 
  27.   'hdfs://ns5/user/dd_edw/fdm.db/fdm_buffalo_3_5_task_exec_time' 
  28. TBLPROPERTIES ( 
  29.   'mart_name'='dd_edw',  
  30.   'transient_lastDdlTime'='1555384611'
  31. Time taken: 0.036 seconds, Fetched: 17 row(s) 

3、將數(shù)據(jù)文件加載(導(dǎo)入)到Hive表中

在Hive中創(chuàng)建完表之后,我們隨后自然要向表中導(dǎo)入數(shù)據(jù),但是在導(dǎo)入數(shù)據(jù)的時(shí)候和我們的傳統(tǒng)數(shù)據(jù)庫(kù)(MySql、Oracle)是不同的:Hive不支持一條一條的用insert語(yǔ)句進(jìn)行插入操作,也不支持update的操作。Hive表中的數(shù)據(jù)是以load的方式,加載到建立好的表中。數(shù)據(jù)一旦導(dǎo)入,則不可修改。要么drop掉整個(gè)表,要么建立新的表,導(dǎo)入新的數(shù)據(jù)。

導(dǎo)入數(shù)據(jù)的語(yǔ)法格式為: 

Hive為什么這么受歡迎?看完Hive架構(gòu)以及應(yīng)用介紹,你就明白了!

導(dǎo)入數(shù)據(jù)時(shí)要注意一下幾點(diǎn):

  • local inpath表示從本地linux中向Hive表中導(dǎo)入數(shù)據(jù),inpath表示從HDFS中向Hive表中導(dǎo)入數(shù)據(jù)
  • 默認(rèn)是向原Hive表中追加數(shù)據(jù),overwrite表示覆蓋表中的原數(shù)據(jù)進(jìn)行導(dǎo)入
  • partition是分區(qū)表特有的,而且在導(dǎo)入數(shù)據(jù)數(shù)據(jù)時(shí)是必須添加的,否則會(huì)報(bào)錯(cuò)
  • load 操作只是單純的復(fù)制/移動(dòng)操作,將數(shù)據(jù)文件復(fù)制/移動(dòng)到 Hive 表對(duì)應(yīng)的位置,即Hive 在加載數(shù)據(jù)的過程中不會(huì)對(duì)數(shù)據(jù)本身進(jìn)行任何修改,而只是將數(shù)據(jù)內(nèi)容復(fù)制或者移動(dòng)到相應(yīng)的表中

導(dǎo)入示例代碼:(注意overwrite的用法)

  1. hive> load data local inpath "/home/dd_edw/zmy_project/task_relations.txt" overwrite into table fdm.chevrolet_buffalo_task_recusion_relations partition(dt='2019-05-28'); 
  2. Loading data to table fdm.chevrolet_buffalo_task_recusion_relations partition (dt=2019-05-28) 
  3. Moved: 'hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/dt=2019-05-28/task_relations.txt' to trash at: hdfs://ns5/user/dd_edw/.Trash/Current 
  4. Moved: 'hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/dt=2019-05-28/task_relations_copy_1.txt' to trash at: hdfs://ns5/user/dd_edw/.Trash/Current 
  5. Partition fdm.chevrolet_buffalo_task_recusion_relations{dt=2019-05-28} stats: [numFiles=1, numRows=0, totalSize=272475104, rawDataSize=0] 
  6. OK 
  7. Time taken: 3.381 seconds 
  8. hive> dfs -ls hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/*/ ; 
  9. Found 1 items 
  10. -rwxr-xr-x   3 dd_edw dd_edw  272475104 2019-05-29 20:08 hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/dt=2019-05-28/task_relations.txt 

4、Hive添加分區(qū)操作:

正確語(yǔ)句:

  1. hive> ALTER TABLE fdm_buffalo_3_5_task_exec_time ADD IF NOT EXISTS PARTITION (dt='2019-04-15'); 
  2. OK 
  3. Time taken: 0.059 seconds 

錯(cuò)誤語(yǔ)句:

  1. hive> alter table fdm_buffalo_3_5_task_exec_time if not exists add partition (dt='2019-04-15'); 
  2. NoViableAltException(132@[]) 
  3.         at org.apache.hadoop.hive.ql.parse.HiveParser.alterTableStatementSuffix(HiveParser.java:8170) 
  4.         at org.apache.hadoop.hive.ql.parse.HiveParser.alterStatement(HiveParser.java:7635) 
  5.         at org.apache.hadoop.hive.ql.parse.HiveParser.ddlStatement(HiveParser.java:2798) 
  6.         at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:1731) 
  7.         at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1136) 
  8.         at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:202) 
  9.         at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:166) 
  10.         at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:411) 
  11.         at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:320) 
  12.         at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1372) 
  13.         at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1425) 
  14.         at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1150) 
  15.         at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1093) 
  16.         at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:241) 
  17.         at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:191) 
  18.         at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:551) 
  19.         at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:969) 
  20.         at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:912) 
  21.         at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:824) 
  22.         at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
  23.         at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 
  24.         at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
  25.         at java.lang.reflect.Method.invoke(Method.java:606) 
  26.         at org.apache.hadoop.util.RunJar.run(RunJar.java:221) 
  27.         at org.apache.hadoop.util.RunJar.main(RunJar.java:136) 
  28. FAILED: ParseException line 1:43 cannot recognize input near 'if' 'not' 'exists' in alter table statement 

5、查看某個(gè)分區(qū)

  1. desc formatted bdm.bdm_dispatch_1_d_task_da partition(dt='2019-07-14'); 

三:Hive與Hbase的區(qū)別

其實(shí)從嚴(yán)格意義上講,Hive與Hbase就不應(yīng)該談區(qū)別,談區(qū)別的原因無非就是Hive與Hbase本身都涉及到了表的創(chuàng)建、向表中插入數(shù)據(jù)等等。所以我們希望找到Hive與Hbase的區(qū)別,但是為什么兩者談不上區(qū)別呢,原因如下:

  1. 根據(jù)上文分析,Hive從某種程度上講就是很多“SQL—MapReduce”框架的一個(gè)封裝,即Hive就是MapReduce的一個(gè)封裝,Hive的意義就是在業(yè)務(wù)分析中將用戶容易編寫、會(huì)寫的Sql語(yǔ)言轉(zhuǎn)換為復(fù)雜難寫的MapReduce程序。
  2. Hbase可以認(rèn)為是hdfs的一個(gè)包裝。他的本質(zhì)是數(shù)據(jù)存儲(chǔ),是個(gè)NoSql數(shù)據(jù)庫(kù);hbase部署于hdfs之上,并且克服了hdfs在隨機(jī)讀寫方面的缺點(diǎn)。

因此若要問Hive與Hbase之前的區(qū)別,就相當(dāng)于問HDFS與MapReduce之間的區(qū)別,而HDFS與MapReduce兩者之間談區(qū)別意義并不大。

但是當(dāng)我們非要談Hbase與Hive的區(qū)別時(shí),可以從以下幾個(gè)方面進(jìn)行討論:

Hive和Hbase是兩種基于Hadoop的不同技術(shù)–Hive是一種類SQL的引擎,并且運(yùn)行MapReduce任務(wù),Hbase是一種在Hadoop之上的NoSQL 的Key/vale數(shù)據(jù)庫(kù)。當(dāng)然,這兩種工具是可以同時(shí)使用的。就像用Google來搜索,用FaceBook進(jìn)行社交一樣,Hive可以用來進(jìn)行統(tǒng)計(jì)查詢,HBase可以用來進(jìn)行實(shí)時(shí)查詢,數(shù)據(jù)也可以從Hive寫到Hbase,設(shè)置再?gòu)腍base寫回Hive。

Hive適合用來對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行分析查詢,例如,用來計(jì)算趨勢(shì)或者網(wǎng)站的日志。Hive不應(yīng)該用來進(jìn)行實(shí)時(shí)的查詢。因?yàn)樗枰荛L(zhǎng)時(shí)間才可以返回結(jié)果。

Hbase非常適合用來進(jìn)行大數(shù)據(jù)的實(shí)時(shí)查詢。Facebook用Hive進(jìn)行消息和實(shí)時(shí)的分析。它也可以用來統(tǒng)計(jì)Facebook的連接數(shù)。

 

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2020-06-16 14:13:50

Kubernetes容器Linux

2021-08-26 11:10:42

架構(gòu)運(yùn)維技術(shù)

2020-02-08 16:46:29

微服務(wù)架構(gòu)復(fù)雜

2022-02-25 07:07:04

擴(kuò)展塢電腦筆記本

2020-01-09 15:30:32

微服務(wù)架構(gòu)互聯(lián)網(wǎng)

2024-06-03 00:00:03

2016-10-27 11:11:12

頭條

2017-07-26 10:21:46

DockerLinux容器

2021-03-02 16:25:13

手機(jī)iPhone安卓

2024-11-19 18:03:04

2020-06-02 19:14:59

Kubernetes容器開發(fā)

2020-10-08 18:53:54

以太網(wǎng)Etheme網(wǎng)卡

2020-07-06 09:25:54

開發(fā)編輯器代碼

2017-07-04 11:26:37

2020-01-06 08:40:11

阿里場(chǎng)景服務(wù)

2019-09-06 10:31:45

軟件開發(fā)地圖

2019-12-25 10:45:30

Java悲觀鎖

2019-05-17 15:48:16

神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)人工智能

2019-06-05 15:20:00

MongoDBNoSQL數(shù)據(jù)庫(kù)

2019-12-19 17:00:01

Java線程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)