最近在做一个小任务,将一个CDH平台中Hive的部分数据同步到另一个平台中。毕竟我也刚开始工作,在正式开始做之前,首先进行了一段时间的练习,下面的内容就是练习时写的文档中的内容。如果哪里有错误或者疏漏,希望各位网友能够指出。

第一篇:HDFS的上传与下载:https://www.cnblogs.com/BlackString/p/10552553.html

第二篇:Hive中数据的导入与导出:https://www.cnblogs.com/BlackString/p/10552806.html

第四篇:跨平台传输方案:https://www.cnblogs.com/BlackString/p/10553010.html

Hive分区表数据的上传与导出

1. 前言
​ 经过前两篇的练习,我们练习了文件的上传与下载,以及Hive外部表数据的上传与导出。但是很多时候Hive的数据操作不仅仅是外部表,还有可能是对分区表的操作。接下来,就对分区表的数据操作进行练习。

2. 分区表的文件结构

  1)创建一个分区表,分区字段为country:
    hive> create table tt01(id int, name string) partitioned by(country string);

  2)插入几条新数据:
    hive> insert into tt01 partition(country='CN') values(1,'LS');
    hive> insert into tt01 partition(country='CN') values(2,'ZS');
    hive> insert into tt01 partition(country='US') values(3,'Alice');
    hive> insert into tt01 partition(country='UK') values(4,'Tom');

  3)到hive中查看表中的数据:
    hive> select from tt01;
    1 LS CN
    2 ZS CN
    3 Alice US
    4 Tom UK

4)到HDFS中查看test02.db中,tt01文件夹下的文件:
    [root@DataCenter2 aos_dic]# hadoop fs -ls /user/hive/warehouse/test02.db/tt01
    drwxrwxrwt - root hive 0 2019-03-15 10:50 /user/hive/warehouse/test02.db/tt01/country=CN
    drwxrwxrwt - root hive 0 2019-03-15 10:46 /user/hive/warehouse/test02.db/tt01/country=UK
    drwxrwxrwt - root hive 0 2019-03-15 10:45 /user/hive/warehouse/test02.db/tt01/country=US

  会发现Hive按照分区将数据分别存入了不同的文件夹下。
  进入某一个分区,查看其中的数据:
    [root@DataCenter2 aos_dic]# hadoop fs -ls /user/hive/warehouse/test02.db/tt01/country=CN
    -rwxrwxrwt 3 root hive 5 2019-03-15 10:43 /user/hive/warehouse/test02.db/tt01/country=CN/000000_0
    -rwxrwxrwt 3 root hive 5 2019-03-15 10:45 /user/hive/warehouse/test02.db/tt01/country=CN/000000_0_copy_1
  其中发现两个文件,查看其中的内容,会发现每个文件中都存了一条数据。那么,是每条数据都生成一个文件吗?

5)向tt01中插入一条新的数据,分区为“CN”:

    hive> insert into tt01 partition(country='CN') values(5,'WW');
  到tt01文件夹下,country=CN中查看文件,会发现多出了一个新文件,查看这个新文件,发现其中存储的正是我们新插入的数据:
    [root@DataCenter2 aos_dic]# hadoop fs -cat /user/hive/warehouse/test02.db/tt01/country=CN/000000_0_copy_2
    5WW

3. 创建一个外部分区表
  接下来,尝试在test02库中建立一个新的外部外部表,并且为其指定分区。
  如何建立一个外部分区表呢?
  最初的想法是,按照文件的格式新建一个表,然后指定分区的名称和文件的位置,这样建立的表应该是包含了我所有的数据的。但是在尝试了多次以后发现,Hive并不能自动识别已经建立好的分区。

  经过查询得知,Hive分区表如果要载入外部分区数据,有两种方式:

  1)手动指定分区并载入数据,如:
    hive> alter table tt02 add partition (birth='1997') location '/hive> msck repair table tt02;

  2)修复分区信息,如:
    hive> msck repair table tt02;
    Partitions not in metastore: tt02:birth=1998 tt02:birth=1999
    Repair: Added partition to metastore tt02:birth=1998
    Repair: Added partition to metastore tt02:birth=1999

  但是以上两种方式并不包含直接建立表载入分区。
  因此,建立一个外部分区表的步骤是:
  1)按照文件数据的格式建立字段,并指定分区字段:
    hive> create external table tt02(id int,name string,gender string) partitioned by (birth string) row format delimited fields terminated by ' ' location '/user/hive/warehouse/test02.db/tt02';

  2)新增分区,或 修复分区:
    hive> alter table tt02 add partition (birth='1997') location '/'
    hive> msck repair table tt02;
    Partitions not in metastore: tt02:birth=1998 tt02:birth=1999
    Repair: Added partition to metastore tt02:birth=1998
    Repair: Added partition to metastore tt02:birth=1999

  3)查看数据:
    hive> select from tt02;
    1 LS m 1997
    2 ZQ m 1997
    3 LG f 1997
    4 ST f 1997
    5 SD m 1997
    …… ……

Hive分区表的导入与导出的更多相关文章

  1. Hive中数据的导入与导出

    最近在做一个小任务,将一个CDH平台中Hive的部分数据同步到另一个平台中.毕竟我也刚开始工作,在正式开始做之前,首先进行了一段时间的练习,下面的内容就是练习时写的文档中的内容.如果哪里有错误或者疏漏 ...

  2. 2.7-2.8 导入、导出数据(进/出)hive表的方式

    一.导入数据进hive表 1.语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (p ...

  3. hive的数据导入与数据导出:(本地,云hdfs,hbase),列分隔符的设置,以及hdfs上传给pig如何处理

    hive表的数据源有四种: hbase hdfs 本地 其他hive表 而hive表本身有两种: 内部表和外部表. 而hbase的数据在hive中,可以建立对应的外部表(参看hive和hbase整合) ...

  4. Hive 导入、导出数据

    <------ 导入 ------> 从本地目录文件导入Hive表 语法:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABL ...

  5. hive数据的导入导出方式

    导入方式 1.load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下 应用场景:大部分的使用,文件几 ...

  6. Sqoop_具体总结 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出

    一.使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYWFyb25oYWRvb3A=/ ...

  7. hive之数据导入导出

    hive数据导入导出 一.导入数据4种方式 建表语句 create table test( name string, friends array, children map<string, in ...

  8. hive数据库导入与导出

    原文连接:https://www.cnblogs.com/654wangzai321/p/9970321.html 把Hive表数据导入到本地 table->local file insert ...

  9. 将Hive统计分析结果导入到MySQL数据库表中(一)——Sqoop导入方式

    https://blog.csdn.net/niityzu/article/details/45190787 交通流的数据分析,需求是对于海量的城市交通数据,需要使用MapReduce清洗后导入到HB ...

随机推荐

  1. linux 命令 jps 和 goassess

    jps (Java Virtual Machine Process Status Tool)  是java提供的一个显示当前所有java进程pid的命令,适合在linux/unix平台上简单察看当前j ...

  2. angular4 使用swiper 首次加载问题(一)

    angular 在使用外部插件swiper 还是有不少小坑的,下面来聊一聊.angular在使用swiper 的一些坑 一开始觉得使用外部引入的方式比较好,就在外部定义了.简单快捷方便, 但是在开发后 ...

  3. 字符串Contains匹配失效

    参考博客:https://blog.csdn.net/lewky_liu/article/details/79353151 在编码过程中发现一个很神奇的事情,使用String.contains方法失效 ...

  4. CCF CSP 201509-1 数列分段

    题目链接:http://118.190.20.162/view.page?gpid=T32 问题描述 试题编号: 201509-1 试题名称: 数列分段 时间限制: 1.0s 内存限制: 256.0M ...

  5. 记使用expo与expoKit分离工程遇到的坑

    expoKit是支持expo平台的Objective-C和Java库,比纯RN一个个引入包开发效率会高一些,比如react-native-vector-icons包已经集成在expoKit中了. 假定 ...

  6. 介绍Kubernetes监控Heapster

    什么是Heapster? Heapster是容器集群监控和性能分析工具,天然的支持Kubernetes和CoreOS,Kubernetes有个出名的监控agent—cAdvisor.在每个kubern ...

  7. Django数据查询方法总结

      __exact 精确等于 like ‘aaa’__iexact 精确等于 忽略大小写 ilike ‘aaa’__contains 包含 like ‘%aaa%’__icontains 包含 忽略大 ...

  8. Linux中LAMP构架的实现

    LAMP:Linux+Apache+Mysql+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度共同组 ...

  9. 20190410Linux中磁盘管理及LVM(week2day1)

    Linux磁盘管理及LVM讲解(week2_day2)   硬盘接口 从整体的角度上,硬盘接口分为IDE.SATA.SCSI和SAS四种,IDE接口硬盘多用于家用产品中,也部分应用于服务器,SCSI接 ...

  10. springboot整合redis(简单整理)

    Redis安装与开启 我这里是在windows上练习,所以这里的安装是指在windows上的安装,操作非常简单,点击https://github.com/MicrosoftArchive/redis/ ...