从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

阅读目录

序
将查询的结果写入文件系统
集群数据迁移一
集群数据迁移二
系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

序

上一篇，我们介绍了Hive的数据多种方式导入，这样我们的Hive就有了数据来源了，但有时候我们可能需要纯粹的导出，或者集群Hive数据的迁移（不同集群，不同版本），我们就可以通过这两章的知识来实现。

　下面我们开始介绍hive的数据导出，以及集群Hive数据的迁移进行描述。

将查询的结果写入文件系统

一：说明

　　将上篇中从其他表导入语法进行简单的修改，就可以将查询的结果写入到文件系统。

二：语法：
Standard syntax:

INSERT OVERWRITE [LOCAL] DIRECTORY directory1

  [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0)

  SELECT ... FROM ...

Hive extension (multiple inserts):

FROM from_statement

INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1

[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ...

row_format

  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]

        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

        [NULL DEFINED AS char] (Note: Only available starting with Hive 0.13)
三：写入到本地

　　如果使用LOCAL，则数据会写入到本地

四：写入到集群

　　如果不使用LOCAL,则数据会写到指定的HDFS中，如果没写全路径，则使用Hadoop的配置项fs.default.name （NameNode的URI）。

五：实战

　　修改tmp文件夹权限（这里只是测试，所以使用最大权限）
chmod 777 tmp
　　进入Hive
sudo -u hdfs hive
　　将上一篇中的score表数据导出到本地
insert overwrite local directory  '/data/tmp/score' select * from score;
　　我们可以看到/data/tmp/score/目录下有文件。
cd /data/tmp/score
ll
　　这样我们就把hive的数据导出到本地了。

　　下面我们使用不带local参数的命令，将hive表数据导到hdfs中
insert overwrite  directory  '/data/tmp/score' select * from score;
　　我们使用hdfs的ls命令查看
hadoop fs -ls /data/tmp/score
　　这里文件只有一个，和上面的不一样，但总的内容是一样的，上面同样的数据导出，有时候也只有一个文件。这里就不做考究了。

集群数据迁移一

一：介绍

　　在官网里，我们可以看到EXPORT和IMPORT，该功能从Hive0.8开始加入进来。

二：Export/Import

　　导出命令根据元数据导出表或者分区，输出位置可以是另一个Hadoop集群或者HIVE实例。支持带有分区的表。导出的元数据存储在目标目录，数据文件存储在子目录。

　　导入导出的源和目标的元数据存储DBMS可以是不同的关系型数据库。

三：Export语法
EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])]

  TO 'export_target_path'
四：Import语法
IMPORT [[EXTERNAL] TABLE new_or_original_tablename [PARTITION (part_column="value"[, ...])]]

  FROM 'source_path'

  [LOCATION 'import_target_path']
五：官方例子

　　简单导入导出
export table department to 'hdfs_exports_location/department';

import from 'hdfs_exports_location/department';
　　改名导入导出
export table department to 'hdfs_exports_location/department';

import table imported_dept from 'hdfs_exports_location/department';
　　分区导出
export table employee partition (emp_country="in", emp_state="ka") to 'hdfs_exports_location/employee';

import from 'hdfs_exports_location/employee';
　　分区导入
export table employee to 'hdfs_exports_location/employee';

import table employee partition (emp_country="us", emp_state="tn") from 'hdfs_exports_location/employee';
　　指定导入位置
export table department to 'hdfs_exports_location/department';

import table department from 'hdfs_exports_location/department'

       location 'import_target_location/department';
　　作为外部表导入
export table department to 'hdfs_exports_location/department';

import external table department from 'hdfs_exports_location/department';

集群数据迁移二

一：介绍

　　虽然官方的Export/Import命令很强大，但在实际使用中，可能是版本的不同，会出现无法导入的情况，自己在这块也琢磨了下，总结出自己的一套带有分区的Hive表数据迁移方案，该方案在Cloudera和Hontorworks的集群中成功迁移过，Hive版本也不一致。

二：导出数据

　　由于Cloudera的发行版本CDH-5.3.3的Hive版本低于0.8所以用这个作为数据源。

　　创建带分区表score
create table score (

  id                int,

  studentid       int,

  score              double

)

partitioned by (openingtime string);
　　根据上一篇中导入数据的方式导入7，8月数据
load data local inpath '/data/tmp/score_7.txt' overwrite into table score PARTITION (openingtime=201507);
　　参考我们上面的导出到本地还是放在/data/tmp/score下
insert overwrite local directory  '/data/tmp/score' select * from score;
三：迁移数据

　　在另外一个集群新建/data/tmp目录
 mkdir  -p /data/tmp/score
　　拷贝数据
 scp /data/tmp/score/* root@h188:/data/tmp/score/
　　查看
cd /data/tmp/score

ll
四：创建分区表和没有分区的临时表

　　被导入的集群是Hortonworks的HDP-2.7.1发行版本。

　　分区表就是我们最终的目标表，没有分区的临时表时过度用的。

　　进入Hive
sudo -u hdfs hive
　　创建带分区的表
create table score (

  id                int,

  studentid       int,

  score              double

)

partitioned by (openingtime string);
　　创建不带分区的临时表
 create table score1(

     id int,

     studentid int,

     score double,

     openingtime string
);
五：将数据导入临时表
load data local inpath '/data/tmp/score' into table score1;
　　我们查下导进来的数据
select * from score1;
六：从临时表导入到分区表
set  hive.exec.dynamic.partition=true;

set  hive.exec.dynamic.partition.mode=nonstrict;

set  hive.exec.max.dynamic.partitions.pernode=10000;

#导入

insert overwrite table score partition(openingtime) select * from score1;
查询
select * from score;
我们在hdfs中查看下hive的文件
hadoop fs -ls -R /apps/hive/warehouse/score
可以明显的看到根据openingtime分区了。

七：删除临时表
drop table score1
八：删除临时数据
rm -rf /data/tmp/score
这样我们的Hive集群数据迁移告一段落。

--------------------------------------------------------------------

　　到此，本章节的内容讲述完毕。

系列索引

　　【源】从零自学Hadoop系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下的更多相关文章

sqoop将oracle数据导入hdfs集群
使用sqoop将oracle数据导入hdfs集群集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubati ...
将数据导入MongoDB集群与MySQL
import sys import json import pymongo import datetime from pymongo import MongoClient client = Mongo ...
从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
SQL SERVER 与ACCESS、EXCEL的数据导入导出转换
* 说明:复制表(只复制结构,源表名:a 新表名:b) select * into b from a where 1<>1 * 说明:拷贝表(拷贝数据,源表名:a 目标表名:b) ...
SQL SERVER 和ACCESS、EXCEL的数据导入导出
SQL SERVER 与ACCESS.EXCEL之间的数据转换SQL SERVER 和ACCESS的数据导入导出[日期:2007-05-06] 来源:Linux公社作者:Linux 熟悉 ...
Redis异构集群数据在线迁移工具Redis-Migrate-Tool【转】
摘要:Redis-Migrate-Tool(后面都简称RMT),是唯品会开源的redis数据迁移工具,主要用于异构redis集群间的数据在线迁移,即数据迁移过程中源集群仍可以正常接受业务读写请求,无业 ...
从零自学Hadoop(16)：Hive数据导入导出，集群数据迁移上
阅读目录序导入文件到Hive 将其他表的查询结果导入表动态分区插入将SQL语句的值插入到表中模拟数据文件下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并 ...
从零自学Hadoop(18)：Hive的CLI和JDBC
阅读目录序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出 ...
从零自学Hadoop(14)：Hive介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序本系列已 ...

随机推荐

何谓Restful
引言用过ASP.NET WebApi2.0, 上次去面试被问到什么是Restful ,一时间竟不知道从何说起,所以搜集资料,做个备注,有时间好多来看看加深理解. 什么是Restful 一种软件架构风 ...
listview控件及其与数据库的连接
一.显示数据 1.视图 -----小三角--视图-Details,该选项最常用,选中之后会以表格样式呈现. 2.设置列头 ----右键--编辑列 --添加先编辑列,再编辑项编辑列右边的属性:Tex ...
.NET 对象生命周期
GC 垃圾回收 .NET Framework 的垃圾回收器管理应用程序的内存分配和释放.每次您使用 new 运算符创建对象时,运行库都从托管堆为该对象分配内存.只要托管堆中有地址空间可用,运 ...
C++实现邮件群发的方法
这篇文章主要介绍了C++实现邮件群发的方法,较为详细的分析了邮件发送的原理与C++相关实现技巧,非常具有实用价值,需要的朋友可以参考下本文实例讲述了C++实现邮件群发的方法.分享给大家供大家参考.具 ...
背水一战 Windows 10 (21) - 绑定: x:Bind 绑定, x:Bind 绑定之 x:Phase, 使用绑定过程中的一些技巧
[源码下载] 背水一战 Windows 10 (21) - 绑定: x:Bind 绑定, x:Bind 绑定之 x:Phase, 使用绑定过程中的一些技巧作者:webabcd 介绍背水一战 Wind ...
DDD心得
使用DDD分层架构有哪些好处帮你更集中的管理业务逻辑. 帮你降低各层间,以及各业务模块间的依赖关系. 帮你更方便的进行单元测试. 我的DDD分层架构使用经验使用充血模型,将业务逻辑尽量放到领域实体 ...
搭建Go开发及调试环境（LiteIDE + GoClipse） -- Windows篇
这里以Windows7 64位为例,如果是32位环境需安装对应版本程序. 一.安装golang1.2.2 1.3及1.3.1编译生成的二进制文件,无法使用LiteIDE23.2携带的gdb7.7进 ...
Scalaz（56）－ scalaz-stream: fs2-安全运算，fs2 resource safety
fs2在处理异常及资源使用安全方面也有比较大的改善.fs2 Stream可以有几种方式自行引发异常:直接以函数式方式用fail来引发异常.在纯代码里隐式引发异常或者在运算中引发异常,举例如下: /函数 ...
http cancelled状态与ajax 超时
在最近一周,我们的前端在测试某些批量超过的某个步骤时,发现请求好像发出来,但是后台状态没有变化,说是最近才出现的问题,以前一直都是正常的,两天连续出现两次之后,来找笔者,首先检查了下中间件的日志,发现 ...
java静态方法调用&&构造函数&&静态块
静态方法,也就是使用static声明的方法,在虚拟机启动加载类的时候就进行了创建,所以使用到静态方法时,直接使用类名点静态方法即可调用.java在执行静态方法前,不会调用构造函数:构造函数是在实例化j ...

从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

阅读目录

序

将查询的结果写入文件系统

一：说明

二：语法：

三：写入到本地

四：写入到集群

五：实战

集群数据迁移一

一：介绍

二：Export/Import

三：Export语法

四：Import语法

五：官方例子

集群数据迁移二

一：介绍

二：导出数据

三：迁移数据

四：创建分区表和没有分区的临时表

五：将数据导入临时表

六：从临时表导入到分区表

七：删除临时表

八：删除临时数据

系列索引

从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下的更多相关文章

随机推荐

热门专题