sqoop操作之ORACLE导入到HIVE

导入表的所有字段

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP \

--hive-import  --create-hive-table --hive-table emp  -m 1;

如果报类似的错:

ERROR tool.ImportTool: Encountered IOException running import job: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory EMP already exists

先去HDFS系统中删除该文件： hadoop fs -rmr /user/hadoop/EMP

如果报类似的错：

FAILED: Error in metadata: AlreadyExistsException(message:Table emp already exists)

如果报类似的错：

hive.HiveImport: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setBit(BIZ)B

这是因为在同路径下安装了hive和hbase，而hbase和hive的lib目录下的thrift版本不同。
hbase下的为libthrift-0.x.0.jar，hive下的为libthrift-0.x.0.jar。将Hbase下的0.x.0版的删除，换为0.x.0的即可。
ps：不知为什么Sqoop向Hive中导入数据还有Hbase的事；

说明：hive表已经存在，需要先删除。

查看:

desc emp;

empno   double

ename   string

job     string

mgr     double

hiredate        string

sal     double

comm    double

deptno  double

select * from emp;

7369.0  SMITH   CLERK   7902.0  1980-12-17 00:00:00.0   800.0   NULL    20.0

7499.0  ALLEN   SALESMAN  7698.0  1981-02-20 00:00:00.0   1600.0  300.0   30.0

7521.0  WARD    SALESMAN 7698.0  1981-02-22 00:00:00.0   1250.0  500.0   30.0

7566.0  JONES   MANAGER 7839.0  1981-04-02 00:00:00.0   2975.0  NULL    20.0

7654.0  MARTIN  SALESMAN  7698.0  1981-09-28 00:00:00.0   1250.0  1400.0  30.0

……

注：一般情况下不使用--create-hive-table去创建表的，因为它创建的表的字段格式，不符合我们的要求。

导入表的指定字段

手工创建hive表：

create table emp_column(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)

row format delimited fields terminated by '\t' lines terminated by '\n'

stored as textfile;

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims --hive-import  --hive-table emp_column \

-m 3;

说明：重新再执行,每重复导入一次，hive中的数据会重复导入。

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims --hive-overwrite --hive-import --hive-table emp_column \

-m 3;

注：--hive-overwrite指定覆盖表里已经存在的记录，99%都是要使用overwrite的，避免重跑时产生重复数据。

导入表的指定字段到hive分区表

创建hive分区表：

create table emp_partition(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)

partitioned by (pt string)

row format delimited fields terminated by '\t' lines terminated by '\n'

stored as textfile;

导入pt='2013-08-01'

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--hive-overwrite --hive-import  --hive-table emp_partition \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims --hive-partition-key 'pt' --hive-partition-value '2013-08-01' \

-m 3;

导入pt='2013-08-02'

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--hive-overwrite --hive-import  --hive-table emp_partition \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims  --hive-partition-key 'pt' --hive-partition-value '2013-08-02' \

-m 3;

查询：

select * from emp_partition where pt='2013-08-01';

select * from emp_partition where pt='2013-08-02';

sqoop操作之ORACLE导入到HIVE的更多相关文章

sqoop操作之Oracle导入到HDFS
导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \ --username SCOTT --passw ...
sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
使用 sqoop 将mysql数据导入到hive表（import）
Sqoop将mysql数据导入到hive表中先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...
使用sqoop将mysql数据导入到hive中
首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...
使用Talend Open Studio将数据分步从oracle导入到hive中
先使用Tos建立模型,将Oracle中的数据导入到本地: build job后,形成独立可以运行的程序: 将生成的zip文件,上传到hadoop集群上,有hive环境的机器上: [hive@h1 wo ...
使用sqoop工具从oracle导入数据
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被Ma ...
sqoop 操作从hdfs 导入到mysql中语句
将hdfs下/dw/dms/usr_trgt下的文件导入到mysql中test数据库下usr_trgt表中 sqoop-export --connect jdbc:mysql://mysqlDB: ...
sqoop导oracle数据到hive中并动态分区
静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, pag ...
使用Sqoop从mysql向hdfs或者hive导入数据时出现的一些错误
1.原表没有设置主键,出现错误提示: ERROR tool.ImportTool: Error during import: No primary key could be found for tab ...

随机推荐

WebGL编程指南案例解析之平移和旋转的math库实现
这里说的math库实现,指的是,通过一般的加减乘除(角度计算)来更新坐标值. 因为涉及到坐标的变化,所以这里都是基于对顶点着色器的修改平移: var vShader = ` attribute ve ...
OC基础:内存(进阶):retain.copy.assign的实现原理分类： ios学习 OC 2015-06-26 17:36 58人阅读评论(0) 收藏
遍历构造器的内存管理 a.遍历构造器方法内部使用autorelease释放对象 b.通过遍历构造器生成的对象.不用释放. 内存的管理总结 1.想占用某个对象的时候,要让它的引用计数器+1(retain ...
【转】WinForm基础
winform基础先修基础:C#语法基础和面向对象编程 1.Winform创建解决方案 2.Winform窗体 3.MessageBOx 4.Winform登录.控制软件只运行一次.回车登录 5.W ...
unknown error: call function result missing 'value'
好好的脚本全部报错,遇到这种现在看一下自己Chrome浏览的版本号然后去chromedriver官网上下载最新驱动文件 https://sites.google.com/a/chromium.org ...
HTML第二课——css
请关注公众号:自动化测试实战先给大家提个建议,就是用sublime编辑器来编写.用其他的也无所谓,我只是建议,因为这个会帮你自动补全很多代码. css概念 css叫层叠样式表.意思就是一层一层的叠加 ...
使用Visual Studio Code开发Asp.Net Core WebApi学习笔记（一）-- 起步
本文记录了在Windows环境下安装Visual Studio Code开发工具..Net Core 1.0 SDK和开发一个简单的Web-Demo网站的全过程. 一.安装Visual Studio ...
ballerina 学习三十扩展开发（一）
ballerina 主要是分为两大类基于ballerina 语言开发的,一般是客户端的connector 使用java语言开发的(类似的基于jvm的都可以),一般是注解以及进行构件生成 baller ...
网络基础 TCP/IP
为了理解 HTTP,我们有必要事先了解一下 TCP/IP 协议族.通常使用的网络(包括互联网)是在 TCP/IP 协议族的基础上运作的.而 HTTP 属于它内部的一个子集.接下来,我们仅介绍理解 HT ...
Oracle 11gR2 RAC 常用维护操作说明
一．启动和停止集群在Oracle 11gR2 下的RAC,架构发生了变化.CRS的信息也是放在ASM 实例里的,所以要关asm,必须关闭crs, 如果还使用了acfs的话,一关crs那么acfs里的 ...
commonJS规范基本结构
commonJS规范:使用 module.exports 和 require ,基本结构如下: // foo.js 输出模块 module.exports = function(x) { consol ...

sqoop操作之ORACLE导入到HIVE

sqoop操作之ORACLE导入到HIVE的更多相关文章

随机推荐

热门专题