sqoop的增量导入（increment import）

1、import增量导入的官方说明

2、测试sqoop的increment import

　　增量导入在企业当中，一般都是需要经常执行的，如隔一个星期就执行一次增量导入，故增量导入的方式需要多次执行，而每次执行时，又去写相应的执行命令的话，比较麻烦。而sqoop提供了一个很好的工具save job的方式。

　　测试的方式是通过--incremental来执行 lastmodified 模式， --check-column来设置 LASTMODIFIED检查的字段，意思就是当该字段发生更新或者添加操作，则才会执行导入。--last-value来设置初始值 '2014/8/27 13:00:00'，该值是用来作为第一次导入的下界，从第二次开始，sqoop会自动更新该值为上一次导入的上界。

　　测试开始：sqoop创建一个job的方式来实现日常的增量导入，首先在关系型的数据库中oracle穿件一个测试表oracletablename，添加两条数据：

　　　　select * from oracletablename；

　　　　id 　　name　　　　lastmodified

　　　　1　　　张三　　　　2015-10-10 17：52：20.0

　　　　2　　　李四　　　　2015-10-10 17：52：20.0

（1）创建sqoop job

sqoop job --create jobname -- import --connect jdbc:oracle:thin:@192.168.27.235:1521/orcl --username DATACENTER --password clear --table oracletablename --hive-import --hive-table hivetablename --incremental lastmodified --check-column LASTMODIFIED --last-value '2014/8/27 13:00:00'

说明：

　　1）在上面的job当中，不能指定-m ，因为指定了-m的话，对应的导入会在hdfs上差生相应的中间结果，当你下一次再次执行job时，则会因为output directory is exist 报错。

　　2）上面的hivetablename必须是已存在的。在第一次导入的时候，为了使得表存在，可以通过将oracletablename的表结构导入到hive中，执行的命令如下：　　　

sqoop create-hive-table --connect jdbc:oracle:thin:@//192.168.27.235:1521/ORCL --username DATACENTER --password clear --table tablename

　　　　执行完后，会在hive中创建一个具有相同名字和相同表结构的表。

（2）查看并执行job

上面已经创建了job后，可以通过下面的命令来查看是否已经创建job成功：

　　sqoop job --list　　　　　　　　　列出所有的job

　　sqoop job --show jobname　　　　显示jobname的信息

　　sqoop job --delete jobname 　　　删除jobname

　　sqoop job --exec jobname 　　　执行jobname

（3）执行完job后，查看hive中的表是否有数据。当然不出意外肯定是有数据的

　　并且在执行的过程中，我们可以看到对应的执行日志如下：

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
15/10/12 15:59:37 INFO manager.OracleManager: Time zone has been set to GMT
15/10/12 15:59:37 INFO manager.SqlManager: Executing SQL statement: SELECT t.* F    ROM TEMP2 t WHERE 1=0
15/10/12 15:59:37 INFO tool.ImportTool: Incremental import based on column LASTM    ODIFIED
15/10/12 15:59:37 INFO tool.ImportTool: Lower bound value: TO_TIMESTAMP('2014/8/    27 13:00:00', 'YYYY-MM-DD HH24:MI:SS.FF')
15/10/12 15:59:37 INFO tool.ImportTool: Upper bound value: TO_TIMESTAMP('2015-10    -12 15:59:35.0', 'YYYY-MM-DD HH24:MI:SS.FF')
15/10/12 15:59:37 WARN manager.OracleManager: The table TEMP2 contains a multi-c    olumn primary key. Sqoop will default to the column ID only for this job.
15/10/12 15:59:37 INFO manager.OracleManager: Time zone has been set to GMT
15/10/12 15:59:37 WARN manager.OracleManager: The table TEMP2 contains a multi-c    olumn primary key. Sqoop will default to the column ID only for this job.
15/10/12 15:59:37 INFO mapreduce.ImportJobBase: Beginning import of TEMP2
15/10/12 15:59:37 INFO Configuration.deprecation: mapred.jar is deprecated. Inst    ead, use mapreduce.job.jar
15/10/12 15:59:37 INFO manager.OracleManager: Time zone has been set to GMT
15/10/12 15:59:37 INFO Configuration.deprecation: mapred.map.tasks is deprecated    . Instead, use mapreduce.job.maps
15/10/12 15:59:37 INFO client.RMProxy: Connecting to ResourceManager at hadoop3/    192.168.27.233:8032
15/10/12 15:59:42 INFO db.DBInputFormat: Using read commited transaction isolati    on
15/10/12 15:59:42 INFO db.DataDrivenDBInputFormat: BoundingValsQuery: SELECT MIN    (ID), MAX(ID) FROM TEMP2 WHERE ( LASTMODIFIED >= TO_TIMESTAMP('2014/8/27 13:00:0    0', 'YYYY-MM-DD HH24:MI:SS.FF') AND LASTMODIFIED < TO_TIMESTAMP('2015-10-12 15:59:35.0', 'YYYY-MM-DD HH24:MI:SS.FF') )
15/10/12 15:59:42 INFO mapreduce.JobSubmitter: number of splits:4

说明：从上面的红色部分我们很清楚的知道，sqoop在导入的时候是怎么导入。我们可以知道设置的--last-value的值就是对应的下界。

（4）在关系数据库oracle中对oracletablename添加一个字段

　　　　id 　　name　　　　lastmodified

　　　　1　　　张三　　　　2015-10-10 17：52：20.0

　　　　2　　　李四　　　　2015-10-10 17：52：20.0

　　　　3　　　李四　　　　2015-10-12 16：01：23.0

（5）此时进行增量导入

　　　　即再一次执行job：sqoop job --exec jobname

再次查看日志的内容如下：

　　SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
15/10/12 16:02:17 INFO manager.OracleManager: Time zone has been set to GMT
15/10/12 16:02:17 INFO manager.SqlManager: Executing SQL statement: SELECT t.* F    ROM TEMP2 t WHERE 1=0
15/10/12 16:02:17 INFO tool.ImportTool: Incremental import based on column LASTM    ODIFIED
15/10/12 16:02:17 INFO tool.ImportTool: Lower bound value: TO_TIMESTAMP('2015-10    -12 15:59:35.0', 'YYYY-MM-DD HH24:MI:SS.FF')
15/10/12 16:02:17 INFO tool.ImportTool: Upper bound value: TO_TIMESTAMP('2015-10    -12 16:02:15.0', 'YYYY-MM-DD HH24:MI:SS.FF')
15/10/12
16:02:17 WARN manager.OracleManager: The table TEMP2 contains a
multi-c    olumn primary key. Sqoop will default to the column ID only
for this job.
15/10/12 16:02:17 INFO manager.OracleManager: Time zone has been set to GMT
15/10/12
16:02:17 WARN manager.OracleManager: The table TEMP2 contains a
multi-c    olumn primary key. Sqoop will default to the column ID only
for this job.
15/10/12 16:02:17 INFO mapreduce.ImportJobBase: Beginning import of TEMP2
15/10/12 16:02:17 INFO Configuration.deprecation: mapred.jar is deprecated. Inst    ead, use mapreduce.job.jar
15/10/12 16:02:17 INFO manager.OracleManager: Time zone has been set to GMT
15/10/12 16:02:17 INFO Configuration.deprecation: mapred.map.tasks is deprecated    . Instead, use mapreduce.job.maps
15/10/12 16:02:17 INFO client.RMProxy: Connecting to ResourceManager at hadoop3/    192.168.27.233:8032
15/10/12 16:02:23 INFO db.DBInputFormat: Using read commited transaction isolati    on
15/10/12
16:02:23 INFO db.DataDrivenDBInputFormat: BoundingValsQuery: SELECT
MIN    (ID), MAX(ID) FROM TEMP2 WHERE ( LASTMODIFIED >=
TO_TIMESTAMP('2015-10-12 15:59:35.0', 'YYYY-MM-DD HH24:MI:SS.FF')
AND LASTMODIFIED < TO_TIMESTAMP('2015-10-12 1    6:02:15.0',
'YYYY-MM-DD HH24:MI:SS.FF') )

15/10/12 16:02:23 WARN db.BigDecimalSplitter: Set BigDecimal splitSize to MIN_IN CREMENT
15/10/12 16:02:23 INFO mapreduce.JobSubmitter: number of splits:1

说明：我们可以从执行的日志中看出，--last-value的值会自动更新为上一次的上界的值，注意看一下上次的上界即可。

sqoop的增量导入（increment import）的更多相关文章

sqoop定时增量导入导出
sqoop定时增量导入 2013-11-06 14:23 4553人阅读评论(0) 收藏举报 sqoop使用hsql来存储job信息,开启metastor service将job信息共享,所有no ...
sqoop job 增量导入
使用sqoop job做增量导入在执行导入模式为 incremental 的sqoop job 时,sqoop会获取上次导入操作的 –check-column的value值,也就是说使用sqoop ...
sqoop job 实现自动增量导入
一.测试环境 1.MySQL表结构 mysql> show create table autoextend\GCREATE TABLE `autoextend` ( `id` bigint(2 ...
第3节 sqoop：6、sqoop的数据增量导入和数据导出
增量导入在实际工作当中,数据的导入,很多时候都是只需要导入增量数据即可,并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导 ...
Sqoop实现自定义job的增量导入
需求:redis缓存的数据隔段时间往MySQL中写入一次.如果按照job的增量导入,比如上次redis向mysql导入数据时间为8:00,下一次导入时间为9:00,8:20sqoop进行增量导入,导入 ...
Sqoop增量导入
Argument Description --check-column (col) Specifies the column to be examined when determining which ...
Sqoop修改sqoop元信息实现job的增量导入
最简单方式是按主键增量导入:http://blog.csdn.net/ggz631047367/article/details/50185319 以下方法只做存档需求:redis缓存的数据隔段时间往 ...
大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）
我们之前导入的都是全量导入,一次性全部导入,但是实际开发并不是这样,例如web端进行用户注册,mysql就增加了一条数据,但是HDFS中的数据并没有进行更新,但是又再全部导入一次又完全没有必要. 所以 ...
Sqoop（四）增量导入、全量导入、减量导入
增量导入一.说明当在生产环境中,我们可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析.这种情况下我们不可能将所有数据重新再导入一遍,所以此时需要数据增量导入. ...

随机推荐

linux 互信不生效
版权声明:本文为博主原创文章,未经博主允许不得转载. 1. 操作系统版本 1)操作系统 cat /etc/issue cat /etc/issue CentOS release 6.6 (Final ...
php + Bootstrap-v3-Typeahead 自动完成组件的使用
Bootstrap 中的 Typeahead 组件就是通常所说的自动完成 AutoComplete,类似百度.谷歌等搜索提示:输入关键词出现相应的下拉列表数据. 是Bootstrap-3-Typeah ...
linux初始化配置-----网络配置
一.设置linux网络 1)零时设置ip地址由于centos7默认没有ifconfig命令所以为了使用方便我们先安装net-tool使我们能使用ifconfig命令查看ip地址 ·挂载系统光盘 [r ...
[问题2014A01] 解答一（第一列拆分法，由张钧瑞同学提供）
[问题2014A01] 解答一(第一列拆分法,由张钧瑞同学提供) (1) 当 $a=0$ 时,这是高代书复习题一第 33 题,可用升阶法和 Vander Monde 行列式来求解,其结果为 \[ ...
String,StringBuffer与StringBuilder的区别??[转]
String 字符串常量StringBuffer 字符串变量(线程安全)StringBuilder 字符串变量(非线程安全) 简要的说, String 类型和 StringBuffer 类型的主要性能 ...
Oracle介绍（初学者必须知道的）
1.为什么学习数据库?(两个概念) 数据库的概念: 数据库是按照数据结构组织,存储和管理数据的仓库. 数据库,简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增. ...
poj2778DNA Sequence（AC自动机+矩阵乘法）
链接看此题前先看一下matrix67大神写的关于十个矩阵的题目中的一个,如下: 经典题目8 给定一个有向图,问从A点恰好走k步(允许重复经过边)到达B点的方案数mod p的值把给定的图转为邻 ...
[Java基础]循环结构3
[Java基础]循环结构3 break 与 continue 中断循环... /** 文件路径:G:\JavaByHands\循环语句\ 文件名称:BreakTest.java 编写时间:2016/6 ...
临时文件相关的v$tempfile v$sort_usage与V$tempseg_usage
SQL> select username,user,segtype,segfile#,segblk#,extents,segrfno# from v$sort_usage; SEGFILE#代表 ...
[分享] 从定制Win7母盘到封装详细教程 By BILL （ 10月23日补充说明）
[分享] 从定制Win7母盘到封装详细教程 By BILL ( 10月23日补充说明 ) billcheung 发表于 2011-10-23 00:07:49 https://www.itsk.com ...

sqoop的增量导入（increment import）

sqoop的增量导入（increment import）的更多相关文章

随机推荐

热门专题