使用sqoop job做增量导入

在执行导入模式为 incremental 的sqoop job 时,sqoop会获取上次导入操作的 –check-column的value值,也就是说使用sqoop job在做增量导入的时候,不用手动指定 --last-value的值
但是也有这样的一种情况,sqoop job中如果指定了--incremental 为append模式导入,在指定了增量列--check-column之后,比如id为增量列,并且指定了--last-value的值,比如设置为100,那么在执行sqoop job的时候就会将id>100的行导入到hive中去

增量导入举个例子

  • mysql建表
CREATE TABLE `sqoop_job_incremental` (
`id` int() DEFAULT NULL,
`name` varchar() DEFAULT NULL,
`last_mod` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP
) ENGINE=InnoDB DEFAULT CHARSET=latin1
  • mysql插入数据
insert into sqoop_job_incremental(id,name) values(,'name1');
insert into sqoop_job_incremental(id,name) values(,'name2');
insert into sqoop_job_incremental(id,name) values(,'name3');
  • 此时mysql中的数据
    name1    -- ::
name2 -- ::
name3 -- ::
  • 将mysql表结构同步到hive中
sqoop create-hive-table --connect jdbc:mysql://localhost:3306/sqooptest --username root --password 123qwe --table sqoop_job_incremental 
--hive-table sqoop_job_incremental --fields-terminated-by ','
  • 新建增量导入的sqoop job
sqoop job --create sqoop_job_incremental -- import --connect jdbc:mysql://localhost:3306/sqooptest --username root --password 123qwe --table sqoop_job_incremental 
--hive-import --hive-table sqoop_job_incremental --check-column last_mod --incremental lastmodified --fields-terminated-by ',' -m 1
  • 执行job
sqoop job --exec sqoop_job_incremental
  • 查看hive结果
hive> select * from sqoop_job_incremental
> ;
OK
name1 -- ::56.0
name2 -- ::13.0
name3 -- ::20.0
  • 加入增量数据
insert into sqoop_job_incremental(id,name) values(,'name4');
insert into sqoop_job_incremental(id,name) values(,'name5');
  • 此时mysql表中的数据
    name1    -- ::
name2 -- ::
name3 -- ::
name4 -- ::
name5 -- ::
  • 执行job
sqoop job --exec sqoop_job_incremental

  因为--check-column 为 last_mod(数据更改时间),sqoop在本次执行任务的时候获取到上次任务执行的last_mod值,只导入大于last_mod的数据.

  • 查看hive中的结果
hive> select * from sqoop_job_incremental;
OK
name1 -- ::56.0
name2 -- ::13.0
name3 -- ::20.0
name4 -- ::02.0
name5 -- ::09.0
Time taken: 1.649 seconds, Fetched: row(s)

发现第二次执行job任务只导入了两条,这两条就是上次任务之后新添加的数据。

每次执行任务都会提示输入密码,可通过配置取消这一提示,直接使用job中指定的密码

在conf/sqoop-site.xml文件中配置
sqoop.metastore.client.record.password
设置为true即可。

sqoop job 增量导入的更多相关文章

  1. sqoop定时增量导入导出

    sqoop定时增量导入 2013-11-06 14:23 4553人阅读 评论(0) 收藏 举报 sqoop使用hsql来存储job信息,开启metastor service将job信息共享,所有no ...

  2. sqoop的增量导入(increment import)

    1.import增量导入的官方说明

  3. sqoop job 实现自动增量导入

    一.测试环境 1.MySQL表结构 mysql> show create table autoextend\GCREATE TABLE `autoextend` (  `id` bigint(2 ...

  4. Sqoop实现自定义job的增量导入

    需求:redis缓存的数据隔段时间往MySQL中写入一次.如果按照job的增量导入,比如上次redis向mysql导入数据时间为8:00,下一次导入时间为9:00,8:20sqoop进行增量导入,导入 ...

  5. Sqoop增量导入

    Argument Description --check-column (col) Specifies the column to be examined when determining which ...

  6. Sqoop修改sqoop元信息实现job的增量导入

    最简单方式是按主键增量导入:http://blog.csdn.net/ggz631047367/article/details/50185319 以下方法只做存档 需求:redis缓存的数据隔段时间往 ...

  7. 大数据之路week07--day07 (Sqoop 从mysql增量导入到HDFS)

    我们之前导入的都是全量导入,一次性全部导入,但是实际开发并不是这样,例如web端进行用户注册,mysql就增加了一条数据,但是HDFS中的数据并没有进行更新,但是又再全部导入一次又完全没有必要. 所以 ...

  8. 第3节 sqoop:6、sqoop的数据增量导入和数据导出

    增量导入 在实际工作当中,数据的导入,很多时候都是只需要导入增量数据即可,并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导 ...

  9. Sqoop(四)增量导入、全量导入、减量导入

    增量导入 一.说明 当在生产环境中,我们可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析.这种情况下我们不可能将所有数据重新再导入一遍,所以此时需要数据增量导入. ...

随机推荐

  1. Atitit. Object-c语言 的新的特性  attilax总结

    Atitit. Object-c语言 的新的特性  attilax总结 1.1. Object-C语言由 Brad J.Cox于20世纪80年代早期设计,1 1.2. Object-C新增的数据结构: ...

  2. WPF 员工卡条形码

    大家都知道条形码(Barcode)是一种可以由机器识别的特殊编码,在生产.生活中也常常会见到并使用它.条形码的类型和种类很多感兴趣的朋友可以详细了解一下.其中Code 39 可以说是一种最为常见并广泛 ...

  3. Django安装和启动

    1.django安装 在http://www.djangoproject.com/download/这个网站上可以下载django的最新版本.在下载时,要注意django版本和本机安装的Python版 ...

  4. django定时任务python调度框架APScheduler使用详解

    # coding=utf-8 2 """ 3 Demonstrates how to use the background scheduler to schedule a ...

  5. pthon 基础 9.8 增加数据

    #/usr/bin/python #-*- coding:utf-8 -*- #@Time   :2017/11/24 2:59 #@Auther :liuzhenchuan #@File   :增加 ...

  6. hdu4063(圆与圆交+线段与圆交+最短路)

    写几何题总是提心吊胆.精度问题真心吓人. 其实思路挺简单的一道题,真是什么算法和几何double搞到一块,心里就虚虚的. 思路:求出所有圆之间的交点,然后用这些交点跑一遍最短路就可以了. Aircra ...

  7. android菜鸟学习笔记24----与服务器端交互(一)使用HttpURLConnection和HttpClient请求服务端数据

    主要是基于HTTP协议与服务端进行交互. 涉及到的类和接口有:URL.HttpURLConnection.HttpClient等 URL: 使用一个String类型的url构造一个URL对象,如: U ...

  8. PAT 1053. 住房空置率 (20)

    在不打扰居民的前提下,统计住房空置率的一种方法是根据每户用电量的连续变化规律进行判断.判断方法如下: 在观察期内,若存在超过一半的日子用电量低于某给定的阈值e,则该住房为“可能空置”: 若观察期超过某 ...

  9. SAP 物料 移动类型

    [转自 http://blog.sina.com.cn/s/blog_494f9a6b0102edf7.html] SAP 物料 移动类型 (2013-12-03 10:15:01) 转载▼   分类 ...

  10. PHP实现今天是星期几的几种写法

    今天是星期几的写法有很多,本文整理了常用的三种. 代码如下:  // 第一种写法 $da = date("w");  if( $da == "1" ){  ec ...