sqoop增量导数据

sqoop要实现增量导入参数到hive或者hdfs

1.需要在mysql中创建可以自动更新的字段，当插入数据时和更新数据时改字段自动更新，如图中update_time,当数据插入时会记录更新为插入时间，数据更新时会更新为数据更新时的时间

`update_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '数据更新时间'

2.数据导入需要指定3个关键的参数

sqoop import -Dhadoop.security.credential.provider.path=jceks://hdfs/user/password/xiaopengfei --connect "jdbc:mysql://172.16.12.210:3306/CLTransportBusinessDB2018?tinyInt1isBit=false&useUnicode=true&characterEncoding=utf-8" --username 517bigdata --password-alias xiaopengfei --table SaleOrderInfo201804 --check-column ModifyTime --incremental append --last-value "2018-04-01 00:00:10" --split-by SaleOrderID -m 2 --escaped-by '\\' --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '^' --target-dir "/user/hive/travelfirst/cltransportbusiness/saleorderinfo/month=201804"

说明：

--check-column 指定根据那个字段增量导入 ModifyTime

--incremental 指定增量导入的方式 append

--last-value 指定上次增量导入时的值如："2018-04-01 00:00:10"

sqoop增量导数据的更多相关文章

sqoop从mysql导数据到hive报错：Caused by: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure
背景使用sqoop从mysql导数据到hive,从本地服务器是可以访问mysql的(本地服务器是hadoop集群的一个datanode),但是sqoop导数据的时候依然连接不上mysql 报错如下: ...
使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
sqoop 从oracle导数据到hive中，date型数据时分秒截断问题
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了 ...
Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
sqoop1.4.4从oracle导数据到hive中
sqoop从oracle定时增量导入数据到hive 感谢: http://blog.sina.com.cn/s/blog_3fe961ae01019a4l.htmlhttp://f.dataguru. ...
实现从Oracle增量同步数据到GreenPlum
简介: GreenPlum是一个基于PostgreSQL数据库开发的MPP架构的数据库仓库,适用于OLAP系统,支持50PB(1PB=1000TB)级海量数据的存储和处理. 背景: 目前有一个业务是需 ...
通过Sql语句导数据
在通过SQL Server向导中的SQL语句导数据时,默认情况下源表中的nvarchar字段类型会变成202,解决此问题的方法是,要重新选择一下对应的数据接收表.
Sqoop导入mysql数据到Hbase
sqoop import --driver com.mysql.jdbc.Driver --connect "jdbc:mysql://11.143.18.29:3306/db_1" ...

随机推荐

HashMap原理(二) 扩容机制及存取原理
我们在上一个章节<HashMap原理(一) 概念和底层架构>中讲解了HashMap的存储数据结构以及常用的概念及变量,包括capacity容量,threshold变量和loadFactor ...
.NET Core学习笔记（1）——在Linux下运行Console APP
都说.NET Core可以跨平台,说实话Linux咱也不太懂,咱也不敢问.怎样把一个简单的Console App在Linux下跑起来,真是费了我一番功夫.特做此篇以供指北. .NET Core的大饼我 ...
c++学习书籍推荐《C++ Primer Plus中文版(第6版)》下载
百度云及其他网盘下载地址:点我编辑推荐一本经久不衰的C++畅销经典教程:一本支持C++11新标准的程序设计图书. 它被誉为“开发人员学习C++的教程,没有之一”! Amazon网站“Langua ...
Excel中RATE函数的Java实现
public class RATE { /** * calculateRate:类excel中的RATE函数,计算结果值为月利率,年华利率需*12期. <br/> * rate = ca ...
MYSQL Got error 28 from storage engine
网络查找该异常信息,发现 Got error 28 from storage engine 查了一下,数据库文件所在的盘应该没事,应该是数据库用的临时目录空间不够引用磁盘临时空间不够导致. 解决办 ...
linux修改时间显示格式
1. 问题描述 Linux下经常使用 "ls - ll"命令查看文件夹或文件创建及权限信息,但是满屏的Mar .May.Jul有点小难受. 2. 解决方案修改bash_profi ...
.net持续集成cake篇之cake任务依赖、自定义配置荐及环境变量读取
系列目录新建一个构建任务及任务依赖关系设置上节我们通过新建一个HelloWorld示例讲解了如何编写build.cake以及如何下载build.ps1启动文件以及如何运行.实际项目中,我们使用最多 ...
快速掌握mongoDB(三)——mongoDB的索引详解
1 mongoDB索引的管理本节介绍mongoDB中的索引,熟悉mysql/sqlserver等关系型数据库的小伙伴应该都知道索引对优化数据查询的重要性.我们先简单了解一下索引:索引的本质就是一个排 ...
python爬取新浪股票数据—绘图【原创分享】
目标:不做蜡烛图,只用折线图绘图,绘出四条线之间的关系. 注:未使用接口,仅爬虫学习,不做任何违法操作. """ 新浪财经,爬取历史股票数据 ""&q ...
py+selenium 老是定位不到文本内容【已解决】
问题:定位不到文本内容,路径也正确,该加frame也有加,等待时间也够长测试: 上图看不出差异,但是测试1就定位得到,测试2就定位不到,为什么? 看下图就知道了区别就在于,测试2后面多了个空格!! ...

sqoop增量导数据

sqoop增量导数据的更多相关文章

随机推荐

热门专题