大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

我们之前导入的都是全量导入，一次性全部导入，但是实际开发并不是这样，例如web端进行用户注册，mysql就增加了一条数据，但是HDFS中的数据并没有进行更新，但是又再全部导入一次又完全没有必要。

所以，sqoop提供了增量导入的方法。

1、数据准备：

2、将其先用全量导入到HDFS中去

3、先在mysql中添加一条数据，在使用命令进行追加

 #指定字段的取值范围，增量到数据(指的是Mysql增加了一条或多条数据，追加到HDFS中去,

 如果想追加到hive本来的数据中去就把路径换成hive的路径)

 # 适用于表不断的有新数据插入

sqoop import \

--connect jdbc:mysql://master:3306/student \

--username root \

--password  \

--table student_zeng \

--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \

--split-by id \

-m  \

--fields-terminated-by '\t' \

--incremental append \

--check-column id \

--last-value

4、根据时间进行大量追加（不去重）

 追加

 sqoop import \

 --connect jdbc:mysql://master:3306/student \

 --username root \

 --password  \

 --target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \

 --table student_zeng \

 --fields-terminated-by '\t' \

 --check-column last_mod \

 --incremental lastmodified \

 --last-value "2019-12-19 20:57:16" \

 -m  \

 --append

结果：但是我们发现有两个重复的字段

5、往往开发中需要进行去重操作：sqoop提供了一个方法进行去重，内部是先开一个map任务将数据导入进来，然后再开一个map任务根据指定的字段进行合并去重

#根据业务可能需要去重  -merge-key 就是做这个事

sqoop import \

--connect jdbc:mysql://master:3306/student \

--username root \

--password  \

--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \

--table student_zeng \

--fields-terminated-by '\t' \

--check-column last_mod \

--incremental lastmodified \

--last-value "2019-12-19 22:00:09" \

-m  \

-merge-key id

结果：

之前有重复的也进行合并去重操作，最后生成一个结果。

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）的更多相关文章

大数据之路week07--day06 （Sqoop 的使用）
Sqoop的使用一(将数据库中的表数据上传到HDFS) 首先我们先准备数据 1.没有主键的数据(下面介绍有主键和没有主键的使用区别) -- MySQL dump 10.13 Distrib 5.1.7 ...
大数据之路week07--day06 （Sqoop 将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具）
为了方便后面的学习,在学习Hive的过程中先学习一个工具,那就是Sqoop,你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了. Sqoop是一个用来将Hadoop和关系型数据库中的数据 ...
大数据之路week07--day06 （Sqoop 在从HDFS中导出到关系型数据库时的一些问题）
问题一: 在上传过程中遇到这种问题: ERROR tool.ExportTool: Encountered IOException running export job: java.io.IOExce ...
大数据之路week07--day06 （Sqoop 的安装及配置）
Sqoop 的安装配置比较简单. 提供安装需要的安装包和连接mysql的驱动的百度云链接: 链接:https://pan.baidu.com/s/1pdFj0u2lZVFasgoSyhz-yQ 提取码 ...
sqoop操作之Oracle导入到HDFS
导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \ --username SCOTT --passw ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
大数据之路week04--day06（I/O流阶段一之异常）
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房 ...
大数据框架开发基础之Sqoop(1) 入门
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle , ...
C#码农的大数据之路 - 使用C#编写MR作业
系列目录写在前面从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势. ...

随机推荐

【视频开发】CximageMat 、CximagelplImage 以及 lplImageMat的转换、像素位深度
1.传统的lplImage * -------> Mat格式 IplImage* img = cvLoadImage("greatwave.png", 1); Mat mtx ...
abp_vue导入导出excel
后端abp,前端vue导入excel,开始准备用直接用npoi,觉得要写太多的代码,就算从以前的复制粘贴也麻烦,所以偷懒直接用别人的轮子 Magicodes.IE.这样可以节省很多工作,根据实体生成e ...
LeetCode 187. 重复的DNA序列(Repeated DNA Sequences)
187. 重复的DNA序列 187. Repeated DNA Sequences 题目描述 All DNA is composed of a series of nucleotides abbrev ...
java静态代理和JDK动态代理
静态代理编译阶段就生产了对应的代理类 public interface IBussiness { void execute(); } public class BussinessImpl imple ...
超实用的 JavaScript 代码片段（ ES6+ 编写）
Array 数组 Array concatenation (数组拼接) 使用 Array.concat() ,通过在 args 中附加任何数组和/或值来拼接一个数组. const ArrayCon ...
eclipse下载SpringBoot插件及创建SpringBoot项目
一.eclipse在线下载SpringBoot插件 1.help->eclipse marketplace->popular-选择spring tool suite(STS)进行下载 ...
Linux远程管理命令
关机\重启 shutdown 选项时间参数 -r 重启例子: shutdown 1分钟后关机 shutdown now 立刻关机 shutdown –r now 立即重启 shutdown 20 ...
C#在linux上运行实现
1 C#开发完了服务 2 部署到linux centos7上 3无法直接运行解决方法 1 linux cenos7上安装mono 2 执行mono xxx.exe 即可解决方法2 下载 anye ...
关于梯度下降之前需要进行feature scale的记录
先上吴恩达老师的课件图 1.对于梯度下降而言,学习率很大程度上影响了模型收敛的速度.对于不同规模的特征,如果采用相同的学习率,那么如果学习率适应于scale大的数据,scale较小的数据由于学习率过大 ...
Java的集合整理
1.List和Set都是接口,他们都继承于接口Collection,List是一个有序的可重复的集合,而Set的无序的不可重复的集合.Collection是集合的顶层接口,Collections是一个 ...

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）的更多相关文章

随机推荐

热门专题