记一次sqoop同步到mysql
工作中需要用到将hive的数据导一份到mysql中,需求是这样的:hive每天会产生一份用户标签(tag)发生变化的结果表user_tag,这份结果同步到mysql中,并且保持一份全量表,存储当前用户的标签。最初打算是在mysql建立一个分区表,按照天存储user_tag,研究了一下mysql的分区表,最终没有使用,既然学习了就做一下笔记。
mysql按照时间分区
mysql的分区方法分为好几种range
,list
,hash
,key
等方法,具体可以自行搜索一下,这里要讲的是range
方法,下面是建表语句
CREATE TABLE `histdata` (
`uid` char(36) NOT NULL,
`date` date NOT NULL,
`cate` int(11) DEFAULT NULL
)
PARTITION BY RANGE COLUMNS(`date`)
(PARTITION histdata20180101 VALUES LESS THAN ('2018-01-02'),
PARTITION histdata20180102 VALUES LESS THAN ('2018-01-03'))
mysql分区表建表的时候需要指定好分区,与hive的分区有很大的不同,并且分区的名字也需要注意,因为这里面使用的是LESS THAN
,那么如果每天都需要添加新的分区呢?那就需要修改表了
alter table histdata add PARTITION (PARTITION histdata20180103 VALUES LESS THAN ('2018-01-04'));
手动添加分区太麻烦了,那么能不能自动添加分区呢? 当然可以,使用存储过程。上学那会经常写java web,一些业务就直接写成了触发器、能够省下不少的代码,下面是存储过程代码:
DELIMITER $$
USE `test_db`$$ -- database name
DROP PROCEDURE IF EXISTS `histdata_add_partition`$$
CREATE DEFINER=`root`@`%` PROCEDURE `histdata_add_partition`()
BEGIN
SELECT REPLACE(partition_name,'histdata','') INTO @partition_name FROM INFORMATION_SCHEMA.PARTITIONS
WHERE table_name='histdata' ORDER BY partition_ordinal_position DESC LIMIT 1;
SET @head_date= DATE(DATE_ADD(@partition_name, INTERVAL 1 DAY))+0;
SET @rear_date= DATE(DATE_ADD(@partition_name, INTERVAL 2 DAY));
SET @s1=CONCAT('ALTER TABLE histdata ADD PARTITION (PARTITION histdata',@head_date,' VALUES LESS THAN (''',DATE(@rear_date),'''))');
SELECT @s1;
PREPARE stmt2 FROM @s1;
EXECUTE stmt2;
DEALLOCATE PREPARE stmt2;
COMMIT ;
END$$
DELIMITER ;
上面的作用是从当前分区中找到最大的一个,然后进行时间累加,再创建新的分区,再定义一个事件触发器
DELIMITER $$
CREATE EVENT histdata_event
ON SCHEDULE
EVERY 1 day STARTS '201x-0x-2x 23:59:59'
DO
BEGIN
CALL `test_db`.`histdata_add_partition`;
END $$
DELIMITER ;
show create table
看一下效果:
CREATE TABLE `histdata` (
`uid` char(36) NOT NULL,
`date` date NOT NULL,
`cate` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
PARTITION BY RANGE COLUMNS(`date`)
(PARTITION histdata20180101 VALUES LESS THAN ('2018-01-02') ENGINE = InnoDB,
PARTITION histdata20180102 VALUES LESS THAN ('2018-01-03') ENGINE = InnoDB,
PARTITION histdata20180103 VALUES LESS THAN ('2018-01-04') ENGINE = InnoDB,
PARTITION histdata20180104 VALUES LESS THAN ('2018-01-05') ENGINE = InnoDB,
PARTITION histdata20180105 VALUES LESS THAN ('2018-01-06') ENGINE = InnoDB,
PARTITION histdata20180106 VALUES LESS THAN ('2018-01-07') ENGINE = InnoDB)
可以看到效果很不错,添加了分区。不过由于分区表需要修改表添加分区,涉及到权限问题,最终并没有使用。
使用sqoop同步
下面是所修要用到表的信息,需要先将hive中的数据同步到user_tag中,然后再讲user_tag的内容insert or update 到user_tag_all中,注意到user_tag_all这个表是有主键的
全量表:user_tag_all
用于存储最新的用户Tag,mid为用户id,tag为用户标签,dt为更新日期
CREATE TABLE `user_tag_all` (
`mid` int(15) NOT NULL,
`tag` tinyint(4) NOT NULL,
`dt` date NOT NULL,
PRIMARY KEY (`mid`)
) ;
每日同步表:user_tag
每日从hive中同步到mysql中,为用户的历史标签信息
CREATE TABLE `user_tag` (
`mid` int(15) NOT NULL,
`tag` tinyint(4) NOT NULL,
`dt` date NOT NULL
);
容错表:user_tag_staging
用于sqoop容错
CREATE TABLE `user_tag_staging` (
`mid` int(15) NOT NULL,
`tag` tinyint(4) NOT NULL,
`dt` date NOT NULL
);
使用的sqoop 导出命令,相关教程网上较多请自行查找
sqoop export -D mapreduce.job.queuename=sqoop
--connect jdbc:mysql://localhost:3306/dbname
--username root
--password root_pwd
--table user_tag
--staging-table user_tag_staging
--clear-staging-table
-m 1
--export-dir /user/hadoop/user_tag/dt=2018-03-27
--null-string '\\N'
--null-non-string '\\N'
--fields-terminated-by \001
值得注意的是staging-table
这个是一个与目标表结构一样的表,是一个中间表,目的是用于对sqoop export进行容错,clear-staging-table
将表清空。在操作的过程中自己遇到的的一个问题是mysql表比hive中的表多了dt字段,导致同步的时候一直报错,最终在hive中添加了一个字段用于存储时间(名字任意),实际上sqoop同步中它先从mysql中查询一条数据,解析出数据的类型,生成一个java文件,再对hdfs文件进行解析,并将数据逐条插入到mysql中,全程与hive无关。接下来就就是插入或者更新user_tag_all这个表了
insert into user_tag_all(mid,tag,dt) select mid,tag,dt from user_tag where dt='2018-03-16' ON DUPLICATE KEY UPDATE tag=VALUES(tag),dt=VALUES(dt);
总结####
本篇文章虽然任务不大,但是从中有许多值得借鉴的知识点
- mysql分区表的使用,以及存储过程的编写
- mysql的不存在则插入、存在则更新的使用
- sqoop命令的使用,中间表的作用
ref###
记一次sqoop同步到mysql的更多相关文章
- 记录sqoop同步失败问题解决过程,过程真的是很崎岖。(1月6日解决)
记录sqoop同步失败问题解决过程,过程真的是很崎岖.事发原因:最近突然出现sqoop export to mysql时频繁出错.看了下日志是卡在某条数据过不去了,看异常.看sqoop生成的mr并未发 ...
- Sqoop使用,mysql,hbase,hive等相互转换
Sqoop 是一款用来在不同数据存储软件之间进行数据传输的开源软件,它支持多种类型的数据储存软件. 安装 Sqoop 1.下载sqoop并加mysql驱动包 http://mirror.bit.edu ...
- sqoop导出到mysql中文乱码问题总结、utf8、gbk
sqoop导出到mysql中文乱码问题总结.utf8.gbk 今天使用sqoop1.4.5版本的(hadoop使用cdh5.4)因为乱码问题很是头痛半天.下面进行一一总结 命令: [root@sdzn ...
- sqoop用法之mysql与hive数据导入导出
目录 一. Sqoop介绍 二. Mysql 数据导入到 Hive 三. Hive数据导入到Mysql 四. mysql数据增量导入hive 1. 基于递增列Append导入 1). 创建hive表 ...
- 异构平台同步(Mysql到Oracle)
Oracle GoldenGate学习之--异构平台同步(MySQL到Oracle) 如图所示:源端采用Mysql库,目标端采用Oracle库 一.OGG安装配置(源端) 1.OGG下载 https: ...
- MySQL数据库的同步配置+MySql读写分离
使用mysql主从复制的好处有: 1.采用主从服务器这种架构,稳定性得以提升.如果主服务器发生故障,我们可以使用从服务器来提供服务. 2.在主从服务器上分开处理用户的请求,可以提升数据处理效率. 3. ...
- sqoop命令,mysql导入到hdfs、hbase、hive
1.测试MySQL连接 bin/sqoop list-databases --connect jdbc:mysql://192.168.1.187:3306/trade_dev --username ...
- 043 hive数据同步到mysql
一:意义 1.意义 如果可以实现这个功能,就可以使用spark代替sqoop,功能程序就实现这个功能. 二:hive操作 1.准备数据 启动hive 否则报错,因为在hive与spark集成的时候,配 ...
- 从hbase到hive,以及sqoop转到mysql解析
https://blog.csdn.net/qq_33689414/article/details/80328665 hive关联hbase的配置文件 hive和hbase同步https://cwik ...
随机推荐
- java访问权限修饰符
作用域 当前类 同一package 子孙类 其他package public √ √ √ √ protected √ √ √ × friendly √ √ × × private √ × × × ja ...
- Apache Hive 基本理论与安装指南
一.Hive的基本理论 Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器.编译器.执行器.优化器.解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执 ...
- poj3268(置换矩阵思想)
题意:一群牛分别从1~n号农场赶往x号农场参加聚会,农场与农场之间的路时单向的,在n个农场之间有m条路,给出 a ,b , t表示从a号农场到b号农场需要t时间. 每头牛都会选择最短的路,问来回路上( ...
- httpclient的理解(代码理解)
一,httpclient的理解 httpcliet就是模仿浏览器在服务器内部从一个项目调用另一个项目的技术.比如说调用接口等. HttpClient 是 Apache Jakarta Common ...
- Postman教程——发送第一个请求
系列文章首发平台为果冻想个人博客.果冻想,是一个原创技术文章分享网站.在这里果冻会分享他的技术心得,技术得失,技术人生.我在果冻想等待你,也希望你能和我分享你的技术得与失,期待. 前言 过年在家,闲来 ...
- python基础练习题
购物车程序 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/3/6 21:01 # @Author : hyang # @Si ...
- 【SPOJ】Longest Common Substring II (后缀自动机)
[SPOJ]Longest Common Substring II (后缀自动机) 题面 Vjudge 题意:求若干个串的最长公共子串 题解 对于某一个串构建\(SAM\) 每个串依次进行匹配 同时记 ...
- C#利用substring按指定长度分割字符串
这几天学习分析声音的波形数据,接收到的是十六进制的数据,需要将数据转换成十进制再绘图,这个过程涉及到字符串的分割,正好可以促进自己对C#相关知识的学习.说到分割字符串,我首先想到的是Split,但根据 ...
- Python魔法方法(转发整合)
如果你的对象实现(重载)了这些方法中的某一个,那么这个方法就会在特殊的情况下被 Python 所调用,你可以定义自己想要的行为,而这一切都是自动发生的. __new__: 是一个对象实例化时调用的第一 ...
- .NET Core 配置Configuration杂谈
前言 .NET Core 在配置文件的操作上相对于.NET Framework做了不少改变,今天来聊一聊.关于Configuration的Package都是以Microsoft.Extensions. ...