Mysql 上亿级数据导入Hive思路分享

前提条件：

数据库容量上亿级别，索引只有id，没有创建时间索引

达到目标：

把阿里云RDS Mysql表数据同步到hive中，按照mysql表数据的创建时间日期格式分区，每天一个分区方便查询
每天运行crontab定时的增量备份数据，还是依据自增的id

遇到的问题：

没法建立创建时间的索引，不能按时间范围去查询，那样会严重影响线上数据库的性能？
只能按照id的方式去增量的读取索引，存储到临时表，然后在转储到正式表，动态的写入时间分区
使用sqoop直接导入hive？还是把数据导入到hdfs以內建表的形式把数据写入到指定的临时表？
如果直接使用sqoop hive import 不支持，query 语句，没法自定义抽取字段，没办法按照id范围去锁定部分数据，
使用hive import只能全量同步表而且id条件只能配到各个地方，我个人感觉query比较适合我灵活一些所以就使用
sqoop导入hdfs內建表的方式来同步数据

读取和写入一次要分配，不能一次读取太多，影响线上数据库的性能，线上数据库用的阿里云RDS？
1. 首先查询mysql max(id),和 hive max(id),计算差值后分批去加载，查询hive max 没有直接连接hive,而是使用了一个迂回策略，
使用python调用系统命令行执行hive -e 查询最大值，并写入到本地文件系统，然后查询本地文件系统最大值
2.我这里是按每次300万一次，单次差值小于300万执行一次加载
3.用sqoop分4个map任务去执行，300万数据大概需要1-2分钟左右读取到本地
4. mysql中需要5秒左右查询min,max,id 确定本次数据分割的id范围，
5.单个map任务大概需要15秒左右来读取和发送数据到sqoop,sqoop到hdfs內建表很快不会有压力这里就不写了
hive表初次创建同步的时候需要从临时表重建动态分区到正式表，数据跨度太大，一天天重建太耗时间？
步骤一：数据刚开始同步的时候先不开启转正式表并动态分区，先把全量的数据同步到hive的临时表中，同步完成后，把全量的临时表转到正式表，动态写入分区数据

步骤二：数据已经全量同步进来了，此时创建crontab任务，定时调用同步脚本，把增量的数据插入到临时表，然后把指定时间的数据转入正式分区，此步骤会把当前id最新的数据同步过来，范围是从上次同步的id到今天最大的id，日期有昨天有今天，这边正式表筛选出昨天的全部数据就行

Mysql 上亿级数据导入Hive思路分享的更多相关文章

基于Mysql数据库亿级数据下的分库分表方案
移动互联网时代,海量的用户数据每天都在产生,基于用户使用数据的用户行为分析等这样的分析,都需要依靠数据都统计和分析,当数据量小时,问题没有暴露出来,数据库方面的优化显得不太重要,一旦数据量越来越大时, ...
R语言操作mysql上亿数据量(ff包ffbase包和ETLUtils包)
平时都是几百万的数据量,这段时间公司中了个大标,有上亿的数据量. 现在情况是数据已经在数据库里面了,需要用R分析,但是完全加载不进来内存. 面对现在这种情况,R提供了ff, ffbase , ETLU ...
NEO4J亿级数据导入导出以及数据更新
1.添加配置 apoc.export.file.enabled=true apoc.import.file.enabled=true dbms.directories.import=import db ...
MySQL 上亿大表优化实践
目录背景分析 select xxx_record语句 delete xxx_record语句测试实施索引优化后 delete大表优化为小批量删除总结背景 XX实例(一主一从)xxx告警中 ...
MySQL使用pt-online-change-schema工具在线修改1.6亿级数据表结构
摘要:本文阐述了MySQL DDL 的问题现状.pt-online-schema-change的工作原理,并实际利用pt-online-schema-change工具在线修改生产环境下1.6亿级数 ...
通用技术 mysql 亿级数据优化
通用技术 mysql 亿级数据优化一定要正确设计索引一定要避免SQL语句全表扫描,所以SQL一定要走索引(如:一切的 > < != 等等之类的写法都会导致全表扫描) 一定要避免 lim ...
不停机不停服务，MYSQL可以这样修改亿级数据表结构
摘要:本文阐述了MySQL DDL 的问题现状.pt-online-schema-change的工作原理,并实际利用pt-online-schema-change工具在线修改生产环境下1.6亿级数 ...
sqoop mysql导入hive 数值类型变成null的问题分析
问题描述:mysql通过sqoop导入到hive表中,发现有个别数据类型为int或tinyint的列导入后数据为null.设置各种行分隔符,列分隔符都没有效果. 问题分析:hive中单独将有问题的那几 ...
使用sqoop把mysql数据导入hive
使用sqoop把mysql数据导入hive export HADOOP_COMMON_HOME=/hadoop export HADOOP_MAPRED_HOME=/hadoop cp /hive ...

随机推荐

微服务架构的基础框架选择：Spring Cloud还是Dubbo？
最近一段时间不论互联网还是传统行业,凡是涉及信息技术范畴的圈子几乎都在讨论微服务架构.近期也看到各大技术社区开始组织一些沙龙和论坛来分享Spring Cloud的相关实施经验,这对于最近正在整理Spr ...
对于程序员在boss直聘求职的建议
最近为一个岗位的招聘,在直聘伤刷了三百份简历 0.上传简历最好是PDF,word简历在不同的系统和软件下排版可能会出问题. 1.新职位投得要快,后面投的,有可能看不到. 为了投的命中率,投之前最好看一 ...
Android面试题摘录
本文中面试题全部选自<精通Android>(英文名“Pro android 4”)一书的章后面试题,不过这套面试题与书中内容结合比较紧密,所以选择使用时请谨慎. ####C2:Androi ...
给你的网页添加一个随机的BGM
大晚上的,突然想到,我这么喜欢听歌的人,博客里怎么能少了BGM呢,说干就干. 首先,给博客侧边栏加一个空div:<div id="music"></div> ...
搭建centos7的开发环境2-单机版Hadoop2.7.3配置
最近公司准备升级spark环境,主要原因是生产环境的spark和hadoop版本都比较低,但是具体升级到何种版本还不确定,需要做进一步的测试分析.这个任务对于大数据开发环境配置有要求,这里记录一下配置 ...
Coursera-AndrewNg(吴恩达)机器学习笔记——第一周
一.初识机器学习何为机器学习?A computer program is said to learn from experience E with respect to some task T an ...
时间复杂度O(n),空间复杂度O(1)解斐波那契数列
#include <stdio.h> #include <iostream> using namespace std; long long fibs1(int in_iN) { ...
MySQL事务的的介绍及使用
事务的特性 1.原子性(Atomicity):原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生. 2.一致性(Consistency):在一个事务中,事务前后数据的完整性必 ...
UML类图10分钟快速入门 - From 圣杰
虚线箭头指向依赖: 实线箭头指向关联: 虚线三角指向接口: 实线三角指向父类: 空心菱形能分离而独立存在,是聚合: 实心菱形精密关联不可分,是组合: 原文作者:圣杰原文地址:http://www.j ...
0513JS数组内置方法、数学函数、时间函数
|数组中常用的内置方法|-push()与pop()|--push()是往数组的尾部添加,同时返回新数组的长度 var attr = [1,2,3,4,5];var attr2 = [6,7,8,9,0 ...

Mysql 上亿级数据导入Hive思路分享

Mysql 上亿级数据导入Hive思路分享的更多相关文章

随机推荐

热门专题