Java备份约9亿条数据

需求：有一张表9亿多条数据，数据加索引总数据量61GB。考虑到这张表的大部分数据都不会再被使用并且大数据量可能影响整库的性能，所以决定将表里某一个时刻之前的数据备份到一张新表中，待备份完成后将旧表中已经备份的数据删除。由于数据量太大，不适合让DBA直接做备份。

方案1

main线程分页读取旧表数据，每页200条。每读取一页数据就新建一个线程，将200条数据交给新建的线程去完成insert到新表的操作。

弊端：需要将数据读到内存，然后再写回数据库，涉及到大量的IO操作。所有的数据都需要走网络，对网络带宽及稳定性要求很高。

方案2

直接使用SQL语句在MySQL端完成select和insert操作，不涉及IO操作。

弊端：在这种情况下，要分页操作就必须使用单线程。

综合考虑整个备份过程的速度与数据量，采用第二种方案。

涉及到的SQL语句如下：

<insert id="backupUniqueNumber" parameterClass="java.util.Map">

    INSERT INTO UniqueNumber_backup_201603

    (ID,

    SerialNumber,

    BusinessType,

    AddTime

    )

    SELECT ID, SerialNumber, BusinessType, AddTime FROM UniqueNumber WHERE ID > #lastMaxId# limit #pageSize#

</insert>

<!-- 强制走主库 -->

<select id="getLastMaxId" resultClass="java.lang.Integer">

    /*+zebra:w*/SELECT MAX(ID) FROM UniqueNumber_backup_201603

</select>

主要的Java代码如下：

public class UniqueNumberBackupBiz {

    private static final AvatarLogger logger = AvatarLoggerFactory.getLogger(UniqueNumberBackupBiz.class);

    @Autowired

    private UniqueNumberDao uniqueNumberDao;

    public void execute(){

        int maxId = 932727664;// 932727664;//UniqueNumber表中2016-04-01 00:00:00数据的id为932727664

        int lastMaxId = 0;

        int pageSize = 300;

        try{

            lastMaxId = uniqueNumberDao.getLastMaxId();

        }catch (Exception e){

            //这里出现异常是因为备份表中还没有数据，此时lastMaxId取默认值0. 这个异常只会在第一次运行时出现。

            logger.warn(String.format("Get lastMaxId failed, system exit, please run the system manually"));

            System.exit(0);

        }

        long startTime = System.currentTimeMillis();

        while(lastMaxId < maxId){

            logger.info("lastMaxId=" + lastMaxId);

            try {

                uniqueNumberDao.backupUniqueNumber(lastMaxId, pageSize);

            }catch (Exception e){

                logger.error("backupUniqueNumber exception:", e);

            }

            try {

                Thread.sleep(50);//防止MySQL压力过大

                lastMaxId = uniqueNumberDao.getLastMaxId();

            }catch (Exception e){

//                logger.error("Thread sleep exception", e);

                logger.error("Get lastMaxId failed, system exit, please run the system manually", e);

                System.exit(0);

            }

        }

        long endTime = System.currentTimeMillis();

        logger.info(String.format("Data backup finished in %d ms", endTime - startTime));

    }

}

为了防止对MySQL造成过大的压力，每一次循环中休眠50ms。运行中每秒insert的数据量大约5000条。若取消每次循环休眠50ms，每秒insert数据量大约为30000条。

PS：踩了一个坑，由于MySQL数据库有master slave之分，select操作是走slave库。master库与slave库同步存在一定的时差。之前没有强制select走master库，造成抛出了一些主键重复异常。不过这个异常不会造成多大的影响。后来强制select走主库就没有再抛出异常了。

数据全部从旧表搬到新表之后，需要将旧表中已备份的数据删除。

    <delete id="deleteOldData" parameterClass="java.util.Map">

        <![CDATA[

        DELETE FROM UniqueNumber

        WHERE  ID >= #startId# AND ID < #endId#

        ]]>

    </delete>

    <!-- 强制走主库 -->

    <select id="getMinId" resultClass="java.lang.Integer">

        /*+zebra:w*/SELECT MIN(ID) FROM UniqueNumber

    </select>

    public void deleteOldData(){

        int startId = uniqueNumberDao.getMinId();

        int pageSize = 1000;

        int endId = startId + pageSize;

        int maxId = uniqueNumberDao.getLastMaxId();

        logger.info(String.format("maxId=%d", maxId));

        while(endId < (maxId - 1000)){//保险起见，防止多删

            try {

                int num = uniqueNumberDao.deleteOldData(startId, endId);

                Thread.sleep(50);

                logger.info(String.format("startId=%d, endId=%d,%d rows deleted", startId, endId, num));

                startId = endId;

                endId = startId + pageSize;

            }catch (Exception e){

                logger.error("Error occurred when deleting data", e);

                System.exit(-1);

            }

        }

    }

删除任务执行完之后可能还剩下不到1000条数据没删完，需要手动执行delete语句来删除剩下的部分。

Java备份约9亿条数据的更多相关文章

PostgreSQL中COUNT的各条件下（1亿条数据）例子
test=# insert into tbl_time1 select generate_series(1,100000000),clock_timestamp(),now(); INSERT 0 1 ...
亿条数据在PHP中实现Mysql数据库分表100张
当数据量猛增的时候,大家都会选择库表散列等等方式去优化数据读写速度.笔者做了一个简单的尝试,1亿条数据,分100张表.具体实现过程如下: 首先创建100张表: $i=0; while($i<=9 ...
net.sz.framework 框架 ORM 消消乐超过亿条数据排行榜分析天王盖地虎
序言天王盖地虎, 老婆马上生孩子了,在家待产,老婆喜欢玩消消乐类似的休闲游戏,闲置状态,无聊的分析一下消消乐游戏的一些技术问题: 由于我主要是服务器研发,客户端属于半吊子,所以就分析一下消消乐排行榜 ...
1亿条数据在PHP中实现Mysql数据库分表100张
当数据量猛增的时候,大家都会选择库表散列等等方式去优化数据读写速度.笔者做了一个简单的尝试,1亿条数据,分100张表.具体实现过程如下: 首先创建100张表: $i=0; while($i<=9 ...
oralce 超过1亿条数据的数据库表清理实践
2018-08-18 16:58 无腿鸟阅读(331) 评论(0) 编辑收藏问题:当一个表的数据量超过一亿条,要删除其中的5000w条,如何处理. 如果直接使用delete语句,会涉及到到大量的 ...
java向数据库插入N条数据
为了测试mysql的索引,要向数据库先插入上万条数据,然后再测试.手动插入太麻烦,写了一段代码. 先上代码: package action; import java.sql.Connection; i ...
演讲：对 2000 多亿条数据做一次 group by 需要多久？
http://2017.qconbeijing.com/presentation/646?utm_source=weibo&utm_medium=infoq&utm_campaign= ...
java 批量插入10万条数据
for (int i = 0; i < 100000; i++) { dbHelper.insert("INSERT aaa(name) Values ('1')"); } ...
过千万、亿条数据的mysql表更新 mysql 线程状态
分段更新 UPDATE question SET `status`=1 WHERE status!=1 LIMIT 3000;UPDATE answer SET `status`=1 WHERE st ...

随机推荐

8 继承-extends
面向对象的特征:继承,封装和多态 java 当中只支持单继承,不允许多继承 class Person { String name; int age; void eat() { System.out.p ...
DIRECTORY_SEPARATOR：PHP 系统分隔符常量
今天在nginx部署项目,在浏览器输入http://127.0.0.2/index.php/system/category/?action=list 老是提示error nginx配置没有问题,下了其 ...
新手Oracle安装及使用入门
一．安装Oracle Step1 下载oracle压缩包并解压到同一文件夹下面 Step2 双击setup.exe进行安装 Step3:进入如下界面配置: 邮箱可不填,去掉更新除了设置密码,其他均可 ...
bzoj4349: 最小树形图&&bzoj2260: 商店购物
双倍经验大法吼昨天发现不会最小属性图&朱刘算法啊吓得我赶紧补了一发朱刘算法模板题 #include <iostream> #include <cstdio> #i ...
macOS安装「oh my zsh」
目前常用的 Linux 系统和 OS X 系统的默认 Shell 都是 bash,但是真正强大的 Shell 是深藏不露的 zsh, 这货绝对是马车中的跑车,跑车中的飞行车,史称『终极 Shell』, ...
Spring mvc web 配置
Spring Framework本身没有Web功能, Spring MVC使用WebApplicationContext类扩展ApplicationContext ,使得拥有web功能.那么,Spri ...
WebConfig节点详解
<!-- Web.config配置文件详解(新手必看) 花了点时间整理了一下ASP.NET Web.config配置文件的基本使用方法. 很适合新手参看,由于Web.config在使用很灵活,可 ...
第二次作业———“A+B Format”思路与总结
GitHub链接: https://github.com/zzy19961112/object-oriented "A+B Format" 题目解题思路: 一开始粗略看这道题,熟 ...
【Alpha版本】冲刺-Day6
队伍:606notconnected 会议时间:11月14日会议总结张斯巍(433) 今天安排:学习UI设计完成度:100% 明天计划:上传界面设计遇到的问题:无感想:刚开始学的时候,都是从 ...
数据结构与算法分析 - 网络流入门（Network Flow）
转载:网络流基础篇--Edmond-Karp算法 BY纳米黑客网络流的相关定义: 源点:有n个点,有m条有向边,有一个点很特殊,只出不进,叫做源点. 汇点:另一个点也很特殊, ...

Java备份约9亿条数据

Java备份约9亿条数据的更多相关文章

随机推荐

热门专题