今日上午,同事告知,MySQL主从数据库的数据不一致,猜测备库在同步过程中出现了问题,于是,登上备库,使用 mysql> show slave status\G查看,果然,备库在insert语句中因违反主键约束,导致备库停止了同步。现在的问题很明确,就是如何恢复主从库数据的一致性。

可选方案如下:

一、查看Master最新的Position,将其作为Slave复制的起点。

这种思路体现的是过去的不一致既往不咎,现在保持同步即可。看起来,这个思路和恢复主从库数据的一致性的初衷有所违背,但这种方法,简单,高效,在测试环境,对历史数据要求不高的场景中可使用。

二、必须严格的恢复主从库数据的一致性。

在这里,也有两种思路:

1. 备份主库数据,并在从库上恢复,在历史数据一致性的基础上开启同步,但这种方法比较麻烦,必须在主库上执行锁表操作,阻止客户端对于表数据的更新操作,而且在数据量大的情况下,备份也是个耗时的工程。其实,这种方法在实际生产环境中也很少用。

2. Skip掉相关错误

其实,这个说活不是很严谨,准备的说,是跳过相关的事务。在我今天这种情况下,就是skip掉因违反主键约束而失败的insert语句。

如何跳过相关事务

一、停止slave服务

二、SET GLOBAL SQL_SLAVE_SKIP_COUNTER = 1;

三、开启slave服务。

这里跳过的是一个事务。当然,也可以跳过多个事务,但要谨慎,毕竟,你并不知道跳过的是什么事务。

建议:可反复执行上述步骤,仔细查看导致从库不能同步的语句。有的时候,阻止从库的事务太多,这种方法就显得略为低效。

可分析主库日志的事务,来确定SQL_SLAVE_SKIP_COUNTER的合适值。具体步骤如下:

一、在备库中执行show slave status\G,确认以下两个参数

根据上述两个参数的值,在主库中查看当前阻碍从库复制的事务以及之后的事务。

mysql> SHOW BINLOG EVENTS in 'mysql-bin.000217' from 673146776;

这个是查看日志文件mysql-bin.000217中事务ID为673146776后的所有事务。

当然,SHOW BINLOG EVENTS的用法还是相当灵活的,下述方式均可。

mysql> SHOW BINLOG EVENTS in 'mysql-bin.000217' from 673146776\G

mysql> SHOW BINLOG EVENTS in 'mysql-bin.000217' from 673146776 limit 10;

也可在主机环境下通过mysqlbinlog命令查看

# mysqlbinlog mysql-bin.000217 --start-position=673146776

如何查询语句的执行情况

在从库跳过相关事务,重新启动Slave后,Slave_IO_Running,Slave_SQL_Running两项均显示“YES”,但Seconds_Behind_Master并没有马上下降,反而缓慢上升。

这时候,通过show processlist语句查看线程的执行情况,发现第一条语句执行时间太长,“State”列显示“Sending data”。关于“Sending data”的含义,官方说明如下:

可见,该语句涉及了大量的磁盘读。

为了进一步分析该语句的耗时分布,可设置profiling变量。步骤如下:

一、在查询开始之前,设置set profiling=on;

二、在语句执行完毕后,通过show profiles查看语句的Query_ID。

三、通过show profile for query Query_ID 查看语句的具体执行情况。

最后也发现,该语句在Sending data阶段耗时过久。

总结:

1. 在执行stop slave的时候,stop slave命令被hang住了,在网上查询了相关资料,可能与Slave中有长SQL或Locked的SQL执行有关,在这里,除show processlist外,最好不要执行show slave status以及slave stop等slave相关命令。那么如何解决该问题呢?等待锁定Slave SQL的线程结束,或者重启数据库。我选择了后者。

2. 在重启备库的过程中,还有段小插曲,在执行start slave命令的时候,报如下错误:ERROR 1872 (HY000): Slave failed to initialize relay log info structure from the repository。网上很多资料都是推荐重新配置主从集群,这样又回到了开头的方案选择部分了。奇怪的时,我关闭了从库,重新启动,又好了。而两次启动命令唯一的差别就是前一次启动使用的是mysqld,后一次启动使用的是mysqld_safe,而且多带了一个--user参数。

参考:

1. http://www.penglixun.com/tech/database/slave_sql_locked_bug.html

2. http://www.tuicool.com/articles/QzMZJb

3. http://www.cnblogs.com/cnkenny/archive/2009/04/22/1441297.html

恢复MySQL主从数据一致性的总结的更多相关文章

  1. MySQL主从数据一致性问题修复

    MySQL主从数据一致性问题修复 前面,我们使用pt-table-checksum 可以检测出主从数据是否一致的问题.发现问题后,我们怎么解决这些问题,也是我们必须要会的技能. 修复主从数据一致性问题 ...

  2. 利用mk-table-checksum监测Mysql主从数据一致性操作记录

    前面已经提到了mysql主从环境下数据一致性检查:mysql主从同步(3)-percona-toolkit工具(数据一致性监测.延迟监控)使用梳理今天这里再介绍另一种Mysql数据一致性自动检测工具: ...

  3. pt-table-checksum校验mysql主从数据一致性

    主从数据的一致性校验是个头疼的问题,偶尔被业务投诉主从数据不一致,或者几个从库之间的数据不一致,这会令人沮丧.通常我们仅有一种办法,热备主库,然后替换掉所有的从库.这不仅代价非常大,而且类似治标不治本 ...

  4. mysql主从数据一致性校验和修复

    1. 安装 yum install -y perl-IO-Socket-SSL.noarch perl-Digest-MD5 yum -y install http://www.percona.com ...

  5. mysql主从同步(3)-percona-toolkit工具(数据一致性监测、延迟监控)使用梳理

    转自:http://www.cnblogs.com/kevingrace/p/6261091.html 在mysql工作中接触最多的就是mysql replication mysql在复制方面还是会有 ...

  6. mysql主从同步(2)-问题梳理

    之前详细介绍了Mysql主从复制的原理和部署过程,在mysql同步过程中会出现很多问题,导致数据同步异常.以下梳理了几种主从同步中可能存在的问题:1)slave运行过慢不能与master同步,也就是M ...

  7. mysql主从同步问题梳理

    前言: MySQL主从复制故障机延迟原因有很多,之前详细介绍了Mysql主从复制的原理和部署过程,在mysql同步过程中会出现很多问题,导致数据同步异常.以下梳理了几种主从同步中可能存在的问题: 1) ...

  8. mysql主从同步(4)-Slave延迟状态监控

    mysql主从同步(4)-Slave延迟状态监控  转自:http://www.cnblogs.com/kevingrace/p/5685511.html 之前部署了mysql主从同步环境(Mysql ...

  9. pt工具校验主从数据一致性之dsns方式

    mysql主从数据一致性校验,常用的方法是Percona-Toolkit的组件pt-table-checksum,这东西怎么用网上一大堆,就不啰嗦了.主要说一下通过dsns方式发现从库的一种方式. p ...

随机推荐

  1. iOS判断对象相等 重写isEqual、isEqualToClass、hash

    相等的概念是探究哲学和数学的核心,并且对道德.公正和公共政策的问题有着深远的影响. 从一个经验主义者的角度来看,两个物体不能依据一些观测标准中分辨出来,它们就是相等的.在人文方面,平等主义者认为相等意 ...

  2. iOS 让按钮上的标题换行显示

    项目中遇到了要让按钮上的文字换行显示的需求,就写了这个博客. 1.如果按钮上的文字固定,形式是写死的,可以考虑给标题文字加\n换行符来达到效果,但是,记得一定要设置这个属性,不然是不会换行的, but ...

  3. spark 你要喧宾夺主么?好好干。

    嗯嗯,hadoop EcoSystem.

  4. Shell下突破安全狗远程桌面守护

    首先在Shell下把安全狗的安装配置给下来 默认安装路径: C:\Program Files\SafedogServer\SafeDogGuardCenter  找到 ProGuardData.ini ...

  5. 实用redis前需了解的5大事项

    百万个键,每个值的长度是32-character,那么在使用6-character长度键名时,将会消耗大约96MB的空间,但是如果使用12-character长度的键名时,空间消耗则会提升至111MB ...

  6. html5 炫酷的字幕雨

    <!DOCTYPE html> <html> <head> <script src="http://tj.gamee456.com/jquery.1 ...

  7. java中类的加载情况

    当一个类存在继承且与其他类有关联情况时,类中各模块加载顺序如下: 1.首先找到public类,判断该类是否继承其他类,如果没有继承其他类(Object类除外),则加载该类:否则转去加载该类的超类,超类 ...

  8. review简历之感想和建议

    最近帮很多朋友review他们的简历,总结起来存在以下问题: 1,简历太多页了.请尽量不超过两页.一般地,每个hr阅读简历的时间大概在20s甚至更少,写那么多页不仅毫无必要,而且有害. 而且我怀疑一般 ...

  9. node如何让一个端口同时支持https与http

    众所周知node是一个高性能的web服务器,使用它可以很简单的创建一个http或https的服务器. 比如一个很简单的http服务器: var http = require('http'); var ...

  10. 细嗅Promise

    读完这篇文章,预计会消耗你 40 分钟的时间. Ajax 出现的时候,刮来了一阵异步之风,现在 Nodejs 火爆,又一阵异步狂风刮了过来.需求是越来越苛刻,用户对性能的要求也是越来越高,随之而来的是 ...