MySQL同步状态双Yes的假象及seconds_behind

　　近期由于特殊原因有一台主库宕机了一个小时没有处理，说起来这是个挺不好啥意思的事情，但是由于这个事情反而发现个比较诡异的情况，那就是在主库宕机一个小时候后，监控才发出从库IO thread中断的报警，也就是说在那一个小时内，从库的同步状态是双Yes的。这是多么诡异的现象，那么这是因为什么原因呢？我们下来分析一下。

　　众所周知，MySQL的同步是异步完成的，其中IO thread负责接收从主库dump的binlog到从库上生成relay log，然后SQL thead负责解析relay log后在从库上进行重放来完成同步。这个2步是完全异步的，单独停止其中一个，并不会影响另一个的正行工作。当这两个thread都正常工作的时候，show slave status会显示双Yes状态，表示同步正常。

　　提到这2个状态就不得不提另外一个非常重要的状态，那就是seconds_behind_master，一般意义上说代表着从库和主库的延迟时间，数值越高意味着延迟越大，但是当SBM为0的时候，并不真正意味着从库已经追上主库了。相信大家都遇到过，从监控图上看，SBM一直都是0，在某一个时间点之后突然就变得非常高。这是由于在主库上执行了一个非常大的event，在这个event在主库上没执行完毕的时候，从库的SBM会显示为0，而当主库执行完毕传到从库上开始执行的时候，就会显示SBM非常巨大了。官方的文档解释如下：

It is also possible that transient values for Seconds_Behind_Master may not reflect the situation accurately. When the slave SQL thread has caught up on I/O, Seconds_Behind_Master displays ; but when the slave I/O thread is still queuing up a new event, Seconds_Behind_Master may show a large value until the SQL thread finishes executing the new event. This is especially likely when the events have old timestamps; in such cases, if you execute SHOW SLAVE STATUS several times in a relatively short period, you may see this value change back and forth repeatedly between  and a relatively large value.

　　想要验证的同学可以按照如下的方式进行测试，可以100%复现。

、首先搭建一个主从关系的数据库集群

、在主库上随便建立一个表。

、执行如下语句

insert into aaa select  from aaa where x =  or sleep(10);

以上语句会在主库上执行一段时间

、在执行时间内，在从库上show slave status会看到SBM全部都是0。（但是这时候其实已经是不同步的了）

、等待在主库执行完毕之后，我们就会看到SBM变成一个较大的数字了。

　　那么这个seconds_behind_master的值到底是怎么计算出来的呢？官方的解释如下：

Seconds_Behind_Master: The number of seconds that the slave SQL thread is behind processing the master binary log

　　也就是说，是SQL thread在执行IO thread dump下来的relay log的时间差。大家都知道relay log中event记录的时间戳是主库上的时间戳，而SQL thread的时间戳是从库上的，也就是说，如果主库和从库的时间是一致的，那么这个SBM代表的确实是从库延后主库的一个时间差。但是如果主库和从库的时间不是一致的，那么这个SBM的意义就基本不存在了。我们可以做如下的测试。

、还是上的测试环境

、在从库上修改时间设置

date -s“+ hour”

、执行上面带有sleep的语句

、等待主库执行完毕之后在从库执行

show slave status

、可以看到，这时候的SBM的数值至少是一个大于3600的数值

这也就验证了我们上面的观点。

　　说完了seconds_behind_master，我们继续来说IO thread和SQL thread的双Yes假象的问题。

　　我们进行了如下实验：

、正常shutdown，结果状态单no

、kill mysqld，结果状态单no

、kill - mysqld，结果状态双Yes

、reboot 服务器，结果状态双Yes

　　可以看出，只有在重启服务器的时候（也就是我们今天越到的这个场景），从库的状态是双Yes的。推测在服务器重启的时候，作为从库是不知道主库是已经宕机还是并没有写入，所以一直保持双Yes状态，一直等待到一定时间点（预估一个小时）之后重试的时候才会真正发现主库已经宕机了。

　　有如下3个重要参数控制着这个过程slave-net-timeout，master-connect-retry，master-retry-count。根据官方文档解释如下

slave-net-timeout意味着在没有得到更多数据之后slave等待的时间，默认值3600s

master-connect-retry意味着每次和主库建立链接重试的等待时间，默认值为60s

master-retry-count意味着从库同主库建立链接的重试次数，默认86400次

　　而这个重试机制是按照如下方法运行的，当从库发现从主库上无法获得更多的暑假了，就会等待slave-net-timeout时间，然后将IO thread置为no状态，接着开始尝试重建建立连接，每次建立失败之后等待master-connect-retry时间，一直重试master-retry-count次。

　　所以，由于以上的原因，就造成了我们今天遇到的双Yes状态假象，其实当时主库已经宕机了很久了。

　　解决的办法其实很简单，将slave-net-timeout降低即可，比如修改成5分钟或者1分钟，这样可以缩短进入重试机制的等待时间，可以尽早发现问题。

　　另，感谢@zolker提醒， MySQL5.5之后增加了relication的heartbeat机制，可以在从库上通过执行show global status like 'Slave_received_heartbeats'进行查看。

　　当主库没有写入的时候会按照间隔时间跳动，可以依据此进行一定的health-check。

STOP SLAVE;

CHANGE MASTER TO master_heartbeat_period= milliseconds;

START SLAVE;

SHOW STATUS like 'slave_heartbeat period'

SHOW STATUS like 'slave_received_heartbeats'

　　参考文档：

　　http://dev.mysql.com/doc/refman/5.5/en/replication-options-slave.html#sysvar_slave_net_timeout

　　http://dev.mysql.com/doc/refman/5.5/en/replication-administration-status.html

　　http://dev.mysql.com/doc/refman/5.5/en/slave-io-thread-states.html

MySQL同步状态双Yes的假象及seconds_behind_master的含义的更多相关文章

MySQL同步状态双Yes的假象及 seconds_behind_master的含义
MySQL同步状态双Yes的假象及seconds_behind_master的含义近期由于特殊原因有一台主库宕机了一个小时没有处理,说起来这是个挺不好啥意思的事情,但是由于这个事情反而发现个比较 ...
从show slave status 中判断mysql同步状态
slave status 中检查同步状态: 1.sql线程和io线程显示yes Slave_IO_Running: Yes Slave_SQL_Running: Yes 2. Master_Log_F ...
MySQL 同步状态
Exec_Master_Log_Pos: The position of the last event executed by the SQL thread from the master's bin ...
mysql 主从，双主同步
1.创建用户并设置远程访问授权 1). A上添加: //ip地址为B的ip地址,用于B访问 ' with grant option; 2). B上添加://ip地址为A的ip地址,用于A访问 ' wi ...
linux shell mysql 数据库主从同步状态检查告警
需求: 1.监测数据库主从状态 2.获取数据库主要参数 3.可读取配置文件 4.部署位置自适应. 参考资料: http://blog.csdn.net/yf210yf/article/detail ...
监控mysql主从同步状态脚本
监控mysql主从同步状态脚本示例一: cat check_mysql_health #!/bin/sh slave_is=($(mysql -S /tmp/mysql3307.sock -uroo ...
nagios 实现Mysql 主从同步状态的监控
一.系统环境主机名 IP nagios 192.168.15.111 mysql_s 192.168.15.21 二.操作步骤 2.1 mysql_s端的配置 2.1.1 编写check_mysql ...
监控mysql主从同步状态
在高并发网站架构中,MySQL数据库主从同步是不可或缺的,不过经常会发生由于网络原因或者操作错误,MySQL主从经常会出现不同步的情况,那么如何监控MySQL主从同步,也变成网站正常运行的重要环节. ...
解读show slave status 命令判断MySQL复制同步状态
解读show slave status 命令判断MySQL复制同步状态 1. show slave status命令可以显示主从同步的状态 MySQL> show slave status \G ...

随机推荐

安装完ODTwithODAC112012,出现ORA-12560:TNS:协议适配器错误
参考:http://blog.csdn.net/tan_yixiu/article/details/6762357 操作系统:windows2008 Enterprise 64位开发工具:VS201 ...
Swift中的指针类型
Swift编程语言为了能与Objective-C与C语言兼容,而引入了指针类型.尽管官方不建议频繁使用指针类型,但很多时候,使用指针能完成更多.更灵活的任务.比如,我们要实现一个交换两个整数值的函数的 ...
iscsi服务器的搭建
1.在您的存储服务器上,以 root 用户身份使用 yum 命令安装 scsi-t arget -ut ils 软件包. # yum install -y scsi-target-utils 2.把您 ...
maven的初步理解
[情景] 在进行JAVA项目开发的过程中,代码写好后,需要经过编译.打包.运行.测试.部署等过程. 在JAVA项目的开发阶段,就会根据业务的需要引入许多jar包来实现功能,但我们需求的jar包本身可能 ...
Springboot swagger2 导出api文档
具体导出的代码,参考了:http://www.spring4all.com/article/699 导出前,首先需要配置好swagger2,参见 https://www.cnblogs.com/yan ...
angular项目中使用jquery的问题
1.使用npm命令往项目中添加jQuery. npm install jquery --save 2.在你想要用jQuery的组件中添加. import * as $ from "jquer ...
laravel入门教程
参考地址:https://github.com/johnlui/Learn-Laravel-5/issues/16
linux---centos7 安装chromedriver
1.安装浏览器指定yum 源 wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.re ...
DNS使用TCP还是UDP？
DNS同时占用UDP和TCP端口53是公认的,这种单个应用协议同时使用两种传输协议的情况在TCP/IP栈也算是个另类.下面将介绍DNS分别在什么情况下使用这两种协议. TCP与UDP简介 TCP ...
洛谷 P2043质因子分解题解
题目传送门 N的范围很小,所以使用O(n2)的算法就能过啦! #include<bits/stdc++.h> using namespace std; ],n; int main(){ c ...

MySQL同步状态双Yes的假象及seconds_behind_master的含义

MySQL同步状态双Yes的假象及seconds_behind_master的含义的更多相关文章

随机推荐

热门专题