Mysql History list length 值太大引起的问题
1. 环境
Mysql 主从
Mysql版本:5.1.49-log
系统:Red Hat Enterprise Linux Server release 5.4 64bit
2. 表面现象
数据库操作变慢,如用主键作为条件查询,有时也会超过1秒;
主库IO使用率一直在90%以上(平常io比较低20%以内),dirty 页占总数的90%左右,脏页刷不完;持续了几个小时~
3. 从系统上看
主库的iostat 的使用率一直在90%以上,Mysql data 所在目录的大小一直没变;主库的 ib_logfile 20分钟切换一次(主库上面的innodb log写得还是比较频繁),而从库的 ib_logfile 4小时切换一次。
4. 从mysql上看
在主库 Buffer pool hit rate 993 / 1000 innodb 的命中率一直维持在99%左右;
Innodb_buffer_pool_pages_dirty 的大小一直在增长,dirty 页占总数的90%左右,脏页刷不完。但这些脏页不像是正常操作产生的,因为主库上的读写操作都不大。并且从库上的同步没有延时,而且从库的dirty页也很少。
5. 从监控mysql报表上看
从监控到的mysql的读写,跟往常没什么区别;
而innodb 的 Data_free 从开始(100MB以内)
所有innodb的数据+索引的大小为:47.2GB
到恢复正常时data_free的大小为:32.3GB
所有innodb的数据+索引的大小为:45GB
可见在在innodb 数据+索引基本上没减少的情况下,data_free 变成32GB,这32GB来自undo的释放?为什么一下子释放这么多undo?
6. 再看看出现问题前的操作
原来3306实例下,有多个数据库,在出现问题前,刚好将一个数据库(频繁更新)迁移至其他服务器。迁移数据库 跟 这个问题 是巧合 or 触发?
7. 问题的原因
Undo 的释放?查看show engine innodb status中的:History list length (History list length是指在回滚空间中的未清除事务数。随着事务的提交,它的值会增加;随着清除线程的运行,它的值会减小)
发现History list length 的值很大,再查回以前的crt的log中的 History list length ,最近这个值一直在增长,一直增长到:78883366 (竟然有这么多的事务数未清除)
再看看出问题的时候,History list length 的变化情况(从crt log 中过滤出来,还好平时记录了操作的crt log;这回用上了):
# grep "History list length" app190.log
History list length 78883366
History list length 73091889
History list length 70069534
History list length 66194783
History list length 62209735
History list length 49672090
History list length 31489057
History list length 30877319
History list length 33
到恢复正常时,History list length 维持在100以内。
8. 查找History list length值太大的原因
为什么History list length一直未清理,innodb 在什么时候清理这些事务数?
看看innodb master thread的操作(参考:mysql技术内幕innodb存储引擎)
每10秒的操作包括:
刷新100个脏页到磁盘(可能) 注:后面的版本用 innodb_io_capacity 调整
合并至多5个插入缓冲(总是)
将日志缓冲刷新到磁盘(总是)
删除无用的undo页(总是)
刷新100个或者10个脏页到磁盘(总是)
产生一个检查点(总是)
Background loop 在没有用户活动(数据库空闲时)或者数据库关闭时,就会切换到这个循环,包括以下操作:
删除无用的undo页(总是)
合并20个插入缓冲(总是)
调回到主循环(总是)
不断刷新100个页,直到符合条件(可能,跳转到flush loop中完成)
由上可见,每10秒会删除无用的undo页,但为什么 History list length 还是这么大?
导致History list length值太大的原因,是跟迁移走的数据库(频繁更新)有关;这个数据库的应用,是采用连接池来连接mysql,并且mysql中使用的隔离级别是默认的:REPEATABLE-READ。在这个级别下,保证了多次读的结果一样(跟MVCC有关)。
而这个业务对于失败的事务不做任何操作,导致可能存在这个事务一直没commit,为了保持隔离级别REPEATABLE-READ 的特性,在undo中一直保留了这个事务以后的版本号,也就导致未清理的事务数越来越大,History list length 值也就越大。
可见,出现主库IO使用率一直在90%以上,是因为mysql 在清理undo 中的事务数。但有什么方法可以避免History list length 的值太大?
9. 避免History list length 值太大
1. 更改业务程序中的逻辑,比如对失败事务做相关的操作;
2. 在对业务没影响的情况下,可用隔离级别:read committed,在这个事务隔离级别下,只有事务commit,就会去清理undo中的事务(每10秒)。
由于对程序的更改没这么快,而且开发确认业务在 read committed 下也没影响,所以将业务的隔离级别更改为read committed :
在mysql 中执行:set global transaction isolation level read committed; 重启业务,重连数据库后生效,更改之后History list length 基本上保持在100以内。
show global variables like '%iso%';
set global transaction isolation level read committed; pager grep "History list";
show innodb status;
nopager;
参考:
http://blog.chinaunix.net/uid-21879027-id-3348358.html
Mysql History list length 值太大引起的问题的更多相关文章
- double的值太大,以及补0
当double的值太大的时候,比如1000000000 用DecimalFormat: double d = 1.0E7; System.out.println(new DecimalFormat(& ...
- ZTree id值太大,ZTree没有生成树,ZTree的id值过大
ZTree id值太大,ZTree没有生成树,ZTree的id值过大 >>>>>>>>>>>>>>>> ...
- exception 值太大
CreateTime--2018年2月5日09:45:01 Author:Marydon 异常: Cause: java.sql.SQLException: ORA-12899: 列 " ...
- oracle 11g 导入表时 提示 ***值太大错误
导入数据库时,总是提示**值太大,实际值是**的错误. 具体忘了错误代码是什么了 ——! 经查询,这个是由于字符集设置的不是gbk的,导致导入时遇到中文字符出现的问题, 解决方法: 如果可以的话就把数 ...
- Oralce导入数据库出现某一列的值太大
这是由于导出的文件所运行的Oracle,和导入所运行的Oracle机器字符集不相同导致的,在UTF-8中有的汉字占三个字节, 并不是所有的都占两个字节,
- Mysql文件太大导入失败解决办法总结
Mysql文件太大导入失败解决办法总结 在使用phpmyadmin导入数据库的时候可能会碰到由于数据库文件太大而无法导入的问题! 英文提示如下:File exceeds the maximum all ...
- [转]MySql ibdata1文件太大如何缩小
From : http://blog.chinaunix.net/uid-24373487-id-4223322.html 原文地址:MySql ibdata1文件太大如何缩小 作者:emailwht ...
- 【原创】Innodb中mysql如何快速删除2T的大表
小漫画 来,先来看小漫画陶冶一下情操 OK,这里就说了.假设,你有一个表erp,如果你直接进行下面的命令 drop table erp 这个时候所有的mysql的相关进程都会停止,直到drop结束,m ...
- Innodb中MySQL如何快速删除2T的大表
转自:http://database.51cto.com/art/201808/582324.htm OK,这里就说了.假设,你有一个表erp,如果你直接进行下面的命令: drop table erp ...
随机推荐
- 数据分析处理库Pandas——字符串操作
字符串小写 字符串大写 字符串长度 去掉字符串中的空格 去掉字符串中的左空格 去掉字符串中的右空格 字符串替换 按字符串切割 字符串是否包含在另一个字符串中
- python基础之进程间通信、进程池、协程
进程间通信 进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的. 进程队列queue 不同于线程queue,进程 ...
- Django学习之天气调查实例(1):工程的开始
开始学习Django,一步一个脚印的进行.思考再三,还是以一个实例来开始学习.手里面正好有几万条单位天气传感器收集的数据,想做一个网页版的天气统计查询之类的小应用,也可以给学生体验,方便教学的进行(尽 ...
- CDH,CM下载
wget -c -r -nd -np -k -L -A rpm http://archive-primary.cloudera.com/cdh5/parcels/latest/ http://arch ...
- Java的HashMap和HashTable
Java的HashMap和HashTable 1. HashMap 1) hashmap的数据结构 Hashmap是一个数组和链表的结合体(在数据结构称“链表散列“),如下图示: 当我们往hashm ...
- 「日常训练」Common Subexpression Elimination(UVa-12219)
今天做的题目就是抱佛脚2333 懂的都懂. 这条题目干了好几天,最后还是参考别人的代码敲出来了,但是自己独立思考了两天多,还是有收获的. 思路分析 做这条题我是先按照之前的那条题目(The SetSt ...
- hdu1506 Largest Rectangle in a Histogram
Problem Description A histogram is a polygon composed of a sequence of rectangles aligned at a commo ...
- 第十二篇 Python函数之全局变量&局部变量&递归函数
全局变量:在定义的时候,顶头写的,没有任何缩进的变量就是全局变量. 全局变量的特点:在当前文件里的任何地方都可以进行调用 局部变量:在子程序里定义的变量,就是局部变量. 子程序:比如.py文件里,写的 ...
- 接口自动化测试框架Karate入门
介绍 在这篇文章中,我们将介绍一下开源的Web-API自动化测试框架--Karate Karate是基于另一个BDD测试框架Cucumber来建立的,并且共用了一些相同的思想.其中之一就是使用Gher ...
- python3学习之路_day1
登录程序1.输入用户名密码2.认证成功后显示欢迎信息3.输错三次后锁定 #!/usr/bin/env python #_*_coding:utf-8_*_ #by anthor gushiren 20 ...