MySQL--eq_range_index_dive_limit参数学习,MYSQL 5.6 5.7处理数据分布不均的问题

官方文档如下描述：
This variable indicates the number of equality ranges in an equality comparison condition when the optimizer should switch from using index dives to index statistics in estimating the number of qualifying rows. It applies to evaluation of expressions that have either of these equivalent forms, where the optimizer uses a nonunique index to look up col_name values:

col_name IN(val1, ..., valN)
col_name = val1 OR ... OR col_name = valN

In both cases, the expression contains N equality ranges. The optimizer can make row estimates using index dives or index statistics. If eq_range_index_dive_limit is greater than 0, the optimizer uses existing index statistics instead of index dives if there are eq_range_index_dive_limit or more equality ranges. Thus, to permit use of index dives for up to N equality ranges, set eq_range_index_dive_limit to N + 1. To disable use of index statistics and always use index dives regardless of N, set eq_range_index_dive_limit to 0.

简单来说就是根据eq_range_index_dive_limit参数设置的阀值来按照不同算法预估影响行数，对于IN或OR条件中的每个范围段视为一个元组，对于元组数低于eq_range_index_dive_limit参数阀值时使用index dive，高于阀值时使用
index dive：针对每个元组dive到index中使用索引完成元组数的估算，类似于使用索引进行实际查询得到影响行数
index statistics：即根据索引的统计数值进行估算，例如索引统计信息计算出每个等值影响100条数据，那么IN条件中包含5个等值则影响5*100条记录

在MySQL 5.6版本中引入eq_range_index_dive_limit参数，默认值为10，通常业务在使用IN时会超过10个值，因此在MySQL 5.7版本中将默认阀值设为200。

========================================
测试环境：

MySQL版本：5.6.20

测试用例表：t_disk_check_result_his，该表存放的1200+台服务器的约95万条磁盘数据

测试目的：通过各种角度来验证index dive和index statistics两种方式的优缺点

1、检查参数
show variables like '%eq_range_index_dive_limit%';

2、查看查询使用到的索引和表
SHOW INDEX FROM t_disk_check_result_his \G

show table status like 't_disk_check_result_his' \G

SELECT *
FROM innodb_index_stats
WHERE table_name='t_disk_check_result_his'\G

3、查看SQK执行计划
DESC SELECT *
FROM t_disk_check_result_his
WHERE server_ip IN(
'1.1.1.1',
'1.1.1.2',
'1.1.1.3',
);
调整IN条件中的值数量，查看影响行数

经过多次测试，得到以下数据：

根据步骤2在索引上获得的数据，949337/2674=355 恰好等于超过eq_range_index_dive_limit参数阀值的平均影响行数，
实际执行发现，对于低于eq_range_index_dive_limit参数阀值的查询，预估影响行数和实际影响行数相差不多，较为准确。
========================================
使用profiling来查看, IN条件中包含9个server_ip时，即使用index dive方式消耗如下：

IN条件中包含11个server_ip时，即使用index dive方式消耗如下：

在statistics步骤中，使用index dive方式消耗的时间约是index statistics方式的3.3倍。
========================================
将eq_range_index_dive_limit参数设置为10，来测试IN条件中包含100个server_ip的资源消耗：

将eq_range_index_dive_limit参数设置为200，来测试IN条件中包含100个server_ip的资源消耗：

IN条件中包含100个server_ip的相同条件下，使用index dive方式消耗的时间约是index statistics方式的213倍

========================================
结论：
在使用IN或者OR等条件进行查询时，MySQL使用eq_range_index_dive_limit参数来判断使用index dive还是使用index statistics方式来进行预估：
1、当低于eq_range_index_dive_limit参数阀值时，采用index dive方式预估影响行数，该方式优点是相对准确，但不适合对大量值进行快速预估。
2、当大于或等于eq_range_index_dive_limit参数阀值时，采用index statistics方式预估影响行数，该方式优点是计算预估值的方式简单，可以快速获得预估数据，但相对偏差较大。

=======================================
参考连接：
https://dev.mysql.com/doc/refman/5.7/en/server-system-variables.html
http://www.cnblogs.com/zhiqian-ali/p/6113829.html
http://blog.163.com/li_hx/blog/static/18399141320147521735442/

MYSQL 5.6 5.7处理数据分布不均的问题(eq_range_index_dive_limit参数)

处理数据分布不均，orace数据库使用额外的统计数据直方图来完成，而MYSQL
中统计数据只有索引的不同值这样一个统计数据，那么我们制出如下数据：

mysql> select * from test.testf;
+------+----------+
| id | name |
+------+----------+
| 1 | gaopeng |
| 2 | gaopeng1 |
| 3 | gaopeng1 |
| 4 | gaopeng1 |
| 5 | gaopeng1 |
| 6 | gaopeng1 |
| 7 | gaopeng1 |
| 8 | gaopeng1 |
| 9 | gaopeng1 |
| 10 | gaopeng1 |
+------+----------+
10 rows in set (0.00 sec)
name 上有一个普通二级索引
mysql> analyze table test.testf;
+------------+---------+----------+----------+
| Table | Op | Msg_type | Msg_text |
+------------+---------+----------+----------+
| test.testf | analyze | status | OK |
+------------+---------+----------+----------+
1 row in set (0.21 sec)

我们可以看到 index_dives_for_eq_ranges均为1，rows: 9 rows: 1都是正确的，那么可以确定是index_dives_for_eq_ranges的作用，实际上
这是一个参数eq_range_index_dive_limit来决定的(equality range optimization of many-valued comparisions)，默认为
mysql> show variables like '%eq%';
+--------------------------------------+-------+
| Variable_name | Value |
+--------------------------------------+-------+
| eq_range_index_dive_limit | 200 |

在5.7官方文档 p1231页也有相应说明

MySQL--eq_range_index_dive_limit参数学习,MYSQL 5.6 5.7处理数据分布不均的问题的更多相关文章

安全测试===Mysql 注入技巧学习 MySQL注入技巧（1）
默认存在的数据库: mysql 需要root权限读取 information_schema 在5以上的版本中存在测试是否存在注入方法假:表示查询是错误的 (MySQL 报错/返回页面与原来不同) ...
安全测试===Mysql 注入技巧学习 MySQL注入技巧（2）
原文地址:http://websec.files.wordpress.com/2010/11/sqli2.pdf 0x00.介绍也可以参考瞌腄龙的mysql注入科普:http://drops.woo ...
mysql存储过程的学习(mysql提高执行效率之进阶过程)
1:存储过程: 答:存储过程是sql语句和控制语句的预编译集合,以一个名称存储并作为一个单元处理:存储过程存储在数据库内,可以由应用程序调用执行,而且允许用户声明变量以及进行流程控制,存储类型可以接受 ...
mysql性能优化学习笔记-参数介绍及优化建议
MySQL服务器参数介绍 mysql参数介绍(客户端中执行),尽量只修改session级别的参数. 全局参数(新连接的session才会生效,原有已经连接的session不生效) set global ...
MySQL 定时器EVENT学习
原文:http://blog.csdn.net/lifuxiangcaohui/article/details/6583535 MySQL 定时器EVENT学习 MySQL从5.1开始支持event功 ...
Java工程师学习指南第7部分：重新学习MySQL与Redis
本文整理了微信公众号[Java技术江湖]发表和转载过的Mysql和Redis相关优质文章,想看到更多Java技术文章,就赶紧关注本公众号吧吧. 大白话说说mysql 面试官:给我说说你平时是如何优化M ...
【MySQL】MySQL无基础学习和入门之一：数据库基础概述和实验环境搭建
数据库基础概述大部分互联网公司都选择MySQL作为业务数据存储数据库,除了MySQL目前还有很多公司使用Oracle(甲骨文).SQLserver(微软).MongoDB等. 从使用成本来区分可以 ...
MySQL DBA教程：Mysql性能优化之缓存参数优化
在平时被问及最多的问题就是关于 MySQL 数据库性能优化方面的问题,所以最近打算写一个MySQL数据库性能优化方面的系列文章,希望对初中级 MySQL DBA 以及其他对 MySQL 性能优化感 ...
学习MySQL（上）
具体实例 1.PHP 服务器组件对于初学者建议使用集成的服务器组件,它已经包含了 PHP.Apache.Mysql 等服务,免去了开发人员将时间花费在繁琐的配置环境过程. Window 系统可以使用 ...

随机推荐

测试工具之RobotFramework安装
Robot Framework很多公司再用,图形化界面,类表格填写关键字和参数,几乎不需要编码知识,上手很快最近看到某满公司使用的就是这个工具,特地看了下,确实很简单,对于初入测试行业的人来说是个很 ...
C# 算法之链表、双向链表以及正向反向遍历实现
1.简介链表是一种非常基础的数据结构之一,我们在日常开发种都会接触到或者是接触到相同类型的链表数据结构.所以本文会使用C#算法来实现一个简单的链表数据结构,并实现其中几个简单的api以供使用. 2. ...
php实现聊天室功能
原理:长连接一.长连接与短连接短连接:客户端与服务端每进行一次报文收发交易时才进行通讯连接.交易完毕后立即断开连接. 长连接:客户端与服务端先建立连接, 连接建立后不断开,然后在进行报文发送和接收 ...
Hadoop服务库与事件库的使用及其工作流程
Hadoop服务库与事件库的使用及其工作流程 Hadoop服务库: YARN采用了基于服务的对象管理模型,主要特点有: 被服务化的对象分4个状态:NOTINITED,INITED,STARTED, ...
关于 Nginx 配置 WebSocket 400 问题
今天把项目升级了 asp.net core 到 2.1 的版本,使用了 signalr 的功能,由于阿里云不支持 websocket 协议,所以使用了 nginx 代理方式来解决,后续就报了一个登陆 ...
基于python+appium+yaml安卓UI自动化测试分享
结构介绍之前分享过一篇安卓UI测试,但是没有实现数据与代码分离,后期维护成本较高,所以最近抽空优化了一下.不想看文章得可以直接去Github,欢迎拍砖大致结构如下: 结构.png testyam ...
基于redis的分布式ID生成器
基于redis的分布式ID生成器
一个电脑的重装到java开发环境安装配置的全过程
刚拿到一台别人用过的电脑.看着c盘爆满,而且用了还是windows7操作系统,强迫症发作马上就准备重装系统. 之前换固态使用wepe制作U盘启动盘装系统的步骤和过程全部忘记的,贼尴尬. 同事都看不过眼 ...
iOS开发（1）：设置APP的图标与启动图 | iOS图标的尺寸 | LaunchScreen的使用
每个APP都应该有自己的图标跟启动图. 这里介绍怎么设置iOS的APP的图标跟启动图. (1)图标小程的xcode是10.0版本,设置图标的入口如下: 点击入口后,进到设置页面,如下: 可以看到有很 ...
IDEA之Git分支以及Stash使用
访问我的博客随着公司开发人员的增加,以及多需求的并行开发,功能上线就会碍手碍脚:害怕自己没写完的代码被别人部署到线上,害怕别人代码没写完被自己部署到线上:总之功能上线之前还要和所有开发沟通,能不能部 ...

MySQL--eq_range_index_dive_limit参数学习,MYSQL 5.6 5.7处理数据分布不均的问题

MYSQL 5.6 5.7处理数据分布不均的问题(eq_range_index_dive_limit参数)

MySQL--eq_range_index_dive_limit参数学习,MYSQL 5.6 5.7处理数据分布不均的问题的更多相关文章

随机推荐

热门专题