背景

最近有个同事对字符串加索引，加完后，发现多了个奇奇怪怪的数字
执行的SQL如下：

alter table string_index_test add index `idx_name` (`name`) USING BTREE;

这个奇怪数字就是191，它很是疑惑，也没指定索引的长度

通过查看MySQL官方文档

InnoDB has a maximum index length of 767 bytes for tables that use COMPACT or REDUNDANT row format, so for utf8mb3 or utf8mb4 columns, you can index a maximum of 255 or 191 characters, respectively. If you currently have utf8mb3 columns with indexes longer than 191 characters, you must index a smaller number of characters.

In an InnoDB table that uses COMPACT or REDUNDANT row format, these column and index definitions are legal:
col1 VARCHAR(500) CHARACTER SET utf8, INDEX (col1(255))

To use utf8mb4 instead, the index must be smaller:
col1 VARCHAR(500) CHARACTER SET utf8mb4, INDEX (col1(191))

大概意思就是InnoDB最大索引长度为 767 字节数，用的编码是utf8mb4，则可以存储191个字符（767/4 约等于 191），编码字段长度超出最大索引长度后MySQL 默认在普通索引追加了191

思考

1、MySQL中如何提高字符串查询效率？

对字符串加索引？
一般情况下，是不建议在字符串加索引，占空间
如果一定要加，建议可以指定长度，前提是字符串前面部分区分度好的话，此时这类索引就叫前缀索引

2、前缀索引有什么问题？

区分度不好的话，很容易发生碰撞，进而引发一系列问题
我们再通过执行计划来分析一波

上面分别演示了前缀索引和普通索引在只有where条件、order by和group by不同执行情况，可以看到Extra的说明，前缀索引只有where条件，无法使用覆盖索引，order by会使用filesort，group by会使用temporary和filesort
总的来说，前缀索引无法使用覆盖索引，进而导致order by和group by要使用文件排序，甚至临时表
前缀索引有这么些问题，不指定长度？怎么处理？

分析

准备了单表100W的数据进行测试
使用性能压力测试工具mysqlslap
性能测试脚本

mysqlslap -uroot -p --concurrency=100,200 --iterations=1 --number-of-queries=1 --create-schema=test --query=C:\xxx\query.sql

–concurrency=100,200 测试并发的线程数/客户端数，第一次100，第二次200
–iterations=1 指定测试重复次数1次
–number-of-queries=1 指定每个线程执行的 SQL 语句数量上限（不精确）
–create-schema=test 指定查询的数据库test

1、不加索引
查询的SQL：SELECT SQL_NO_CACHE * FROM string_index_test WHERE name=‘forlan’;

Benchmark

        Average number of seconds to run all queries: 8.328 seconds

        Minimum number of seconds to run all queries: 8.328 seconds

        Maximum number of seconds to run all queries: 8.328 seconds

        Number of clients running queries: 100

        Average number of queries per client: 0

Benchmark

        Average number of seconds to run all queries: 18.078 seconds

        Minimum number of seconds to run all queries: 18.078 seconds

        Maximum number of seconds to run all queries: 18.078 seconds

        Number of clients running queries: 200

        Average number of queries per client: 0

2、加字符串索引
alter table string_index_test add index idx_name (name) USING BTREE;
查询的SQL：SELECT SQL_NO_CACHE * FROM string_index_test WHERE name=‘forlan’;

Benchmark

        Average number of seconds to run all queries: 0.250 seconds

        Minimum number of seconds to run all queries: 0.250 seconds

        Maximum number of seconds to run all queries: 0.250 seconds

        Number of clients running queries: 100

        Average number of queries per client: 0

Benchmark

        Average number of seconds to run all queries: 1.438 seconds

        Minimum number of seconds to run all queries: 1.438 seconds

        Maximum number of seconds to run all queries: 1.438 seconds

        Number of clients running queries: 200

        Average number of queries per client: 0

3、使用CRC32创建索引

CRC全称为Cyclic Redundancy Check，又叫循环冗余校验。
CRC32是CRC算法的一种，返回值的范围0~2^32-1，使用bigint存储

加一个name_crc32列，创建这个列的所有，索引空间小很多，利用整型加速查询
加索引：alter table string_index_test add index idx_nam_crc32 (name_crc32) USING BTREE;
查询的SQL：SELECT SQL_NO_CACHE * FROM string_index_test WHERE name_crc32=CRC32(‘forlan’) and name=‘forlan’;
因为CRC32存在发生碰撞，所以加上name条件，才能筛选出正确的数据

Benchmark

        Average number of seconds to run all queries: 0.266 seconds

        Minimum number of seconds to run all queries: 0.266 seconds

        Maximum number of seconds to run all queries: 0.266 seconds

        Number of clients running queries: 100

        Average number of queries per client: 0

Benchmark

        Average number of seconds to run all queries: 0.390 seconds

        Minimum number of seconds to run all queries: 0.390 seconds

        Maximum number of seconds to run all queries: 0.390 seconds

        Number of clients running queries: 200

        Average number of queries per client: 0

总结

通过对字符串加索引，可以提高查询效率，但需要注意指定长度，无法使用覆盖索引
通过使用CRC32，需要额外存一个字段，将字符串转为整数存储，节省空间，效率提升并不是很大，但存在碰撞问题，可以加多字符串筛选条件
-对于CRC32存在碰撞问题，可以使用CRC64减少碰撞，但需要安装 common_schema database函数库

MySQL中字符串查询效率大比拼的更多相关文章

MySQL 中联合查询效率分析
目前我有两个表,一个keywords和一个news表.keyword存放关键词是从news中提取,通newsid进行关联,两表关系如图: keywords中存有20万条数据,news中有2万条数据,现 ...
mysql 中合并查询结果union用法 or、in与union all 的查询效率
mysql 中合并查询结果union用法 or.in与union all 的查询效率 (2016-05-09 11:18:23) 转载▼ 标签: mysql union or in 分类: mysql ...
【面经】面试官：如何以最高的效率从MySQL中随机查询一条记录？
写在前面 MySQL数据库在互联网行业使用的比较多,有些小伙伴可能会认为MySQL数据库比较小,存储不了很多的数据.其实,这些小伙伴是真的不了解MySQL.MySQL的小不是说使用MySQL存储的数据 ...
mysql in 子查询效率慢优化（转）
mysql in 子查询效率慢优化(转) 现在的CMS系统.博客系统.BBS等都喜欢使用标签tag作交叉链接,因此我也尝鲜用了下.但用了后发现我想查询某个tag的文章列表时速度很慢,达到5秒之久! ...
mysql中模糊查询的四种用法介绍
下面介绍mysql中模糊查询的四种用法: 1,%:表示任意0个或多个字符.可匹配任意类型和长度的字符,有些情况下若是中文,请使用两个百分号(%%)表示. 比如 SELECT * FROM [user] ...
MySQL中字符串与数字比较的坑
公司项目代码中,某枚举字段数据库表中类型是char(1),在代码中,误以为是TINYINT,所以用数字筛选,后来发现结果不对.发现了一个现象,用数字0筛选会把所有的记录给筛选出来. 经过排查发现是在M ...
<经验杂谈>Mysql中字符串处理的几种处理方法concat、concat_ws、group_concat
Mysql中字符串处理的几种处理方法concat.concat_ws.group_concat以下详情: MySQL中concat函数使用方法:CONCAT(str1,str2,-) 返回结果为连接参 ...
Mysql中字符串正确的连接方法
虽然SQL server和My sql的语句基本都一致,但是仍然存在一些小区别.就如字符串的连接来说,SQL server中的字符串连接是使用“+”来连接,不带引号sql server是做加法运算.而 ...
Mysql中分页查询两个方法比较
mysql中分页查询有两种方式, 一种是使用COUNT(*)的方式,具体代码如下 1 2 3 SELECT COUNT(*) FROM foo WHERE b = 1; SELECT a FROM ...
下面介绍mysql中模糊查询的四种用法：
下面介绍mysql中模糊查询的四种用法: 1,%:表示任意0个或多个字符.可匹配任意类型和长度的字符,有些情况下若是中文,请使用两个百分号(%%)表示. 比如 SELECT * FROM [user] ...

随机推荐

eval有时候也可以用，而且有奇效
eval,一个我曾经避之不及的函数,最近我对它产生了一点新的感触:eval有时候也可以用,有奇效. 一般在使用js进行开发时,是不建议使用eval这类函数的.在JavaScript中,eval可以计算 ...
面试题锦集：1、数据库三大范式，2、mysql索引类型及作用，3、事务的特性和隔离级别
目录面试题集锦一.数据库三大范式二.mysql有哪些索引类型及作用三.事务的特性和隔离级别 1.事务的四大特性 2.事务的隔离级别 3.什么是脏读.不可重复度.幻读 4.解决办法面试题集锦 ...
设计模式(三十一)----综合应用-自定义Spring框架-自定义Spring IOC-定义解析器、IOC容器相关类
3 定义解析器相关类 3.1 BeanDefinitionReader接口 BeanDefinitionReader是用来解析配置文件并在注册表中注册bean的信息.定义了两个规范: 获取注册表的功能 ...
MySQL数据库与Nacos搭建监控服务
目录 Nacos部署项目环境快速开始 nacos2.2.0版本配置说明 MySQL部署安装方式 Linux平台(CentOS-Stream-9)部署MySQL 调试防火墙管理工具 MySQL用户 ...
五月二号java基础知识
1.使用Runnable接口可以轻松实现多个线程共享相同数据,只要用用一个可运行对象作为参数创建多个线程就可以了2.当一个线程对共享的数据进行操作时,应使之成为一个"原子操作"即在 ...
systemctl 命令设置开机自启动失败
哈喽大家好,我是咸鱼.今天跟大家分享一个关于 Linux 服务(service)相关的案例案例现象我在 3 月 31日的时候发表了一篇<shell 脚本之一键部署安装 Nginx> ...
计算机基础和linux安装及帮助
一.按系列罗列linux的发行版,并描述不同发行版之间的联系与区别 Linux可以分为两种版本: 1.商业版:最常见的如Redhat和centos,是属于商业公司维护的发行版本,其中很多软件都是需要收 ...
Python代码相似度计算(基于AST和SW算法)
代码相似度计算将基于AST和Smith-Waterman算法 AST (抽象语法树) AST即Abstract Syntax Trees,是源代码的抽象语法结构的树状表示,树上的每个节点都表示源代码中 ...
尝试CentOS8---部署集群(生产环境7.9为好)
一.LVS集群简介什么是集群通过网络将很多服务器集中起来,提供同一种服务,在客户端看来就像是只有一个服务器二.LVS-NAT集群 1.环境准备启动3台虚拟机,禁用selinux和firewal ...
2.JAVA入门基础知识
数据类型: java的数据类型分为两大类:基本类型和引用类型基本类型: 整数类型: byte 一个字节 -128-127 short 2个字节 32768-32767 int 4个字节很大 lon ...

MySQL中字符串查询效率大比拼

背景

思考

1、MySQL中如何提高字符串查询效率？

2、前缀索引有什么问题？

分析

总结

MySQL中字符串查询效率大比拼的更多相关文章

随机推荐

热门专题