MySQL字符集不一致导致性能下降25%，你敢信？

sysbench使用utf8mb4测试：

在进一步测试的时候，我修改了/usr/share/sysbench/oltp_common.lua脚本的如下部分，使之在建立数据库连接的时候执行"SET NAMES utf8mb4"（用途请参考https://dev.mysql.com/doc/refman/5.7/en/set-names.html），设置字符集为utf8mb4

function thread_init()

   drv = sysbench.sql.driver()

   con = drv:connect()

   con:query("SET NAMES utf8mb4")

照这样设置之后，character_set_server && database characterset && table characterset && Client characterset 都是utf8mb4了。

测试结果显示，my_ismbchar_utf8mb4和my_charpos_mb还是会消耗掉10%以上的CPU资源。而且，只要是character_set_server || table characterset || Client characterset的任何一个使用utf8mb4字符集，都会导致这个问题。

使用utf8字符集进行测试，也有类似的问题，只不过消耗CPU资源较多的函数是my_ismbchar_utf8和my_charpos_mb。

所以我对这篇博客进行更正，结论是：不是因为character_set_server, table characterset, Client characterset字符集设置不一致导致性能差异，而是因为MySQL5.7在使用utf8/utf8mb4字符集的时候会有很高的额外开销。

但是，我们不能因为utf8有额外开销就不用它，对吧？毕竟latin1不支持中文……

因为MySQL8开始默认字符集变成了utf8mb4，所以我也对MySQL 8.0.19进行了测试，结果显示不存在这个问题；将字符集改成latin1进行测试，性能比utf8mb4并没有提升……

----------------------------------------------------分割线。以下是2020.3.15日的原文，原标题是《MySQL字符集不一致导致性能下降25%，你敢信？》。以上是更新/更正的内容----------------------------------------------------

故事是这样的：

我在对MySQL进行性能测试时，发现CPU使用率接近100%，其中80%us, 16%sys,3%wa，iostat发现磁盘iops2000以下，avgqu-sz不超过3，%util最高70%，看来瓶颈不在磁盘IO上面，而在CPU上。sys部分使用率有点高。

于是我果断使用perf top查看，赫然排在前面的2个，是my_ismbchar_utf8mb4和my_charpos_mb。

my_ismbchar_utf8mb4顾名思义，很明显是与字符集相关的；my_charpos_mb暂时不清楚。

经验告诉我，这很不正常！通常来说，消耗CPU最多的应该是数据页相关的操作才对啊。

我快速打开MySQL internal文档搜索，没找到有价值的信息。

哦，你想要知道这个故事的前情提要？抱歉，我刚刚只说了压测，按照国际惯例，我这就贴出环境和版本信息：

硬件：8核16GB，200GB SSD，腾讯云虚拟机

操作系统版本：CentOS release 6.9 (Final)

MySQL版本：5.7.-log MySQL Community Server (GPL)，二进制方式安装

MySQL参数：innodb_buffer_pool_size = 10752M

          innodb_flush_log_at_trx_commit =

          sync_binlog =

          character-set-server = utf8mb4

sysbench版本：1.0.

sysbench参数：sysbench /usr/share/sysbench/oltp_read_write.lua   --tables= --table-size=  --mysql-password=*** --mysql-user=root --mysql-socket=/usr/local/mysql5.7.28/mysql.sock --threads= --time= run

server的字符集是utf8mb4，接下来检查一下db和表的字符集吧：

嗯嗯，看起来一切都是那么的正常……

server, DB, table的字符集都一致，现在只剩下sysbench的嫌疑最大！

可是，要怎么检查sysbench已经连接到MySQL的那些会话的字符集设置呢？

我的sysbench命令没有显式地指定字符集；show processlist没有character_set_client信息，information_schema库和mysql库里面也没有与character_set_client信息。

sysbench --help 也没有字符集相关的选项和参数；https://github.com/akopytov/sysbench/blob/master/src/drivers/mysql/drv_mysql.c sysbench源码中也没有字符集相关的设置。

看来，sysbench连接MySQL的字符集设置，应该默认是latin1，应该是这里的字符集设置不一致导致的。

BUT，对于技术问题，我不能光靠猜测啊！我一定要刨根问底，查它个水落石出……

源码：

吃CPU最多的是my_ismbchar_utf8mb4函数对吧？那就先到源码中搜它：

在strings/ctype-utf8.c 中定义的：

static uint

my_ismbchar_utf8mb4(const CHARSET_INFO *cs, const char *b, const char *e)

{

  int res= my_valid_mbcharlen_utf8mb4(cs, (const uchar*)b, (const uchar*)e);

  return (res > ) ? res : ;

}

它本身没有复杂的逻辑，只是调用了my_valid_mbcharlen_utf8mb4，然后对返回值res 进行判断，如果>1，就返回res，否则返回0。

行，那我再看看my_valid_mbcharlen_utf8mb4吧，

static int

my_valid_mbcharlen_utf8mb4(const CHARSET_INFO *cs __attribute__((unused)),

                           const uchar *s, const uchar *e)

{

  uchar c;

  if (s >= e)

    return MY_CS_TOOSMALL;

  c= s[];

  if (c < 0xf0)

    return my_valid_mbcharlen_utf8mb3(s, e);

  if (c < 0xf5)

  {

    if (s +  > e) /* We need 4 characters */

      return MY_CS_TOOSMALL4;

    /*

省略若干行……

    */

    if (!(IS_CONTINUATION_BYTE(s[]) &&

          IS_CONTINUATION_BYTE(s[]) &&

          IS_CONTINUATION_BYTE(s[]) &&

          (c >= 0xf1 || s[] >= 0x90) &&

          (c <= 0xf3 || s[] <= 0x8F)))

      return MY_CS_ILSEQ;

    return ;

  }

  return MY_CS_ILSEQ;

}

这个函数对输入的字符进行比对，判断是utf8mb3还是utf8mb4。utf8mb3？以前没听说过啊！上知乎一搜，原来还有这么一段有趣的历史 ☜

不过，仅仅看这个函数的代码，是不会相信它居然会吃掉7%以上的CPU的。我也不信！

好吧，先做个perf record看看：

#第1步，查看mysqld进程的pid

ps -ef | grep mysqld 

#第2步，将mysqld进程相关的cpu-clock事件及调用堆栈记录起来，默认保存在perf.data文件中

perf record -e cpu-clock -g  -p  

#第3步，用perf script工具对perf.data进行解析

perf script -i perf.data &> perf.unfold  

#第4步，下载一个集漂亮、强大于一身的工具：

git clone https://github.com/brendangregg/FlameGraph.git

#第5步：将perf.unfold中的符号进行折叠

./FlameGraph/stackcollapse-perf.pl perf.unfold  &> perf.folded

#第6步，生成火焰图

./FlameGraph/flamegraph.pl perf.folded > perf.svg

效果就是这样的↓ 可以看出，my_ismbchar_utf8mb4占比确实最高，达到了7.47%

去跟踪调用堆栈，可以发现是在sql\sql_lex.cc中的get_text()函数中，调用了宏use_mb和my_ismbchar来检查字符集。

这2个宏同样都是调用ismbchar() - detects whether the given string is a multi-byte sequence。 utf8mb4中的mb，全称就是multi-byte

static char *get_text(Lex_input_stream *lip, int pre_skip, int post_skip)

{

  uchar c,sep;

  uint found_escape=;

  const CHARSET_INFO *cs= lip->m_thd->charset();

  lip->tok_bitmap= ;

  sep= lip->yyGetLast();                        // String should end with this

  while (! lip->eof())

  {

    c= lip->yyGet();

    lip->tok_bitmap|= c;

    {

      int l;

      if (use_mb(cs) &&

          (l = my_ismbchar(cs,

                           lip->get_ptr() -,

                           lip->get_end_of_query()))) {

        lip->skip_binary(l-);

        continue;

      }

    }

    if (c == '\\' &&

        !(lip->m_thd->variables.sql_mode & MODE_NO_BACKSLASH_ESCAPES))

    {                    // Escaped character

      found_escape=;

      if (lip->eof())

    return ;

      lip->yySkip();

    }

// 省略若干行……

  }

  return ;                    // unexpected end of query

}

解决方法：

上面说了一大通，可能有点云里雾里，抱歉哈，我能力有限，不能把它解释得更通俗一些。

简而言之，就是证明了确实是字符集不一致，导致MySQL在语法解析的时候，对每一个用户输入的字符（MySQL关键字除外），都要进行若干次字符集检查，所以才会发生my_ismbchar_utf8mb4吃掉很多CPU资源这样一个故事。

要解决就很简单啦：保持character_set_server && database characterset && table characterset && Client characterset一致！

我就是因为忽略了sysbench的字符集设置，所以才把自己给坑了。

既然sysbench没有提供字符集相关的选项和参数，那我就把MySQL的字符集统一成latin1来测吧（也可以去修改sysbench的mysql driver源码，让它支持设置字符集，但是我不擅长C……）

最后总结：

调整字符集之前，QPS最高只能压到73797，统一字符集之后，QPS达到了98272。 73797/98272*100%=75.09%

再来看看TPS，调整字符集之前，TPS最高只能压到3689，统一字符集之后，TPS达到了3689。 73797/4913*100%=75.08%

多么痛的领悟……

MySQL字符集不一致导致性能下降25%，你敢信？的更多相关文章

MySQL字符集不一致导致查询SQL性能问题
今天做了一个MySQL数据库中的SQL优化. 结论是关联字段字符集不同,导致索引不可用. 查询的SQL如下: select `Alias`.`Grade`, `Alias`.`id`, `Alias` ...
（转）一个MySQL 5.7 分区表性能下降的案例分析
一个MySQL 5.7 分区表性能下降的案例分析原文:http://www.talkwithtrend.com/Article/216803 前言希望通过本文,使MySQL5.7.18的使用者知晓 ...
Optional 的使用会导致性能下降吗？
几天前,我在论坛上发了一篇关于Optional 的文章.其中一条评论是一个非常好的问题: Optional 的使用会导致性能下降吗? 答案是: 是的,它会的.但是你应该担心吗? 使用Optional的 ...
MySQL 5.7 分区表性能下降的案例分析
转载自:https://mp.weixin.qq.com/s/K3RpSBAIWFwGCIWyfF0QPA 前言:希望通过本文,使MySQL5.7.18的使用者知晓分区表使用中存在的陷阱,避免在该版本 ...
一个MySQL 5.7 分区表性能下降的案例分析
告知MySQL5.7.18的使用者分区表使用中存在的陷阱,避免在该版本上继续踩坑.同时通过对源码的讲解,升级MySQL5.7.18时分区表性能下降的根本原因,向MySQL源码爱好者展示分区表实现中锁的 ...
jvm的代码缓存耗尽导致性能下降
在没遇到这个问题之前,我对JVM的解释模式与编译模式的代码性能相差有多大,是没有感觉的,只是觉得编译模式会比解释模式性能好那么一点点吧. 但是经历过这次以后,让我对JVM的即时编译产生了兴趣.先来看看 ...
MySQL编码不一致导致查询结果为空
升级数据库后(5.1到8.0),发现一个奇怪的问题,某些页面在升级前可以正常查询,但升级后什么也查不出来了,有时候还会查出错误的结果.经过一整天的排查,终于发现由两个原因导致,现记录如下. 第一是数据 ...
MySQL字符集不一致的解决办法总结
用SHOW CREATE TABLE table_name;可以看出具体的字符集设置. 错误代码: Illegal mix of collations (utf8mb4_unicode_ci,IMPL ...
Oracle迁移到MySQL性能下降的注意点(转）
背景:最近有较多的客户系统由原来由Oracle改造到MySQL后出现了性能问题CPU 100%,或是后台的CRM系统复杂SQL在业务高峰的时候出现堆积导致业务故障.在我的记忆里面淘宝最初从Oracle ...

随机推荐

hdu6582
题意:给定一个无向图,删除某些边有一定的代价,要求删掉使得最短路径减小,求最小代价. 分析:首先要spfa求出起点到各个点的最短距离.对于一条权值为w,起点为i,终点为j的边,设dis[k]为起点到k ...
linux系统开机静态分配ip地址
在/etc/sysconfig/network-scripts/ifcfg-eth0文件中添加: IPADDR=192.168.1.100(设置静态地址) NETMASK=255.255.255.0 ...
PCIe的事务传输层的处理（TLP）
主要从以下几个方面解决: 1.TLP基本的概念: 2.寻址定位与路由导向 3.请求和响应机制 4.虚拟通道机制 5.数据完整性 6.i/o,memory,configuration,message r ...
openssl nodejs https+客户端证书+usbkey
mac sslconfig 文件路径 /System/Library/OpenSSL/openssl.cnf 一生成CA openssl req -new -x509 -keyout ca.key - ...
Linux上部署Tomcat+Nginx负载均衡
前提:配置好了JDK. 我这里是vm上的linux虚拟机,可能不适用于所有情况. 一.Linux上配置Tomcat 1.下载地址:https://tomcat.apache.org/download- ...
Trie树的插入，查前缀，查单词，删前缀和删单词。
这个Trie原先用C++就敲得很熟了,看了蓝桥杯的视频后学会把一个功能这样封装起来,以后用的时候就很爽可以直接调用了,所以就用Java写了: public class Trie { private f ...
C语言学习笔记之动态分配数组空间
本文为原创文章,转载请标明出处高级语言写多了,再拿起C语言的时候,自己已经傻了... C语言中数组大小不能为变量,即使这个变量已经被赋过值了,应该使用malloc方法进行数组空间动态分配. 如下: ...
一个类似ThinkPHP的Node.js框架——QuickNode
QuickNode Node.js从QuickNode开始,让restful接口开发更简单! PHP的MVC 作为一名曾经的PHP开发者,我也有过三年多的thinkphp使用经验,那是我学习PHP接触 ...
安装 Kali Linux 2018.1 及之后的事
本文为原创文章,转载请标明出处目录制作U盘启动盘安装 Kali Linux 之后的事更新源配置 Zsh 配置 Vim 修改 Firefox 语言为中文安装 Gnome 扩展美化安装 G ...
python基础修改haproxy配置文件
1.通过eval(),可以将字符串转为字典类型. 2.Encode过程,是把python对象转换成json对象的一个过程,常用的两个函数是dumps和dump函数.两个函数的唯一区别就是dump把py ...

MySQL字符集不一致导致性能下降25%，你敢信？

MySQL字符集不一致导致性能下降25%，你敢信？的更多相关文章

随机推荐

热门专题