mysql字符集utf8和utf8mb4区别

1.起因

　　公司游戏项目上线第一天，出现单个区服异常宕机的问题，根据日志排查下来，连接数据的时候报错，后面排查是因为有玩家插入Emoji 等表情导致无法存储如数据库，数据库字符集编码为utf8,后续改成utf8mb4就可以存储emoji等表情了

　　所以今天来解析一下utf8和utf8mb4的区别。

2.Utf8和Utf8mb4区别

　　MySQL在5.5.3之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集，除了将编码改为utf8mb4外不需要做其他转换。当然，为了节省空间，一般情况下使用utf8也就够了。

　　可以简单的理解 utf8mb4 是目前最大的一个字符编码,支持任意文字。

　　utf8 是 Mysql 中的一种字符集，只支持最长三个字节的 UTF-8字符，也就是 Unicode 中的基本多文本平面。

　　Mysql 中的 utf8 为什么只支持持最长三个字节的 UTF-8字符呢？我想了一下，可能是因为 Mysql 刚开始开发那会，Unicode 还没有辅助平面这一说呢。那时候，Unicode 委员会还做着 “65535 个字符足够全世界用了”的美梦。Mysql 中的字符串长度算的是字符数而非字节数，对于 CHAR 数据类型来说，需要为字符串保留足够的长。当使用 utf8 字符集时，需要保留的长度就是 utf8 最长字符长度乘以字符串长度，所以这里理所当然的限制了 utf8 最大长度为 3，比如 CHAR(100) Mysql 会保留 300字节长度。至于后续的版本为什么不对 4 字节长度的 UTF-8 字符提供支持，我想一个是为了向后兼容性的考虑，还有就是基本多文种平面之外的字符确实很少用到。

　　要在 Mysql 中保存 4 字节长度的 UTF-8 字符，需要使用 utf8mb4 字符集，但只有 5.5.3 版本以后的才支持。为了获取更好的兼容性，应该使用 utf8mb4 而非 utf8. 对于 CHAR 类型数据，utf8mb4 会多消耗一些空间，根据 Mysql 官方建议，使用 VARCHAR 替代 CHAR。

3.为什么使用Utf8mb4字符集

　　既然utf8应付日常使用完全没有问题，那为什么还要使用utf8mb4呢? 低版本的MySQL支持的utf8编码，最大字符长度为 3 字节，如果遇到 4 字节的字符就会出现错误了。三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xFFFF，也就是 Unicode 中的基本多文平面（BMP）。也就是说，任何不在基本多文平面的 Unicode字符，都无法使用MySQL原有的 utf8 字符集存储。这些不在BMP中的字符包括哪些呢？最常见的就是Emoji 表情（Emoji 是一种特殊的 Unicode 编码，常见于 ios 和 android 手机上），和一些不常用的汉字，以及任何新增的 Unicode 字符等等。

　　所以文章开始就是该问题，比如会在研发没有限制用户名字符的时候又或者评论的时候，都需要一些4字节的符号和表情。

4.设置mysql的字符集

　　假如设置成为utf8mb4

[client]

default-character-set = utf8mb4

[mysqld]

character-set-server = utf8mb4

　　查看数据库变量来查看是否更改成功

mysql> SHOW VARIABLES WHERE Variable_name LIKE  'character_set_%'  OR Variable_name LIKE 'collation%';

+--------------------------+----------------------------+

| Variable_name            | Value                      |

+--------------------------+----------------------------+

| character_set_client     | utf8mb4                    |

| character_set_connection | utf8mb4                    |

| character_set_database   | utf8mb4                    |

| character_set_filesystem | binary                     |

| character_set_results    | utf8mb4                    |

| character_set_server     | utf8mb4                    |

| character_set_system     | utf8                       |

| character_sets_dir       | /usr/share/mysql/charsets/ |

| collation_connection     | utf8mb4_general_ci         |

| collation_database       | utf8mb4_general_ci         |

| collation_server         | utf8mb4_general_ci         |

+--------------------------+----------------------------+

11 rows in set (0.00 sec)

　　上述中，必须保证以下几个变量是和配置相同的。

系统变量	描述
character_set_client	(客户端来源数据使用的字符集)
character_set_connection	(连接层字符集)
character_set_database	(当前选中数据库的默认字符集)
character_set_results	(查询结果字符集)
character_set_server	(默认的内部操作字符集)

5.补充

　　例如在使用utf8字符集但是碰到4字节的情况下也是可以强制存储进入数据库的，只要数据库的非严格模式打开即可，但是存储的数据会是乱码，并且无法恢复，此方法只是保证有些程序不会因为报错而导致程序宕机尝试，并不推荐。