MYSQL校对规则
一、前言
有时候遇到这种情况,你用一个like语句查询,查到的结果中有一些并没有包含你查询的关键词的纪录;
有时候遇到这种情况,你的数据库自作聪明的大小写不敏感,让你在更新时把大小写不同的两条记录都更新了;
有时候遇到这种情况,你的查询语句一切正常,查询却失败了,报告Illegal mix of collations错误;
你很困惑,在想数据库是不是坏了。。。其实 ,这些都和数据库字符集的校对规则有关;了解了校对规则,你就知道怎样处理这些问题。
那么,校对规则是怎么回事呢?它是一组规则,负责决定某一字符集下的字符进行比较和排序的结果。
比如说,有latin1字符集中的字母A和a,我们需要它们在比较的时候相等,那么,我们可以使用字符集校对规则 latin1_general_ci;这种校对规则在比较和排序的时候不区分大小写;如果我们需要他们在比较的时候不等呢?也很简单,我们可以使用字符集校对规则latin1_bin;这种校对规则会以二进制的方式对字符进行比较,很明显,a和A的二进制编码不同,比较的结果就是不等。
上面的场景说明了校对规则在最简单情况下起的作用;实际情况与此并没有太多不同,只不过稍微有些复杂而已。
二、校对规则总览
我们可以使用 SHOW COLLATION 指令来查看数据库支持的校对规则

在图中,我们列出了数据库支持的latin1字符集的校对规则。为什么一种字符集竟然有这么多种的校对规则呢?因为在不同的情况下,对比较的结果有不同的期待,所以就有了不同的校对规则。前面说的大小写敏感(latin1_general_cs)和不敏感(latin1_general_ci)是两种校对规则,根据二进制方式进行比较(latin1_bin)也是一种校对规则,德国人(latin1_german1_ci)和西班牙人(latin1_spanish_ci)使用的某些不同的拉丁字符在某些情况下是等价的,所以有了两种新的校对规则。
举个例子,在latin1_german1_ci中,如下字符是等价的,而他们,具有不同的外形和编码。当然,它们的编码不同,所以在latin1_bin校对规则下,他们又是不等价的了。
A,a,À,Á,Â,Ã,Ä,Å,Æ,à,á,â,ã,ä,å,æ
三、校对规则导致的问题
1、混合校对规则比较
两个字符串比较,要求两者必须有相同的校对规则,或者两者的校对规则是相容的——所谓相容是指,两种校对规则优先级不同,比较的时候两者使用高优先级的校对规则进行比较,比如latin1_bin的优先级相对较高。
CREATE TABLE `tbl` (
`col_a` int(11) default NULL,
`col_b` char(20) character set latin1 collate latin1_general_ci default NULL,
`col_c` char(20) character set latin1 collate latin1_german1_ci default NULL,
`col_d` char(20) character set latin1 collate latin1_bin default NULL,
KEY `col_a` (`col_a`),
KEY `col_b` (`col_b`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1
在这个表中,col_b、col_c、col_d的校对规则各不同;其中,latin1_general_ci和latin1_german1_ci 校对规则同级,不能进行比较;如果强行比较的话,就会报错,如下:
mysql> select * from tbl where col_b = col_c;
ERROR 1267 (HY000): Illegal mix of collations (latin1_general_ci,IMPLICIT) and (latin1_german1_ci,IMPLICIT) for operation '='
而latin1_general_ci和latin1_bin的优先级不同,latin1_bin高于latin1_general,因此比较的时候,会按照latin1_bin的规则进行比较。
mysql> select * from tbl where binary col_b = col_d;
Empty set (0.00 sec)
当然,可以在sql语句中强制指定校对规则进行比较,下面这个例子就说明了这一点:
mysql> select * from tbl where col_b COLLATE latin1_danish_ci = col_c COLLATE latin1_danish_ci;
Empty set (0.00 sec)
2、校对规则导致的问题——SELECT出错误的记录
在上面的基础上,我们要演示一个常见的问题;我们需要对该数据表进行一定的处理:
alter table tbl modify col_b collate latin1_swedish_ci default null;
insert into tbl (col_b) values ('hao123');
然后进行下面的查询

我们希望查询的是包含“刘”的记录,hao123这个和“刘”没有任何关系的条目被选了出来,看起来很奇怪。
不过这不是数据库出了问题,而是校对规则的使用上存在问题:
下面是我们使用ultraedit察看字符串的二进制编码的结果,在gbk编码下,hao123的编码为68 61 6f 31 32 33,而刘的编码位C1 F5。

在前面的latin1_swedish_ci 校对规则中可以看到:
61和C1都与41等价

6F和F5都与4F等价

这就是ao = 刘的原因。
解决办法有两个:
1)修改该字段的字符集和校对规则,改成gbk,这该问题不在存在。这是完美的解决方案,不过有些时候你没有权限对数据库进行这样的改动。
mysql> alter table tbl modify col_b char(20) charset gbk default null;
Query OK, 1 row affected (0.01 sec)
Records: 1 Duplicates: 0 Warnings: 0 mysql> select * from tbl where binary col_b like like '%刘%';
Empty set (0.00 sec)
2)查询的时候声明校对规则为latin1_bin 。这样可以在一定程度上缓解这个问题;不过如果col_b中只要含有c1 f5,就会被选出来——而c1 f5可能恰好是另外两个字符的前半截和后半截,或者干脆就是 Á õ ....
mysql> select * from tbl where binary col_b like '%刘%';
Empty set (0.00 sec)
转载:http://hi.baidu.com/cuttinger/item/e23013e372ee62adce2d4fda
MYSQL校对规则的更多相关文章
- mysql校对规则引起的不区分大小写
CREATE TABLE `staticcatalogue` ( `Source` varchar(255) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL ...
- MySQL校对规则(三)
校对规则:在当前编码下,字符之间的比较顺序是什么? ci:不区分大小写,Cs区分大小写, _bin 编码比较 每个字符集都支持不定数量的校对规则,可以通过如下指令: show collation 可以 ...
- mysql大小写敏感与校对规则
大家在使用mysql过程中,可能会遇到类似一下的问题: root@chuck 07:42:00>select * from test where c1 like 'ab%'; +-----+ ...
- mysql中字符集和校对规则
首先,明确一下字符集和校对规则的概念: 字符集(charset):是一套符号和编码 校对规则(collation):是在字符集内用于比较字符的一套规则,比如有的规则区分大小写,有的则无视 ...
- sql分类及基本sql操作,校对规则(mysql学习笔记二)
sql针对操作对象分为不同语言 数据操作(管理)语言 DML或者将其细分为 ( 查询 DQL 管理(增,删,改) DML) 数据定义语言(对保存数据的格式进行定义) DDL 数据库控制语言(针对数 ...
- MySQL之字符集-校对规则
一.字符集(Character set) 是多个字符(英文字符,汉字字符,或者其他国家语言字符)的集合,字符集种类较多,每个字符集包含的字符个数不同. 特点: ①字符编码方式是用一个或多个字节表示字符 ...
- mysql中对字符集和校对规则的认识
字符集:指符号和字符编码的集合.校对规则:比较字符编码的方式.GBK2312:主要包括简体中文字符及常用符号,对于中文字符采用双字节编码的格式,也就是说一个汉字字符在存储占两个字节.GBK:包括有中. ...
- MySQL字符集及校对规则的理解
阅读目录:MySQL的字符集和校对规则 MySQL的字符集 MySQL与字符集 正确使用字符集 MySQL客户端与字符集 字符集编码转换原理 字符集常见处理操作 字符集的正确实践 MySQL的校对 ...
- mysql字符集和校对规则(Mysql校对集)
字符集的概念大家都清楚,校对规则很多人不了解,一般数据库开发中也用不到这个概念,mysql在这方便貌似很先进,大概介绍一下简要说明 字符集和校对规则 字符集是一套符号和编码.校对规则是在字符集内用于比 ...
随机推荐
- linux-7 man 命令
man 命令的分类 man 命令 代码 代表内容 普通命令 内核调用的函数与工具 常见的函数与函数库 设备文件的说明 配置文件 游戏 惯例与协议 管理员可使用的命令 内核相关的文件 一般来讲帮助文档 ...
- 平衡树模板 bzoj 3224
program t3224; var tr:array[-1..1000000,1..2] of int64; num,fa,size,quan:array[-1..1000000] of int64 ...
- elixir 入门笔记
安装 MAC 平台用 brew 安装 brew update brew install elixir 如果没有 erlang 环境,上面的命令会自定安装 erlang 的环境. 基本数据类型 iex& ...
- C语言 串 顺序结构 实现
一个能够自动扩容的顺序结构的串 ArrString (GCC编译). /** * @brief C语言 串 顺序结构 实现 * @author wid * @date 2013-11-01 * * @ ...
- Entity Framework问题总结
Entity Framework WITH(NOLOCK) EF本身不支持WITH(NOLOCK), 都指出建议设置事务的级别为允许脏读. IsolationLevel = IsolationLeve ...
- 支持事件穿透?使用pointer-events样式
使用绝对定位元素,让元素A完全盖住元素B时,如何通过元素A来响应元素B的事件呢? 上图可以用下面的SVG代码来实现: <svg width="200" height=&quo ...
- 提高tomcat的并发能力
1.Apache + Tomcat 结合起来用Apache负责静态页面,Tomcat负责动态页面,同时减少connectionTimeout的时间,以应对并发量大线程回收来不及的情况. 2.压力过大的 ...
- js如何实现继承
js继承有5种实现方式:1.继承第一种方式:对象冒充 function Parent(username){ this.username = username; this.hello = ...
- js不是从上到下执行的吗?
如果说js是从上到下解释执行的, 那么,按道理应该会执行错误前面的代码. 如: [代码一] //输出1,2,到3报错 console.log("一") console.log(&q ...
- Atitit。如何实现dip, di ,ioc ,Service Locator的区别于联系
Atitit.如何实现dip, di ,ioc ,Service Locator的区别于联系 1. Dip原则又来自于松耦合思想方向1 2. 要实现dip原则,有以下俩个模式1 3. Ioc和di的 ...