概述

若设计的数据表中，包含较长的字段，比如URL（通常都会比较长），查询时需要根据该字段进行过滤：

select * from table_xxx  where url = 'xxxxxxx';

为了提高查询性能，通常需要对字段做索引，在Innodb中，如果使用URL做索引，将会导致：

索引存储占用空间大；
索引查询比较性能差；

为了解决上面的问题，有如下解决方案：

对URL做hash，hash作为记录的一个字段，查询时，使用该hash值做过滤；
使用触发器对更新和插入的数据做hash，不需要手动计算hash；
hash碰撞：如果表中记录条数很多，则应该选择合适的hash，避免大量的hash碰撞；
hash碰撞：查询时，除了使用hash进行过滤，还需要使用url进行过滤；

创建数据表 + 触发器进行hash运算

假设需要使用如下查询：

select id from table where url='http://xxx.xxx.com/xxxxxxxxxxxxxxxxxxxx';

分析：

URL通常比较长，如果在URL上创建索引，无论是存储和检索，效率都会非常低；
可以对URL做Hash，在该HASH值进行索引，这样的查询性能会非常高；

** 使用触发器创建表和hash索引**

CREATE TABLE `url_hash` (

  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,

  `url` varchar(255) COLLATE utf8_bin NOT NULL,

  `url_crc` int(10) unsigned NOT NULL DEFAULT '0',

  PRIMARY KEY (`id`),

  KEY `url_crc_idx` (`url_crc`)

) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

DELIMITER  //

CREATE TRIGGER `urlhash_crc_insert` BEFORE INSERT ON `url_hash` FOR EACH ROW

set NEW.url_crc=crc32(NEW.url);

END;

//

CREATE TRIGGER `urlhash_crc_update` BEFORE UPDATE ON `url_hash` FOR EACH ROW

set NEW.url_crc=crc32(NEW.url);

END;

//

DELIMITER  ;

说明：

DELIMITER ：先修改一下语句分隔符，这样就可以在触发器中使用分号；
在insert和update前设置触发器，对每一条记录的URL做crc32 Hash运算；

验证

插入数据

insert into url_hash(url) values('http://www.baidu.com');

insert into url_hash(url) values('http://www.cnblogs.com/ssslinppp');

*结果

select * from url_hash;

+----+----------------------------------+------------+

| id | url                              | url_crc    |

+----+----------------------------------+------------+

|  1 | http://www.baidu.com             | 3500265894 |

|  2 | http://www.cnblogs.com/ssslinppp | 3363624100 |

+----+----------------------------------+------------+

如何查询

select * from url_hash where url='http://www.baidu.com' and url_crc=crc32('http://www.baidu.com');

+----+----------------------+------------+

| id | url                  | url_crc    |

+----+----------------------+------------+

|  1 | http://www.baidu.com | 3500265894 |

+----+----------------------+------------+

注意点：

查询时，必须将url作为过滤条件，因为可以产生hash碰撞；

选择合适的Hash计算方式

不要使用sha1()和md5作为hash函数

因为上面两个计算的hash值通常都会特别长，浪费空间，比较时也会更慢；

数据表非常大，不建议使用crc32()进行hash计算

crc32()返回的是32位的整数，因为所谓的生日悖论，当数据表非常大时，将会产生大量的hash碰撞；

当条数>9.3w时，碰撞的概率：1%；

自定义hash函数

返回一个64位的整数（不是字符串）就可以；

比如：fnv64()函数作为hash函数（改函数默认不包含，可以移植进来）；

【Mysql】mysql使用触发器创建hash索引的更多相关文章

【转载】Mysql中的Btree与Hash索引比较
转载地址:http://www.jb51.net/article/62533.htm 这篇文章主要介绍了Mysql中的Btree与Hash索引比较,本文起讲解了B-Tree 索引特征.Hash 索引特 ...
警惕 InnoDB 和 MyISAM 创建 Hash 索引陷阱
MySql 最经常使用存储引擎 InnoDB 和 MyISAM 都不支持 Hash 索引,它们默认的索引都是 B-Tree.可是假设你在创建索引的时候定义其类型为 Hash,MySql 并不会报错,并 ...
mysql触发器与hash索引
url查询哈希值的维护触发器 2.1 创建表 pseudohash. 2.2 创建触发器,当对表进行插入和更新时,触发触发器 delimiter |create trigger pseudohas ...
mysql InnoDB引擎是否支持hash索引
看一下mysql官方文档:https://dev.mysql.com/doc/refman/5.7/en/create-index.html , 从上面的图中可以得知,mysql 是支持hash索引的 ...
Mysql中的Btree与Hash索引
B-Tree 索引特征 B-Tree索引可以被用在像=,>,>=,<,<=和BETWEEN这些比较操作符上.而且还可以用于LIKE操作符,只要它的查询条件是一个不以通配符开头的 ...
MySQL的btree索引和hash索引的区别
Hash 索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree 索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以 Hash 索引的查询效率要远高于 B-T ...
MySQL索引类型 btree索引和hash索引的区别
来源一 Hash 索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree 索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以 Hash 索引的查询效率要远高于 ...
mysql索引hash索引和b-tree索引的区别
Hash 索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree 索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以 Hash 索引的查询效率要远高于 B-T ...
MySQL的btree索引和hash索引的区别（转）
Hash 索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree 索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以 Hash 索引的查询效率要远高于 B-T ...

随机推荐

[LeetCode&Python] Problem 350. Intersection of Two Arrays II
Given two arrays, write a function to compute their intersection. Example 1: Input: nums1 = [1,2,2,1 ...
纯C：AES256
尼玛的WordPress把格式全搞乱了 aes256.h #ifndef _AES256_H_ #define _AES256_H_ #include <stdio.h> #include ...
READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification-paper
https://aclanthology.info/pdf/W/W11/W11-2308.pdf 2 background2000年以前 ----传统可读性准则局限于表面的文本特征,例如the Fle ...
es6的let与es5的var定义变量的区别
es6的let与es5的var定义变量的区别自身新手第一次接触let关键字的时候,不知道let与var的区别,本能认为是一样,但非如此,比如下述的代码运行就会报错: let hello = 'hel ...
PTA——猜数字游戏
PTA 7-24 猜数字游戏 #include <stdio.h> int main() { int num, times; scanf("%d %d", &n ...
JAVA中native方法调用
在Java中native是关键字.它一般在本地声明,异地用C和C++来实现.它的声明有几点要注意:1)native与访问控制符前后的关系不受限制.2)必须在返回类型之前.3)它一般为非抽象类方法.4) ...
（8）视图层参数request详解
PS:浏览器页面请求的都是get请求 PS:post请求是通过form表单,阿贾克斯发 request里面的常用方法 def index(request): print(request.META) # ...
C++ 作业（哈夫曼树）
#include<bits/stdc++.h> #define fi first #define se second #define int long long using namespa ...
JPI中常使用的类介绍：
Math类: java.lang包下的 final,不可被继承, 其中的方法和属性都是静态的其构造方法私有化了,其他类不可以使用构造方法. 向上取整:Math.ceil(double d); 向下取 ...
SQL将时间格式化为year-month-day
SQL将输出年月日格式化为:2017-12-3-28 CONVERT(varchar(100),RunDate, 23) AS RunDate,

【Mysql】mysql使用触发器创建hash索引

概述