/// @brief BKDR Hash Function

/// @detail 本 算法由于在Brian Kernighan与Dennis Ritchie的《The C Programming Language》一书被展示而得 名，是一种简单快捷的hash算法，也是Java目前采用的字符串的Hash算法（累乘因子为31）。

template<class T>

size_t BKDRHash(const T *str)

{

    register size_t hash = ;

    while (size_t ch = (size_t)*str++)

    {

        hash = hash *  + ch;   // 也可以乘以31、131、1313、13131、131313..

        // 有人说将乘法分解为位运算及加减法可以提高效率，如将上式表达为：hash = hash << 7 + hash << 1 + hash + ch;

        // 但其实在Intel平台上，CPU内部对二者的处理效率都是差不多的，

        // 我分别进行了100亿次的上述两种运算，发现二者时间差距基本为0（如果是Debug版，分解成位运算后的耗时还要高1/3）；

        // 在ARM这类RISC系统上没有测试过，由于ARM内部使用Booth's Algorithm来模拟32位整数乘法运算，它的效率与乘数有关：

        // 当乘数8-31位都为1或0时，需要1个时钟周期

        // 当乘数16-31位都为1或0时，需要2个时钟周期

        // 当乘数24-31位都为1或0时，需要3个时钟周期

        // 否则，需要4个时钟周期

        // 因此，虽然我没有实际测试，但是我依然认为二者效率上差别不大

    }

    return hash;

}

/// @brief SDBM Hash Function

/// @detail 本算法是由于在开源项目SDBM（一种简单的数据库引擎）中被应用而得名，它与BKDRHash思想一致，只是种子不同而已。

template<class T>

size_t SDBMHash(const T *str)

{

    register size_t hash = ;

    while (size_t ch = (size_t)*str++)

    {

        hash =  * hash + ch;

        //hash = (size_t)ch + (hash << 6) + (hash << 16) - hash;

    }

    return hash;

}

/// @brief RS Hash Function

/// @detail 因Robert Sedgwicks在其《Algorithms in C》一书中展示而得名。

template<class T>

size_t RSHash(const T *str)

{

    register size_t hash = ;

    size_t magic = ;

    while (size_t ch = (size_t)*str++)

    {

        hash = hash * magic + ch;

        magic *= ;

    }

    return hash;

}

/// @brief AP Hash Function

/// @detail 由Arash Partow发明的一种hash算法。

template<class T>

size_t APHash(const T *str)

{

    register size_t hash = ;

    size_t ch;

    for (long i = ; ch = (size_t)*str++; i++)

    {

        if ((i & ) == )

        {

            hash ^= ((hash << ) ^ ch ^ (hash >> ));

        }

        else

        {

            hash ^= (~((hash << ) ^ ch ^ (hash >> )));

        }

    }

    return hash;

}

/// @brief JS Hash Function

/// 由Justin Sobel发明的一种hash算法。

template<class T>

size_t JSHash(const T *str)

{

    if(!*str)        // 这是由本人添加，以保证空字符串返回哈希值0

        return ;

    register size_t hash = ;

    while (size_t ch = (size_t)*str++)

    {

        hash ^= ((hash << ) + ch + (hash >> ));

    }

    return hash;

}

/// @brief DEK Function

/// @detail 本算法是由于Donald E. Knuth在《Art Of Computer Programming Volume 3》中展示而得名。

template<class T>

size_t DEKHash(const T* str)

{

    if(!*str)        // 这是由本人添加，以保证空字符串返回哈希值0

        return ;

    register size_t hash = ;

    while (size_t ch = (size_t)*str++)

    {

        hash = ((hash << ) ^ (hash >> )) ^ ch;

    }

    return hash;

}

/// @brief FNV Hash Function

/// @detail Unix system系统中使用的一种著名hash算法，后来微软也在其hash_map中实现。

template<class T>

size_t FNVHash(const T* str)

{

    if(!*str)   // 这是由本人添加，以保证空字符串返回哈希值0

        return ;

    register size_t hash = ;

    while (size_t ch = (size_t)*str++)

    {

        hash *= ;

        hash ^= ch;

    }

    return hash;

}

/// @brief DJB Hash Function

/// @detail 由Daniel J. Bernstein教授发明的一种hash算法。

template<class T>

size_t DJBHash(const T *str)

{

    if(!*str)   // 这是由本人添加，以保证空字符串返回哈希值0

        return ;

    register size_t hash = ;

    while (size_t ch = (size_t)*str++)

    {

        hash += (hash << ) + ch;

    }

    return hash;

}

/// @brief DJB Hash Function 2

/// @detail 由Daniel J. Bernstein 发明的另一种hash算法。

template<class T>

size_t DJB2Hash(const T *str)

{

    if(!*str)   // 这是由本人添加，以保证空字符串返回哈希值0

        return ;

    register size_t hash = ;

    while (size_t ch = (size_t)*str++)

    {

        hash = hash *  ^ ch;

    }

    return hash;

}

/// @brief PJW Hash Function

/// @detail 本算法是基于AT&T贝尔实验室的Peter J. Weinberger的论文而发明的一种hash算法。

template<class T>

size_t PJWHash(const T *str)

{

    static const size_t TotalBits       = sizeof(size_t) * ;

    static const size_t ThreeQuarters   = (TotalBits  * ) / ;

    static const size_t OneEighth       = TotalBits / ;

    static const size_t HighBits        = ((size_t)-) << (TotalBits - OneEighth);      

    register size_t hash = ;

    size_t magic = ;

    while (size_t ch = (size_t)*str++)

    {

        hash = (hash << OneEighth) + ch;

        if ((magic = hash & HighBits) != )

        {

            hash = ((hash ^ (magic >> ThreeQuarters)) & (~HighBits));

        }

    }

    return hash;

}

/// @brief ELF Hash Function

/// @detail 由于在Unix的Extended Library Function被附带而得名的一种hash算法，它其实就是PJW Hash的变形。

template<class T>

size_t ELFHash(const T *str)

{

    static const size_t TotalBits       = sizeof(size_t) * ;

    static const size_t ThreeQuarters   = (TotalBits  * ) / ;

    static const size_t OneEighth       = TotalBits / ;

    static const size_t HighBits        = ((size_t)-) << (TotalBits - OneEighth);

    register size_t hash = ;

    size_t magic = ;

    while (size_t ch = (size_t)*str++)

    {

        hash = (hash << OneEighth) + ch;

        if ((magic = hash & HighBits) != )

        {

            hash ^= (magic >> ThreeQuarters);

            hash &= ~magic;

        }

    }

    return hash;

}

我对这些hash的散列质量及效率作了一个简单测试，测试结果如下：

测试1：对100000个由大小写字母与数字随机的ANSI字符串（无重复，每个字符串最大长度不超过64字符）进行散列：

字符串函数	冲突数	除1000003取余后的冲突数
BKDRHash	0	4826
SDBMHash	2	4814
RSHash	2	4886
APHash	0	4846
ELFHash	1515	6120
JSHash	779	5587
DEKHash	863	5643
FNVHash	2	4872
DJBHash	832	5645
DJB2Hash	695	5309
PJWHash	1515	6120

测试2：对100000个由任意UNICODE组成随机字符串（无重复，每个字符串最大长度不超过64字符）进行散列：

字符串函数	冲突数	除1000003取余后的冲突数
BKDRHash	3	4710
SDBMHash	3	4904
RSHash	3	4822
APHash	2	4891
ELFHash	16	4869
JSHash	3	4812
DEKHash	1	4755
FNVHash	1	4803
DJBHash	1	4749
DJB2Hash	2	4817
PJWHash	16	4869

测试3：对1000000个随机ANSI字符串（无重复，每个字符串最大长度不超过64字符）进行散列：

字符串函数	耗时（毫秒）
BKDRHash	109
SDBMHash	109
RSHash	124
APHash	187
ELFHash	249
JSHash	172
DEKHash	140
FNVHash	125
DJBHash	125
DJB2Hash	125
PJWHash	234

结论：也许是我的样本存在一些特殊性，在对ASCII码字符串进行散列时，PJW与ELF Hash（它们其实是同一种算法）无论是质量还是效率，都相当糟糕；例如："b5"与“aE"，这两个字符串按照PJW散列出来的hash值就是一样的。另外，其它几种依靠异或来散列的哈希函数，如：JS/DEK/DJB Hash，在对字母与数字组成的字符串的散列效果也不怎么好。相对而言，还是BKDR与SDBM这类简单的Hash效率与效果更好。

其他：

作者：icefireelf

出处：http://blog.csdn.net/icefireelf/article/details/5796529

各种字符串Hash函数比较

常用的字符串Hash函数还有ELFHash，APHash等等，都是十分简单有效的方法。这些函数使用位运算使得每一个字符都对最后的函数值产生影响。另外还有以MD5和SHA1为代表的杂凑函数，这些函数几乎不可能找到碰撞。

常用字符串哈希函数有 BKDRHash，APHash，DJBHash，JSHash，RSHash，SDBMHash，PJWHash，ELFHash等等。对于以上几种哈希函数，我对其进行了一个小小的评测。

Hash函数	数据1	数据2	数据3	数据4	数据1得分	数据2得分	数据3得分	数据4得分	平均分
BKDRHash	2	0	4774	481	96.55	100	90.95	82.05	92.64
APHash	2	3	4754	493	96.55	88.46	100	51.28	86.28
DJBHash	2	2	4975	474	96.55	92.31	0	100	83.43
JSHash	1	4	4761	506	100	84.62	96.83	17.95	81.94
RSHash	1	0	4861	505	100	100	51.58	20.51	75.96
SDBMHash	3	2	4849	504	93.1	92.31	57.01	23.08	72.41
PJWHash	30	26	4878	513	0	0	43.89	0	21.95
ELFHash	30	26	4878	513	0	0	43.89	0	21.95

其中数据1为100000个字母和数字组成的随机串哈希冲突个数。数据2为100000个有意义的英文句子哈希冲突个数。数据3为数据1的哈希值与 1000003(大素数)求模后存储到线性表中冲突的个数。数据4为数据1的哈希值与10000019(更大素数)求模后存储到线性表中冲突的个数。

经过比较，得出以上平均得分。平均数为平方平均数。可以发现，BKDRHash无论是在实际效果还是编码实现中，效果都是最突出的。APHash也是较为优秀的算法。DJBHash,JSHash,RSHash与SDBMHash各有千秋。PJWHash与ELFHash效果最差，但得分相似，其算法本质是相似的。

unsigned int SDBMHash(char *str)

{

    unsigned int hash = ;

    while (*str)

    {

        // equivalent to: hash = 65599*hash + (*str++);

        hash = (*str++) + (hash << ) + (hash << ) - hash;

    }

    return (hash & 0x7FFFFFFF);

}

// RS Hash Function

unsigned int RSHash(char *str)

{

    unsigned int b = ;

    unsigned int a = ;

    unsigned int hash = ;

    while (*str)

    {

        hash = hash * a + (*str++);

        a *= b;

    }

    return (hash & 0x7FFFFFFF);

}

// JS Hash Function

unsigned int JSHash(char *str)

{

    unsigned int hash = ;

    while (*str)

    {

        hash ^= ((hash << ) + (*str++) + (hash >> ));

    }

    return (hash & 0x7FFFFFFF);

}

// P. J. Weinberger Hash Function

unsigned int PJWHash(char *str)

{

    unsigned int BitsInUnignedInt = (unsigned int)(sizeof(unsigned int) * );

    unsigned int ThreeQuarters    = (unsigned int)((BitsInUnignedInt  * ) / );

    unsigned int OneEighth        = (unsigned int)(BitsInUnignedInt / );

    unsigned int HighBits         = (unsigned int)(0xFFFFFFFF) << (BitsInUnignedInt - OneEighth);

    unsigned int hash             = ;

    unsigned int test             = ;

    while (*str)

    {

        hash = (hash << OneEighth) + (*str++);

        if ((test = hash & HighBits) != )

        {

            hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits));

        }

    }

    return (hash & 0x7FFFFFFF);

}

// ELF Hash Function

unsigned int ELFHash(char *str)

{

    unsigned int hash = ;

    unsigned int x    = ;

    while (*str)

    {

        hash = (hash << ) + (*str++);

        if ((x = hash & 0xF0000000L) != )

        {

            hash ^= (x >> );

            hash &= ~x;

        }

    }

    return (hash & 0x7FFFFFFF);

}

// BKDR Hash Function

unsigned int BKDRHash(char *str)

{

    unsigned int seed = ; // 31 131 1313 13131 131313 etc..

    unsigned int hash = ;

    while (*str)

    {

        hash = hash * seed + (*str++);

    }

    return (hash & 0x7FFFFFFF);

}

// DJB Hash Function

unsigned int DJBHash(char *str)

{

    unsigned int hash = ;

    while (*str)

    {

        hash += (hash << ) + (*str++);

    }

    return (hash & 0x7FFFFFFF);

}

// AP Hash Function

unsigned int APHash(char *str)

{

    unsigned int hash = ;

    int i;

    for (i=; *str; i++)

    {

        if ((i & ) == )

        {

            hash ^= ((hash << ) ^ (*str++) ^ (hash >> ));

        }

        else

        {

            hash ^= (~((hash << ) ^ (*str++) ^ (hash >> )));

        }

    }

    return (hash & 0x7FFFFFFF);

}

转自：http://www.byvoid.com/blog/string-hash-compare/

各种字符串Hash函数（转）的更多相关文章

各种字符串Hash函数比较（转）
常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法.这些函数使用位运算使得每一个字符都对最后的函数值产生影响.另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎 ...
长度有限制的字符串hash函数
长度有限制的字符串hash函数 DJBHash是一种非常流行的算法,俗称"Times33"算法.Times33的算法很简单,就是不断的乘33,原型如下 hash(i) = hash ...
[转]各种字符串Hash函数比较
转自:https://www.byvoid.com/zht/blog/string-hash-compare 常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法.这些 ...
【转】各种字符串Hash函数比较
常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法.这些函数使用位运算使得每一个字符都对最后的函数值产生影响.另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎 ...
[T]各种字符串Hash函数比较
常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法.这些函数使用位运算使得每一个字符都对最后的函数值产生影响.另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎 ...
各种字符串Hash函数比较
常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法.这些函数使用位运算使得每一个字符都对最后的函数值产生影响.另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎 ...
字符串hash函数
本文搜集了一些字符串的常用hash函数. 范例1:判断两个单词是否含有相同的字母,此时我们可以用hash做.例如,“aaabb”与"aabb"含有相同的单词.(参考:http:// ...
hadoop Partiton中的字符串Hash函数改进
最近的MapReduce端的Partition根据map生成的Key来进行哈希,导致哈希出来的Reduce端处理任务数量非常不均匀,有些Reduce端处理的数据量非常小(几分钟就执行完成,而最后的pa ...
一些常用的字符串hash函数
unsigned int RSHash(const std::string& str) { unsigned int b = 378551; unsigned int a = 63689; u ...

随机推荐

xenserver增加新硬盘
1. 查看所有硬盘了的id # ls -l /dev/disk/by-id/ 2. 挂载 # xe sr-create type=lvm content-type=user device-config ...
sizeof()计算
本节包含sizeof()计算结构体,位域,数组,字符串,指针,c++中的class等类型的大小,sizeof()计算的大小都是以字节为单位. 一计算基本类型的长度 sizeof(char): 1 s ...
CDA数据分析【第一章：数据分析概述】
一.数据分析行业发展 1.如何收集.保存.管理.分析.共享正在呈指数式增长的数据是我们必须要面对的一个重要挑战. 2.数据分析包括数据采集.数据存储.检查.清洗.分析.转换和建模等方法对数据进行处理的 ...
MySQL-长事务详解
前言: 『入门MySQL』系列文章已经完结,今后我的文章还是会以MySQL为主,主要记录下近期工作及学习遇到的场景或者自己的感悟想法,可能后续的文章不是那么连贯,但还是希望大家多多支持.言归正传,本 ...
jq 实现切换菜单选中状态
点击导航菜单,切换选中状态效果: 思路:首先获取选中的URL,再通过正则判断是否相同,相同就加上相应的属性,不相同就去除相应的属性. html代码 <div class="layui ...
git commit 之后，撤销commit操作
撤销.修改commit 写代码过程中,如果已经git add [files] git -m commit [files],没有push代码到远程仓库,想撤销commit,可以根据实际情况,使用以下参数 ...
SpringBoot2.x应用启动、关闭shell脚本
本篇主要说明以下内容: 1.SpringBoot2.x应用启动.关闭的shell脚本 1 启动脚本直接放到同jar包同一个目录下,如下: #!/usr/bin/env bash APPLICATIO ...
排序算法合集（C++实现）
摘要排序操作在程序设计中是非常基础和常见的,也是算法的基础部分,我对几种常见的比较排序算法进行了整理. 暴力排序(violence sort) 思想:遍历数组,每次遍历都在未排序的部分找到最小元素的 ...
jvm内存模型-和内存分配以及jdk、jre、jvm是什么关系(阿里，美团，京东)
参考:JVM的垃圾回收机制总结(垃圾收集.回收算法.垃圾回收器) 1.什么是jvm?(1)jvm是一种用于计算设备的规范,它是一个虚构出来的机器,是通过在实际的计算机上仿真模拟各种功能实现的.(2) ...
图论 - PAT甲级 1003 Emergency C++
PAT甲级 1003 Emergency C++ As an emergency rescue team leader of a city, you are given a special map o ...

各种字符串Hash函数（转）

各种字符串Hash函数比较

各种字符串Hash函数（转）的更多相关文章

随机推荐

热门专题