哈希(Hash)算法,即散列函数。它是一种单向密码体制,即它是一个从明文到密文的不可逆的映射,只有加密过程,没有解密过程。同时,哈希函数可以将任意长度的输入经过变化以后得到固定长度的输出。hash算法一般用于快速查找和加密。

hash算法可以使用的哈希函数种类很多,处理冲突的方法也有开放定址、再哈希、链地址、公共溢出区等。

因此,在编写代码之前,首先需要根据所要处理的数据,选择合适的hash函数和冲突处理办法。开放定址需要空闲存储单元,所需要的表比实际容量大,而且容易产生二次聚集发生新冲突。链地址使用链表存储关键字,可以随时插入新数据,数据量大小不受限制。缺点是要用到指针,给新单元分配地址需要时间,会一定程度上减慢算法速度,但影响不大可以忽略。

笔者需要处理的是一个10W行字符串的字典,关键字重复率高。因此选择适用于字符串的哈希函数,常用字符串哈希函数有 BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等,个人倾向于BKDRHash,记忆和使用都很简便。

BKDRHash函数代码如下:

 unsigned int BKDRhash(TYPE key)
{//BKDRhash函数
unsigned int seed = ;
unsigned int hash = ; while(*key != '\n' && *key != ) //通常使用时,判别条件为*key != 0即可,此处的*key != '\n'是因笔者程序需要
hash = hash * seed + (*key++); return hash % DICLEN;
}

对于关键字重复的冲突处理方法,笔者这里使用链地址法。hash表结构体如下:

 #define STRLEN 15
#define DICLEN 100000 typedef char* TYPE;
typedef int BOOL; typedef struct _NODE{
TYPE data;
struct _NODE* next;
}NODE; typedef struct _HASH_TABLE{
NODE* phead; //此变量可以不用,这里使用是为了减少其他函数中的重新定义过程
NODE** chainhash;
}HASH_TABLE;

准备工作OK,整理好思路,可以开始编写hash算法了。O(∩_∩)O

首先,创建一个hash表,并对哈希表,链表,头节点进行初始化。

 NODE* create_node()
{//开辟节点
NODE* pnode = (NODE*)malloc(sizeof(NODE));
memset(pnode, , sizeof(NODE)); pnode->data = (char*)malloc(STRLEN * sizeof(char));
memset(pnode->data, , STRLEN * sizeof(char));
pnode->next = NULL; return pnode;
} HASH_TABLE* create_hash()
{//创建hash表
HASH_TABLE* new_hash_table = (HASH_TABLE*)malloc(sizeof(HASH_TABLE));
memset(new_hash_table, , sizeof(HASH_TABLE)); new_hash_table->phead = create_node();
new_hash_table->chainhash = (NODE**)malloc(DICLEN * sizeof(NODE*)); for(int i = ; i < DICLEN; i++){
new_hash_table->chainhash[i] = (NODE*)malloc(sizeof(NODE));
memset(new_hash_table->chainhash[i], , sizeof(NODE));
} return new_hash_table;
}

插入数据

链表的chainhash每个分量的初始状态都是空指针,凡是哈希函数值 BKDRhash(data)相同的记录,都插入同一个链表chainhash[i],此时i = BKDRhash(data)。该链表头结点不为空的话,指针就后移,在表尾插入新记录(表头、表尾插入均可,只要保持每次操作相同,即同一链表中的关键字有序)。

 BOOL insert_data(HASH_TABLE* hash, NODE* phead, TYPE data)
{//插入新数据
if(hash == NULL)
return ; if(hash->chainhash[BKDRhash(data)]->data == NULL){
NODE* newnode = create_node(); strcpy(newnode->data, data);
newnode->next = NULL;
hash->chainhash[BKDRhash(data)]->data = newnode->data;
hash->chainhash[BKDRhash(data)]->next = newnode->next; free(newnode);
return ;
} else{
phead = hash->chainhash[BKDRhash(data)]; while(phead->next != NULL)
phead = phead->next; phead->next = create_node(); strcpy(phead->next->data, data);
phead->next->next = NULL; return ;
}
}

查找数据

查找数据时,首先通过哈希函数值找到对应的链表,然后比较字符串内容。

 NODE* find_data(HASH_TABLE* hash, NODE* phead, TYPE data)
{//查找数据
phead = hash->chainhash[BKDRhash(data)]; if(hash == NULL)
return NULL; while(phead != NULL){ if(strncmp(phead->data, data, STRLEN) == )
return phead;
else
phead = phead->next;
} return NULL;
}

删除数据

删除数据类似于单链表的删除操作

 BOOL del_data(HASH_TABLE* hash, NODE* phead, TYPE data)
{//删除数据 phead->next = create_node();
phead->next = hash->chainhash[BKDRhash(data)]; if(hash == NULL)
return ; while(phead->next != NULL){ if(strncmp(phead->next->data, data, STRLEN) == ){ if(phead->next->data == hash->chainhash[BKDRhash(data)]->data)
hash->chainhash[BKDRhash(data)] = phead->next->next;
else
phead->next = phead->next->next; return ;
}
else
phead->next = phead->next->next;
} free(phead->next); return ;
}

修改数据

修改数据非常简单,即先删除后插入

 BOOL alter_data(HASH_TABLE* hash, NODE* phead, TYPE data, TYPE new_data)
{//修改数据
if(hash == NULL)
return ; if(data == new_data)
return ; if(del_data(hash, phead, data) == ){ if(insert_data(hash, phead, new_data) == )
return ;
else
return ;
} else
return ;
}

这样,一个简单的hash算法就写好了!笔者冗长的测试代码如下。。。。至于为什么测试要写这么长,笔者也不造o(╯□╰)o

 int main(int argc, char* argv[])
{//测试
int i = ;
char* testdata = "kyxntghcxolgqlw\n";
char data[STRLEN + ] = {}; HASH_TABLE* dic = create_hash(); FILE* fp = fopen("dic.txt", "r+");
assert(fp != ); while(i < DICLEN){
fgets(data, STRLEN + , fp);
insert_data(dic, dic->phead, data);
i++;
} //查找测试
if(find_data(dic, dic->phead, testdata) != NULL)
printf("find it: %s\n", (find_data(dic, dic->phead, testdata))->data);
else
printf("no this data!\n"); //删除再查找测试
if(del_data(dic, dic->phead, testdata) == )
printf("delete it!\n");
else
printf("try again!\n"); if(find_data(dic, dic->phead, testdata) != NULL)
printf("find it: %s\n", (find_data(dic, dic->phead, testdata))->data);
else
printf("no this data!\n"); //修改数据测试
testdata = "fpwdwpk";
char* newdata = "bibibibibiu\n"; if(alter_data(dic, dic->phead, testdata, newdata) == ){ if(find_data(dic, dic->phead, newdata) != NULL)
printf("find it: %s\n", (find_data(dic, dic->phead, newdata))->data);
else
printf("no this data!\n");
} fclose(fp);
free(dic); return ;
}

欢迎转载,请备注原始连接http://www.cnblogs.com/liuliuliu/p/3966851.html,并注明转载。

作者bibibi_liuliu,联系方式395985239@qq.com

逐步实现hash算法(基于BKDRhash函数)的更多相关文章

  1. hash算法和常见的hash函数 [转]

       Hash,就是把任意长度的输入,通过散列算法,变换成固定长度的输出,该输出就是散列值. 这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能 会散列成相同的输出,而不 ...

  2. HASH、HASH函数、HASH算法的通俗理解

    之前经常遇到hash函数或者经常用到hash函数,但是hash到底是什么?或者hash函数到底是什么?却很少去考虑.最近同学去面试被问到这个问题,自己看文章也看到hash的问题.遂较为细致的追究了一番 ...

  3. 负载均衡算法: 简单轮询算法, 平滑加权轮询, 一致性hash算法, 随机轮询, 加权随机轮询, 最小活跃数算法(基于dubbo) java代码实现

    直接上干活 /** * @version 1.0.0 * @@menu <p> * @date 2020/11/17 16:28 */ public class LoadBlance { ...

  4. hash算法总结收集

    hash算法的意义在于提供了一种快速存取数据的方法,它用一种算法建立键值与真实值之间的对应关系,(每一个真实值只能有一个键值,但是一个键值可以对应多个真实值),这样可以快速在数组等条件中里面存取数据. ...

  5. 一致性hash算法简介与代码实现

    一.简介: 一致性hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义: 1.平衡性(Balance) 2.单调性(Monotonicity) 3.分散性(Spread) 4.负 ...

  6. 【学】常用hash算法的介绍

    基本知识 Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值.这种转换是一种压缩映 ...

  7. hash算法

    作者:July.wuliming.pkuoliver 说明:本文分为三部分内容, 第一部分为一道百度面试题Top K算法的详解:第二部分为关于Hash表算法的详细阐述:第三部分为打造一个最快的Hash ...

  8. 常见hash算法的原理

    散列表,它是基于快速存取的角度设计的,也是一种典型的“空间换时间”的做法.顾名思义,该数据结构可以理解为一个线性表,但是其中的元素不是紧密排列的,而是可能存在空隙. 散列表(Hash table,也叫 ...

  9. 【整理】hash算法原理及常见函数

    简介 Hash,一般翻译做"散列",也有直接音译为"哈希"的,就是把任意长度的输入,通过散列算法,变换成固定长度的输出,该输出就是散列值.        散列表 ...

随机推荐

  1. 20145316《Java程序设计》第七周学习总结

    20145316<Java学习程序设计>第七周学习总结 教材学习知识总结 1.在只有Lambda表达式的情况下,参数的类型必须写出来. 2.Lambda表达式本身是中性的,同样的Lambd ...

  2. 优秀 H5 案例收集 vol.4(不定期更新)

    重返木叶村 http://hyrz.qq.com/act/a20160113muyecun/index.html 飞越淘宝奇市 https://g.alicdn.com/fdilab/flyover- ...

  3. 【ES6】改变 JS 内置行为的代理与反射

    代理(Proxy)可以拦截并改变 JS 引擎的底层操作,如数据读取.属性定义.函数构造等一系列操作.ES6 通过对这些底层内置对象的代理陷阱和反射函数,让开发者能进一步接近 JS 引擎的能力. 一.代 ...

  4. golang test 单元测试

    golang自家的单元测试做的很好了,自需要"文件名_test.go" 就可以在里面写单元测试,而且go test命令也很强大,可以只运行单个测试函数,在goland 可以点击单元 ...

  5. 20145331 《Java程序设计》第2周学习总结

    20145331<Java程序设计>第2周学习总结 教材学习内容总结 3.1 类型.变量与运算符 •注释://(单行注释).//(多行注释)./ */(javadoc文档注释 )注释的内容 ...

  6. TortoiseSVN忽略文件夹

    因为平时要做一些主干.分支的版本控制,发布增量补丁包工作,所以经常使用TortoiseSVN客户端.当然,eclipse中也安装了SVN插件,不过在打补丁方面感觉不如客户端.现在遇到了一个问题:同一项 ...

  7. JAVA基础补漏--文件读取

    public class Test2 { public static void main(String[] args) throws IOException { FileInputStream fis ...

  8. 第五篇:Spark SQL Catalyst源码分析之Optimizer

    /** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程.SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解 ...

  9. 【网络优化】Batch Normalization(inception V2) 论文解析(转)

    前言 懒癌翻了,这篇不想写overview了,公式也比较多,今天有(zhao)点(jie)累(kou),不想一点点写latex啦,读论文的时候感觉文章不错,虽然看似很多数学公式,其实都是比较基础的公式 ...

  10. nagios配置邮件报警

    1.配置sendmail vi /etc/mail.rc 加入以下行 set bsdcompat set from=邮件用户名@domain.com smtp=smtp.126.com set smt ...