【数据结构】非常有用的hash表

这篇博客的目的是让尚未学会hash表的朋友们对hash表有一个直观的理解，并且能根据本文定义出属于自己的第一个hash表，但算不上研究文，没有深究概念和成功案例。

什么是hash表？

hash表也叫做散列表，是一种通过键值快速访问数据的结构，hash表有两种常见的定义形式：数组、数组和链表的结合。

理解hash表的关键：

1.散列法

将字符组成的字符和字符串转换为固定长度的数值和索引值的方法，通过更短的hash值进行搜索比用原值搜索更快，通常用于数据库建立索引或者加解密。

2.装填因子

设m和n分别表示表长和表中填入的节点数，将α=n/m定义为散列表的装填因子，装填因子越大，越容易冲突。

3.散列函数

压缩待处理的键值，降低空间开销。

4.冲突

两个不同的键值具有同一个散列函数值，因而映射到散列表的同一位置，称为冲突或碰撞，冲突的两个键值称为同义词。

冲突与散列函数有关，也和表的装填因子有关，hash表在即将填满时冲突几率提高，性能下降严重，但整体是一种极其高效的算法。

hash表基本上无法避免冲突。

5.处理冲突

如果由键值得到的散列函数值（以后用hash地址称呼）已经存有记录，则继续寻找下一个空的hash地址。

常见的处理冲突方法有开放寻址法、再散列法、拉链法、建立公共溢出区。

以拉链法定义hash表为例：

#include<stdio.h>

#include<stdlib.h>

#include<string.h>

#include<Windows.h>

using namespace std;

//用于避免冲突的链表，同义键值插入链表

//散列法中装填因子可以大于1，即待插入表元素总数可以大于表长度，但通常建议装填因子<=1，可以最大限度通过键值直接映射hash表

struct Node

{

int data;

struct Node* next;

};

//hash表主体，上面的链表是用来辅助解决冲突的

struct Hash_Table

{

Node* Value[100];

};

//创建hash表

Hash_Table* CreateHashTable()

{

Hash_Table* ptHash = (Hash_Table*)malloc(sizeof(Hash_Table));

memset(ptHash, 0, sizeof(Hash_Table));

return ptHash;

}

//在Hash表中寻找数据

//hash法为除留余数法

Node* FindHashData(Hash_Table* pHashTbl, int data)

{

Node* pNode;

if (NULL == pHashTbl)

return NULL;

if (NULL == (pNode = pHashTbl->Value[data % 100])) //该hash地址尚未插入数据,data%100就是此处应用的hash法

return NULL;

//遍历该hash地址指向的单链表的数据，如果键值等于hash表中存储的键值数据，匹配到就返回节点。

while (pNode)

{

if (data = pNode->data)

return pNode;

pNode = pNode->next;

}

return NULL;

}

//在Hash表中插入数据

BOOL InsertDataIntoHashTable(Hash_Table* pHashTbl, int data)

{

Node* pNode;

if (NULL == pHashTbl)

return NULL;

if (NULL == pHashTbl->Value[data % 100]) //该节点尚未插入数据

{

pNode = (Node*)malloc(sizeof(Node));

pNode->data = data;

pNode->next = NULL;

pHashTbl->Value[data % 100] = pNode;

return TRUE;

}

//如果该键值已经插入hash表则插入失败，hash表存在同义键值，但不保存重复键值的数据

if (NULL != FindHashData(pHashTbl, data))

return FALSE;

pNode = pHashTbl->Value[data % 100];

while (NULL != pNode)

pNode = pNode->next;

//插入hash地址指向链表的末尾

pNode->next = (Node*)malloc(sizeof(Node));

pNode->next->data = data;

pNode->next->next = NULL;

return TRUE;

}

//从hash表中删除数据

BOOL DeleteDataFromHashTable(Hash_Table* pHashTbl, int data)

{

Node* pNode,*pHead;

if (NULL == pHashTbl)

return FALSE;

if (NULL == pHashTbl->Value[data % 100])

return FALSE;

if (NULL == (pNode = FindHashData(pHashTbl, data)))

return FALSE;

//如果查找到的hash节点是hash地址链表的首元素，重定向指针并删除。

if (pNode == pHashTbl->Value[data % 100])

{

pHashTbl->Value[data % 100]->next = pNode->next;

free(pNode);

return TRUE;

}

//如果查找到的hash节点不是hash地址链表的首元素，定位到pNode的上一个节点后重定向指针并删除。

pHead = pHashTbl->Value[data % 100];

while (pHead->next != pNode)

pHead = pHead->next;

pHead->next = pNode->next;

free(pHead);

return TRUE;

}

上面的例子是读过一位前辈的例子后模仿的，前辈的例子已经非常精炼，很难有修改的地方，就加了一些注释方便大家理解，下面是学习开放定址法后自己写的一个例子，请大家指教。

//依据hash处理冲突的开放寻址法

//开放寻址法有三种探查技术：这里用的线性探测再散列方法

typedef enum _USE_STATUS {

STATUS_EMPTY = 0,

STATUS_NORMAL_USE = 1,

STATUS_DELETED = 2

}USE_STATUS;

struct HASH_DATA

{

int keyvalue;

USE_STATUS use;

};

struct HASH_TABLE

{

HASH_DATA data[100];

};

//定义哈希函数，又称散列函数

int hash_func(int key)

{

return key%10;

};

//定义处理冲突的增量序列,线性探测再散列方法增量

//线性探测的缺点：1.处理溢出需另编程序。2.删除工作困难，删除元素的时候需要将单元打上删除标记，不能直接设置元素为空，否则影响后续探测。

//3.处理不确定的关键字域时很容易产生堆聚现象，堆聚具有一旦堆聚就更加容易堆聚的特点。

int hash_di(int val)

{

return val;

};

HASH_TABLE* CreateHashTable()

{

HASH_TABLE* hash = new HASH_TABLE;

memset(hash, 0, sizeof(HASH_TABLE));

return hash;

};

//若是当前探查的单元为空，表示查找失败

//若探查到T[d-1]仍然没有查找到，表示查找失败

HASH_DATA* FindHashTable(HASH_TABLE* head, int key)

{

for(int i = 0; i < 100; i++)

{

if(head->data[(hash_func(key)+hash_di(i))%100].keyvalue == key && STATUS_NORMAL_USE == head->data[(hash_func(key)+hash_di(i))%100].use)

{

return &(head->data[hash_func(key)+i]);

}

if(STATUS_EMPTY == head->data[(hash_func(key)+hash_di(i))%100].use)

return NULL;

}

return NULL;

}

//若是当前探查的单元中含有key，则插入失败

//找到空元素或者已删除的元素就插入其中

BOOL InsertHashNode(HASH_TABLE* head, int key)

{

for(int i = 0; i < 100; i++)

{

if(head->data[(hash_func(key)+hash_di(i))%100].use == STATUS_DELETED || head->data[(hash_func(key)+hash_di(i))%100].use == STATUS_EMPTY)

{

head->data[(hash_func(key)+hash_di(i))%100].keyvalue = key;

head->data[(hash_func(key)+hash_di(i))%100].use = STATUS_NORMAL_USE;

return TRUE;

}

return FALSE;

}

//若是探查T[d-1]的时候仍然未找到包含key的单元，则删除失败

//线性探查法找到待删除的元素时只能标记为已删除

//当找到为空的元素仍然没有找到对应的key，则删除失败

BOOL DeleteHashNode(HASH_TABLE* head, int key)

{

for(int i = 0; i < 100; i++)

{

if(head->data[(hash_func(key)+hash_di(i))%100].keyvalue == key && STATUS_NORMAL_USE == head->data[(hash_func(key)+hash_di(i))%100].use)

{

head->data[(hash_func(key)+hash_di(i))%100].use = STATUS_DELETED;

return TRUE;

}

else if(STATUS_EMPTY == head->data[(hash_func(key)+hash_di(i))%100].use)

{

return FALSE;

}

return FALSE;

}

【数据结构】非常有用的hash表的更多相关文章

Redis数据结构：字典（hash表）
使用场景: # set person name "tom" # set person name "jerry" 1. 字典结构: 哈希表数据结构 typedef ...
HDU5183 hash 表
做题的时候忘了数据结构老师说的hash表了, 用二分找,还好过了, hash 表对这题更快一些 #include <iostream> #include <algorithm& ...
php 数据结构 hash表
hash表定义 hash表定义了一种将字符组成的字符串转换为固定长度(一般是更短长度)的数值或索引值的方法,称为散列法,也叫哈希法.由于通过更短的哈希值比用原始值进行数据库搜索更快,这种方法一般用来 ...
java数据结构之hash表
转自:http://www.cnblogs.com/dolphin0520/archive/2012/09/28/2700000.html Hash表也称散列表,也有直接译作哈希表,Hash表是一种特 ...
【数据结构】Hash表
[数据结构]Hash表 Hash表也叫散列表,是一种线性数据结构.在一般情况下,可以用o(1)的时间复杂度进行数据的增删改查.在Java开发语言中,HashMap的底层就是一个散列表. 1. 什么是H ...
Redis原理再学习04：数据结构-哈希表hash表(dict字典)
哈希函数简介哈希函数(hash function),又叫散列函数,哈希算法.散列函数把数据"压缩"成摘要,有的也叫"指纹",它使数据量变小且数据格式大小也固定 ...
【数据结构】Hash表简介及leetcode两数之和python实现
文章目录 Hash表简介基本思想建立步骤问题 Hash表实现 Hash函数构造冲突处理方法 leetcode两数之和python实现题目描述基于Hash思想的实现 Hash表简介基本思想 ...
6.数组和Hash表
当显示多条结果时,存储在变量中非常智能,变量类型会自动转换为一个数组. 在下面的例子中,使用GetType()可以看到$a变量已经不是我们常见的string或int类型,而是Object类型,使用-i ...
数组和Hash表
数组和Hash表当显示多条结果时,存储在变量中非常智能,变量类型会自动转换为一个数组. 在下面的例子中,使用GetType()可以看到$a变量已经不是我们常见的string或int类型,而是Obje ...

随机推荐

mysql的group by应用
CREATE TABLE group_test ( id TINYINT(1) UNSIGNED NOT NULL, pubid TINYINT(1) UNSIGNED NOT NULL, user ...
dup和dup2函数以及管道的实现
疑问:管道应该不是这样实现的,因为这要求修改程序的代码 dup和dup2也是两个非常有用的调用,它们的作用都是用来复制一个文件的描述符.它们经常用来重定向进程的stdin.stdout和stderr. ...
漫长的补结题报告之路 poj3622
题意(引用):题意:有很多种草,有两个属性:价格和新鲜度:有很多牛,它们都会各自需求一种草,要求是其价格最低为ai,新鲜度最低为bi,且这些牛不希望自己的草和别人的一样.问要满足所有需求的最小花费是多 ...
[转] 字符串模式匹配算法——BM、Horspool、Sunday、KMP、KR、AC算法一网打尽
字符串模式匹配算法——BM.Horspool.Sunday.KMP.KR.AC算法一网打尽转载自:http://dsqiu.iteye.com/blog/1700312 本文内容框架: §1 Boy ...
Highcharts20151130
$(function () { $('#container').highcharts({ chart: { type: 'spline' // 图的类型 }, title: { text: null ...
apache开源项目--solr
solr 名称来源 Search On Lucene Replication solr 基本概况 Apache Solr (读音: SOLer) 是一个开源的搜索服务器.Solr 使用 Java 语言 ...
hdu 3367 Pseudoforest
Pseudoforest Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) To ...
安装zabbix server
本文安装的zabbix版本为2.2 步骤 1.安装php 5.3.3 rpm -e `rpm -qa | grep php` rpm -ivh http://mirrors.163.com/cento ...
wuzhicms短信API 实例调用
1.接口调用 $sendsms = load_class('sms','sms'); echo $sendsms->send_sms('18911549611', '888888', 1); / ...
MFC 文件操作
MFC中文件的建立在操作系统中,文件是放在一定的目录下,在创建以及操作文件以前,我们要查看文件要保存的目录有没有存在,如果不存在要创建.这就要用到GetFileAttributes()和Create ...

【数据结构】非常有用的hash表

【数据结构】非常有用的hash表的更多相关文章

随机推荐

热门专题