[MIT6.006] 9. Table Doubling, Karp-Rabin 双散列表, Karp-Rabin
在整理课程笔记前,先普及下课上没细讲的东西,就是下图,如果有个操作g(x),它最糟糕的时间复杂度为Ο(c2 * n),它最好时间复杂度是Ω(c1 * n),那么θ则为Θ(n)。简单来说:如果O和Ω可以用同一个多项式表示,这里为c * n,那么这个多项式n就是我们所要求的渐进紧的界θ了:
上节课我们讲了下图的散列表:

有个问题就是怎么去选择散列表的大小m?
有个方法就是先假设从一个小的m=8开始,然后按照需求进行增长/缩短。
这里举个例子:如果n > m (n为key space的大小,m为散列表大小),那么应该增加散列表。方法有以下两种:
由上图可见双散列表更加节省时间。
关于双散列表的渐进紧界θ,如下图所示(这块其实我没怎么听太懂,但关于删除那块,按照第二种方式会更加节省时间)
现在开始本课重要内容:如何实现字符串的查找?如下图所示:假设一个待查询字符串s是‘6.006’,在文本库t中找到s。
最简单的一个办法就是,遍历移动进行查找,但这样的效率太慢了。如果想要更快的实现查找,先了解一个叫Rolling Hash的ADT(Abstract Data Type):
简单来说,先提前定一个字符串r(其长度为待查字符串s),先往r里加入文本库t里前|s|个字符串,然后去哈希值,然后与s的哈希值对比,如果它们相等则标记当前r为匹配字段,如果它们不相同,r就追加后面的首元素,去掉r自己的首元素,相当于向右移动r的时候,保持r的长度不变,继续进行hash(r) 和 hash(s) 的比较。
但上面的方法有个问题,之前第8节课也提到,就是k1≠k2下,也可能会有冲突hash(k1)=hash(k2)出现,为了解决避免冲突,Karp-Rabin算法被提出来了:
具体的内容如上图,Karp-Rabin算法解决冲突的办法就是,当出现h(rs)=h(rt)相同时,再进一步对rs和rt对应位置上的字符串进行hash的对比,这样最后就能排除之前的冲突了。在该算法中采用了如下图的hash函数计算方式和append及skip的方式,它们的使用能更好的避免冲突:
[MIT6.006] 9. Table Doubling, Karp-Rabin 双散列表, Karp-Rabin的更多相关文章
- Hash Table(散列表)
		
这篇主要是基础的数据结构学习,写的时候才明白了书上说到的一些问题,由于该篇仅仅只是对这种数据结构进行一个理解,所以很基础,关于h(x)函数也只是简单的运用了除法散列,然后为了应对冲突,我用的是链接法. ...
 - [MIT6.006] 1. Algorithmic Thinking, Peak Finding 算法思维,峰值寻找
		
[MIT6.006] 系列笔记将记录我观看<MIT6.006 Introduction to Algorithms, Fall 2011>的课程内容和一些自己补充扩展的知识点.该课程主要介 ...
 - 散列表(hash table)——算法导论(13)
		
1. 引言 许多应用都需要动态集合结构,它至少需要支持Insert,search和delete字典操作.散列表(hash table)是实现字典操作的一种有效的数据结构. 2. 直接寻址表 在介绍散列 ...
 - Java 集合 散列表hash table
		
Java 集合 散列表hash table @author ixenos 摘要:hash table用链表数组实现.解决散列表的冲突:开放地址法 和 链地址法(冲突链表方式) hash table 是 ...
 - linux内核的双链表list_head、散列表hlist_head
		
一.双链表list_head 1.基本概念 linux内核提供的标准链表可用于将任何类型的数据结构彼此链接起来. 不是数据内嵌到链表中,而是把链表内嵌到数据对象中. 即:加入链表的数据结构必须包含一个 ...
 - 算法导论-散列表(Hash Table)-大量数据快速查找算法
		
目录 引言 直接寻址 散列寻址 散列函数 除法散列 乘法散列 全域散列 完全散列 碰撞处理方法 链表法 开放寻址法 线性探查 二次探查 双重散列 随机散列 再散列问题 完整源码(C++) 参考资料 内 ...
 - [转载] 散列表(Hash Table)从理论到实用(上)
		
转载自:白话算法(6) 散列表(Hash Table)从理论到实用(上) 处理实际问题的一般数学方法是,首先提炼出问题的本质元素,然后把它看作一个比现实无限宽广的可能性系统,这个系统中的实质关系可以通 ...
 - [转载] 散列表(Hash Table)从理论到实用(中)
		
转载自:白话算法(6) 散列表(Hash Table)从理论到实用(中) 不用链接法,还有别的方法能处理碰撞吗?扪心自问,我不敢问这个问题.链接法如此的自然.直接,以至于我不敢相信还有别的(甚至是更好 ...
 - [转载] 散列表(Hash Table) 从理论到实用(下)
		
转载自: 白话算法(6) 散列表(Hash Table) 从理论到实用(下) [澈丹,我想要个钻戒.][小北,等等吧,等我再修行两年,你把我烧了,舍利子比钻戒值钱.] ——自扯自蛋 无论开发一个程序还 ...
 
随机推荐
- golang Gin framework with websocket
			
概述 golang websocket 库 示例 后端 前端 结论 概述 对于 golang 的 web 开发, 之前写过 2 篇 blog, 分别介绍了: 在 Gin 框架下, 各类 http AP ...
 - 多测师讲解selenium ——切换窗口——打印句柄_高级讲师肖sir
			
(一)同一个窗口打开两个浏览器 from selenium import webdriverfrom time import sleepdrvier=webdriver.Chrome()url='ht ...
 - Springboot+Redis(发布订阅模式)跨多服务器实战
			
一:redis中发布订阅功能(http://www.redis.cn/commands.html#pubsub) PSUBSCRIBE pattern [pattern -]:订阅一个或者多个符合pa ...
 - 从源码角度来分析线程池-ThreadPoolExecutor实现原理
			
作为一名Java开发工程师,想必性能问题是不可避免的.通常,在遇到性能瓶颈时第一时间肯定会想到利用缓存来解决问题,然而缓存虽好用,但也并非万能,某些场景依然无法覆盖.比如:需要实时.多次调用第三方AP ...
 - 51Nod 最大M子段和系列 V1 V2 V3
			
前言 \(HE\)沾\(BJ\)的光成功滚回家里了...这堆最大子段和的题抠了半天,然而各位\(dalao\)们都已经去做概率了...先%为敬. 引流之主:老姚的博客 最大M子段和 V1 思路 最简单 ...
 - Aspose.Words实现邮件合并功能和打印
			
前言 最近公司要做一个B/S架构的web打印系统,主要是可以上传.下载.邮件合并.打印等等,还有就是角色的分配.用户的创建.日志记录等等,跟一般的web系统一样.可能不一样的就是需求:想把excel的 ...
 - Oracl Linux KVM虚拟机备份
			
Oracle Linux KVM 作为Oracle Linux的一部分,基于KVM的Oracle Linux 服务器虚拟化解决方案在功能上得到了增强.用户可以利用Oracle Linux旧版本,将操 ...
 - zctf2016_note2:一个隐蔽的漏洞点挖掘
			
代码量挺大的,逆起来有难度 功能挺全,啥都有 main函数 add函数,有heaparray并且无pie保护,考虑unlink show函数,可以泄漏地址用 edit函数,有两种edit方式 dele ...
 - Udacity的C++编程练习: Python转C++
			
练习 1 在机器人定位的课程中,Sebastian Thrun 已经带领你了解了一维机器人传感和运动的 Python 代码.最后你得到了一个 sense() 函数,它基于传感器的测量数据来更新概率.你 ...
 - Elasticsearch数据库 | Elasticsearch-7.5.0应用搭建实战
			
Elasticsearch 是一个可用于分布式以及符合RESTful 风格的搜索和数据分析引擎.-- Elastic Stack 官网 搭建Elasticsearch的"那些事儿" ...