最小哈希

维基百科，自由的百科全书

在计算机科学领域，最小哈希（或最小哈希式独立排列局部性敏感哈希）方法是一种快速判断两个集合是否相似的技术。这种方法是由Andrei Broder （1997）,^[1]发明的，最初在AltaVista搜索引擎中用于在搜索结果中检测并消除重复Web页面。^[2]

它同样也应用于大规模聚类问题，比如通过文档间包含的词语相似性进行聚类。^[1]

雅可比相似度与最小哈希值

两个集合A和B的雅可比相似度系数定义如下：^[3]

{\displaystyle J(A,B)={{|A\cap B|} \over {|A\cup B|}}.}

它是一个0到1之间的数值上，当其为0时表示两个集合不相交，当其为1时表示两个集合相等，其他的情况则在0和1之间。它广泛地用于两集合间相似性的判断：当雅可比系数趋向于1时，两个集合更相似；反之，当雅可比系数趋向于0时，两个集合更不相似。

假定h是一个将A和B中的元素映射到一些不相交整数的哈希函数，而且针对给定的S，定义h_min(S)为S集合中具有最小h(x)函数值的元素x。这样，只有当最小哈希值的并集A ∪ B依赖于交集A ∩ B时，有h_min(A) = h_min(B)。因此，

Pr[h_min(A) = h_min(B)] = J(A,B).

另一方面来说，如果r是一个当h_min(A) = h_min(B)时值为1，其它情况下值为0的随机变量，那么r可认为是J(A,B)的无偏估计。尽管此时方差过高，单独使用时没什么用处。最小哈希方法的思想是通过平均用同一方式构造的许多随机变量，从而减少方差。

算法

多哈希函数的变种

最简单的最小哈希方法是使用k个不同的哈希函数，其中k是固定的整数参数，使用这k个函数所对应的k个h_min(S)值来描述每个集合S。使用这种最简单的版本来判断J(A,B)，假定y是使得h_min(A) = h_min(B)的哈希函数个数，使用y/k作为估计。则此估计是k个不同的0-1随机变量的平均值，其中每个随机变量当h_min(A) = h_min(B)值为1，反之为0，并且是J(A,B)的无偏估计。因此，该平均值同样也是一个无偏估计，而且通过0-1随机变量之和的标准Chernoff上界可得知，其期望误差是O(1/√k)。所以，针对任意给定的常数ε > 0，存在另一常数k = O(1/ε²)，其估计的期望误差不超过ε。例如，使用400个哈希函数值来估计J(A,B)，其期望误差将小于或等于.05。

单一哈希函数的变种

计算多个哈希函数的代价是相当昂贵的，因此有关最小哈希方法的另一种实现方法是仅使用单一的哈希函数来避免这个问题。对于每个集合，使用这个单一的哈希函数选出其中的多个值，而不是每个哈希函数选择一个值。假定h是一个哈希函数，k是一个固定整数。如果S是h域上k或更多元素的集合，则定义h_(k)(S)为S中具有最小h值的k个元素所组成的子集。该子集h_(k)(S)可用作集合S的一个签名，任意两个集合间的相似度可通过比较它们的签名来计算。

特别地，假定A and B为任意两个集合，X = h_(k)(h_(k)(A) ∪ h_(k)(B)) = h_(k)(A ∪ B)是A ∪ B的k个元素的集合，如果h是随机变量并且k个元素的任意子集等可能地被选择。也就是说，X是A ∪ B的简单随机样本。Y = X ∩ h_(k)(A) ∩ h_(k)(B)是集合X中属于A ∩ B交集的元素。因此，|Y|/k是J(A,B)的无偏估计。单一哈希函数的估计与多个哈希函数产生的估计的不同在于Y总是有k个元素，而多个哈希函数由于两个不同的哈希函数可能会产生相同的最小值，因此可能会产生更少的样本元素。然而，当k相对集合大小来说很小时，该区别可忽略不计。

通过不重复取样的标准Chernoff上界，该估计的期望误差为O(1/√k)，其性能与多个哈希函数方法相匹配。

耗时分析

|Y|/k估计通过给定集合的两个签名能够在O(k)能够计算出来，因此，当ε and k为常数时，从签名中计算相似度估计的时间也为常数，这样当众多两两相似度需要计算时，该方法在运行时间上与每个集合中元素的完全比较相比，能够有实质性的优化。

最小哈希式独立排列

为了实现上述的最小哈希方法，哈希函数h需要定义n元素上的一个随机排列，这里的n是指待比较的所有集合并集中不相交元素的总数。但是由于存在n!个不同的排列，仅仅指定一个真正随机的排列就需要Ω(n log n)位，即使n一般时，这个数值也很大。基于这样的事实，与全局哈希相类似的理论，有大量的研究工作寻找“最小哈希式独立的”一簇排列，意指针对域的任意子集，任何元素都与其最小值是等可能的。已经证明，最小哈希式独立的排列簇至少必须包含:{\displaystyle lcm(1,2,...,n)\geq e^{n-o(n)}}个不同的排列，因此它需要Ω(n)位来指定一个排列，这个数值仍然很大。^[2]

由于实践上不可行，引入了最小哈希式独立的两个变型概念：严格最小哈希式独立排列簇和近似最小哈希式独立排列簇。严格的最小哈希式独立是指最小哈希式独立属性被限制在集合基数至多为k的一些集合中。^[4] 近似最小哈希式独立最多有一个固定的概率ε变化为完全独立。^[5]

应用

最小哈希的最初应用包括在Web文档中聚类并消除近似重复，这通过在那些文档中出现的词语集合来描述。^[1]^[2] 相似的技术也应用于其他类型数据的聚类和近似重复消除，如图片：在图片数据中，一张图片可以通过分割用很多更小的子图片集合或更多复杂图片特征的描述集合来表示。^[6]

Schleimer, Wilkerson & Aiken（2003）使用最小哈希技术作为数字文档剽窃检测方法的一部分，他们的方法将文档表示成给定长度的子串集合，将文档划分成更大固定长度的窗口，然后使用子串的最小哈希值作为每个窗口的描述值。如果文本的拷贝部分比两倍窗口尺寸还要长，则该描述值将肯定匹配保存在数据库中众多描述值中的一个，这样那个窗口就可以用来检查有多少内容是拷贝的。^[7]

在数据挖掘领域，Cohen et al.（2001）使用最小哈希技术作为关联规则学习的工具。给定一个数据库，其中每一项都有多个属性（可看作是每行为一个数据库项，每列为一个属性的0-1矩阵），他们将最小哈希的近似度方法应用于Jaccard系数，用来辨别频繁共同出现的属性候选对，然后仅计算这些候选对的确切系数值，以确定哪些项目共同出现的频度低于一个给定的严格阈值。^[8]

最小哈希 minhash的更多相关文章

minHash最小哈希原理
minHash最小哈希原理收藏初雪之音发表于 9个月前阅读 208 收藏 9 点赞 1 评论 0 摘要: 在数据挖掘中,一个最基本的问题就是比较两个集合的相似度.通常通过遍历这两个集合中的所有 ...
海量数据挖掘MMDS week2: 局部敏感哈希Locality-Sensitive Hashing, LSH
http://blog.csdn.net/pipisorry/article/details/48858661 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
MinHash算法
MinHash是用于快速检测两个集合的相似性的方法.改方法由Andrei Broder(1997)发明,并最初用于搜索引擎AltaVista中来检测重复的网页的算法.它同样可以用于推荐系统和大规模文档 ...
文本去重之MinHash算法
1.概述跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度.MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页.它也可以应用 ...
MinHash算法-复杂度待整理
1MinHash简介传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法.传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的:如果不 ...
海量数据集利用Minhash寻找相似的集合【推荐优化】
MinHash 首先它是一种基于 Jaccard Index 相似度的算法,也是一种 LSH 的降维的方法,应用于大数据集的相似度检索.推荐系统.下边按我的理解介绍下MinHash 问题背景给出N个 ...
海量数据挖掘MMDS week7: 局部敏感哈希LSH（进阶）
http://blog.csdn.net/pipisorry/article/details/49686913 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
MinHash 原理
最小哈希原理介绍 MinHash是基于Jaccard Index相似度(海量数据不可行)的算法,一种降维的方法A,B 两个集合:A = {s1, s3, s6, s8, s9} B = {s3, s ...
海量文件查重SimHash和Minhash
SimHash 事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离.海明距离或者余弦角度等等.两两比较固然能很好地适应,但这种方法的一个最大的缺点 ...

随机推荐

IDEA下同时使用Git和svn
使用Git时将文件改成Git,Svn时改成svn 修改项目下.idea目录的vcs.xml配置文件. <?xml version="1.0" encoding="U ...
app内嵌h5页面在ios手机端滑动卡顿的解决方法
1.带滚动条的dom需加样式 -webkit-overflow-scrolling: touch;2.去掉 width:100%; height:100%
spring框架学习(三)——AOP( 面向切面编程)
AOP 即 Aspect Oriented Program 面向切面编程首先,在面向切面编程的思想里面,把功能分为核心业务功能,和周边功能. 所谓的核心业务,比如登陆,增加数据,删除数据都叫核心业务 ...
Java开发笔记（一百一十七）AWT窗口
前面介绍的所有Java代码,都只能通过日志观察运行情况,就算编译成class文件,也必须在命令行下面运行,这样的程序无疑只能给开发者做调试用,不能拿给一般人使用.因为普通用户早已习惯在窗口界面上操作, ...
Django 修改该项目文件夹、项目名及项目文件夹中同名文件夹，报错 ModuleNotFoundError: No module named 'untitled'
如果你直接重构项目文件夹名及重构项目名和重构项目文件夹内同名文件夹执行项目报错 ModuleNotFoundError: No module named 'untitled' 请执行以下操作
用Python写一个滑动验证码
1.准备阶段滑动验证码我们可以直接用GEETEST的滑动验证码. 打开网址:https://www.geetest.com/ ,找到技术文档中的行为验证,打开部署文档,点击Python,下载ZIP包 ...
Android--TextView第一个单词大写
自定义TextView: public class FirstBoldTextView extends TextView { private boolean firstWordBold = false ...
Java多线程编程之读写锁【ReentrantReadWriteLock】
有时候我们需要有这样的需求: 对于同一个文件进行读和写操作,普通的锁是互斥的,这样读的时候会加锁,只能单线程的读,我们希望多线程的进行读操作,并且读的时候不能进行写操作,写的时候不能进行 ...
【转载】Windows安装Redis并添加本地自启动服务
概况在windows本地搭建redis缓存,添加到本地计算机的服务中,保证每次开机自动启动服务. 第一步:下载redis(我的是计算机win10,64位) https://github.com/Mi ...
2.3_Database Interface ODBC组成原理
从某种意义上来讲,ODBC实际上主要是一个数据库的访问库(API),它包含访问不同数据库所要求的ODBC驱动程序.应用程序要操作不同类型的数据库,只要调用ODBC所支持的函数,动态链接到不同的驱动程序 ...

最小哈希 minhash