MinHash算法

MinHash是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder（1997）发明，并最初用于搜索引擎AltaVista中来检测重复的网页的算法。它同样可以用于推荐系统和大规模文档聚类中。

我们先介绍Jaccard相似度量。对于两个集合A与B，Jaccard相似性系数可以定义为：

$J(A,B)=\frac{\left|A\cap B\right|}{\left|A\cup B\right|}$

容易知道，Jaccard系数是0-1之间的值。当两个集合越接近，那么该值越接近1；反之跟接近0。

假设h是一个hash function，将A与B的元素映射成一个整数，定义： $h_{min}(S)$ 是集合S中具有最小哈希值的元素。假设该哈希值足够好，不会产生碰撞，那么，我们可以得到一个重要的结论：

仅当 $A\cup B$ 中具有最小哈希值得元素位于 $A\cap B$ 中时， $h_{min}(A)=h_{min}(B)$ 。

所以有， $Pr\left[h_{min}(A)=h_{min}(B)\right]=J(A,B)$ ，即集合A、B经过hash后最小哈希值相等的概率。

若令 $r$ 为一个随机变量，当 $h_{min}(A)=h_{min}(B)$ 时取1，否则取0，那么 $r$ 就是 $J(A,B)$ 的一个无偏估计。

有了上面的重要结论，我们可以根据minhash来计算两个集合的相似度了。

方法1：使用多个hash函数

取k个hash函数，对于每个hash函数，计算 $h_{min}(A)$ 和 $h_{min}(B)$ 。用y表示 $h_{min}(A)=h_{min}(B)$ 的次数，那么可以用 $y/k$ 来估计 $J(A,B)$ 。

方法2：使用单一的hash函数

上面讲到的方法1是比较耗时的，因为要计算集合中每个元素的k个哈希函数的值，计算复杂度比较高。为了达到一定的准确性，k通常取400或800。

为了减少计算量，我们定义 $h_{(k)}(S)$ 表示集合S中拥有最小hash值的k个元素组成的子集。我们可以把 $h_{(k)}(S)$ 当成集合S的一个签名。我们可以用两个集合的签名的相似度来估计这两个集合的相似度。

那么

$X=h_{(k)}\left(A\cup B)=h_{(k)}(h_{(k)}(A)\cup h_{(k)}(B)\right)$

是集合 $A\cup B$ 的一个随机抽样。

$Y=X\cap h_{(k)}(A)\cap h_{(k)}(B)$

是X和 $A\cap B$ 的交集。

因此， $|Y|/k$ 是 $J(A,B)$ 的一个无偏估计。

根据标准切尔诺夫界限，对与非替换的抽样，期望的误差

注：无偏估计：

设A'=g(X1,X2,...,Xn)是未知参数A的一个点估计量，若A'满足

E(A'）= A

则称A'为A的无偏估计量，否则为有偏估计量。

注：无偏估计就是系统误差为零的估计。

MinHash算法的更多相关文章

文本去重之MinHash算法
1.概述跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度.MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页.它也可以应用 ...
MinHash算法-复杂度待整理
1MinHash简介传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法.传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的:如果不 ...
Minhash 算法及其应用
背景: 我遇到一个问题,要计算140万商品的杰卡德相似度.如果直接要直接两两计算的话,这计算量根本算不了,而且也没必要. 分析: 在这些商品中很多商品的相似度并不高,也就是说其中达到相似度阈值的商品只 ...
文本去重之MinHash算法——就是多个hash函数对items计算特征值，然后取最小的计算相似度
来源:http://my.oschina.net/pathenon/blog/65210 1.概述跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度.Mi ...
文本相似性计算--MinHash和LSH算法
给定N个集合,从中找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合.那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2).此外,假如,N个集合中只有少数几对集合相似,绝大多数集 ...
minhash
minhash是一种基于jaccard index 相似度的算法.属于LSH(Location Sensitive Hash)家族中的一员. jaccard index :有两个集合A={a , b ...
海量数据集利用Minhash寻找相似的集合【推荐优化】
MinHash 首先它是一种基于 Jaccard Index 相似度的算法,也是一种 LSH 的降维的方法,应用于大数据集的相似度检索.推荐系统.下边按我的理解介绍下MinHash 问题背景给出N个 ...
利用Minhash和LSH寻找相似的集合（转）
问题背景给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合.那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2).当N比较小时,比如K级,此算法可以在接受的时间范 ...
位姿检索PoseRecognition：LSH算法.p稳定哈希
位姿检索使用了LSH方法,而不使用PNP方法,是有一定的来由的.主要的工作会转移到特征提取和检索的算法上面来,有得必有失.因此,放弃了解析的方法之后,又放弃了优化的方法,最后陷入了检索的汪洋大海. 0 ...

随机推荐

JavaScript动态显示当前时间
JavaScript动态显示当前时间: 2016年01月04日时间:16:58:32 星期一 <span id="timejs"></span> &l ...
linux 查看静态库，动态库是32位还是64位
动态库: file xxx.so 静态库 objdump -a xxx.a
[转]教你一招 - 如何给nopcommerce增加新闻类别模块
本文转自:http://www.nopchina.net/post/nopchina-teach-newscategory.html nopcommerce的新闻模块一直都没有新闻类别,但是很多情况下 ...
[转]ASP.Net篇之Session与Cookie
本文转自:http://www.cnblogs.com/japanbbq/archive/2011/08/31/2160494.html Session: Session是“会话”的意思,然而,因为h ...
Solrj和Solr DIH索引效率对比分析
测试软件环境: 1.16G windows7 x64 32core cpu . 2.jdk 1.7 tomcat 6.x solr 4.8 数据库软件环境: 1.16G windows7 x64 ...
怎样用ZBrush中的shadowbox创建物体
ZBrush一直以方便著称业内各领域,模型师不需要在多个软件中编辑塑造模型,而在ZBrush用shadowbox创建物体的流程,在Tool面板上的Geometry子面板中,4.0版本引入了shadow ...
为opencv贡献代码
本文记录本人从发现bug,提交bug,到修复bug的过程.下面enjoy: 1.发现bug 由于项目需要,开发了一个视频检测demo,类似于扫一扫二维码的程序,不过不是这个程序不是扫二维码.具体实现参 ...
GTAC 2015 Schedule
之前发的GTAC 2015将于11月10号和11号召开现在时刻表也出来啦 https://developers.google.com/google-test-automation-conferenc ...
NOIP2003pj数字游戏[环形DP]
题目描述丁丁最近沉迷于一个数字游戏之中.这个游戏看似简单,但丁丁在研究了许多天之后却发觉原来在简单的规则下想要赢得这个游戏并不那么容易.游戏是这样的,在你面前有一圈整数(一共n个),你要按顺序将其分 ...
GNU make简要介绍①指定变量、自动推导规则、清除工作目录过程文件
Makefile简介在执行make之前需要一个命名为Makefile的特殊文件来告诉make需要做些什么. 当使用 make 工具进行编译时,工程中以下几种文件在执行 make 时将会被编译 (重新 ...

MinHash算法

MinHash算法的更多相关文章

随机推荐

热门专题