Minhash 算法及其应用

背景：

我遇到一个问题，要计算140万商品的杰卡德相似度。如果直接要直接两两计算的话，这计算量根本算不了，而且也没必要。

分析：

在这些商品中很多商品的相似度并不高，也就是说其中达到相似度阈值的商品只占这些商品组合的一小部分。针对这种情况，首先想到的是按照类别，或者商品品牌进行计算，只计算同类别或者同品牌下的相似品。

但是实际执行效果并不理想，分析原因可能有以下两点。

一、不同类别下的商品数目极不均衡，一些类别比较少的只有十几个，而一些类别下的商品数量极大，可能有十万以上。

二、如果按品牌划分则推荐效果不理想，只能推荐该品牌下的商品，而且同样存在问题一中的情况，即不同品牌的商品数量差别很大。

解决方案：

找到的一种解决方案是使用minhash加一些近似估计的处理。最后达到的效果是在满足一定的准确率的情况下，获得杰卡德距离大于一定阈值的所有商品组合，然后在对这些商品对计算真正的距离。比如我们要求获取杰卡德距离大于0.2的所有商品对，而且准确率不低于99%

先介绍minHash

minhash是局部敏感hash的一种。局部敏感哈希是将原始数据去一个摘要，该摘要还能够表示原始数据之间的相似性，例如相似性大于一定阈值的话，Hash值相等。

minHash要实现这么一种Hash，对于原始集合Set1和Set2的hash，h_min(Set1)=h_min(Set2)的概率p 等于Set1与Set2的杰卡德相似度。

下图是维基百科上的介绍。

接下来介绍算法的两种实现：

一种是使用多个hash函数，这种比较简单。具体过程为，使用K个Hash函数，然后每个Hash函数分别对集合A和集合B计算h_min(SetA) ,h_min(SetB)。然后计算SetA的K个Hash min 和SetB的K个Hash值的交集，假设交集有Y个。则杰卡德相似度的值为Y/K。

第二种是使用一个Hash函数：

使用多个hash函数的计算代价太大（每个都求一次最小值确实费劲）。我们使用一个Hash函数分别求出SetA和SetB的前K小的元素。SetA的前K小的作为A的签名，SetB的前K小的作为B的签名。然后计算集合X:

X = h_(k)(h_(k)(A) ∪ h_(k)(B)) = h_(k)(A ∪ B)

根据之前说过的该Hash函数要求的性质X等价于求得A和B的并集的前K小元素的集合。

然后在求一个子集Y，令Y等于：

Y = X ∩ h_(k)(A) ∩ h_(k)(B)

集合A和集合B的杰卡德距离的估计值是：|Y|/X

应用：

1、MinHash的应用应该是对要计算杰卡德距离的两个集合进行降维，然后通过集合的摘要计算杰卡德相似度。

2、还有一种是通过minhash相等的概率等于杰卡德相似度，来优化大量集合之间的杰卡德相似度的计算。

参考资料：

http://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.html

https://en.wikipedia.org/wiki/MinHash

Minhash 算法及其应用的更多相关文章

MinHash算法
MinHash是用于快速检测两个集合的相似性的方法.改方法由Andrei Broder(1997)发明,并最初用于搜索引擎AltaVista中来检测重复的网页的算法.它同样可以用于推荐系统和大规模文档 ...
文本去重之MinHash算法
1.概述跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度.MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页.它也可以应用 ...
MinHash算法-复杂度待整理
1MinHash简介传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法.传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的:如果不 ...
文本去重之MinHash算法——就是多个hash函数对items计算特征值，然后取最小的计算相似度
来源:http://my.oschina.net/pathenon/blog/65210 1.概述跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度.Mi ...
文本相似性计算--MinHash和LSH算法
给定N个集合,从中找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合.那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2).此外,假如,N个集合中只有少数几对集合相似,绝大多数集 ...
minhash
minhash是一种基于jaccard index 相似度的算法.属于LSH(Location Sensitive Hash)家族中的一员. jaccard index :有两个集合A={a , b ...
海量数据集利用Minhash寻找相似的集合【推荐优化】
MinHash 首先它是一种基于 Jaccard Index 相似度的算法,也是一种 LSH 的降维的方法,应用于大数据集的相似度检索.推荐系统.下边按我的理解介绍下MinHash 问题背景给出N个 ...
利用Minhash和LSH寻找相似的集合（转）
问题背景给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合.那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2).当N比较小时,比如K级,此算法可以在接受的时间范 ...
位姿检索PoseRecognition：LSH算法.p稳定哈希
位姿检索使用了LSH方法,而不使用PNP方法,是有一定的来由的.主要的工作会转移到特征提取和检索的算法上面来,有得必有失.因此,放弃了解析的方法之后,又放弃了优化的方法,最后陷入了检索的汪洋大海. 0 ...

随机推荐

c#读取excel到dataset
public DataSet TransExcelToDataSet(string fileName, List<string> sheetNames) { OleDbConnection ...
Spring MVC http请求地址映射（三）
Spring MVC框架通过扫描将带有@Controller的类中的@RequestMapping的方法进行映射,然后调用映射的方法处理请求,这个分发过程默认是由DispaterServlet处理的. ...
细数Python中的数据类型以及他们的方法
一.数据类型的种类及主要功能 1.数字类型数字类型主要是用来计算,它分为整数类型int和浮点类型float 2.布尔类型布尔类型主要是用于判断,它分为真True和False两种 3.字符串类型字 ...
快速排序算法C语言版
快速排序(Quicksort)是对冒泡排序的一种改进. 快速排序由C. A. R. Hoare在1962年提出.它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比 ...
调色盘canvas
//调色盘 function draw8(id){ var canvas = document.getElementById(id); var context = canvas.getContext( ...
数据结构&算法（一）_堆、栈（堆栈）、队列、链表
堆: ①堆通常是一个可以被看做一棵树的数组对象.堆总是满足下列性质: ·堆中某个节点的值总是不大于或不小于其父节点的值: ·堆总是一棵完全二叉树.将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做 ...
HDU - 6437 Problem L.Videos 2018 Multi-University Training Contest 10 (最小费用最大流)
题意:M个影片,其属性有开始时间S,结束时间T,类型op和权值val.有K个人,每个人可以看若干个时间不相交的影片,其获得的收益是这个影片的权值val,但如果观看的影片相邻为相同的属性,那么收益要减少 ...
HDU 4370 - 0 or 1 （SPFA+思维）
题意:给一个N*N的矩阵C,和一个N*N的只由0和1组成的矩阵X. X满足以下条件: 1.X 12+X 13+...X 1n=1 2.X 1n+X 2n+...X n-1n=1 3.任意 i (1 ...
Linux centos7 zookeeper集群搭建
Zookeeper集群搭建描述:本章节主要单服务器搭建集群,在一个服务器上启动多个不同端口的zookeeper服务,非真实环境. 真实环境下zookeeper集群会搭建在多个物理服务器上,并非单一的 ...
React-native Android环境搭建
基础安装安装Homebrew Homebrew是Mac OSX的包管理器,我们需要通过Homebrew安装开发React Native的相关软件包. 如果不知道怎样安装Homebrew可以点这里:官 ...

Minhash 算法 及其应用

Minhash 算法 及其应用的更多相关文章

随机推荐

热门专题

Minhash 算法及其应用

Minhash 算法及其应用的更多相关文章