最小哈希原理介绍

  1. MinHash是基于Jaccard Index相似度(海量数据不可行)的算法,一种降维的方法A,B 两个集合:A = {s1, s3, s6, s8, s9}  B = {s3, s4, s7, s8, s10}
  2. MinHash的基本原理:在A∪B这个大的随机域里,选中的元素落在A∩B这个区域的概率,这个概率就等于Jaccard的相似度

最小哈希:

 

S1

S2

S3

A

1

0

0

B

0

1

0

C

0

0

0

D

1

0

1

行的随机排列转换(也称置换运算)

 

S1

S2

S3

B

0

1

0

D

1

0

1

A

1

0

0

C

0

0

0

哈希值:排列转换后的行排列次序下第一个列值为1的行的行号,例如h(S1)=D,h(S2)=B

两个集合经随机排列之后得到的两个最小哈希值相等的概率等于这两个集合的Jaccard相似度。

问题:

对于上百万甚至数十亿的行选择一个随机排列转换极其消耗时间,怎么办?

  1. 随机选择n个哈希函数h1,h2…
  2. 对每列C进行如下操作:

    a)  如果c在第r行为0,则什么也不做;

    b)   否则,如果c在第r行为1,那么对于每个i=1,2,…,n,将SIG(i,c)置为原来的SIG(i,c)和h(r)中的较小值

S1

S2

S3

S4

x+1 mod 5

3x+1 mod 5

0

1

0

0

1

1

1

1

0

0

1

0

2

4

2

0

1

0

1

3

2

3

1

0

1

1

4

0

4

0

0

1

0

0

3

计算最小哈希签名矩阵:

S1

S2

S3

S4

h1

1

3

0

1

h2

0

2

0

0

计算Jaccard相似度:

SIM(S1,S4)=1.0;SIM(S1,S3)=1/3;SIM(S1,S2)=0

真实SIM(S1,S4)=2/3;SIM(S1,S3)=1/4;SIM(S1,S2)=0

 

相关论文:

1.《Google News Personalization: Scalable Online Collaborative Filtering》

根据用户的历史点击数据,进行新闻推荐;采用最小哈希聚类的协同过滤算法

2.《The Link-Prediction Problem for Social Networks》

比较社交网络链接预测问题的各种算法

计算好友相似度的流程:

  • 找到N个哈希函数,对每个用户好友集合生成一组Minhash(N个)
  • 对于一个用户,按Minhash相同个数做排序,给出推荐候选集
  • 计算用户跟被备选集的Jaccard Index
  • 按Jaccard结果排序,给出TopN进行推荐

哈希函数生成和哈希值计算:

    1. 输入向量Vector转换为bytes

      • numHashFunctions--预设生成hash函数的个数(假定为10个)
      • for (int i = 0; i < numHashFunctions; i++) {
        for (Vector.Element ele : featureVector) {
        int value = (int) ele.get();
        bytesToHash[0] = (byte) (value >> 24);
        bytesToHash[1] = (byte) (value >> 16);
        bytesToHash[2] = (byte) (value >> 8);
        bytesToHash[3] = (byte) value;
        int hashIndex = hashFunction[i].hash(bytesToHash); //计算哈希函数值
        //只保留最小哈希值
        if (minHashValues[i] > hashIndex) {
        minHashValues[i] = hashIndex;
        }
        }
        }

    2. 采用Mersenne Twister算法构造伪随机生成器
      • Random random = new MersenneTwisterRNG(new FastRandomSeedGenerator());

      • Mersenne Twister(马特赛特旋转演算法),是伪随机数发生器之一,其主要作用是生成伪随机数。

        Mersenne Twister算法的原理:Mersenne Twister算法是利用线性反馈移位寄存器(LFSR)产生随机数的,LFSR的反馈函数是寄存器中某些位的简单异或,这些位也称之为抽头序列。一个n位的LFSR能够在重复之前产生2^n-1位长的伪随机序列。只有具有一定抽头序列的LFSR才能通过所有2^n-1个内部状态,产生2^n - 1位长的伪随机序列,这个输出的序列就称之为m序列。为了使LFSR成为最大周期的LFSR,由抽头序列加上常数1形成的多项式必须是本原多项式。一个n阶本原多项式是不可约多项式,它能整除x^(2*n-1)+1而不能整除x^d+1,其中d能整除2^n-1。例如(32,7,5,3,2,1,0)是指本原多项式x^32+x^7+x^5+x^3+x^2+x+1,把它转化为最大周期LFSR就是在LFSR第32,7,5,2,1位抽头。利用上述两种方法产生周期为m的伪随机序列后,只需要将产生的伪随机序列除以序列的周期,就可以得到(0,1)上均匀分布的伪随机序列了。

        Mersenne Twister有以下优点:随机性好,在计算机上容易实现,占用内存较少(mt19937的C程式码执行仅需624个字的工作区域),产生随机数的速度快、周期长,可达到2^19937-1,且具有623维均匀分布的性质,对于一般的应用来说,足够大了,序列关联比较小,能通过很多随机性测试。
    3. 四种哈希函数生成器
      • MAX_INT_SMALLER_TWIN_PRIME = 2147482949;为什么选这个值?

        • 它是整型范围内最大孪生素数(相差为2的两个数都是质数的情况)的较小值;哈希用素数取模冲突小
      • seedA、seedB、seedC是采用MersenneTwisterRNG随机生成器生成的0~11均匀分布的随机数
      • 第一种:LinearHash

            @Override
        public int hash(byte[] bytes) {
        long hashValue = 31;
        for (long byteVal : bytes) {
        hashValue *= seedA * byteVal;
        hashValue += seedB;
        }
        return Math.abs((int) (hashValue % RandomUtils.MAX_INT_SMALLER_TWIN_PRIME));
        }

      • 第二种:PolynomialHash

         @Override
        public int hash(byte[] bytes) {
        long hashValue = 31;
        for (long byteVal : bytes) {
        hashValue *= seedA * (byteVal >> 4);
        hashValue += seedB * byteVal + seedC;
        }
        return Math.abs((int) (hashValue % RandomUtils.MAX_INT_SMALLER_TWIN_PRIME));
        }

      • 第三种:MurmurHashWrapper
        @Override
        public int hash(byte[] bytes) {
        long hashValue = MurmurHash.hash64A(bytes, seed);
        return Math.abs((int) (hashValue % RandomUtils.MAX_INT_SMALLER_TWIN_PRIME));
        }
      • 第四种:MurmurHash3Wrapper
        @Override
        public int hash(byte[] bytes) {
        long hashValue = MurmurHash3.murmurhash3_x86_32(bytes, 0, bytes.length, seed);
        return Math.abs((int) (hashValue % RandomUtils.MAX_INT_SMALLER_TWIN_PRIME));

MinHash 原理的更多相关文章

  1. minHash最小哈希原理

    minHash最小哈希原理 收藏 初雪之音 发表于 9个月前 阅读 208 收藏 9 点赞 1 评论 0 摘要: 在数据挖掘中,一个最基本的问题就是比较两个集合的相似度.通常通过遍历这两个集合中的所有 ...

  2. minhash

    minhash是一种基于jaccard index 相似度的算法.属于LSH(Location Sensitive Hash)家族中的一员. jaccard index :有两个集合A={a , b ...

  3. MinHash算法-复杂度待整理

    1MinHash简介 传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法.传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的:如果不 ...

  4. 海量数据集利用Minhash寻找相似的集合【推荐优化】

    MinHash 首先它是一种基于 Jaccard Index 相似度的算法,也是一种 LSH 的降维的方法,应用于大数据集的相似度检索.推荐系统.下边按我的理解介绍下MinHash 问题背景 给出N个 ...

  5. 局部敏感哈希(LSH)之simhash和minhash

    minhash 1. 把文档A分词形成分词向量L 2. 使用K个hash函数,然后每个hash将L里面的分词分别进行hash,然后得到K个被hash过的集合 3. 分别得到K个集合中的最小hash,然 ...

  6. LSH(Locality Sensitive Hashing)原理与实现

    原文地址:https://blog.csdn.net/guoziqing506/article/details/53019049 LSH(Locality Sensitive Hashing)翻译成中 ...

  7. simhash和minhash实现理解

    文本相似度算法 minhash minhash 1. 把文档A分词形成分词向量L 2. 使用K个hash函数,然后每个hash将L里面的分词分别进行hash,然后得到K个被hash过的集合 3. 分别 ...

  8. 海量文件查重SimHash和Minhash

    SimHash 事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离.海明距离或者余弦角度等等.两两比较固然能很好地适应,但这种方法的一个最大的缺点 ...

  9. 转:minhash

    Minhash算法及其应用 一.引言 MinHash算法属于Locality Sensitive Hashing,用于快速估计两个集合的相似度.最早由Broder Andrei Z. 在1997年提出 ...

随机推荐

  1. UNIX网络编程——ioctl 函数的用法详解

    1.介绍 Linux网络程序与内核交互的方法是通过ioctl来实现的,ioctl与网络协议栈进行交互,可得到网络接口的信息,网卡设备的映射属性和配置网络接口.并且还能够查看,修改,删除ARP高速缓存的 ...

  2. shape图形的使用

    shape图形的使用 在项目中如果用到有规律的常规的图形,在能够掌握的前提下建议使用shape图形,shape图形相对与图片来说,占用资源更小,并且使用起来不会失真. 效果图 shape图形1 < ...

  3. Linux--NFS和DHCP服务器

     (1) 在网络中,时常需要进行文件的共享,如果都是在Linux系统下,可以使用NFS 来搭建文件服务器,达到文件共享的目的. (2) 在网络管理中,为了防止IP 冲突和盗用,有效的控制IP 资源 ...

  4. [maven学习笔记]第一节,认识maven,搭建maven开发环境,写第一个HelloWorld

    本文地址:http://blog.csdn.net/sushengmiyan/article/details/40142771 maven官网:http://maven.apache.org/ 学习视 ...

  5. 应付模块的R12 TRACE 和 FND Debug 文件 / FND 日志 调试

     取得R12 TRACE: 1. 导航职责: 系统管理员> 配置文件> 系统> 查找 用户: 用户提交报表 配置: 初始化 SQL 语句 - 自定义 2. 点击用户栏位-编辑区域 ...

  6. (NO.00005)iOS实现炸弹人游戏(三):从主场景类谈起

    大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请告诉我,如果觉得不错请多多支持点赞.谢谢! hopy ;) 我又粗粗看了下整个项目的代码,比较多: 不少类都与其他类有着千丝 ...

  7. Android开发技巧——ViewPager衍生出来的2个类

    1.不能左右滑动的ViewPager /* * Date: 14-7-28 * Project: Access-Control-V2 */ package cn.irains.access.v2.co ...

  8. visual studio 2015使用python tools远程调试maya 2016

    步骤: 1. 去https://apps.exchange.autodesk.com/MAYA/en/Home/Index搜索Developer Kit并下载,maya 2016可以直接点击这里下载. ...

  9. EBS Form个性化的工作原理

    Form的个性化是EBS的比较好用的一个东西.好像很少人研究它的工作原理,都是直接用.最近有个同事问我问题,说他在个性化编写的代码无效果.解决之后,才发现,原来传说中的EBS的Form的个性化是这样子 ...

  10. 【Android 应用开发】 自定义 圆形进度条 组件

    转载著名出处 : http://blog.csdn.net/shulianghan/article/details/40351487 代码下载 : -- CSDN 下载地址 : http://down ...