总结Jackcard类似度和余弦类似度。

一、集合的Jackcard类似度

1.1Jackcard类似度

Jaccard类似指数用来度量两个集合之间的类似性，它被定义为两个集合交集的元素个数除以并集的元素个数。

数学公式描写叙述:

J(A,B)=|A∩B||A∪B|

这个看似简单的算法有非常大的用处，比方：

抄袭文档

高明的抄袭者为了掩盖自己抄袭的事实。会选择性的抄袭文档中的一些段落，或者对词语或原始文本中的句序进行改变。jackcard类似度计算适合从字面上进行计算，假设是更高级的抄袭改变了语义jackcard类似度计算就无能为力了
镜像页面

多个主机上建立镜像以共享载入内容，同一份内容有多个副本。这样的情况实现jackcard类似度计算十分有效。
同源新闻稿

一个记者撰写了一份新闻稿件投稿多家媒体，稿件经过少量改动后公布，使用这些同源新闻稿能够用jackcard类似度算法来检測出来

1.2 Java实现

import java.util.HashSet;

import java.util.Map;

import java.util.Set;

/**

 * Created by bee on 17/4/12.

 */

public class JackcardSim {

    public static double calJackcardSim(Set<String> s1, Set<String> s2) {

        Set<String> all = new HashSet<>();

        all.addAll(s1);

        all.addAll(s2);

        System.out.println(all);

        Set<String> both = new HashSet<>();

        both.addAll(s1);

        both.retainAll(s2);

        System.out.println(both);

        return (double) both.size() / all.size();

    }

    public static void main(String[] args) {

        Set<String> s1 = new HashSet<String>();

        s1.add("互联网");

        s1.add("金融");

        s1.add("房产");

        s1.add("融资");

        s1.add("科技");

        Set<String> s2 = new HashSet<String>();

        s2.add("互联网");

        s2.add("开源");

        s2.add("人工智能");

        s2.add("软件");

        s2.add("科技");

        System.out.println(calJackcardSim(s1, s2));

    }

}

执行结果

[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融]

[科技, 互联网]

0.25

二、向量空间模型

2.1简单介绍

向量空间模型是一个把文本文件表示为标识符（比方索引）向量的代数模型。

它应用于信息过滤、信息检索、索引以及相关排序。

文档和查询都用向量来表示。

dj=(w1,j,w2,j,...,wt,j)q=(w1,q,w2,q,...,wt,q)

cosθ=d2⋅q∥d2∥∥∥q∥∥=∑i=1Nwi,jwi,q∑i=1Nw2i,j‾‾‾‾‾‾√∑i=1Nw2i,q‾‾‾‾‾‾√

2.2、java实现

import java.util.HashMap;

import java.util.HashSet;

import java.util.Map;

import java.util.Set;

/**

 * Created by bee on 17/4/10.

 */

public class Vsm {

    public static double calCosSim(Map<String, Double> v1, Map<String, Double>

            v2) {

        double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0;

        Set<String> v1Keys = v1.keySet();

        Set<String> v2Keys = v2.keySet();

        Set<String> both= new HashSet<>();

        both.addAll(v1Keys);

        both.retainAll(v2Keys);

        System.out.println(both);

        for (String str1 : both) {

            sclar += v1.get(str1) * v2.get(str1);

        }

        for (String str1:v1.keySet()){

            norm1+=Math.pow(v1.get(str1),2);

        }

        for (String str2:v2.keySet()){

            norm2+=Math.pow(v2.get(str2),2);

        }

        similarity=sclar/Math.sqrt(norm1*norm2);

        System.out.println("sclar:"+sclar);

        System.out.println("norm1:"+norm1);

        System.out.println("norm2:"+norm2);

        System.out.println("similarity:"+similarity);

        return similarity;

    }

    public static void main(String[] args) {

        Map<String, Double> m1 = new HashMap<>();

        m1.put("Hello", 1.0);

        m1.put("css", 2.0);

        m1.put("Lucene", 3.0);

        Map<String, Double> m2 = new HashMap<>();

        m2.put("Hello", 1.0);

        m2.put("Word", 2.0);

        m2.put("Hadoop", 3.0);

        m2.put("java", 4.0);

        m2.put("html", 1.0);

        m2.put("css", 2.0);

        calCosSim(m1, m2);

    }

}

执行结果:

[css, Hello]

sclar:5.0

norm1:14.0

norm2:35.0

similarity:0.22587697572631282

三、參考资料

https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B

http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTDnNyGoGgBJZN7sq

Jackcard类似度和余弦类似度(向量空间模型)的java实现的更多相关文章

余弦相似度-Cosine Similar（转载）
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小.相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上. 与欧几里德距离类似,基于余弦相似度的计算方法也是把用 ...
Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐 ...
Python简单实现基于VSM的余弦相似度计算
在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知 ...
Solr相似度名词：VSM(Vector Space Model)向量空间模型
最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的.最优的结果.索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向 ...
转：Lucene之计算相似度模型VSM(Vector Space Model) : tf-idf与交叉熵关系，cos余弦相似度
原文:http://blog.csdn.net/zhangbinfly/article/details/7734118 最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查 ...
python实现余弦相似度文本比较
向量空间模型VSM: VSM的介绍: 一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性. VSM的例子: 比如说,一个文档 ...
【Math】余弦相似度和 Pearson相关系数
http://cucmakeit.github.io/2014/11/13/%E4%BF%AE%E6%AD%A3%E4%BD%99%E5%BC%A6%E7%9B%B8%E4%BC%BC%E5%BA%A ...
相似度度量：欧氏距离与余弦相似度（Similarity Measurement Euclidean Distance Cosine Similarity）
在<机器学习---文本特征提取之词袋模型(Machine Learning Text Feature Extraction Bag of Words)>一文中,我们通过计算文本特征向量之间 ...
java算法（1）---余弦相似度计算字符串相似率
余弦相似度计算字符串相似率功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中.这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻或者一样的新闻,那就不存储到数据 ...

随机推荐

Modbus TCP和Modbus Rtu协议的区别转
http://blog.csdn.net/educast/article/details/9177679 Modbus rtu和Modbus tcp两个协议的本质都是MODBUS协议,都是靠MOD ...
安装oracle环境变量path的值大于1023的解决办法
介绍解决安装oracle安装问题方法/步骤安装oracle 10g时遇到环境变量path的值超过1023字符,无法设置该值,如图: ‍ 安装oracle 10g时遇到环境变量path的值超 ...
使用newScheduledThreadPool来模拟心跳机制
(使用newScheduledThreadPool来模拟心跳机制) 1 public class HeartBeat { 2 public static void main(String[] args ...
Xcode5和6共存时，如何发布应用到商店
如何你和我一样手贱安装了Xcode6,同时又需要发布应用到商店时,你会发现打好的包是通不过审核的.验证报错: unable to validate application archives of ty ...
转换java keytools的keystore证书到OPENSSL的PEM格式文件
背景:原先业务使用的前端为haproxy,直接端口转发至tomcat,后端进行ssl连接,所以当时生成的步骤如下 ? 1 2 •生成密钥对:keytool -genkey -alias tomcat- ...
mysql between and 遇到日期查询边界问题
最近实现一个按日期范围查询列表,例如输入的是日期 2015-11-01到2015-11-03,想得到1号到3号的数据, 执行 select * from table where create_date ...
Python数据分析笔记
最近在看Python数据分析这本书,随手记录一下读书笔记. 工作环境本书中推荐了edm和ipython作为数据分析的环境,我还是刚开始使用这种集成的环境,觉得交互方面,比传统的命令行方式提高了不少. ...
.Net AppDomain详解（一）
AppDomain是CLR的运行单元,它可以加载Assembly.创建对象以及执行程序.AppDomain是CLR实现代码隔离的基本机制. 每一个AppDomain可以单独运行.停止:每个AppDom ...
深度学习在推断阶段（inference）的硬件实现方法概述
推断(Inference),就是深度学习把从训练中学习到的能力应用到工作中去. 精心调整权值之后的神经网络基本上就是个笨重.巨大的数据库.为了充分利用训练的结果,完成现实社会的任务,我们需要的是一个能 ...
磁共振中的T1， T2 和 T2*的原理和区别
从物理的角度,要理解这几个概念的区别,需要对原子核的磁化有所了解,本文通过一些图示对这几个概念进行简明的介绍. 首先,磁共振最基本的原理就是氢原子核在磁场中自旋运动时所具有的量子力学特性.在一个均匀磁 ...

Jackcard类似度和余弦类似度(向量空间模型)的java实现

一、集合的Jackcard类似度

1.1Jackcard类似度

1.2 Java实现

二、向量空间模型

2.1简单介绍

2.2、java实现

三、參考资料

Jackcard类似度和余弦类似度(向量空间模型)的java实现的更多相关文章

随机推荐

热门专题