Jackcard类似度和余弦类似度(向量空间模型)的java实现
版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言。
总结Jackcard类似度和余弦类似度。
一、集合的Jackcard类似度
1.1Jackcard类似度
Jaccard类似指数用来度量两个集合之间的类似性,它被定义为两个集合交集的元素个数除以并集的元素个数。
数学公式描写叙述:
这个看似简单的算法有非常大的用处,比方:
- 抄袭文档
高明的抄袭者为了掩盖自己抄袭的事实。会选择性的抄袭文档中的一些段落,或者对词语或原始文本中的句序进行改变。jackcard类似度计算适合从字面上进行计算,假设是更高级的抄袭改变了语义jackcard类似度计算就无能为力了 - 镜像页面
多个主机上建立镜像以共享载入内容,同一份内容有多个副本。这样的情况实现jackcard类似度计算十分有效。 - 同源新闻稿
一个记者撰写了一份新闻稿件投稿多家媒体,稿件经过少量改动后公布,使用这些同源新闻稿能够用jackcard类似度算法来检測出来
1.2 Java实现
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
/**
* Created by bee on 17/4/12.
*/
public class JackcardSim {
public static double calJackcardSim(Set<String> s1, Set<String> s2) {
Set<String> all = new HashSet<>();
all.addAll(s1);
all.addAll(s2);
System.out.println(all);
Set<String> both = new HashSet<>();
both.addAll(s1);
both.retainAll(s2);
System.out.println(both);
return (double) both.size() / all.size();
}
public static void main(String[] args) {
Set<String> s1 = new HashSet<String>();
s1.add("互联网");
s1.add("金融");
s1.add("房产");
s1.add("融资");
s1.add("科技");
Set<String> s2 = new HashSet<String>();
s2.add("互联网");
s2.add("开源");
s2.add("人工智能");
s2.add("软件");
s2.add("科技");
System.out.println(calJackcardSim(s1, s2));
}
}
执行结果
[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融]
[科技, 互联网]
0.25
二、向量空间模型
2.1简单介绍
向量空间模型是一个把文本文件表示为标识符(比方索引)向量的代数模型。
它应用于信息过滤、信息检索、索引以及相关排序。
文档和查询都用向量来表示。
2.2、java实现
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
/**
* Created by bee on 17/4/10.
*/
public class Vsm {
public static double calCosSim(Map<String, Double> v1, Map<String, Double>
v2) {
double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0;
Set<String> v1Keys = v1.keySet();
Set<String> v2Keys = v2.keySet();
Set<String> both= new HashSet<>();
both.addAll(v1Keys);
both.retainAll(v2Keys);
System.out.println(both);
for (String str1 : both) {
sclar += v1.get(str1) * v2.get(str1);
}
for (String str1:v1.keySet()){
norm1+=Math.pow(v1.get(str1),2);
}
for (String str2:v2.keySet()){
norm2+=Math.pow(v2.get(str2),2);
}
similarity=sclar/Math.sqrt(norm1*norm2);
System.out.println("sclar:"+sclar);
System.out.println("norm1:"+norm1);
System.out.println("norm2:"+norm2);
System.out.println("similarity:"+similarity);
return similarity;
}
public static void main(String[] args) {
Map<String, Double> m1 = new HashMap<>();
m1.put("Hello", 1.0);
m1.put("css", 2.0);
m1.put("Lucene", 3.0);
Map<String, Double> m2 = new HashMap<>();
m2.put("Hello", 1.0);
m2.put("Word", 2.0);
m2.put("Hadoop", 3.0);
m2.put("java", 4.0);
m2.put("html", 1.0);
m2.put("css", 2.0);
calCosSim(m1, m2);
}
}
执行结果:
[css, Hello]
sclar:5.0
norm1:14.0
norm2:35.0
similarity:0.22587697572631282
三、參考资料
https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B
http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTDnNyGoGgBJZN7sq
Jackcard类似度和余弦类似度(向量空间模型)的java实现的更多相关文章
- 余弦相似度-Cosine Similar(转载)
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小.相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上. 与欧几里德距离类似,基于余弦相似度的计算方法也是把用 ...
- Spark Mllib里相似度度量(基于余弦相似度计算不同用户之间相似性)(图文详解)
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐 ...
- Python简单实现基于VSM的余弦相似度计算
在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知 ...
- Solr相似度名词:VSM(Vector Space Model)向量空间模型
最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的.最优的结果.索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向 ...
- 转:Lucene之计算相似度模型VSM(Vector Space Model) : tf-idf与交叉熵关系,cos余弦相似度
原文:http://blog.csdn.net/zhangbinfly/article/details/7734118 最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查 ...
- python实现余弦相似度文本比较
向量空间模型VSM: VSM的介绍: 一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性. VSM的例子: 比如说,一个文档 ...
- 【Math】余弦相似度 和 Pearson相关系数
http://cucmakeit.github.io/2014/11/13/%E4%BF%AE%E6%AD%A3%E4%BD%99%E5%BC%A6%E7%9B%B8%E4%BC%BC%E5%BA%A ...
- 相似度度量:欧氏距离与余弦相似度(Similarity Measurement Euclidean Distance Cosine Similarity)
在<机器学习---文本特征提取之词袋模型(Machine Learning Text Feature Extraction Bag of Words)>一文中,我们通过计算文本特征向量之间 ...
- java算法(1)---余弦相似度计算字符串相似率
余弦相似度计算字符串相似率 功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中.这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻 或者一样的新闻,那就不存储到数据 ...
随机推荐
- SQLPrompt_7.2.2.273〖含注册机〗(支持低版本和最高版本SQL2016+VS2015)
SQLPrompt_7.4.1.564[含注册机](支持低版本和最高版本SQL2016+VS2015) http://download.csdn.net/detail/wozengcong/97601 ...
- Delph 两个对立程序使用消息进行控制通信
在实际应用中,总是会遇到两个独立的程序进行通信,其实通信的方式有好几种,比如进程间通信,消息通信. 项目中用到了此功能, 此功能用于锁屏程序, 下面把实现的流程和大家分享一下. 1. 在锁屏程序中,自 ...
- VS2015 Offline Help Content is now available in 10 more languages!
https://blogs.msdn.microsoft.com/devcontentloc/2015/10/21/vs2015-offline-help-content-is-now-availab ...
- Android SDK代理服务器解决国内不能更新下载问题
原文地址:http://blog.csdn.net/boonya/article/details/38752647 读者须知:本篇文章中最靠谱的是第三种方式,最近有读者反映第三种方式也不行了,下面提供 ...
- 【elasticsearch】关于elasticSearch的基础概念了解【转载】
转载原文:https://www.cnblogs.com/chenmc/p/9516100.html 该作者本系列文章,写的很详尽 ================================== ...
- Linux学习16-CentOS安装gitlab环境
前言 在学习Gitlab的环境搭建之前,首先需要了解Git,Gitlab,GitHub他们三者之间的关系 Git 它是一个源代码版本控制系统,可让您在本地跟踪更改并从远程资源推送或提取更改. GitH ...
- 蓝精灵:寻找神秘村Smurfs: The Lost Village迅雷下载
蓝妹妹(黛米·洛瓦托 Demi Lovato 配音)发现了一张遗落的地图,由此引发精灵们对于神秘村庄真实性的猜想.于是,满怀好奇心的蓝妹妹与聪聪(丹尼·朴迪 Danny Pudi 配音).笨笨(杰克· ...
- 浴血黑帮第三季/全集Peaky Blinders迅雷下载
英文译名 Peaky Blinders (第2季) (2014-8月回归)BBC.本季看点:<浴血黑帮>由<东方的承诺>.<奇异的恩典>编剧斯蒂文·奈特打造,讲述了 ...
- 成功让Eclipse更新ADT的方法
[本文转载自]http://blog.csdn.net/yihui8/article/details/8044426 原文:配置android开发环境eclipse获取ADT获取不到 https:// ...
- win8 中如何删除 共享文件夹 用户名和密码
在访问共享文件夹时我们都喜欢选中记住用户名和密码,可是有时候密码输入错误或者密码修改了,这时就需要我们删除或则修改先前记住的用户名和密码记录. 首先进入:控制面板\所有控制面板项\凭据管理器 选择wi ...