向量空间模型VSM：

VSM的介绍：

　　一个文档可以由文档中的一系列关键词组成，而VSM则是用这些关键词的向量组成一篇文档，其中的每个分量代表词项在文档中的相对重要性。

VSM的例子：

　　比如说，一个文档有分词和去停用词之后，有N个关键词（或许去重后就有M个关键词），文档关键词相应的表示为（d1,d2,d3,...,dn），而每个关键词都有一个对应的权重（w1,w1,...,wn）。对于一篇文档来说，或许所含的关键词项比较少，文档向量化后的向量维度可能不是很大。而对于多个文档（2篇文档或两篇文档以上），则需要合并所有文档的关键词（关键词不能重复），形成一个不重复的关键词集合，这个关键词集合的个数就是每个文档向量化后的向量的维度。打个比方说，总共有2篇文档A和B，其中A有5个不重复的关键词（a1,a2,a3,a4,a5）,B有6个关键词（b1,b2,b3,b4,b5,b6）,而且假设b1和a3重复，则可以形成一个简单的关键词集（a1,a2,a3,a4,a5,,b2,b3,b4,b5,b6），则A文档的向量可以表示为（ta1,ta2,ta3,ta4,ta5,0,0,0,0,0）,B文档可以表示为（0,0,tb1,0,0,tb2,tb3,tb4,tb5,tb6），其中的tb表示的对应的词汇的权重。

最后，关键词的权重一般都是有TF-IDF来表示，这样的表示更加科学，更能反映出关键词在文档中的重要性，而如果仅仅是为数不大的文档进行比较并且关键词集也不是特别大，则可以采用词项的词频来表示其权重（这种表示方法其实不怎么科学）。

TF-IDF权重计算：

TF的由来：

　　以前在文档搜索的时候，我们只考虑词项在不在文档中，在就是1，不在就是0。其实这并不科学，因为那些出现了很多次的词项和只出现了一次的词项会处于等同的地位，就是大家都是1.按照常理来说，文档中词项出现的频率越高，那么就意味着这个词项在文档中的地位就越高，相应的权重就越大。而这个权重就是词项出现的次数，这样的权重计算结果被称为词频（term frequency）,用TF来表示。

IDF的出现：

　　在用TF来表示权重的时候，会出现一个严重的问题：就是所有的词项都被认为是一样重要的。但在实际中，某些词项对文本相关性的计算来说毫无意义，举个例子，所有的文档都含有汽车这个词汇，那么这个词汇就没有区分能力。解决这个问题的直接办法就是让那些在文档集合中出现频率较高的词项获得一个比较低的权重，而那些文档出现频率较低的词项应该获得一个较高的权重。

　为了获得出现词项T的所有的文档的数目，我们需要引进一个文档频率df。由于df一般都比较大，为了便于计算，需要把它映射成一个较小的范围。我们假设一个文档集里的所有的文档的数目是N，而词项的逆文档频率（IDF）。计算的表达式如下所示：

　　通过这个idf，我们就可以实现罕见词的idf比较高，高频词的idf比较低。

TF-IDF的计算：

　　TF-IDF = TF * IDF

　　有了这个公式，我们就可以对文档向量化后的每个词给予一个权重，若不含这个词，则权重为0。

余弦相似度的计算：

　　有了上面的基础知识，我们可以将每个分好词和去停用词的文档进行文档向量化，并计算出每一个词项的权重，而且每个文档的向量的维度都是一样的，我们比较两篇文档的相似性就可以通过计算这两个向量之间的cos夹角来得出。下面给出cos的计算公式：

　　分母是每篇文档向量的模的乘积，分子是两个向量的乘积，cos值越趋向于1，则说明两篇文档越相似，反之越不相似。

文本比较实例：

对文本进行去停用词和分词：

文本未分词前，如下图所示：

文本分词和去停用词后，如下图所示：

词频统计和文档向量化

对经过上一步处理过的文档，我们可以统计每个文档中的词项的词频，并且将其向量化，下面我直接给出文档向量化之后的结果。注意：在这里由于只是比较两篇文档的相似性，所以我只用了tf来作为词项的权重，并未使用tf-idf：

向量化后的结果是：

　　　　　　　　[1,1,1,1,1,1,1,1,1,1,1,1,1,1]

两篇文档进行相似度的计算，我会给出两篇文档的原文和最终计算的相似度：

文档原文如下所示：

文档A的内容

文档B的内容

余弦相似度代码实现：

  import  math

 # 两篇待比较的文档的路径

 sourcefile = '1.txt'

 s2 = '2.txt'

 # 关键词统计和词频统计，以列表形式返回

 def Count(resfile):

         t = {}

         infile = open(resfile, 'r', encoding='utf-8')

         f = infile.readlines()

         count = len(f)

         # print(count)

         infile.close()

         s = open(resfile, 'r', encoding='utf-8')

     i = 0

         while i < count:

             line = s.readline()

         # 去换行符

             line = line.rstrip('\n')

             # print(line)

             words = line.split(" ")

             #   print(words)

             for word in words:

                     if word != "" and t.__contains__(word):

                         num = t[word]

                     t[word] = num + 1

                     elif word != "":

                     t[word] = 1

             i = i + 1

         # 字典按键值降序

         dic = sorted(t.items(), key=lambda t: t[1], reverse=True)

         # print(dic)

         # print()

         s.close()

         return (dic)

 def MergeWord(T1,T2):

         MergeWord = []

         duplicateWord = 0

         for ch in range(len(T1)):

             MergeWord.append(T1[ch][0])

         for ch in range(len(T2)):

             if T2[ch][0] in MergeWord:

                     duplicateWord = duplicateWord + 1

             else:

                     MergeWord.append(T2[ch][0])

         # print('重复次数 = ' + str(duplicateWord))

         # 打印合并关键词

         # print(MergeWord)

         return MergeWord

 # 得出文档向量

 def CalVector(T1,MergeWord):

         TF1 = [0] * len(MergeWord)

     for ch in range(len(T1)):

             TermFrequence = T1[ch][1]

             word = T1[ch][0]

             i = 0

             while i < len(MergeWord):

                     if word == MergeWord[i]:

                     TF1[i] = TermFrequence

                     break

                     else:

                     i = i + 1

         # print(TF1)

         return TF1

 def CalConDis(v1,v2,lengthVector):

         # 计算出两个向量的乘积

         B = 0

         i = 0

         while i < lengthVector:

             B = v1[i] * v2[i] + B

             i = i + 1

         # print('乘积 = ' + str(B))

         # 计算两个向量的模的乘积

         A = 0

         A1 = 0

         A2 = 0

         i = 0

         while i < lengthVector:

             A1 = A1 + v1[i] * v1[i]

             i = i + 1

         # print('A1 = ' + str(A1))

         i = 0

         while i < lengthVector:

             A2 = A2 + v2[i] * v2[i]

             i = i + 1

            # print('A2 = ' + str(A2))

         A = math.sqrt(A1) * math.sqrt(A2)

         print('两篇文章的相似度 = ' + format(float(B) / A,".3f"))

 T1 = Count(sourcefile)

 print("文档1的词频统计如下：")

 print(T1)

 print()

 T2 = Count(s2)

 print("文档2的词频统计如下：")

 print(T2)

 print()

 # 合并两篇文档的关键词

 mergeword = MergeWord(T1,T2)

 #  print(mergeword)

 # print(len(mergeword))

 # 得出文档向量

 v1 = CalVector(T1,mergeword)

 print("文档1向量化得到的向量如下：")

 print(v1)

 print()

 v2 = CalVector(T2,mergeword)

 print("文档2向量化得到的向量如下：")

 print(v2)

 print()

 # 计算余弦距离

 CalConDis(v1,v2,len(v1))

python实现余弦相似度文本比较的更多相关文章

python计算余弦复杂度
import numpy as np from sklearn.metrics.pairwise import cosine_similarity a = np.array([1, 2, 3, 4]) ...
Python简单实现基于VSM的余弦相似度计算
在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知 ...
余弦相似度及基于python的三种代码实现、与欧氏距离的区别
1.余弦相似度可用来计算两个向量的相似程度对于如何计算两个向量的相似程度问题,可以把这它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向.两条线段之间形成一个夹角, ...
Python 余弦相似度与皮尔逊相关系数计算
夹角余弦(Cosine) 也可以叫余弦相似度. 几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异. (1)在二维空间中向量A(x1,y1)与向量B(x2,y2 ...
python结巴分词余弦相似度算法实现
过余弦相似度算法计算两个字符串之间的相关度,来对关键词进行归类.重写标题.文章伪原创等功能, 让你目瞪口呆.以下案例使用的母词文件均为txt文件,两种格式:一种内容是纯关键词的txt,每行一个关键词就 ...
【Math】余弦相似度和 Pearson相关系数
http://cucmakeit.github.io/2014/11/13/%E4%BF%AE%E6%AD%A3%E4%BD%99%E5%BC%A6%E7%9B%B8%E4%BC%BC%E5%BA%A ...
python 对比图片相似度
最近appium的使用越来越广泛了,对于测试本身而言,断言同样是很重要的,没有准确的断言那么就根本就不能称之为完整的测试了.那么目前先从最简单的截图对比来看.我这里分享下python的图片相似度的代码 ...
相似度度量：欧氏距离与余弦相似度（Similarity Measurement Euclidean Distance Cosine Similarity）
在<机器学习---文本特征提取之词袋模型(Machine Learning Text Feature Extraction Bag of Words)>一文中,我们通过计算文本特征向量之间 ...
java算法（1）---余弦相似度计算字符串相似率
余弦相似度计算字符串相似率功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中.这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻或者一样的新闻,那就不存储到数据 ...

随机推荐

http://www.cnblogs.com/xdp-gacl/p/4200090.html
孤傲苍狼只为成功找方法,不为失败找借口! JavaWeb学习总结(五十)——文件上传和下载在Web应用系统开发中,文件上传和下载功能是非常常用的功能,今天来讲一下JavaWeb中的文件上传和下载功 ...
java中static和final修饰符
static和final修饰符一.static修饰符 static表示“全局”或者“静态”的意思,用来修饰成员变量和成员方法,也可以形成静态static代码块,但是Java语言中没有全局变量的概念. ...
efCore+Mysql+Net Core
1.首先新建一个空的Asp.net core项目 2.新建一个类 gj.cs public class gj { // <summary> /// 主键 /// </summa ...
java之maven之maven的使用
这里使用的工具是 myeclipse ,所以这里讲的是在 myeclipse 上使用maven. 1.什么是仓库? 用于存放依赖包.配置文件.其他插件等. 项目添加依赖时,默认从本地仓库读取依赖包 ...
vue 实现 rem 布局的或者 vw 布局的方法
vue 实现 rem 布局的或者 vw 布局的方法一.实现 rem 布局移动端 <meta name="viewport" content="width=de ...
vim替换字符串
1. s 命令来替换字符串 :s/vivian/sky/ #替换当前行第一个 vivian 为 sky :s/vivian/sky/g #替换当前行所有 vivian 为 sky :n,$s/vivi ...
标准库中的装饰器 lru_cache和全新的 singledispatch
Python 内置了三个用于装饰方法的函数:property.classmethod 和 staticmethod. 另一个常见的装饰器是 functools.wraps,它的作用是协助构建行为良好 ...
xtrabackup 使用
创建具有完全备份所需的最小权限的数据库用户的SQL示例如下 mysql> CREATE USER 'bkpuser'@'%' IDENTIFIED BY 's3cret';mysql> G ...
POJ 2762Going from u to v or from v to u?(强联通 + 缩点 + 拓扑排序)
[题意]: 有N个房间,M条有向边,问能否毫无顾虑的随机选两个点x, y,使从①x到达y,或者,②从y到达x,一定至少有一条成立.注意是或者,不是且. [思路]: 先考虑,x->y或者y-> ...
【转】如何在 Linux 中查看可用的网络接口
原文:https://www.cnblogs.com/qianpangzi/p/10563979.html 查看ubuntu系统当前的可用的网络接口.方法如下 -------------------- ...

python实现余弦相似度文本比较