Python - 中文文本进行余弦相似度比较

　　　今天，在看论文的时候，突然想到了一件事情，爱是相对的，是双方的事情。那么“你爱我”和“你爱我”的相似度是多少呢？采用余弦相似度的方式来进行相似度比较。首先“简单”的介绍一下余弦相似度：

　　　　概念：余弦相似性通过计算两个向量的余弦角来测量两个向量之间的相似性。

　　　　余弦相似性公式如下：

　　　　当时，找关于中文的相似度比较的时候，废了一点点时间，干脆自己写一个，当做笔记了。关于一些过程都放到了代码里面。代码如下所示：

import numpy as np

from numpy.linalg import norm

import jieba

# 1、原始文本

origin_text1 = "我爱你"

origin_text2 = "你爱我"

# 2、NLP 分词 jieba

text1_list=jieba.cut(origin_text1,cut_all=False, HMM=False)

text2_list=jieba.cut(origin_text2,cut_all=False, HMM=False)

# 3、使用Python中的collections库，将分词后的文本转换成词汇向量

import collections

A = ['我','爱','你']

B = ['你','爱','我']

text1_counter = collections.Counter(text1_list)

text2_counter = collections.Counter(text2_list)

# 4、使用Python中的math库，计算两个词汇向量的余弦相似度：

import math

def cos_sim(vector1, vector2):

    numerator = sum(a * b for a, b in zip(vector1, vector2))

    denominator = math.sqrt(sum(a**2 for a in vector1)) * math.sqrt(sum(b**2 for b in vector2))

    return round(numerator / denominator, 3)

print(cos_sim(text1_counter.values(), text2_counter.values()))

# 0.577

　　　其实，从结果来看的话，是0.577。那么是不是说，单纯一方面的爱别人，只能得到一般成功的概率。

　　因为，我采用jieba分词的形式，对这两句话进行分词，但是通过结果查看得知，jieba分完词之后，结果还是“我爱你”、“你爱我”。然后我采用['我','爱','你']、['你','爱','我']的形式，发现结果为1。这表明了爱别人是有收获的。

如果有错误，欢迎大家指正，谢谢！！！

Python - 中文文本进行余弦相似度比较的更多相关文章

python 2 计算字符串余弦相似度
def get_ord_list(str): return [ord(i) for i in str] def calcu_approx(str1,str2): def dot(A,B): retur ...
[转]python进行中文文本聚类（切词以及Kmeans聚类）
简介查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原 ...
Python简单实现基于VSM的余弦相似度计算
在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知 ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
余弦相似度及基于python的三种代码实现、与欧氏距离的区别
1.余弦相似度可用来计算两个向量的相似程度对于如何计算两个向量的相似程度问题,可以把这它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向.两条线段之间形成一个夹角, ...
SnowNLP：一个处理中文文本的 Python 类库[转]
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...
python实现余弦相似度文本比较
向量空间模型VSM: VSM的介绍: 一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性. VSM的例子: 比如说,一个文档 ...
Python 余弦相似度与皮尔逊相关系数计算
夹角余弦(Cosine) 也可以叫余弦相似度. 几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异. (1)在二维空间中向量A(x1,y1)与向量B(x2,y2 ...
python读入中文文本编码错误
python读入中文文本编码错误 python读入中文txt文本: #coding:utf-8 def readFile(): fp = open('emotion_dict//neg//neg_al ...
python结巴分词余弦相似度算法实现
过余弦相似度算法计算两个字符串之间的相关度,来对关键词进行归类.重写标题.文章伪原创等功能, 让你目瞪口呆.以下案例使用的母词文件均为txt文件,两种格式:一种内容是纯关键词的txt,每行一个关键词就 ...

随机推荐

SpringBoot项目从0到1配置logback日志打印
大家好!我是sum墨,一个一线的底层码农,平时喜欢研究和思考一些技术相关的问题并整理成文,限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教. 以下是正文! 一.写文背景我们在写后端项目的时候 ...
2023-07-03：讲一讲Redis缓存的数据一致性问题和处理方案。
2023-07-03:讲一讲Redis缓存的数据一致性问题和处理方案. 答案2023-07-03: 数据一致性当使用缓存时,无论是在本地内存中缓存还是使用 Redis 等外部缓存系统,会引入数据同步 ...
BeanDefinitionStoreException: Failed to read candidate component class
ssm 整合时出现问题 org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate ...
了解O2OA(翱途）开发平台中的VIP应用
使用O2OA(翱途)开发平台可以非常方便地进行项目的业务需求开发与实施,O2OA(翱途)开发平台并不限制实现的系统类型,所以能实现的系统很多,最终呈现的项目成果也是多样性的,可能是OA系统,可能是人力 ...
数据安全没保证？GaussDB(for Redis)为你保驾护航
摘要:GaussDB (for Redis)通过账号管理.权限隔离.高危命令禁删/重命名.安全IP免密登录.实例回收站等企业级特性,保障用户数据库数据和信息安全. 本文分享自华为云社区<数据安全 ...
Avalonia项目打包安装包
Avalonia项目打包安装包要将 Avalonia 项目打包成安装包,你可以使用 Avalonia 发布工具来完成 1.创建一个发布配置文件在你的 Avalonia 项目中,创建一个发布配置文件 ...
Linux 日志收集器：syslog，syslog-ng，rsyslog
一参考:https://www.cnblogs.com/zhaoyong631/p/14441090.html 基本上,它们都是相同,它们都允许在中央存储库中记录来自不同类型系统的数据. 但是它们是 ...
2021-7-7 VUE动态样式
Vue的动态样式实例1 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> & ...
Vue错误：Cannot read properties of undefined (reading '$router')
解决方案这是由于this的指向有问题,我们只需要重新声明一下this就可以重新调用了
Kitex微服务开发实践(ETCD服务注册)
服务注册通常用于分布式系统或微服务架构中,是一种用于管理和发现这些分布式服务的机制.它的目标是让服务能够动态地找到其他服务,并能够与其进行通信,而无需显式地配置其位置信息本文简单讲述使用etcd进行 ...

Python - 中文文本进行余弦相似度比较

Python - 中文文本进行余弦相似度比较的更多相关文章

随机推荐

热门专题