转：Python 文本挖掘：使用gensim进行文本相似度计算

Python使用gensim进行文本相似度计算

转于：http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/

在文本处理中，比如商品评论挖掘，有时需要了解每个评论分别和商品的描述之间的相似度，以此衡量评论的客观性。

评论和商品描述的相似度越高，说明评论的用语比较官方，不带太多感情色彩，比较注重描述商品的属性和特性，角度更客观。

那么Python 里面有计算文本相似度的程序包吗，恭喜你，不仅有，而且很好很强大。

这是从52nlp大神的博客里面发现的，其实具体的处理流程和程序和他的基本一致，只要仔细研读他的这几篇博客文章即可。

（竟然还没提到程序包的名字，退票。。退票。。）

其实题目就讲到了这个包的名字啦：gensim

真心好用，谁用谁知道。。。

接下来主要说一下针对商品评论和商品描述之间的相似度，怎么使用gensim来计算。

原理

1、文本相似度计算的需求始于搜索引擎。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度，从而把最相似的排在最前返回给用户。

2、主要使用的算法是tf-idf

tf：term frequency 词频

idf：inverse document frequency 倒文档频率

主要思想是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

第一步：把每个网页文本分词，成为词包（bag of words）。

第三步：统计网页（文档）总数M。

第三步：统计第一个网页词数N，计算第一个网页第一个词在该网页中出现的次数n，再找出该词在所有文档中出现的次数m。则该词的tf-idf 为：n/N * 1/(m/M) （还有其它的归一化公式，这里是最基本最直观的公式）

第四步：重复第三步，计算出一个网页所有词的tf-idf 值。

第五步：重复第四步，计算出所有网页每个词的tf-idf 值。

3、处理用户查询

第一步：对用户查询进行分词。

第二步：根据网页库（文档）的数据，计算用户查询中每个词的tf-idf 值。

4、相似度的计算

使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小，越相似。

实战

主要分成三步。

第一步，计算所有评论的tf-idf 值。

第二步，使用所有评论的tf-idf 值算出商品描述的tf-idf 值。

第三步，计算每一个评论和商品描述之间的tf-idf 余弦相似度。

第一步

① 商品评论的储存形式（把Excel 中的评论数据分词并去停用词存储在txt 文档中）：

txt 文档。每条评论为一行。分词并去除停用词。效果如下图：

② 使用gensim 计算所有评论的tf-idf 值

# 读取txt 文档中的每条评论并用itertools 的yield 方法存储起来（比起把所有数据存在数组中，使用itertools 的内存效率高，具体原理请google）

class MyCorpus(object):

def __iter__(self):
for line in open(datapath):
yield line.split()

from gensim import corpora, models, similarities

# 以下是把评论通过gensim 转化为tf-idf 形式，程序具体解释参见52nlp的博客或gensim官方文档
Corp=MyCorpus()
dictionary = corpora.Dictionary(Corp)
corpus =[dictionary.doc2bow(text)for text inCorp]#把所有评论转化为词包（bag of words）

tfidf = models.TfidfModel(corpus)#使用tf-idf 模型得出该评论集的tf-idf 模型

corpus_tfidf = tfidf[corpus]#此处已经计算得出所有评论的tf-idf 值

第二步

① 整个商品描述只有一行，经过分词和去停用词处理，得到与上面相似的txt 文档。只是它只有一行。

② 把商品描述看成是查询，把商品评论看成是网页，即可计算商品描述的tf-idf 值。

#读取商品描述的txt 文档

q_file = open(querypath, 'r')
query = q_file.readline()
q_file.close()

vec_bow = dictionary.doc2bow(query.split())#把商品描述转为词包
vec_tfidf = tfidf[vec_bow]#直接使用上面得出的tf-idf 模型即可得出商品描述的tf-idf 值

第三步

① 计算相似度，然后写入txt 文档中

index = similarities.MatrixSimilarity(corpus_tfidf)#把所有评论做成索引
sims = index[vec_tfidf]#利用索引计算每一条评论和商品描述之间的相似度

similarity = list(sims)#把相似度存储成数组，以便写入txt 文档

sim_file = open(storepath,'w')
for i in similarity:
sim_file.write(str(i)+'\n')#写入txt 时不要忘了编码
sim_file.close()

② 写入文档后相似度如图：

最后总的程序如下：

#! /usr/bin/env python2.7
#coding=utf-8

import logging
from gensim import corpora, models, similarities

def similarity(datapath, querypath, storepath):
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

classMyCorpus(object):
def __iter__(self):
for line in open(datapath):
yield line.split()

Corp=MyCorpus()
dictionary = corpora.Dictionary(Corp)
corpus =[dictionary.doc2bow(text)for text inCorp]

tfidf = models.TfidfModel(corpus)

corpus_tfidf = tfidf[corpus]

q_file = open(querypath,'r')
query = q_file.readline()
q_file.close()
vec_bow = dictionary.doc2bow(query.split())
vec_tfidf = tfidf[vec_bow]

index = similarities.MatrixSimilarity(corpus_tfidf)
sims = index[vec_tfidf]

similarity = list(sims)

sim_file = open(storepath,'w')
for i in similarity:
sim_file.write(str(i)+'\n')
sim_file.close()

gensim 包计算文本相似度基本也是这个步骤。而且gensim 除了提供了tf-idf 算法之外，还提供了LDA，LSV等更先进的方法。请各位客官慢慢享用。。。

转：Python 文本挖掘：使用gensim进行文本相似度计算的更多相关文章

python 用gensim进行文本相似度分析
http://blog.csdn.net/chencheng126/article/details/50070021 参考于这个博主的博文. 原理 1.文本相似度计算的需求始于搜索引擎. 搜索引擎需要 ...
python 文本相似度计算
参考:python文本相似度计算原始语料格式:一个文件,一篇文章. #!/usr/bin/env python # -*- coding: UTF-8 -*- import jieba from g ...
4. 文本相似度计算-CNN-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言之前介绍了DSSM算法,它主要是用了DN ...
3. 文本相似度计算-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言最近在学习文本相似度的计算,前面两篇文章 ...
【Pyhton 数据分析】通过gensim进行文本相似度分析
环境描述 Python环境:Python 3.6.1 系统版本:windows7 64bit 文件描述一共有三个文件,分别是:file_01.txt.file_02.txt.file_03.txt ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
Finding Similar Items 文本相似度计算的算法——机器学习、词向量空间cosine、NLTK、diff、Levenshtein距离
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 汇总于此还有这本书 http://www-nlp.stanford.edu/IR-book/ 里面有 ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
NLP点滴——文本相似度
[TOC] 前言在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...

随机推荐

sqlserver2008 数据库
删除数据库提示: 无法对数据库'DBName' 执行删除,因为它正用于复制之前建立过此数据库的发布订阅,但是后来删掉了发布订阅,也将对应的作业停止了,仍然报这个错,遂用此命令强制删除发布: sp ...
提取oracle awr报告
做性能测试时有时需要分析sql的执行情况,以找出需要优化的sql,oracle数据库就提供了很好的数据库状态和sql执行情况的监控平台,数据库的监控平台可以时时的监控数据库的状态,同时还可以取监控的时 ...
打造linux下的source insight——vim插件安装使用总结
source insight是windows下的优秀编辑器,适合阅读管理代码,主要有以下功能: 查找函数,变量或者宏的定义. 查找函数,变量或者宏的引用位置. 查找函数被调用的位置查找某个符号在工程 ...
[ Continuously Update ] This is an *Index Page*.
The links below present papers in certain fields. Despite overlaps exist, their emphasis is markedly ...
spark-local-运行异常-Could not locate executable null\bin\winutils.exe in the Hadoop binaries
windows下-local模式-运行spark: 1.下载winutils的windows版本 GitHub上,有人提供了winutils的windows的版本,项目地址是:https://gith ...
“Hello World！”团队第十三次会议
今天是我们团队“Hello World!”团队召开的第十三次会议.博客内容: 一.会议时间二.会议地点三.会议成员四.会议内容五.todo list 六.会议照片七.燃尽图一.会议时间 2 ...
基础系列（6）—— C#类和对象
一.类介绍类(class)是C#类型中最基础的类型.类是一个数据结构,将状态(字段)和行为(方法和其他函数成员)组合在一个单元中.类提供了用于动态创建类实例的定义,也就是对象(objec ...
lintcode-397-最长上升连续子序列
397-最长上升连续子序列给定一个整数数组(下标从 0 到 n-1, n 表示整个数组的规模),请找出该数组中的最长上升连续子序列.(最长上升连续子序列可以定义为从右到左或从左到右的序列.) 注意事 ...
C#高级编程 (第六版) 学习第四章：继承
第四章继承 1,继承的类型实现继承: 一个类派生于一个基类型,拥有该基类型所有成员字段和函数. 接口继承一个类型只继承了函数的签名,没有继承任何实现代码. 2,实现继承 class MyDe ...
prototype.js中Function.prototype.bind方法浅解
prototype.js中的Function.prototype.bind方法: Function.prototype.bind = function() { var __method = this; ...

转：Python 文本挖掘：使用gensim进行文本相似度计算

Python使用gensim进行文本相似度计算

转：Python 文本挖掘：使用gensim进行文本相似度计算的更多相关文章

随机推荐

热门专题