python 文本相似度计算

原始语料格式：一个文件，一篇文章。

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

import jieba

from gensim import  corpora,models,similarities

import codecs

def cut_words(file):

    with open(file, 'r',encoding="utf-8") as f:

        text = f.read()

        words = jieba.lcut(text)

        # print(len(words),words) #查看分词结果

    return words

def drop_Disable_Words(cut_res,stopwords):

    res = []

    for word in cut_res:

        if word in stopwords or word =="\n" or word =="\u3000":

            continue

        res.append(word)

    #print(len(res),res) #查看去停用词结果

    return res

def read_stop_word(file_path):

    file = file_path

    stopwords = codecs.open(file,'r',encoding='utf8').readlines()

    stopwords = [ w.strip() for w in stopwords ]

    return stopwords

#读取原始语料、停用词表

files = ['file1.txt',

        'file2.txt',

        'file3.txt'

        ]

stopwords = read_stop_word("stop_word.txt")

#分词、去停用词

corpus = []

for file in files:

    #分词

    cut_res = cut_words(file)

    #去停用词

    res = drop_Disable_Words(cut_res,stopwords)

    corpus.append(res)

# print(len(corpus))

#建立词袋模型

dictionary = corpora.Dictionary(corpus)

doc_vectors = [dictionary.doc2bow(text) for text in corpus]

# print(len(doc_vectors),doc_vectors)

#####################################################################

# print("文档数目:")

# print (dictionary.num_docs)

#

# print("所有词的个数:")

# print(dictionary.num_pos )

#

# print("单词在文档中出现的次数：")

# print(dictionary.dfs )

#

# print("字典，{单词id:对应的词}")

# print((dictionary.id2token))

#

# print ("字典，{词:对应的单词id}")

# print((dictionary.token2id))

# print ("每个文件中不重复词个数的和")

# print(dictionary.num_nnz)  #每个文件中不重复词个数的和

##########################################################################

tfidf = models.TfidfModel(doc_vectors)

tfidf_vectors = tfidf[doc_vectors]

print(len(tfidf_vectors))

print(len(tfidf_vectors[0]))

print(tfidf_vectors[0])

#建立TF-IDF模型

def TF_IDF(tfidf_vectors,doc_vectors):

    index = similarities.MatrixSimilarity(tfidf_vectors)

    sims = index[doc_vectors[0]]

    print (list(enumerate(sims)))

#建立LSI模型

def LSI(tfidf_vectors,dictionary,doc_vectors,theme_num):

    lsi = models.LsiModel(tfidf_vectors, id2word=dictionary, num_topics=theme_num)

    lsi_vector = lsi[tfidf_vectors]

    query_lsi = lsi[doc_vectors[0]]

    index = similarities.MatrixSimilarity(lsi_vector)

    sims = index[query_lsi]

    print(list(enumerate(sims)))

#使用LSI模型计算相似度

LSI(tfidf_vectors,dictionary,doc_vectors,2)

#使用TF-IDF模型计算相似度

TF_IDF(tfidf_vectors,doc_vectors)

原始语料格式如下示例：

汽车  酷似卡宴　华泰新ＳＵＶ宝利格广州车展上市   http://auto.data.people.com.cn/news/story_428419.html  华泰在推出自主轿车Ｂ１１后，又一款自主ＳＵＶ宝利格已经确定将在１１月下旬的广州车展上市正式上市，新车将与Ｂ１１一样搭载１．８Ｔ汽油机和２．０Ｔ柴油机，预计售价１０－１５万元之间，最大的亮点就是酷似保时捷卡宴的外观。；泰宝利格凭借酷似保时捷卡宴的外观而颇受关注，这款车整体外形设计厚重敦实，有着ＳＵＶ应有的硬朗和雄浑，其车身采用了大量的镀铬装饰和银色装饰件，凸显年轻和时尚；同时宝利格也继承了华泰家族式脸谱造型，与华泰Ｂ１１相似的前脸采用了倒梯形网状前格栅，新款双氙气大灯不仅提供更加理想的照明效果，也将成为宝利格的独特标识。；泰宝利格２６２０毫米的轴距带来的车内空间宽大而理想，其内饰方面也与卡宴经典车型非常接近，内饰配色采用米色和浅棕色的组合，并配备木纹饰板以提升质感，有着典型的欧系风情，带给消费者极佳的视觉享受。此外，Ｂ３５还配备了大屏幕的液晶屏和自动空调等多种舒适性配置。Ｔ诙力上，华泰宝利格使用的是源于意大利ＶＭ技术的清洁柴油发动机，搭载１．８Ｔ涡轮增压发动机，最大功率１６０马力，最大扭矩２１５Ｎｂｍ，采用全时四轮技术驱动。这一动力配置再次彰显华泰汽车低碳、环保的产品理念，迎合了高端人士对环保低碳的需求。；泰宝利格采用的是前麦弗逊、后多连杆的前后独立悬挂设置，车身也是更强调舒适性能的承载式车身，定位上将更加偏向都市ＳＵＶ。就定位而言，未来宝利格将作为华泰ＳＵＶ系列中的高端产品，与圣达菲一样主攻城市ＳＵＶ领域。．．．全文　＞　（来源：网上车市）
汽车 最受欢迎ＴＯＰ１０车型出炉　帝豪ＥＣ７脱颖而出    http://auto.data.people.com.cn/news/story_390275.html  爱美之心人皆有之，汽车的外观炫感度所形成的冲击力，往往会给第一眼与之接触的消费者留下挥之不去的深刻印象。当前，随着中国汽车市场发展的日趋成熟，消费者对汽车外型的要求也变得越来越挑剔和苛刻，经媒体广泛调查发现，＂车型外观＂已经成为购车者的首选考虑因素之一。Ｄ敲矗究竟哪些品牌的车型外观更酷、更赞、更大气，同时也更加受到大众　的认同和青睐呢？为了解答这个疑问，汽车点评网联合《汽车杂志》、《轰》杂志以及互联网消费者调研中心在近期举办了＂全球最受欢迎外观车型大评选＂活动。Ｆ车也选美，帝豪ＥＣ７脱颖而出５酆溃牛茫钒潦友窍党迪盗校一举从众多参选车型中脱颖而出，成为全球十大最受欢迎外观车型之一，可以说是丝毫不使人感到意外的。我们可以看到，帝豪ＥＣ７外观的优越性、高端性塑造，凸显出其强劲的全球竞争实力和同欧美系品牌分庭抗衡的信心。Ｍ时，帝豪ＥＣ７的此番登顶，也意味着国产汽车品牌将迎来一个全新的历程，并且对国产汽车进入快速崛起模式同样具有深刻的启示意义。正如评选参与者所言：＂帝豪ＥＣ７车型外观大气、稳重，是近年来国产车中外观设计最好的车型之一。找到了价格、安全、空间、动力、材质、做工的平衡点，是一款性价比很高的车型。＂９产车发力，帝豪系列众望所归Ｏ笳髯牛⒑阑、稳健、力量＂的帝豪ＥＭＧＲＡＮＤ系列可谓国产汽车中的精品，此系列中的各款车型皆具大家风范，圆润、饱满的构造，以及简洁、明快的线条，使整个车型外观尽显大气并活力四射。４拥酆溃牛茫返剑牛茫福诠释了吉利帝豪　向欧洲标准看齐的步伐正不断加快，而由国外著名设计公司组成的团队，也给帝豪的工艺水平提升带来了质的飞跃。之所以帝豪总能给人一种国际尖端品牌的驾乘感受，与这些因素是分不开的。Ｌ氐愕娜诤稀⑿阅艿谋Ｖぁ⒆鸸蟮奶逖椤⒑侠淼男约郏这些都是帝豪能在此次评选活动中笑傲群雄的基础，同时也证明了帝豪不断跻身国际中高端汽车行业的实力，吉利帝豪做为国产车成功的典范，不久的将来，将在世界汽车市场上享有自己的一席之地。＃保最受欢迎ＴＯＰ１０车型出炉　帝豪ＥＣ７脱颖而出

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

import pandas as pd

import jieba

def drop_stopwords(content_res,stopwords):

    contents_clean = []

    all_words = []

    for line in content_res:

        #用于存储清洗后的词

        line_clean = []

        for word in line:

            #如果这个词出现在停用词里，过滤掉

            if word in stopwords:

                continue

            #存储过滤后的词

            line_clean.append(word)

            all_words.append(str(word))

        #把已经清洗的列表存储起来

        contents_clean.append(line_clean)

    return contents_clean,all_words#contents_clean为清理完的数据，为二维列表

#读取语料数据

df_news = pd.read_table("val.txt",names=['category','theme','url','content'],encoding= 'utf-8')

df_news = df_news.dropna()

#将数据转为二维列表:list of list

content = df_news.content.values.tolist() #将每个content列转为列表，结果为二维列表

#读取停用词表

df_stop= pd.read_csv("stop_word.txt",encoding="utf-8",sep = "\n",names = ['stopword'])

#将数据转为二维列表:list of list

stopwords = df_stop.stopword.values.tolist()

#分词，数据格式：list of list

content_res =[]

for line in content:

    current_segment = jieba.lcut(line)

    if len(current_segment) > 1 and current_segment != '\r\n':

        content_res.append(current_segment)

#清停用词，数据格式：list of list

contents_clean, all_words = drop_stopwords(content_res,stopwords)

#查看清洗后的数据

# df_content =pd.DataFrame({'content_res':contents_clean})

# print(df_content.head())

#词频统计

# df_all_words = pd.DataFrame({'all_words':all_words})

# words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg({"count":np.size})

# words_count =words_count.reset_index().sort_values(by=['count'],ascending=False)

# print(words_count.head())

python 文本相似度计算的更多相关文章

转：Python 文本挖掘：使用gensim进行文本相似度计算
Python使用gensim进行文本相似度计算转于:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/ 在文本处理 ...
4. 文本相似度计算-CNN-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言之前介绍了DSSM算法,它主要是用了DN ...
3. 文本相似度计算-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言最近在学习文本相似度的计算,前面两篇文章 ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
Finding Similar Items 文本相似度计算的算法——机器学习、词向量空间cosine、NLTK、diff、Levenshtein距离
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 汇总于此还有这本书 http://www-nlp.stanford.edu/IR-book/ 里面有 ...
Python 文本相似度分析
环境 Anaconda3 Python 3.6, Window 64bit 目的利用 jieba 进行分词,关键词提取利用gensim下面的corpora,models,similarities ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
python 用gensim进行文本相似度分析
http://blog.csdn.net/chencheng126/article/details/50070021 参考于这个博主的博文. 原理 1.文本相似度计算的需求始于搜索引擎. 搜索引擎需要 ...
NLP点滴——文本相似度
[TOC] 前言在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...

随机推荐

AIX系统命令
当/oracle达到一定使用量时需清除*.trc文件find . -name "*.trc"|xargs rm -rf 1.查看是否开启归档日志切换用户:su - oracle使用 ...
适用于hips ui的iPhoneX及以上适配方案
版本信息: hips ui: 0.1.43 须知: 随着hips ui的迭代,可能会解决适配问题,所以下面的方案是有时效性的. 如果你项目上很紧急,可以直接看第三部分解决方案,复制粘贴代码即可. 一. ...
java web 能够实现整个文件夹的上传下载吗？
在Web应用系统开发中,文件上传和下载功能是非常常用的功能,今天来讲一下JavaWeb中的文件上传和下载功能的实现. 对于文件上传,浏览器在上传的过程中是将文件以流的形式提交到服务器端的,如果直接使用 ...
kettle mogodb output详解
以下主要来自官网文档,原文:https://wiki.pentaho.com/display/EAI/MongoDB+Output Configure Connection Tab 1 Host na ...
Oracle11gR2之ORA-01034、ORA-27101、ORA-00119、 ORA-00132
昨天安装的oracel,今天用navicat连接oracel出现以下错误: ORA-01034: ORACLE not available ORA-27101: shared memory realm ...
(转)Linux用户登录记录日志和相关查看命令汇总
原文地址:http://www.cnblogs.com/lizhaoxian/p/5981029.html # 1 utmp.wtmp.btmp文件 Linux用户登录信息放在三个文件中: 1 /va ...
Spring Boot默认日志logback配置解析
前言今天来介绍下Spring Boot如何配置日志logback,我刚学习的时候,是带着下面几个问题来查资料的,你呢如何引入日志? 日志输出格式以及输出方式如何配置? 代码中如何使用? 正文 Sp ...
unity+android权限--打开应用不弹权限,动态请求权限
因为笔者之前的游戏需要分享图片,会请求外部储存,第一次打开游戏就会出现弹窗: 很多人对这个很敏感,怕你访问到他们的照片隐私,看到这个权限就拒绝,甚至卸载,实际上我们只是想截屏游戏内容分享给其他玩家,但 ...
【Web网站服务器开发】Apache 和 Tomcat的区别及配置
Apache 和 Tomcat 都是web网络服务器,两者既有联系又有区别,在进行HTML.PHP.JSP.Perl等开发过程中,需要准确掌握其各自特点,选择最佳的服务器配置. apache是web服 ...
SpringCloud学习（七）高可用的分布式配置中心(Spring Cloud Config)(Finchley版本)
上一篇文章讲述了一个服务如何从配置中心读取文件,配置中心如何从远程git读取配置文件,当服务实例很多时,都从配置中心读取文件,这时可以考虑将配置中心做成一个微服务,将其集群化,从而达到高可用准备工作 ...

python 文本相似度计算

python 文本相似度计算的更多相关文章

随机推荐

热门专题