python 文本相似度计算
原始语料格式:一个文件,一篇文章。
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import jieba
from gensim import corpora,models,similarities
import codecs def cut_words(file):
with open(file, 'r',encoding="utf-8") as f:
text = f.read()
words = jieba.lcut(text)
# print(len(words),words) #查看分词结果
return words def drop_Disable_Words(cut_res,stopwords):
res = []
for word in cut_res:
if word in stopwords or word =="\n" or word =="\u3000":
continue
res.append(word)
#print(len(res),res) #查看去停用词结果
return res def read_stop_word(file_path):
file = file_path
stopwords = codecs.open(file,'r',encoding='utf8').readlines()
stopwords = [ w.strip() for w in stopwords ]
return stopwords #读取原始语料、停用词表
files = ['file1.txt',
'file2.txt',
'file3.txt'
]
stopwords = read_stop_word("stop_word.txt") #分词、去停用词
corpus = []
for file in files:
#分词
cut_res = cut_words(file)
#去停用词
res = drop_Disable_Words(cut_res,stopwords)
corpus.append(res)
# print(len(corpus)) #建立词袋模型
dictionary = corpora.Dictionary(corpus)
doc_vectors = [dictionary.doc2bow(text) for text in corpus]
# print(len(doc_vectors),doc_vectors)
#####################################################################
# print("文档数目:")
# print (dictionary.num_docs)
#
# print("所有词的个数:")
# print(dictionary.num_pos )
#
# print("单词在文档中出现的次数:")
# print(dictionary.dfs )
#
# print("字典,{单词id:对应的词}")
# print((dictionary.id2token))
#
# print ("字典,{词:对应的单词id}")
# print((dictionary.token2id)) # print ("每个文件中不重复词个数的和")
# print(dictionary.num_nnz) #每个文件中不重复词个数的和
########################################################################## tfidf = models.TfidfModel(doc_vectors)
tfidf_vectors = tfidf[doc_vectors]
print(len(tfidf_vectors))
print(len(tfidf_vectors[0]))
print(tfidf_vectors[0]) #建立TF-IDF模型
def TF_IDF(tfidf_vectors,doc_vectors):
index = similarities.MatrixSimilarity(tfidf_vectors)
sims = index[doc_vectors[0]]
print (list(enumerate(sims)))
#建立LSI模型
def LSI(tfidf_vectors,dictionary,doc_vectors,theme_num):
lsi = models.LsiModel(tfidf_vectors, id2word=dictionary, num_topics=theme_num)
lsi_vector = lsi[tfidf_vectors]
query_lsi = lsi[doc_vectors[0]]
index = similarities.MatrixSimilarity(lsi_vector)
sims = index[query_lsi]
print(list(enumerate(sims))) #使用LSI模型计算相似度
LSI(tfidf_vectors,dictionary,doc_vectors,2) #使用TF-IDF模型计算相似度
TF_IDF(tfidf_vectors,doc_vectors)
原始语料格式如下示例:
汽车 酷似卡宴 华泰新SUV宝利格广州车展上市 http://auto.data.people.com.cn/news/story_428419.html 华泰在推出自主轿车B11后,又一款自主SUV宝利格已经确定将在11月下旬的广州车展上市正式上市,新车将与B11一样搭载1.8T汽油机和2.0T柴油机,预计售价10-15万元之间,最大的亮点就是酷似保时捷卡宴的外观。;泰宝利格凭借酷似保时捷卡宴的外观而颇受关注,这款车整体外形设计厚重敦实,有着SUV应有的硬朗和雄浑,其车身采用了大量的镀铬装饰和银色装饰件,凸显年轻和时尚;同时宝利格也继承了华泰家族式脸谱造型,与华泰B11相似的前脸采用了倒梯形网状前格栅,新款双氙气大灯不仅提供更加理想的照明效果,也将成为宝利格的独特标识。;泰宝利格2620毫米的轴距带来的车内空间宽大而理想,其内饰方面也与卡宴经典车型非常接近,内饰配色采用米色和浅棕色的组合,并配备木纹饰板以提升质感,有着典型的欧系风情,带给消费者极佳的视觉享受。此外,B35还配备了大屏幕的液晶屏和自动空调等多种舒适性配置。T诙力上,华泰宝利格使用的是源于意大利VM技术的清洁柴油发动机,搭载1.8T涡轮增压发动机,最大功率160马力,最大扭矩215Nbm,采用全时四轮技术驱动。这一动力配置再次彰显华泰汽车低碳、环保的产品理念,迎合了高端人士对环保低碳的需求。;泰宝利格采用的是前麦弗逊、后多连杆的前后独立悬挂设置,车身也是更强调舒适性能的承载式车身,定位上将更加偏向都市SUV。就定位而言,未来宝利格将作为华泰SUV系列中的高端产品,与圣达菲一样主攻城市SUV领域。...全文 > (来源:网上车市)
汽车 最受欢迎TOP10车型出炉 帝豪EC7脱颖而出 http://auto.data.people.com.cn/news/story_390275.html 爱美之心人皆有之,汽车的外观炫感度所形成的冲击力,往往会给第一眼与之接触的消费者留下挥之不去的深刻印象。当前,随着中国汽车市场发展的日趋成熟,消费者对汽车外型的要求也变得越来越挑剔和苛刻,经媒体广泛调查发现,"车型外观"已经成为购车者的首选考虑因素之一。D敲矗究竟哪些品牌的车型外观更酷、更赞、更大气,同时也更加受到大众 的认同和青睐呢?为了解答这个疑问,汽车点评网联合《汽车杂志》、《轰》杂志以及互联网消费者调研中心在近期举办了"全球最受欢迎外观车型大评选"活动。F车也选美,帝豪EC7脱颖而出5酆溃牛茫钒潦友窍党迪盗校一举从众多参选车型中脱颖而出,成为全球十大最受欢迎外观车型之一,可以说是丝毫不使人感到意外的。我们可以看到,帝豪EC7外观的优越性、高端性塑造,凸显出其强劲的全球竞争实力和同欧美系品牌分庭抗衡的信心。M时,帝豪EC7的此番登顶,也意味着国产汽车品牌将迎来一个全新的历程,并且对国产汽车进入快速崛起模式同样具有深刻的启示意义。正如评选参与者所言:"帝豪EC7车型外观大气、稳重,是近年来国产车中外观设计最好的车型之一。找到了价格、安全、空间、动力、材质、做工的平衡点,是一款性价比很高的车型。"9产车发力,帝豪系列众望所归O笳髯牛⒑阑、稳健、力量"的帝豪EMGRAND系列可谓国产汽车中的精品,此系列中的各款车型皆具大家风范,圆润、饱满的构造,以及简洁、明快的线条,使整个车型外观尽显大气并活力四射。4拥酆溃牛茫返剑牛茫福诠释了吉利帝豪 向欧洲标准看齐的步伐正不断加快,而由国外著名设计公司组成的团队,也给帝豪的工艺水平提升带来了质的飞跃。之所以帝豪总能给人一种国际尖端品牌的驾乘感受,与这些因素是分不开的。L氐愕娜诤稀⑿阅艿谋Vぁ⒆鸸蟮奶逖椤⒑侠淼男约郏这些都是帝豪能在此次评选活动中笑傲群雄的基础,同时也证明了帝豪不断跻身国际中高端汽车行业的实力,吉利帝豪做为国产车成功的典范,不久的将来,将在世界汽车市场上享有自己的一席之地。#保最受欢迎TOP10车型出炉 帝豪EC7脱颖而出
#!/usr/bin/env python
# -*- coding: UTF-8 -*- import pandas as pd
import jieba def drop_stopwords(content_res,stopwords):
contents_clean = []
all_words = []
for line in content_res:
#用于存储清洗后的词
line_clean = []
for word in line:
#如果这个词出现在停用词里,过滤掉
if word in stopwords:
continue
#存储过滤后的词
line_clean.append(word) all_words.append(str(word))
#把已经清洗的列表存储起来
contents_clean.append(line_clean)
return contents_clean,all_words#contents_clean为清理完的数据,为二维列表 #读取语料数据
df_news = pd.read_table("val.txt",names=['category','theme','url','content'],encoding= 'utf-8')
df_news = df_news.dropna()
#将数据转为二维列表:list of list
content = df_news.content.values.tolist() #将每个content列转为列表,结果为二维列表 #读取停用词表
df_stop= pd.read_csv("stop_word.txt",encoding="utf-8",sep = "\n",names = ['stopword'])
#将数据转为二维列表:list of list
stopwords = df_stop.stopword.values.tolist() #分词,数据格式:list of list
content_res =[]
for line in content:
current_segment = jieba.lcut(line)
if len(current_segment) > 1 and current_segment != '\r\n':
content_res.append(current_segment) #清停用词,数据格式:list of list
contents_clean, all_words = drop_stopwords(content_res,stopwords) #查看清洗后的数据
# df_content =pd.DataFrame({'content_res':contents_clean})
# print(df_content.head()) #词频统计
# df_all_words = pd.DataFrame({'all_words':all_words})
# words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg({"count":np.size})
# words_count =words_count.reset_index().sort_values(by=['count'],ascending=False)
# print(words_count.head())
python 文本相似度计算的更多相关文章
- 转:Python 文本挖掘:使用gensim进行文本相似度计算
Python使用gensim进行文本相似度计算 转于:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/ 在文本处理 ...
- 4. 文本相似度计算-CNN-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言 之前介绍了DSSM算法,它主要是用了DN ...
- 3. 文本相似度计算-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言 最近在学习文本相似度的计算,前面两篇文章 ...
- word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
- Finding Similar Items 文本相似度计算的算法——机器学习、词向量空间cosine、NLTK、diff、Levenshtein距离
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 汇总于此 还有这本书 http://www-nlp.stanford.edu/IR-book/ 里面有 ...
- Python 文本相似度分析
环境 Anaconda3 Python 3.6, Window 64bit 目的 利用 jieba 进行分词,关键词提取 利用gensim下面的corpora,models,similarities ...
- 【NLP】Python实例:基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现 作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
- python 用gensim进行文本相似度分析
http://blog.csdn.net/chencheng126/article/details/50070021 参考于这个博主的博文. 原理 1.文本相似度计算的需求始于搜索引擎. 搜索引擎需要 ...
- NLP点滴——文本相似度
[TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...
随机推荐
- 【转】APIJSON,让接口见鬼去吧!
我: APIJSON,让接口和文档见鬼去吧! https://github.com/TommyLemon/APIJSON 服务端: 什么鬼? 客户端: APIJSON是啥? 我: APIJSON是一种 ...
- 【分布式事务】使用atomikos+jta解决分布式事务问题
一.前言 分布式事务,这个问题困惑了小编很久,在3个月之前,就间断性的研究分布式事务.从MQ方面,数据库事务方面,jta方面.近期终于成功了,使用JTA解决了分布式事务问题.先写一下心得,后面的二级提 ...
- C# 保留两位“有效数字”,而不是两位“小数”
1.问题描述: 最近在处理软件结果显示时,发现如果利用 Math.Round(Number,N) 取N为小数时,有的结果不能显示完全 比如:15.3245 和 0.00106 两个数字,如果 N=2 ...
- jbolt插件创建jfinal项目
Jfina官方文档:https://www.jfinal.com/doc JFinal由Handler.Interceptor.Controller.Render.Plugin五大部分组成,且JFin ...
- BiGAN的复现
数据集是10000个样本,前8000个训练集,后面的用来测试.每个样本是1*144(重构成12*12的矩阵),将原始BiGAN有编码器.判别器和生成器,将里面的全连接层全部替换成了卷积. from _ ...
- web代码审计题
@题名:code i春秋https://www.ichunqiu.com/battalion wp:https://www.ichunqiu.com/writeup/detail/4139
- prometheus 监控的目标 - nginx - apache
1.jvm类型 8563的grafanadashboard: gc时间,使用的现场,加载的类数 2.apache , nginx 用户连接状态,waiting数量 (使用nginx_status) c ...
- PYTHON 100days学习笔记005:总结和练习
目录 day005:总结和练习 1.寻找水仙花数 2.寻找"完美数" 3."百鸡百钱"问题 4.生成"斐波那契数列" 5.Craps赌博游戏 ...
- [转帖]盖茨辉煌后将归隐 DOS之父仍为生计打拼(图)
盖茨辉煌后将归隐 DOS之父仍为生计打拼(图) http://www.sina.com.cn 2007年12月10日 09:43 新浪科技 https://tech.sina.com.cn/it/2 ...
- 基于hanlp的es分词插件
摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组 ...