python3做词云分析
python3做词云
其实词云一般分为两种,一个是权重比,一个是频次分析
主要还是体现在自然语言方向,难度较大,但这里我们用jieba词库
主要思路, 后端算数据+前端生成图(D3-cloud-好像是哈,不确定了)
#!/usr/bin/env python
# -*- coding: utf- -*- # 导入扩展库
import re # 正则表达式库
import collections # 词频统计库
import jieba # 结巴分词
import jieba.analyse as anl s = \
"""
为贯彻落实党的十八大关于全面深化改革的战略部署,十八届中央委员会第三次全体会议研究了全面深化改革的若干重大问题,作出如下决定。
一、全面深化改革的重大意义和指导思想
()改革开放是党在新的时代条件下带领全国各族人民进行的新的伟大革命,是当代中国最鲜明的特色。党的十一届三中全会召开三十五年来,我们党以巨大的政治勇气,锐意推进经济体制、政治体制、文化体制、社会体制、生态文明体制和党的建设制度改革,不断扩大开放,决心之大、变革之深、影响之广前所未有,成就举世瞩目。
改革开放最主要的成果是开创和发展了中国特色社会主义,为社会主义现代化建设提供了强大动力和有力保障。事实证明,改革开放是决定当代中国命运的关键抉择,是党和人民事业大踏步赶上时代的重要法宝。
实践发展永无止境,解放思想永无止境,改革开放永无止境。面对新形势新任务,全面建成小康社会,进而建成富强民主文明和谐的社会主义现代化国家、实现中华民族伟大复兴的中国梦,必须在新的历史起点上全面深化改革,不断增强中国特色社会主义道路自信、理论自信、制度自信。
""" text = s
keyword = anl.extract_tags(text, , withWeight=True, allowPOS=('v', 'vd', 'n', 'nr', 'ns', 'nt', 'nz'))
print(keyword)
print(len(keyword)) keyword = anl.textrank(text, , withWeight=True, allowPOS=('v', 'vd', 'n', 'nr', 'ns', 'nt', 'nz'))
print(keyword)
print(len(keyword)) string_data = s # 文本预处理
pattern = re.compile('\t|\n|\.|-|:|;|\)|\(|\?|(|)|\|"|\u3000') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除 # 文本分词
seg_list_exact = jieba.cut(string_data, cut_all=False) # 精确模式分词
object_list = []
remove_words = [u'的', u',', u'和', u'是', u'随着', u'对于', u'对', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了',
u'通常', u'如果', u'我们', u'需要'] # 自定义去除词库 # remove_words = [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()] for word in seg_list_exact: # 循环读出每个分词
if word not in remove_words: # 如果不在去除词库中
object_list.append(word) # 分词追加到列表 # 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common() # 获取前10最高频的词
print(word_counts_top10) # 输出检查
print(len(word_counts_top10))
python3做词云分析的更多相关文章
- 如何用Python 制作词云-对1000首古诗做词云分析
		
公号:码农充电站pro 主页:https://codeshellme.github.io 今天来介绍一下如何使用 Python 制作词云. 词云又叫文字云,它可以统计文本中频率较高的词,并将这些词可视 ...
 - 如何用Python做词云(收藏)
		
看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图.当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫.不过不要紧,好的开始 ...
 - 一步一步教你如何用Python做词云
		
前言 在大数据时代,你竟然会在网上看到的词云,例如这样的. 看到之后你是什么感觉?想不想自己做一个? 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流 ...
 - Python给小说做词云
		
闲暇时间喜欢看小说,就想着给小说做词云,展示小说的主要内容.开发语言是Python,主要用到的库有wordcloud.jieba.scipy.代码很简单,首先用jieba.cut()函数做分词,生成以 ...
 - 做词云时报错cannot import name ‘WordCloud‘ from partially initialized module ‘wordcloud‘的解决办法
		
问题: 在做词云时,运行时出现该问题,wordcloud安装成功,但运行出错,错误提示是:cannot import name 'WordCloud' from partially initializ ...
 - 用Python做词云可视化带你分析海贼王、火影和死神三大经典动漫
		
对于动漫爱好者来说,海贼王.火影.死神三大动漫神作你肯定肯定不陌生了.小编身边很多的同事仍然深爱着这些经典神作,可见"中毒"至深.今天小编利用Python大法带大家分析一下这些神作 ...
 - python爬虫——词云分析最热门电影《后来的我们》
		
1 模块库使用说明 1.1 requests库 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更 ...
 - Python 词云分析周杰伦《晴天》
		
一.前言满天星辰的夜晚,他们相遇了...夏天的时候,她慢慢的接近他,关心他,为他付出一切:秋天的时候,两个人终於如愿的在一起,分享一切快乐的时光但终究是快乐时光短暂,因为杰伦必须出国深造,两人面临了要 ...
 - python爬取花木兰豆瓣影评,并进行词云分析
		
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
 
随机推荐
- [LeetCode] 436. Find Right Interval 找右区间
			
Given a set of intervals, for each of the interval i, check if there exists an interval j whose star ...
 - MySQL基本数据类型和约束方式
			
常用数据类型 1.mysql中的基本数据类型 整型.浮点型.字符类型.日期类型.枚举和集合. 2.常用的约束条件 PRIMARY KEY.UNIPUE KEY.NOT NULL.FOREIGN KEY ...
 - bcrypt 加密算法
			
MD5 的特性 MD5 是一种加密算法,在调用这个算法的时候,提供一个密码的明文, 调用的结果,得到一个 32 位长度的密文: MD5 算法的特性:相同的字符串,如果多次调用 md5 算法,得到的结果 ...
 - google 镜像
			
google 镜像 http://scholar.hedasudi.com/ http://ac.scmor.com/
 - JS存取Cookies值
			
这里对cookie进行了说明,也介绍了几个方法,但是我要取我存的cookie时取不到,他的方法只是针对存的 名字-值,不涉及键,所以自己写了个方法,来满足我的需求. 封装了简单存取Cookie: / ...
 - Python - 批量下载 IIS 共享的文件
			
1.说明 用 IIS 以WEB形式发布了本地文件夹,提供文件下载,并设置了访问权限:默认下载需要点击一个一个的下载,web界面如下: 3.脚本 执行脚本批量下载文件,会在当前目录创建文件夹,并压缩该文 ...
 - git 版本(commit) 回退  -- 使用git reset 指令
			
刚刚提交了三个commit, git reflog显示如下: 最后一个commit在文件末尾加了一行:v3,以此类推: 下面,使用git reset --hard commitID来进行commit回 ...
 - Hbase Filter之PrefixFilter
			
PrefixFilter PrefixFilter是将rowkey前缀为指定字符串的数据全部过滤出来并返回给用户.例如: Scan scan = new Scan(); scan.setFilter( ...
 - CentOS7 安装nginx-1.14.0
			
nginx源码包:http://nginx.org/en/download.html 1.安装gcc gcc是用来编译下载下来的nginx源码 yum install gcc-c++ 2.安装pcre ...
 - [转帖]银河麒麟Kydroid 2.0全新发布:原生支持海量安卓APP
			
银河麒麟Kydroid 2.0全新发布:原生支持海量安卓APP https://news.cnblogs.com/n/652299/将手机操作系统 转移到 桌面 跟chromebook 类似的策略吧 ...