python3做词云分析
python3做词云
其实词云一般分为两种,一个是权重比,一个是频次分析
主要还是体现在自然语言方向,难度较大,但这里我们用jieba词库
主要思路, 后端算数据+前端生成图(D3-cloud-好像是哈,不确定了)
#!/usr/bin/env python
# -*- coding: utf- -*- # 导入扩展库
import re # 正则表达式库
import collections # 词频统计库
import jieba # 结巴分词
import jieba.analyse as anl s = \
"""
为贯彻落实党的十八大关于全面深化改革的战略部署,十八届中央委员会第三次全体会议研究了全面深化改革的若干重大问题,作出如下决定。
一、全面深化改革的重大意义和指导思想
()改革开放是党在新的时代条件下带领全国各族人民进行的新的伟大革命,是当代中国最鲜明的特色。党的十一届三中全会召开三十五年来,我们党以巨大的政治勇气,锐意推进经济体制、政治体制、文化体制、社会体制、生态文明体制和党的建设制度改革,不断扩大开放,决心之大、变革之深、影响之广前所未有,成就举世瞩目。
改革开放最主要的成果是开创和发展了中国特色社会主义,为社会主义现代化建设提供了强大动力和有力保障。事实证明,改革开放是决定当代中国命运的关键抉择,是党和人民事业大踏步赶上时代的重要法宝。
实践发展永无止境,解放思想永无止境,改革开放永无止境。面对新形势新任务,全面建成小康社会,进而建成富强民主文明和谐的社会主义现代化国家、实现中华民族伟大复兴的中国梦,必须在新的历史起点上全面深化改革,不断增强中国特色社会主义道路自信、理论自信、制度自信。
""" text = s
keyword = anl.extract_tags(text, , withWeight=True, allowPOS=('v', 'vd', 'n', 'nr', 'ns', 'nt', 'nz'))
print(keyword)
print(len(keyword)) keyword = anl.textrank(text, , withWeight=True, allowPOS=('v', 'vd', 'n', 'nr', 'ns', 'nt', 'nz'))
print(keyword)
print(len(keyword)) string_data = s # 文本预处理
pattern = re.compile('\t|\n|\.|-|:|;|\)|\(|\?|(|)|\|"|\u3000') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除 # 文本分词
seg_list_exact = jieba.cut(string_data, cut_all=False) # 精确模式分词
object_list = []
remove_words = [u'的', u',', u'和', u'是', u'随着', u'对于', u'对', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了',
u'通常', u'如果', u'我们', u'需要'] # 自定义去除词库 # remove_words = [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()] for word in seg_list_exact: # 循环读出每个分词
if word not in remove_words: # 如果不在去除词库中
object_list.append(word) # 分词追加到列表 # 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common() # 获取前10最高频的词
print(word_counts_top10) # 输出检查
print(len(word_counts_top10))
python3做词云分析的更多相关文章
- 如何用Python 制作词云-对1000首古诗做词云分析
公号:码农充电站pro 主页:https://codeshellme.github.io 今天来介绍一下如何使用 Python 制作词云. 词云又叫文字云,它可以统计文本中频率较高的词,并将这些词可视 ...
- 如何用Python做词云(收藏)
看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图.当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫.不过不要紧,好的开始 ...
- 一步一步教你如何用Python做词云
前言 在大数据时代,你竟然会在网上看到的词云,例如这样的. 看到之后你是什么感觉?想不想自己做一个? 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流 ...
- Python给小说做词云
闲暇时间喜欢看小说,就想着给小说做词云,展示小说的主要内容.开发语言是Python,主要用到的库有wordcloud.jieba.scipy.代码很简单,首先用jieba.cut()函数做分词,生成以 ...
- 做词云时报错cannot import name ‘WordCloud‘ from partially initialized module ‘wordcloud‘的解决办法
问题: 在做词云时,运行时出现该问题,wordcloud安装成功,但运行出错,错误提示是:cannot import name 'WordCloud' from partially initializ ...
- 用Python做词云可视化带你分析海贼王、火影和死神三大经典动漫
对于动漫爱好者来说,海贼王.火影.死神三大动漫神作你肯定肯定不陌生了.小编身边很多的同事仍然深爱着这些经典神作,可见"中毒"至深.今天小编利用Python大法带大家分析一下这些神作 ...
- python爬虫——词云分析最热门电影《后来的我们》
1 模块库使用说明 1.1 requests库 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更 ...
- Python 词云分析周杰伦《晴天》
一.前言满天星辰的夜晚,他们相遇了...夏天的时候,她慢慢的接近他,关心他,为他付出一切:秋天的时候,两个人终於如愿的在一起,分享一切快乐的时光但终究是快乐时光短暂,因为杰伦必须出国深造,两人面临了要 ...
- python爬取花木兰豆瓣影评,并进行词云分析
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
随机推荐
- zz扔掉anchor!真正的CenterNet——Objects as Points论文解读
首发于深度学习那些事 已关注写文章 扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员 关注他 JustDoIT 等 ...
- 前端css命名规范----BEM
一.什么是BEM BEM就是块(block).元素(element).修饰符(modifier),是由Yandex团队提出的一种前端命名方法论.这种巧妙的命名方法可以使css类对其他开发者来说更加透明 ...
- 日常笔记3关于bool类型数组初始化的问题
一般会有两种考虑,全为true或全为false 赋值方式: <1>memset(boolArray,0,sizeof(Array)); 头文件:#include<cstring> ...
- [LeetCode] 435. Non-overlapping Intervals 非重叠区间
Given a collection of intervals, find the minimum number of intervals you need to remove to make the ...
- KMP 串的模式匹配 (25分)
给定两个由英文字母组成的字符串 String 和 Pattern,要求找到 Pattern 在 String 中第一次出现的位置,并将此位置后的 String 的子串输出.如果找不到,则输出“Not ...
- 【Struts】Struts框架配置详解
1.首先将所必须的Jar包放到项目的WebRoot/WEB-INF/lib目录下. 如果你没有这些Jar文件,你可以到Struts官网上下载:http://struts.apache.org/.因为经 ...
- Linux下Maven私服Nexus3.x环境构建操作记录
原文地址:https://blog.csdn.net/liupeifeng3514/article/details/79553747 私服介绍 私服是指私有服务器,是架设在局域网的一种特殊的远程仓库, ...
- scrapy初步解析源码即深度使用
scrapy深度爬虫 ——编辑:大牧莫邪 本章内容 深度爬虫概述 scrapy Spider实现的深度爬虫 scrapy CrawlSpdier实现的深度爬虫 案例操作 课程内容 1. 深度爬虫概述 ...
- 安卓 apk 嵌入H5页面只显示部分
安卓 apk 嵌入H5页面只显示部分(有空白页出现) 解决方案 没有加载的是js部分,需要在安卓那边加上一串代码 webView.getSetting().setDomStorageEnabled(t ...
- everything 13问
[1]everything 由来? everything 是澳大利亚人David Carpenter开发的一个运行于windows系统,基于文件.文件夹名称的快速免费搜索引擎. 自从问世以来,因其占用 ...