用Python实现一个词频统计(词云+图）

第一步：首先需要安装工具python

第二步：在电脑cmd后台下载安装如下工具：

（有一些是安装好python电脑自带有哦）

有一些会出现一种情况就是安装不了词云展示库

有下面解决方法，需看请复制链接查看：https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

第三步：

1.准备好你打算统计的文件，命名为家.txt，保存到桌面

2.准备一个做背景的图片，命名为girl.jpg，同样保存到桌面

第四步：插入代码

 import re # 正则表达式库

 import collections # 词频统计库

 import numpy as np # numpy数据处理库

 import jieba # 结巴分词

 import wordcloud # 词云展示库

 from PIL import Image # 图像处理库

 import matplotlib.pyplot as plt # 图像展示库

 # 读取文件

 fn = open('C://Users//Thinkpad//Desktop//家.txt','rt') # 打开文件

 string_data = fn.read() # 读出整个文件

 fn.close() # 关闭文件

 # 文本预处理

 pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式

 string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除

 # 文本分词

 seg_list_exact = jieba.cut(string_data, cut_all = False) # 精确模式分词

 object_list = []

 remove_words = [u'的', u'，',u'和', u'是', u'随着', u'对于', u'对',u'等',u'能',u'都',u'。',u' ',u'、',u'中',u'在',u'了',

                 u'通常',u'如果',u'我们',u'需要'] # 自定义去除词库

 for word in seg_list_exact: # 循环读出每个分词

     if word not in remove_words: # 如果不在去除词库中

         object_list.append(word) # 分词追加到列表

 # 词频统计

 word_counts = collections.Counter(object_list) # 对分词做词频统计

 word_counts_top10 = word_counts.most_common(10) # 获取前10最高频的词

 print (word_counts_top10) # 输出检查

 # 词频展示

 mask = np.array(Image.open('C://Users//Thinkpad//Desktop//girl.jpg')) # 定义词频背景

 wc = wordcloud.WordCloud(

     font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式

     mask=mask, # 设置背景图

     max_words=200, # 最多显示词数

     max_font_size=100 # 字体最大值

 )

 wc.generate_from_frequencies(word_counts) # 从字典生成词云

 image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案

 wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案

 plt.imshow(wc) # 显示词云

 plt.axis('off') # 关闭坐标轴

 plt.show() # 显示图像

（其中代码中有打开路径，每个人存的位置不一样，自己复制粘贴过来哦）

第五步：正常运行

（内附一张背景图）

用Python实现一个词频统计(词云+图）的更多相关文章

用python实现一个简单的词云
对于在windows(Pycharm工具)里实现一个简单的词云还是经过了几步小挫折,跟大家分享下,如果遇到类似问题可以参考: 1. 导入wordcloud包时候报错,当然很明显没有安装此包. 2. 安 ...
根据词频生成词云(Python wordcloud实现)
网上大多数词云的代码都是基于原始文本生成,这里写一个根据词频生成词云的小例子,都是基于现成的函数. 另外有个在线制作词云的网站也很不错,推荐使用:WordArt 安装词云与画图包 pip3 insta ...
python抓取数据构建词云
1.词云图词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 先看几个词 ...
Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕弹幕的存储位置如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号, ...
（改进）Python语言实现词频统计
需求: 1.设计一个词频统计的程序. 2.英语文章中包含的英语标点符号不计入统计. 3.将统计结果按照单词的出现频率由大到小进行排序. 设计: 1.基本功能和用法会在程序中进行提示. 2.原理是利用分 ...
Python第三方库wordcloud（词云）快速入门与进阶
前言: 笔主开发环境:Python3+Windows 推荐初学者使用Anaconda来搭建Python环境,这样很方便而且能提高学习速度与效率. 简介: wordcloud是Python中的一个小巧的 ...
利用python实现简单词频统计、构建词云
1.利用jieba分词,排除停用词stopword之后,对文章中的词进行词频统计,并用matplotlib进行直方图展示 # coding: utf-8 import codecs import ma ...
Python 中文文件统计词频 + 中文词云
1. 词频统计: import jieba txt = open("threekingdoms3.txt", "r", encoding='utf-8').re ...
python:用wordcloud生成一个文本的词云
今天学习了wordcloud库,对<三国演义>生成了词云图片,非常漂亮.就想多尝试几个,结果发现一系列问题.最常出现的一个错误就是"UnicodeDecodeError : .. ...

随机推荐

Flutter: X Android license status unknown
Flutter 环境检测问题资料 windows cmd C:\Users\ajanuw>flutter doctor -v [√] Flutter (Channel stable, v1.0 ...
flexible.js 移动端自适应方案
一,flexible.js 的使用方式: github地址:https://github.com/amfe/lib-flexible 官方文档地址:https://github.com/amfe/ar ...
报Error creating bean with name 'dataSource' defined in class path resource 报错解决办法
在学习spring boot 的数据库操作的时候,报了一串错误对于初学spring boot的我来说,英语水平低,看不懂报错的信息,给我造成了很大的麻烦,花了我一天的时间,经过不懈的努力后终于让我找 ...
第三周学习java第四章学习总结及体会！
第三周java 2第四章的学习总结: 一.主要内容(类与对象): 1.类: 2.构造方法与对象的创建: 3.类与程序的基本结构: 4.参数传值: 5.对象的组合: 6.实例成员与类成员: 7.方法重载 ...
vins-mono中的imu参数设置
na:加速度计的测量噪声 nw:陀螺仪的测量噪声 nba: randow walk noise随机游走噪声 nbw:randow walk noise随机游走噪声 ba:加速度计的偏差 bw:陀螺仪的 ...
GParted: GNOME Partition Editor, sharp weapon to modify disk partitions.
GParted Projects GNOME Partition Editor for creating, reorganizing, and deleting disk partitions. It ...
线性表->应用->一元多项式
文字描述在数学上,一个一元多项式可以按升幂写成如下形式. 它由n+1个系数唯一确定.因此,在计算机里,可以用一个线性表P来表示,P中每一项的指数i隐含在其系数pi的序号里. 但是在通常的应用中, ...
numpy(五)
排序: x=np.array([2,5,6,2,3,5]) np.sort(x) 不改变原数组 x.sort() 改变原数组 i=np.argsort(x) 返回排序好的索引值 x[i] 使用花哨索 ...
xcode10对应的xcode command line tool编译的坑
众所周知,xcode10新增的编译系统new build system会不支持一些老项目的编译,一般的做法是在Xcode编译配置Xcode->File->Project Settings/ ...
Spark SQL历险记
现在的spark sql编程通常使用scala api 以及 java api的方式,相比于直接使用 spark sql语句,spark api灵活很多,毕竟可以基于dataset以及rdd两种方式进 ...

用Python实现一个词频统计(词云+图）

用Python实现一个词频统计(词云+图）的更多相关文章

随机推荐

热门专题