超详细：Python(wordcloud+jieba)生成中文词云图

# coding: utf-8

import jieba

from scipy.misc import imread  # 这是一个处理图像的函数

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

import matplotlib.pyplot as plt

back_color = imread('o_002.jpg')  # 解析该图片

wc = WordCloud(background_color='white',  # 背景颜色

               max_words=1000,  # 最大词数

               mask=back_color,  # 以该参数值作图绘制词云，这个参数不为空时，width和height会被忽略

               max_font_size=100,  # 显示字体的最大值

               stopwords=STOPWORDS.add('苟利国'),  # 使用内置的屏蔽词，再添加'苟利国'

               font_path="C:/Windows/Fonts/STFANGSO.ttf",  # 解决显示口字型乱码问题，可进入C:/Windows/Fonts/目录更换字体

               random_state=42,  # 为每个词返回一个PIL颜色

               # width=1000,  # 图片的宽

               # height=860  #图片的长

               )

# WordCloud各含义参数请点击 wordcloud参数

# 添加自己的词库分词，比如添加'金三胖'到jieba词库后，当你处理的文本中含有金三胖这个词，

# 就会直接将'金三胖'当作一个词，而不会得到'金三'或'三胖'这样的词

jieba.add_word('金三胖')

# 打开词源的文本文件

text = open('cnword.txt').read()

# 该函数的作用就是把屏蔽词去掉，使用这个函数就不用在WordCloud参数中添加stopwords参数了

# 把你需要屏蔽的词全部放入一个stopwords文本文件里即可

def stop_words(texts):

    words_list = []

    word_generator = jieba.cut(texts, cut_all=False)  # 返回的是一个迭代器

    with open('stopwords.txt') as f:

        str_text = f.read()

        unicode_text = unicode(str_text, 'utf-8')  # 把str格式转成unicode格式

        f.close()  # stopwords文本中词的格式是'一词一行'

    for word in word_generator:

        if word.strip() not in unicode_text:

            words_list.append(word)

    return ' '.join(words_list)  # 注意是空格

text = stop_words(text)

wc.generate(text)

# 基于彩色图像生成相应彩色

image_colors = ImageColorGenerator(back_color)

# 显示图片

plt.imshow(wc)

# 关闭坐标轴

plt.axis('off')

# 绘制词云

plt.figure()

plt.imshow(wc.recolor(color_func=image_colors))

plt.axis('off')

# 保存图片

wc.to_file('19th.png')

cnword.txt文本中的是十九大习大大讲话内容，太多了就不放上来了

stopwords.txt文本中有以下这几个词

社会主义

制度

国家

政治

背景颜色图

生成的词云图，与颜色图对应不是很明显，想明显的话可以使用一些色差大的图

超详细：Python(wordcloud+jieba)生成中文词云图的更多相关文章

Python基于jieba的中文词云
今日学习了python的词云技术 from os import path from wordcloud import WordCloud import matplotlib.pyplot as plt ...
Python 爬取生成中文词云以爬取知乎用户属性为例
代码如下: # -*- coding:utf-8 -*- import requests import pandas as pd import time import matplotlib.pyplo ...
wordcloud + jieba 生成词云
利用jieba库和wordcloud生成中文词云. jieba库:中文分词第三方库分词原理: 利用中文词库,确定汉字之间的关联概率,关联概率大的生成词组三种分词模式: 1.精确模式:把文本精确的切 ...
【Python成长之路】词云图制作
[写在前面] 以前看到过一些大神制作的词云图 ,觉得效果很有意思.如果有朋友不了解词云图的效果,可以看下面的几张图(图片都是网上找到的): 网上找了找相关的软件,有些软件制作还要付费.结果前几天在大 ...
python绘制中文词云图
准备工作主要用到Python的两个第三方库 jieba:中文分词工具 wordcloud:python下的词云生成工具步骤准备语料库,词云图需要的背景图片使用jieba进行分词,去停用词,词频 ...
[Python] 基于 jieba 的中文分词总结
目录模块安装开源代码基本用法启用Paddle 词性标注调整词典智能识别新词搜索引擎模式分词使用自定义词典关键词提取停用词过滤模块安装 pip install jieba jieb ...
python利用jieba进行中文分词去停用词
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词模块jieba,它是python比较好用的分词模块.待分词的字符串可以是 unicod ...
[python] 使用Jieba工具中文分词及文本聚类概念
声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台. 前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...
超详细Gitlab Runner环境配置中文教程
配置GitlabRunner环境 GitLab Runner 是一个开源项目, 它用来运行你定制的任务(jobs)并把结果返回给 GitLab. GitLab Runner 配合GitLab CI(G ...

随机推荐

Java随机获取32位密码且必须包含大小写字母、数字和特殊字符，四种的任意三种
Java随机获取32位密码且必须包含大小写字母.数字和特殊字符,四种的任意三种 Java随机获取32位密码且必须包含大小写字母.数字和特殊字符,四种的任意三种,代码如下: import java.ut ...
html 5实用特性之data属性
HTML 5之前,我们必须依赖于class和rel属性来存储需要在网站中使用的数据片段,这种做法有时会在网站的外观和实用性之间产生冲突.而HTML 5 Data属性的存在就能很好满足需要. HTML5 ...
nginx/ajax跨子域请求的两种现代方法以及403解决
因为面向互联网的性质,我们公司的大部分系统都采用多子域的方式进行开发和部署,以达到松耦合和分布式的目的,因此子系统间的交互不可避免.虽然通过后台的rpc框架解决了大部分的交互问题,但有些情况下,前端直 ...
04: Form 验证用户数据 & 生成html
目录:Django其他篇 01:Django基础篇 02:Django进阶篇 03:Django数据库操作--->Model 04: Form 验证用户数据 & 生成html 05:Mo ...
Java继承相关知识总结
Java继承的理解一.概念: 一个新类从已有的类那里获得其已有的属性和方法,这种现象叫类的继承这个新类称为子类,或派生类,已有的那个类叫做父类,或基类继承的好处:代码得到极大的重用.形成一种类的 ...
tensorflow的写诗代码分析【转】
本文转载自:https://dongzhixiao.github.io/2018/07/21/so-hot/ 今天周六,早晨出门吃饭,全身汗湿透.天气真的是太热了!我决定一天不出门,在屋子里面休息! ...
Linux命令中：rsync和cp之间的区别
rsync:只拷贝那些更新的文件: cp -u:也可以实现类似效果: 两者都基本可以满足备份的需求: 只是一般情况下,用rsync做这类备份之类的事情,更多见: 在备份的操作中,拷贝,过期文件的删除是 ...
linux下命令行工具gcp显示拷贝进度条
1.环境: ubuntu16.04 Linux jello 4.4.0-89-generic #112-Ubuntu SMP Mon Jul 31 19:38:41 UTC 2017 x86_64 x ...
P2472 [SCOI2007]蜥蜴（网络最大流）
P2472 [SCOI2007]蜥蜴题目描述在一个r行c列的网格地图中有一些高度不同的石柱,一些石柱上站着一些蜥蜴,你的任务是让尽量多的蜥蜴逃到边界外. 每行每列中相邻石柱的距离为1,蜥蜴的跳跃距 ...
JavaScript:new function(){}和function(){}()
继:http://www.cnblogs.com/hongdada/p/3328089.html new function(){} function(){}(): 大概的总结: function(){ ...

超详细：Python(wordcloud+jieba)生成中文词云图

超详细：Python(wordcloud+jieba)生成中文词云图的更多相关文章

随机推荐

热门专题