WordCloud的参数：

font_path：可用于指定字体路径
width：词云的宽度，默认为 400；
height：词云的⾼度，默认为 200；
mask：蒙版，可⽤于定制词云的形状；

min_font_size：最⼩字号，默认为 4；
max_font_size：最⼤字号，默认为词云的⾼度；
max_words：词的最⼤数量，默认为 200；
stopwords：将被忽略的停⽤词，若不指定则使⽤默认停⽤词词库；
background_color：背景颜⾊，默认为 black；
mode：默认为RGB模式，如果为RGBA模式且background_color设为 None，则背景将透明。

generate(str) 接受一个字符串

生成一个词云只需要：

wc  = WordCloud().generate(text)

plt.imshow(wc, interpolation='bilinear')

# 打开文本

text = open(base_dir + 'constitution.txt').read()

# 生成对象

wc  = WordCloud().generate(text)

# 显示

plt.imshow(wc, interpolation='bilinear')

plt.axis('off')

plt.show()

wc.to_file("默认样式.png")

自定义字体

wc = WordCloud('Hiragino.ttf')

使用中文

# 分词

text_new = " ".join(jieba.cut(text))

wc = WordCloud('Hiragino.ttf') # 不加字体会中文乱码

使用蒙版,

透明背景： mode='RGBA', background_color=None

mask = np.array(Image.open("black_mask.png"))

wc = WordCloud(font_path='Hiragino.ttf', mode='RGBA', background_color=None, mask=mask, width=600, height=400)

使用图片(蒙版)中的颜色

image_colors = ImageColorGenerator(mask)

wc.recolor(color_func=image_colors)

自定义颜色函数

# 颜色函数

def random_color(word, font_size, position, orientation, font_path, random_state):

	s = 'hsl(0, %d%%, %d%%)' % (random.randint(60, 80), random.randint(60, 80))

	return s

...

wc = WordCloud(color_func=random_color, font_path='Hiragino.ttf',mode='RGBA', background_color=None, mask=mask)

使用权重

# 提取关键词和权重

freq = jieba.analyse.extract_tags(text_new, topK=200, withWeight=True)   # 列表

freq = {i[0]: i[1] for i in freq}    # 字典

mask = np.array(Image.open(f"{base_dir}color_mask.png"))

wc = WordCloud(font_path='Hiragino.ttf',mode='RGBA', background_color=None, mask=mask)

res = wc.generate_from_frequencies(freq)

也可以使用：

freq = nltk.FreqDist(word_text)

# wc.fit_words(freq)    # 然后再generate

wc.generate_from_frequencies(freq)

输出

提供了四个输出函数：
1. to_array(self)：numpy数组格式
2. to_file(self, filename)
3. to_html(self)：没有实现
4. to_image(self)：PIL图像

依赖的包如下：

from wordcloud import WordCloud

from wordcloud import ImageColorGenerator

import matplotlib.pyplot as plt

import jieba

import jieba.analyse

from PIL import Image

import random

import numpy as np

词云（WordCloud）的更多相关文章

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示
1.数据是使用scrapy-redis爬取的,存放在redis里面,爬取的是最近大热电影<海王> 2.使用了jieba中文分词解析库 3.使用了停用词stopwords,过滤掉一些无意义的 ...
词云wordcloud入门示例
整体简介: 词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 基于Python的词云生成类库 ...
词云wordcloud类介绍&python制作词云图&词云图乱码问题等小坑
词云图,大家一定见过,大数据时代大家经常见,我们今天就来用python的第三方库wordcloud,来制作一个大数据词云图,同时会降到这个过程中遇到的各种坑, 举个例子,下面是我从自己的微信上抓的微信 ...
Python - 利用词云wordcloud，jieba和中国地图制作四大名著的热词图
热词图很酷炫,也非常适合热点事件,抓住重点,以图文结合的方式表现出来,很有冲击力.下面这段代码是制作热词图的,用到了以下技术: jieba,把文本分词 wordcloud,制作热图 chardet,辨 ...
词云-wordcloud
import jiebabook = "2015.txt"txt = open(book).read()ex = {'不是','就是','的话','1.1','docin','ww ...
已知词频生成词云图（数据库到生成词云）--generate_from_frequencies（WordCloud）
词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小. 写在前面: 用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述. 但是对于根据generate_from_f ...
用Python玩转词云
第一步:引入相关的库包: #coding:utf-8 __author__ = 'Administrator' import jieba #分词包 import numpy #numpy计算包 imp ...
从CentOS安装完成到生成词云python学习日记
欢迎访问我的个人博客:原文链接前言人生苦短,我用python.学习python怎么能不搞一下词云呢是不是(ง •̀_•́)ง 于是便有了这篇边实践边记录的笔记. 环境:VMware 12pro + ...
python抓取数据构建词云
1.词云图词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 先看几个词 ...
python学习笔记（11）--词云
中分词库 jieba 词云 wordcloud import jieba import wordcloud f = open("新时代中国特色社会主义.txt", "r ...

随机推荐

MySQL编译安装-出现错误提示
环境: 系统:centos7.6 MySQL:5.6.3 cmake:2.8.6 原因: 安装ncurses-devel运行环境 [root@localhost ~]# yum -y install ...
SpringBoot Excel导入导出
一.引入pom.xml依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifac ...
[ARC119E] Pancakes （二维偏序，分类讨论）
题面一个长为 N N N 的序列 S S S ,最多翻转序列中一个区间,最小化 ∑ i = 2 N ∣ S i − S i − 1 ∣ \sum_{i=2}^{N}|S_i-S_{i-1}| i=2 ...
【java】学习路线3-二维数组声明与初始化、Arrays类
import java.util.Arrays;public class Learn02{ public static void main(String[] args){ Syst ...
最短路径算法-迪杰斯特拉(Dijkstra)算法在c#中的实现和生产应用
迪杰斯特拉(Dijkstra)算法是典型最短路径算法,用于计算一个节点到其他节点的最短路径. 它的主要特点是以起始点为中心向外层层扩展(广度优先遍历思想),直到扩展到终点为止贪心算法(Greedy ...
第八十八篇：Vue keep-alive的使用让组件"活下去""
好家伙, 1.关于keep-alive 这是一个用于阻止组件自行销毁的插件  那么我们什么时候会用到他呢? 举个 ...
Centos7中用Docker安装MySQL教程
第一步安装Docker 1.1 参考这位博主给出的命令安装好 https://blog.csdn.net/weixin_43423864/article/details/109481260 第二步 ...
Linux之SElinux服务详解
SElinux -> Linux安全访问策略 -> 强制性 (security安全) 是Linux操作系统的一个额外的强制性的安全访问规则.用于确定哪个进程可以访问哪些文件.目录和端口的一 ...
如何用 refcursor 返回结果集
可以通过返回 Refcursor 类型的函数,或者out 类型的函数或 procedure 返回结果集. 一.返回refcursor 类型的函数 create or replace function ...
mybatis_config xml配置
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE configuration PUBLIC ...

词云（WordCloud）

WordCloud的参数：

自定义字体

使用中文

使用蒙版,

使用图片(蒙版)中的颜色

自定义颜色函数

使用权重

输出

词云（WordCloud）的更多相关文章

随机推荐

热门专题