转载地址:https://zhuanlan.zhihu.com/p/20436581
上文末尾提到 Python 下还有一款词云生成器。amueller/word_cloud · GitHub

可以直接使用命令 pip install wordcloud 安装,自行补充完整依赖。

网上搜不到有关的中文文章,自己探索了一下,也算做出了结果。由于没有中文支持的说明和中文文档,在此简单补充并翻译部分文档。翻译可能有出入仅供参考,只是为了加深自己理解所用。

#后面有示例和展示。想了想放到一篇里面太臃肿,所以另起一篇展示。

API Reference

API 分为三部分

生成词云的部分、生成图像颜色的部分和随机颜色函数。

wordcloud.WordCloud

class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=5, ranks_only=False, prefer_horizontal=0.9,mask=None, scale=1, color_func=<function random_color_func at 0x2b8b422a31b8>, max_words=200, stopwords=None,random_state=None, background_color='black', max_font_size=None)

主要部分,用来生成词云并生成图像。

参数:

font_path : string

用到的字体文件的路径(支持OTF 或 TTF格式)。默认字体是
DroidSansMono 。非 Linux 系统需自行调整路径参数。

说明:Windows 下中文支持的方法。

1、准备好一个中文字体,如 simhei.ttf

2、将其复制到 C:\Python27\Lib\site-packages\wordcloud\

3、在 wordcloud.py 中修改 FONT_PATH 为相应字体。(注意是大写,大写的字体路径是默认路径,小写的字体是后面使用时可以再次指定的,会覆盖默认字体)

FONT_PATH = os.environ.get("FONT_PATH", os.path.join(os.path.dirname(__file__),

"simhei.ttf"))

4、注意中文的编码应为 utf-8 ,否则会导致乱码无法显示

#可以参见不知道什么语言的用户提出的 issue Word cloud unicode (multilanguage) problem · Issue #70 · amueller/word_cloud · GitHub

width : int (default=400)

画布宽度

height : int (default=200)

画布高度

ranks_only : boolean (default=False)

是否只用词频排序而不是实际词频统计值,默认 False

prefer_horizontal : float (default=0.90)

词语水平出现的频率,默认 0.9 (即垂直出现频率为 0.1 )

mask : nd-array or None (default=None)

如果参数为空,则使用二维遮罩绘制词云。
如果 mask 非空,设置的宽高值将被忽略,遮罩形状被 mask 取代。
除全白(#FFFFFF)的部分将不会绘制,其余部分会用于绘制词云。

scale : float (default=1)

计算与绘制图像间的比例。对于较大的词云图像,使用比例而非较大的画布会显著提升绘图速度,但是可能会造成词语间的粗糙拟合。

max_words : number (default=200)

词语的最大数量

stopwords : set of strings

屏蔽词

max_font_size : int or None (default=None)

最大词的最大字号。如果不指定,则为图像高度。

说明:

画布越大,运行耗时会显著提升。如果你需要输出一幅较大的词云图像,尝试设置较小的画布并使用比例参数来调节。

基于最大字号和比例参数,算法可能会更倾向于使用词语的排名顺序而非它们的实际频率。

属性:

words_: list of tuples (string, float)

带有频率的词语

layout_:list of tuples (string, int, (int, int), int, color))

编码拟合好的词云。每个词语的字符串、字号、位置、方向和颜色的编码。

方法:

static __init__(font_path=None, width=400, height=200, margin=5, ranks_only=False, prefer_horizontal=0.9, mask=None,scale=1, color_func=<function random_color_func at 0x2b8b422a31b8>, max_words=200, stopwords=None,random_state=None, background_color='black', max_font_size=None)

static fit_words(frequencies) / generate_from_frequencies(这两个一个意思)

依据词语和频率生成词云

参数:frequencies : array of tuples

包含了词语和频率的数组

static generate(text) / generate_from_text

从文本中生成词云,调用 _text 和 fit_words

static process_text(text)

将长文本分词并去除屏蔽词(此处指英语,中文分词还是需要自己用别的库先行实现,使用上面的 fit_words(frequencies) )

参数:text : string

需要处理的文本

返回:words : list of tuples (string, float)

带有相应频率的词语

说明:有标记词频的更好方法,但是作者没有把那些全部包括进来。

static recolor(random_state=None, color_func=None)

对现有输出重新着色。重新上色会比重新生成整个词云快很多。

参数:

random_state : RandomState, int, or None, default=None

如果非空,会使用固定的随机状态。
如果给出一个整数,它会被用作 random.Random 状态的一个种子(根源)

color_func : function or None, default=None

生成新颜色的函数,如果为空,则使用 self.color_func

static to_array()

转化为 numpy array

返回:image : nd-array size (width, height, 3)

numpy 矩阵的词云图像

static to_file(filename)

输出到文件

参数:filename : string

输出的文件路径

wordcloud.ImageColorGenerator

class wordcloud.ImageColorGenerator(image)

基于 RGB 图像生成颜色。词语将会使用一定矩形区域内的平均颜色上色。这个对象可以被调用作为词云或者重新上色方法的颜色函数。

参数:image : nd-array, shape (height, width, 3)

用来生成词语颜色的图像。 Alpha 通道会被忽略。大小应与画布大小相同。

static __init__(image)

wordcloud.random_color_func

wordcloud.random_color_func(word=None, font_size=None, position=None, orientation=None, font_path=None, random_state=None)

随机生成色调

默认的上色方法。仅仅会生成一个随机的色调( 80% 颜色值 50% 亮度)

参数:

word, font_size, position, orientation : ignored.

random_state : random.Random object or None, (default=None)

如果一个随机的对象已经给出,这会用作生成随机数字(没看懂)

Python word_cloud 部分文档翻译 标签云系列(二)的更多相关文章

  1. Python word_cloud 样例 标签云系列(三)

    转载地址:https://zhuanlan.zhihu.com/p/20436642word_cloud/examples at master · amueller/word_cloud · GitH ...

  2. Python pytagcloud 中文分词 生成标签云 系列(一)

    转载地址:https://zhuanlan.zhihu.com/p/20432734工具 Python 2.7 (前几天试了试 Scrapy 所以用的 py2 .血泪的教训告诉我们能用 py3 千万别 ...

  3. [Python] 文科生零基础学编程系列二——数据类型、变量、常量的基础概念

    上一篇:[Python] 文科生零基础学编程系列--对象.集合.属性.方法的基本定义 下一篇: (仍先以最简单的Excel的VBA为例,语法与Python不同,但概念和逻辑需要理解透彻) p.p1 { ...

  4. [Python] 文科生零基础学编程系列三——数据运算符的基本类别

    上一篇:[Python] 文科生零基础学编程系列二--数据类型.变量.常量的基础概念 下一篇: ※ 程序的执行过程,就是对数据进行运算的过程. 不同的数据类型,可以进行不同的运算, 按照数据运算类型的 ...

  5. Python解析器源码加密系列之(二):一次使用标准c的FILE*访问内存块的尝试

    摘要:由于近期打算修改Python解释器以实现pyc文件的加密/解密,出于保密的要求,解密之后的数据只能放在内存中,不能写入到文件中.但是后续的解析pyc文件的代码又只能接受FILE*作为入参,所以就 ...

  6. Android高效率编码-第三方SDK详解系列(二)——Bmob后端云开发,实现登录注册,更改资料,修改密码,邮箱验证,上传,下载,推送消息,缩略图加载等功能

    Android高效率编码-第三方SDK详解系列(二)--Bmob后端云开发,实现登录注册,更改资料,修改密码,邮箱验证,上传,下载,推送消息,缩略图加载等功能 我的本意是第二篇写Mob的shareSD ...

  7. Python之虚拟机操作:利用VIX二次开发,实现自己的pyvix(系列一)成果展示和python实例

    在日常工作中,需要使用python脚本去自动化控制VMware虚拟机,现有的pyvix功能较少,而且不适合个人编程习惯,故萌发了开发一个berlin版本pyvix的想法,暂且叫其OpenPyVix.O ...

  8. [Python] 利用Django进行Web开发系列(二)

    1 编写第一个静态页面——Hello world页面 在上一篇博客<[Python] 利用Django进行Web开发系列(一)>中,我们创建了自己的目录mysite. Step1:创建视图 ...

  9. pycloudtag 标签云

    原创,转载请标明 QQ:231469242 # -*- coding: utf-8 -*- """Python3.0 Created on Sat Nov 26 08:5 ...

随机推荐

  1. 1.Python3.6环境部署

    标题:Python3.6环境部署文档 作者:刘耀 内容 Linux部署Python3.6环境 Mac部署Python3.6环境 Window10部署Python3.6环境 Pycharm安装 1. L ...

  2. bc命令详解

    基础命令学习目录首页 原文链接:https://www.cnblogs.com/lovevivi/p/4359296.html 最近经常要在linux下做一些进制转换,看到了可以使用bc命令,如下: ...

  3. Hadoop Streaming框架使用(二)

    上一篇文章介绍了Streaming的各种参数,本文具体介绍使用方法. 提交hadoop任务示例: $HADOOP_HOME/bin/hadoop streaming \ -input /user/te ...

  4. jsweb常用代码

    <script> $(function (){ $.ajax({ url: 'https://test.com:8080/api/v1/users?query_not_auth=100&a ...

  5. Node.js中module文件定义的top-level变量为何是私有的

    在Node.js中,module文件里面使用var,const或者let定义的top-level变量为何是私有的,只能在这个模块文件中使用呢? 原因就是,在模块文件中的内容执行之前,node.js会降 ...

  6. 20162328蔡文琛 2017week03

    20162328 2017-2018-1 <程序设计与数据结构>第3周学习总结 教材学习内容总结 查找是在一组项内找到指定目标或是确定目标不存在的过程. 搞笑的查找使得比较的次数最少. C ...

  7. 剑指offer:用两个栈实现队列

    题目描述: 用两个栈来实现一个队列,完成队列的Push和Pop操作. 队列中的元素为int类型. 思路: 可以用stack1来存所有入队的数.在出队操作中,首先将stack1中的元素清空,转移到sta ...

  8. 17_常用API_第17天(包装类、System、Math、Arrays、大数据运算)_讲义

    今日内容介绍 1.基本类型包装类 2.System类 3.Math类 4.Arrays类 5.大数据运算 01基本数据类型对象包装类概述 *A:基本数据类型对象包装类概述 *a.基本类型包装类的产生 ...

  9. C语言中Union类型的使用方法

    转自:http://blog.csdn.net/feimor/article/details/6858103 使用C语言时,常常使用struct,对于union类型却几乎没有用过,只知道它是联合类型, ...

  10. 继《在Windows下编译扩展OpenCV 3.1.0 + opencv_contrib》修订

    在之前的<在Windows下编译扩展OpenCV 3.1.0 + opencv_contrib>中有些问题,后来由于时间不是很充足,故现在对其中的问题进行完善,如下所示对红色框框中的相应的 ...