wordclou:根据文本生成词云

一.词云设置

 wc=WordCloud(width=400, height=200, #画布长、宽,默认(400,200)像素
margin=1, #字与字之间的距离
background_color='white',#背景颜色
min_font_size=3,max_font_size=None,#显示的最小,最大的字体大小
max_words=200,#显示的词的最大个数
ranks_only=None,#是否只是排名
prefer_horizontal=.9,#词语水平方向排版出现的频率0.9(所以词语垂直方向排版出现频率为 0.1 )
mask=None,## 以该参数值作图绘制词云,这个参数不为空时,width和height会被忽略
scale=1, #按照比例进行放大画布
color_func=None,#生成新颜色的函数,如果为空,则使用 self.color_func
stopwords=('Book'),#设置需要屏蔽的词,如果为空,则使用内置的STOPWORDS
random_state=None, # 为每个词返回一个PIL颜色
font_step=1, #字体步长,如果步长大于1,会加快运算但是可能导致结果出现较大的误差。
mode="RGB",#当参数为“RGBA”并且background_color不为空时,背景为透明
relative_scaling=.5, #词频和字体大小的关联性
regexp=None,#使用正则表达式分隔输入的文本
collocations=True,#是否包括两个词的搭配
colormap=None,#给每个单词随机分配颜色
normalize_plurals=True,#是否删除词的尾随S之类的
font_path="C:/Windows/Fonts/STFANGSO.ttf" #字体路径
)

WordCloud词云设置

二.生成词云

 fit_words(frequencies)  //根据词频生成词云
generate(text) //根据文本生成词云
generate_from_frequencies(frequencies[, ...]) //根据词频生成词云
generate_from_text(text) //根据文本生成词云
process_text(text) //将长文本分词并去除屏蔽词(此处指英语,中文分词还是需要自己用别的库先行实现,使用上面的 fit_words(frequencies) )
recolor([random_state, color_func, colormap]) //对现有输出重新着色。重新上色会比重新生成整个词云快很多。
to_array() //转化为 numpy array
to_file(filename) //输出到文件

相关方法

三.基本步骤

 import jieba #jieba分词
import matplotlib.pyplot as plt#绘制图形
from scipy.misc import imread#处理图像
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator#词云 #一.文本获取,利用jieba分词获取文本中的词
file=open('test.txt',encoding='UTF-8').read()
word=' '.join(jieba.cut_for_search(file)) #二.词云背景图像获取
image=imread('test.jpg') # 解析该图片 #三.词云设置
wc=WordCloud(
mode='RGBA',#设置透明底色
background_color=None,
mask=image, #词云形状设置为背景图像
max_words=100,#显示的词的最大个数
font_path="C:\\Windows\\Fonts\\STFANGSO.ttf",#设置字体,否则中文可能会出现乱码
scale=3#扩大三倍
) #生成词云
image_colors = ImageColorGenerator(image)# 基于背景颜色设置字体色彩
wc.generate(word)#根据文本生成词云 #显示
plt.imshow(wc)#显示词云图
plt.axis("off")#关闭坐标轴
plt.show()#显示窗口
wc.to_file('test.png')# 保存图片

词云

python3 wordcloud词云的更多相关文章

  1. python爬虫——京东评论、jieba分词、wordcloud词云统计

    接上一章,动态页面抓取——抓取京东评论区内容. url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJS ...

  2. 数字、字符串、列表、字典,jieba库,wordcloud词云

    一.基本数据类型 什么是数据类型 变量:描述世间万物的事物的属性状态 为了描述世间万物的状态,所以有了数据类型,对数据分类 为什么要对数据分类 针对不同的状态需要不同的数据类型标识 数据类型的分类 二 ...

  3. python3做词云分析

    python3做词云 其实词云一般分为两种,一个是权重比,一个是频次分析 主要还是体现在自然语言方向,难度较大,但这里我们用jieba词库 主要思路, 后端算数据+前端生成图(D3-cloud-好像是 ...

  4. wordcloud词云模块

    wordcloud词云模块 下载 pip install wordcloud 使用 import wordcloud##调用整个模块 form wordcloud import WordCloud## ...

  5. wordcloud词云

    借鉴别人的一个小例子,快速生成词云的代码: from wordcloud import WordCloud f = open(u'txt/AliceEN.txt','r').read() wordcl ...

  6. wordcloud词云--可视化

    import jieba import wordcloud f = open("新时代中国特色社会主义.txt", "r", encoding="gb ...

  7. python 制作wordcloud词云

    pip install wordcloud 需要用到numpy  pillow matplotlib 安装完成以后 wordcloud_cli --text in.txt --imagefile ou ...

  8. jieba分词wordcloud词云

    1.jieba库的基本介绍 (1).jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌 ...

  9. 爬取豆瓣电影影评,生成wordcloud词云,并利用监督学习根据评论自动打星

    本文的完整源码在git位置:https://github.com/OceanBBBBbb/douban-ml 爬取豆瓣影评 爬豆瓣的影评比较简单,豆瓣没有做限制,甚至你都不用登陆就可以看全部,我这里用 ...

随机推荐

  1. Cas(05)——修改Cas Server的其它配置

    修改Cas Server的其它配置 目录 1.1      修改host.name 1.2      修改SSO Session的超时策略 1.3      修改允许管理service的角色 1.4  ...

  2. CTF 资源

    1.<CTF 工具集>包括web工具.渗透环境.隐形工具.逆向工具.漏洞扫描工具.sql注入工具.暴力破解工具.加解密工具等等. 参考地址:https://www.ctftools.com ...

  3. VMware中安装Ubntu

    "懦夫没有能力去表现爱:爱是勇者的特权"----甘地 原文请见: https://blog.csdn.net/wumumang/article/details/54099997 一 ...

  4. go零碎总结

    1.go里通过首字母大小写来区分它是私有的还是公有的,比如对于一个结构体属性一般就以大写开头(和Java不一样,不需要什么getter,setter方法):而对于方法而言,它是隶属于包(包名一定是小写 ...

  5. STM32之串口波特率计算

    1.1 波特率结构框图 1.2 波特率寄存器示意图 1.3 波特率计算公式示意图 两图看出,串口波特率寄存器是一个32位,只用低16位,低16位又划分,低4位用来装小数,其他用来装整数. 波特率计算公 ...

  6. 2019秋季PAT甲级_备考总结

    2019 秋季 PAT 甲级 备考总结 在 2019/9/8 的 PAT 甲级考试中拿到了满分,考试题目的C++题解记录在这里,此处对备考过程和考试情况做一个总结.如果我的方法能帮助到碰巧点进来的有缘 ...

  7. 05 IO流(三)——IO流标准流程

    流程 选择源 选择合适的流 操作 关闭流:先打开的后关闭 演示 import java.io.File; import java.io.InputStream; import java.io.File ...

  8. teamviewer远程控制程序免费版百度云下载

    TeamViewer是一个远程共享桌面软件,使远程传输变得简单快速,远程访问安全可靠,能在任何防火墙后台进行远程控制.只需用户在两台计算机上同时运行这个软件就可以开始工作.使用时关闭杀毒软件,防止误报 ...

  9. java 线程并发(生产者、消费者模式)

    线程并发协作(生产者/消费者模式) 多线程环境下,我们经常需要多个线程的并发和协作.这个时候,就需要了解一个重要的多线程并发协作模型“生产者/消费者模式”. Ø 什么是生产者? 生产者指的是负责生产数 ...

  10. SVN_03绿色版

    1.首先备份当前安装visualSVN文件的bin目录,万一出错还能反个水.一般默认安装路径是C:\Program Files(x86)VisualSVN\bin 2.然后运行ildasm,Windo ...