Python - 利用词云wordcloud，jieba和中国地图制作四大名著的热词图

热词图很酷炫，也非常适合热点事件，抓住重点，以图文结合的方式表现出来，很有冲击力。下面这段代码是制作热词图的，用到了以下技术：

jieba，把文本分词

wordcloud，制作热图

chardet，辨别文件的编码格式，其中中文统一为GB18030，更加的兼容

imageio，提取图片的形状

其他：自动识别文件编码，自动识别txt文件，图片文件名与txt文件一致，使用的是四大名著的文本（自行百度），部分中国地图

上代码：

import os

import jieba

import wordcloud

import chardet

import imageio

directory = "D:\\"

mask = imageio.imread(r"D:\map.jpg")  # 用于最后图像图形

directory_lists = os.scandir(directory)

for directory_list in directory_lists:

    if directory_list.is_dir() or directory_list.path.split('.')[-1] != "txt":

        continue

    with open(directory_list.path, 'rb') as fd:

        coding = chardet.detect(fd.read()[:1000])['encoding']

        if coding.upper() == 'GB2312' or coding == 'GBK':

            coding = 'GB18030'

    file = open(directory_list.path, 'r', encoding=coding)

    text = file.read()

    file.close()

    jieba_text = ' '.join(jieba.lcut(text))

    w = wordcloud.WordCloud(height=800, width=1600, font_path='msyh.ttc', background_color='white', stopwords={'Page'}, mask=mask)

    w.generate(jieba_text)

    w.to_file('{}.png'.format(directory_list.path.split('.')[0]))

输出：

仔细看输出的内容，还是挺有意思的，哈哈哈。

Python - 利用词云wordcloud，jieba和中国地图制作四大名著的热词图的更多相关文章

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示
1.数据是使用scrapy-redis爬取的,存放在redis里面,爬取的是最近大热电影<海王> 2.使用了jieba中文分词解析库 3.使用了停用词stopwords,过滤掉一些无意义的 ...
词云wordcloud类介绍&python制作词云图&词云图乱码问题等小坑
词云图,大家一定见过,大数据时代大家经常见,我们今天就来用python的第三方库wordcloud,来制作一个大数据词云图,同时会降到这个过程中遇到的各种坑, 举个例子,下面是我从自己的微信上抓的微信 ...
词云wordcloud入门示例
整体简介: 词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 基于Python的词云生成类库 ...
python利用百度云接口实现车牌识别
一个小需求---实现车牌识别. 目前有两个想法调云在线的接口或者使用SDK做开发(配置环境和编译第三方库很麻烦,当然使用python可以避免这些问题) 自己实现车牌识别算法(复杂) ! 一开始准备使 ...
用Python制作中国地图、地球平面图及球形图
绘制地图在python中主要用到的 basemap 库,这个库是 matplotlib 库中一个用于在 Python 中绘制地图上的 2D 数据的工具包. 首先安装库: 1.安装 geos 库:Pyt ...
词云-wordcloud
import jiebabook = "2015.txt"txt = open(book).read()ex = {'不是','就是','的话','1.1','docin','ww ...
使用jieba和wordcloud进行中文分词并生成《悲伤逆流成河》词云
因为词云有利于体现文本信息,所以我就将那天无聊时爬取的<悲伤逆流成河>的评论处理了一下,生成了词云. 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): #!/usr/bin/env ...
wordcloud + jieba 生成词云
利用jieba库和wordcloud生成中文词云. jieba库:中文分词第三方库分词原理: 利用中文词库,确定汉字之间的关联概率,关联概率大的生成词组三种分词模式: 1.精确模式:把文本精确的切 ...
Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕弹幕的存储位置如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号, ...

随机推荐

【Java】 NullPointerException、ArrayIndexOutOfBoundsException、ClassCastException、ArrayIndexOutOfBoundsException、ArrayStoreException、ArithmeticException等没有异常堆栈信息
今天工作中,临时Fix一个bug,一看日志“java.lang.ClassCastException: null”相当懵逼,没有详细堆栈信息,这咋整.虽然根据上下文可以推测代码的大致位置,但不敢拍板确 ...
Ubuntu 18.04 将gcc版本降级为5.5版本
Remark: Polynomial algebra 程序由于版本问题只能在gcc 5.0 版本运行, 而ubuntu更新会将gcc 更新到7.0版本,出现冲突(报错:如下) collect2: er ...
coding++：java-HashMap的负载因子为什么默认是0.75？
本篇文章基于JDK1.8,特在此说明 1):负载因子的作用负载因子是和扩容机制有关的,意思是如果当前容器的容量,达到了我们设定的最大值,就要开始执行扩容操作.举个例子来解释,避免小白听不懂: 比如说 ...
coding++：js实现基于Base64的编码及解码
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
基于vue-cli-和element-ui的开发admin（1）
//首先以下仅是记录个人本次vue后台管理系统的登录界面部分操作的流程以及踩坑的注意点一.首先是搭建vue-cli工作环境这里有两种方式:1.用npm:(在安装了vue,vue-cli以及webp ...
1.用eclipse创建maven工程
第一步.File→New→Maven Project (需要下载安装配置Maven等,这些步骤省略) (找不到的话选Other,里面的Maven文件夹里有) 二.记得勾选上,然后点Next 三.填完点 ...
Elasticsearch+spring cloud201912301423
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://mave ...
SpringBoot整合Springfox-Swagger2
前言不管Spring Boot整合还是SpringMVC整合Swagger都基本类似,重点就在于配置Swagger,它的精髓所在就在于配置. @ 目录 1.Swagger简介 2.整合前可能遇到的问 ...
大数据篇：Hbase
大数据篇:Hbase Hbase是什么 Hbase是一个分布式.可扩展.支持海量数据存储的NoSQL数据库,物理结构存储结构(K-V). 如果没有Hbase 如何在大数据场景中,做到上亿数据秒级返回. ...
python_Mock基本使用
## 1.mock简介 1. py3已将mock集成到unittest库中 2. 为的就是更好的进行单元测试 3. 简单理解,模拟接口返回参数 4. 通俗易懂,直接修改接口返回参数的值 5. 官方文档 ...

Python - 利用词云wordcloud，jieba和中国地图制作四大名著的热词图

Python - 利用词云wordcloud，jieba和中国地图制作四大名著的热词图的更多相关文章

随机推荐

热门专题