概述：

制作词云的步骤：

1、从文件中读取数据

2、根据数据追加在一个字符串里面，然后用jieba分词器将评论分开

3、设置WordCloud词云参数

4、保存最后的结果

第一步：引入依赖库

# 1、表格库

import csv

# 2、jieba分词器

import jieba

# 3、算法运算库

import numpy

# 4、图像库

from PIL import Image

# 5、词云库

from wordcloud import WordCloud

第二步：读取数据

 stars = ("很差","较差","还行","推荐","力荐")

    comments = []

    with open("files/douban.csv","r",encoding="utf-8") as file:

        reader = csv.reader(file)

        for i in reader:

            if i[1] not in stars:

                pass

            else:

                comments.append(i)

        file.close()

第三步：解析数据并保存

str = ""

    for i in data:

        str+=i[2]

    cutWord = " ".join(jieba.cut(str))

    bgImg = numpy.array(Image.open("files/a.jpg"))

    cloud = WordCloud(

        font_path="C:\Windows\Fonts\STZHONGS.TTF",

        background_color="white",

        mask=bgImg

    ).generate(cutWord)

    cloud.to_file("ciyun.png")

效果图：

模型：

效果：

源代码：

# 1、表格库

import csv

# 2、jieba分词器，将一句话的词语分离出来

# 1)、控制台输入：pip install jieba

# 2)、左上角 file-->settings--->项目

# 3)、清华园下载方式（在控制台）

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

# 阿里

# pip install jieba -i  http://mirrors.aliyun.com/pypi/simple/

import jieba

# 3、算法运算库

# 控制台输入：pip install numpy

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy

import numpy

# 4、图像库

# 控制台输入：pip install pillow

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pillow

from PIL import Image

# 5、词云库

# 控制台输入：pip install WordCloud

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple WordCloud

from wordcloud import WordCloud

# 定义函数，将数据从表格里读取出来

def getDataFromCsv():

    # 设置星级等级

    stars = ("很差","较差","还行","推荐","力荐")

    # 设置空列表，装从表格里面读出来的所有数据

    comments = []

    # 打开表格，"r"读取模式  读取数据

    with open("files/douban.csv","r",encoding="utf-8") as file:

        # 表格操作读数据

        reader = csv.reader(file)

        # 遍历表格里得到所有数据     [用户名,星级,评论]

        for i in reader:

            # 如果没有星级

            if i[1] not in stars:

                # 数据无效，忽略不处理

                pass

            else:

                # 数据有效，装入数组

                comments.append(i)

        # print(comments)

        file.close()

    # 将装有数据的列表返回出来

    return comments

# 定义函数，将解析的评论做成词云

def getWordCloud():

    # 调用函数：得到表格中所有的数据

    data = getDataFromCsv()

    # 定义空的字符串，把所有的评论装进来

    str = ""

    # 遍历所有的数据

    for i in data:

        # [用户名, 星级, 评论]

        str+=i[2]

    # print(str)

    # 通过jieba分词器将评论里面的词语用空格分离出来

    cutWord = " ".join(jieba.cut(str))

    # print(cutWord)

    # 读取图片模型

    bgImg = numpy.array(Image.open("files/a.jpg"))

    # 准备词云参数

    cloud = WordCloud(

        # 文字的路径：本地的系统文件路径

        font_path="C:\Windows\Fonts\STZHONGS.TTF",

        # 生成词云的图片背景

        background_color="white",

        # 参考图片（参数，没有引号）

        mask=bgImg

    ).generate(cutWord)

    # 将做成的结果生成图片

    cloud.to_file("ciyun.png")

问题：安装wordcloud出错，离线安装也出错，

参考：https://blog.csdn.net/xiuxiuen_michelle/article/details/81080694

解决：在 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 下载对应版本的库

作者

1、作者个人网站

2、作者CSDN

3、作者博客园

4、作者简书

【python数据挖掘】使用词云分析来分析豆瓣影评数据的更多相关文章

Python之手把手教你用JS逆向爬取网易云40万+评论并用stylecloud炫酷词云进行情感分析
本文借鉴了@平胸小仙女的知乎回复 https://www.zhihu.com/question/36081767 写在前面: 文章有点长,操作有点复杂,需要代码的直接去文末即可.想要学习的需要有点耐心 ...
用Python玩转词云
第一步:引入相关的库包: #coding:utf-8 __author__ = 'Administrator' import jieba #分词包 import numpy #numpy计算包 imp ...
python实现使用词云展示图片
记录瞬间首先,要安装一些第三方包 pip install scipyCollecting scipy Downloading https://files.pythonhosted.org/packa ...
python 制作wordcloud词云
pip install wordcloud 需要用到numpy pillow matplotlib 安装完成以后 wordcloud_cli --text in.txt --imagefile ou ...
python WordCloud 实现词云
简单示例 from matplotlib import pyplot as plt from wordcloud import WordCloud filename = "text.txt& ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...
【Python】生成词云
import matplotlib.pyplot as plt from wordcloud import WordCloud import jieba text_from_file_with_apa ...
windows下python 正确安装词云包wordcloud的方法
安装wordcloud的时候果然还是出现了问题,试了网上说的好多办法,最后找到了一种成功率高的,可以优先尝试一下下载.whl文件http://www.lfd.uci.edu/~gohlke/pyth ...

随机推荐

linux开机无法进入桌面直接进入initramfs模式的问题修复
可能是因为关机异常导致磁盘错误. kali linux升级到2019.4版本之后出现过好几次异常关机导致直接进入initramfs的模式,无法进入系统桌面,网上的办法基本上也都是无效的,前几次翻了很多 ...
Day2-Python3基础-文件操作
1. 字符编码与转码需知: 1.在python3默认编码是unicode 2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), so ut ...
漏洞利用：验证绕过，XSS利用，Cookic盗用，文件上传
1. 文件上传低级别写好上传的内容选择好上传的文件上传成功. 测试:访问文件,执行代码中级别修改文件后缀为png 上传该文件抓包修改文件后缀为php,然后允许数据包通过. 上传 ...
qt5连接sqlite数据库实例
建库在VS下新建qt console appication 代码: #include <iostream> #include <Qtsql/QSqlDatabase> #in ...
POJ_2342_树状dp
http://poj.org/problem?id=2342 第一道树状dp,入门题,用vector构建有向图. #include<iostream> #include<cstrin ...
Codeforces_500_C
http://codeforces.com/problemset/problem/500/C 数组从后向前代表当前书从上向下,当前位置只要向前找,找到当前位置的书,再将之间的重量加起来就可以了,相同的 ...
(原)NSQ源码阅读和分析(1)
原文出处:https://www.cnblogs.com/lihaiping/p/12324371.html 本文记录自己在阅读和学习nsq源码的时候的一些学习笔记,主要目的是个人总结和方便后期查阅. ...
【算法】混合流体模拟demo
展示一个流体模拟算法的实现地址:http://www.iqiyi.com/w_19rzs1anol.html 采用C++编写,Blender渲染. 截图参考文献 REN, B., LI, C., ...
MapReduce清洗数据进行可视化
继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip ...
集智学院 “Deep X：Deep Learning with Deep Knowledge”的公开讲座---总结
人工智能旨在了解人类智能的本质,并创造出能模仿人类智能做出反应的智能机器,目前在一些领域已经取得显著的成功,如AI玩游戏.问答系统.自动驾驶.无人机.机器人.翻译.人脸识别.语音识别等领域.深度学习的 ...

【python数据挖掘】使用词云分析来分析豆瓣影评数据

概述：

第一步：引入依赖库

第二步：读取数据

第三步：解析数据并保存

效果图：

源代码：

作者

【python数据挖掘】使用词云分析来分析豆瓣影评数据的更多相关文章

随机推荐

热门专题