概述：

制作词云的步骤：

1、从文件中读取数据

2、根据数据追加在一个字符串里面，然后用jieba分词器将评论分开

3、设置WordCloud词云参数

4、保存最后的结果

第一步：引入依赖库

# 1、表格库

import csv

# 2、jieba分词器

import jieba

# 3、算法运算库

import numpy

# 4、图像库

from PIL import Image

# 5、词云库

from wordcloud import WordCloud

第二步：读取数据

 stars = ("很差","较差","还行","推荐","力荐")

    comments = []

    with open("files/douban.csv","r",encoding="utf-8") as file:

        reader = csv.reader(file)

        for i in reader:

            if i[1] not in stars:

                pass

            else:

                comments.append(i)

        file.close()

第三步：解析数据并保存

str = ""

    for i in data:

        str+=i[2]

    cutWord = " ".join(jieba.cut(str))

    bgImg = numpy.array(Image.open("files/a.jpg"))

    cloud = WordCloud(

        font_path="C:\Windows\Fonts\STZHONGS.TTF",

        background_color="white",

        mask=bgImg

    ).generate(cutWord)

    cloud.to_file("ciyun.png")

效果图：

模型：

效果：

源代码：

# 1、表格库

import csv

# 2、jieba分词器，将一句话的词语分离出来

# 1)、控制台输入：pip install jieba

# 2)、左上角 file-->settings--->项目

# 3)、清华园下载方式（在控制台）

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

# 阿里

# pip install jieba -i  http://mirrors.aliyun.com/pypi/simple/

import jieba

# 3、算法运算库

# 控制台输入：pip install numpy

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy

import numpy

# 4、图像库

# 控制台输入：pip install pillow

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pillow

from PIL import Image

# 5、词云库

# 控制台输入：pip install WordCloud

# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple WordCloud

from wordcloud import WordCloud

# 定义函数，将数据从表格里读取出来

def getDataFromCsv():

    # 设置星级等级

    stars = ("很差","较差","还行","推荐","力荐")

    # 设置空列表，装从表格里面读出来的所有数据

    comments = []

    # 打开表格，"r"读取模式  读取数据

    with open("files/douban.csv","r",encoding="utf-8") as file:

        # 表格操作读数据

        reader = csv.reader(file)

        # 遍历表格里得到所有数据     [用户名,星级,评论]

        for i in reader:

            # 如果没有星级

            if i[1] not in stars:

                # 数据无效，忽略不处理

                pass

            else:

                # 数据有效，装入数组

                comments.append(i)

        # print(comments)

        file.close()

    # 将装有数据的列表返回出来

    return comments

# 定义函数，将解析的评论做成词云

def getWordCloud():

    # 调用函数：得到表格中所有的数据

    data = getDataFromCsv()

    # 定义空的字符串，把所有的评论装进来

    str = ""

    # 遍历所有的数据

    for i in data:

        # [用户名, 星级, 评论]

        str+=i[2]

    # print(str)

    # 通过jieba分词器将评论里面的词语用空格分离出来

    cutWord = " ".join(jieba.cut(str))

    # print(cutWord)

    # 读取图片模型

    bgImg = numpy.array(Image.open("files/a.jpg"))

    # 准备词云参数

    cloud = WordCloud(

        # 文字的路径：本地的系统文件路径

        font_path="C:\Windows\Fonts\STZHONGS.TTF",

        # 生成词云的图片背景

        background_color="white",

        # 参考图片（参数，没有引号）

        mask=bgImg

    ).generate(cutWord)

    # 将做成的结果生成图片

    cloud.to_file("ciyun.png")

问题：安装wordcloud出错，离线安装也出错，

参考：https://blog.csdn.net/xiuxiuen_michelle/article/details/81080694

解决：在 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 下载对应版本的库

作者

1、作者个人网站

2、作者CSDN

3、作者博客园

4、作者简书

【python数据挖掘】使用词云分析来分析豆瓣影评数据的更多相关文章

Python之手把手教你用JS逆向爬取网易云40万+评论并用stylecloud炫酷词云进行情感分析
本文借鉴了@平胸小仙女的知乎回复 https://www.zhihu.com/question/36081767 写在前面: 文章有点长,操作有点复杂,需要代码的直接去文末即可.想要学习的需要有点耐心 ...
用Python玩转词云
第一步:引入相关的库包: #coding:utf-8 __author__ = 'Administrator' import jieba #分词包 import numpy #numpy计算包 imp ...
python实现使用词云展示图片
记录瞬间首先,要安装一些第三方包 pip install scipyCollecting scipy Downloading https://files.pythonhosted.org/packa ...
python 制作wordcloud词云
pip install wordcloud 需要用到numpy pillow matplotlib 安装完成以后 wordcloud_cli --text in.txt --imagefile ou ...
python WordCloud 实现词云
简单示例 from matplotlib import pyplot as plt from wordcloud import WordCloud filename = "text.txt& ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...
【Python】生成词云
import matplotlib.pyplot as plt from wordcloud import WordCloud import jieba text_from_file_with_apa ...
windows下python 正确安装词云包wordcloud的方法
安装wordcloud的时候果然还是出现了问题,试了网上说的好多办法,最后找到了一种成功率高的,可以优先尝试一下下载.whl文件http://www.lfd.uci.edu/~gohlke/pyth ...

随机推荐

通过识别页面内容获得返回值判断后续执行（exists指令的用法）
本案例主要用到airtest 的exists指令从指令解释可以知道,当判断某图片不存在的时候,会返回false值脚本思路即为如果返回值==false则执行A,!=fales则执行B 下图脚本思路, ...
CentOS7安装docker以及错误解决
今天在公司电脑上安装docker出现了一些问题,原先是直接用yum安装docker,一次就成功了,由于公司的网络问题导致docker安装完出现了一些问题,客户端启动了,服务端一直启动不了:Job fo ...
linux运维基础知识-系统分区及LVM逻辑卷的创建
系统分区及LVM逻辑卷的创建分区创建逻辑卷 LVM简介:逻辑卷管理器(LogicalVolumeManager)本质上是一个虚拟设备驱动,是在内核中块设备和物理设备之间添加的一个新的抽象层次,如图 ...
js原型和原型链的简单理解
构造函数创建对象: function Person() { } var person = new Person(); person.name = 'Tian'; console.log(person. ...
Python用WMI模块获取windowns系统信息
安装vmi https://pypi.org/project/WMI/#history 脚本如下: #!/usr/bin/env python #coding:utf- import wmi impo ...
Linux/UNIX编程：实现简单 tee 命令
思路很简单,从标准输入文件描述符读入数据,然后同时向标准输出和参数指定的文件写出数据:如果加了 -a 选项,则以追加的方式向文件写出数据.还没了解 getopt() 函数就没判断参数是否合法. #in ...
[PowerShell]Python虚拟环境激活失败
用Activate.ps1激活还是失效的情况下, 用ISE打开发现路径中的中文乱码了. 所以解决方案有两种, 一是把中文路径改成英文二是把Activate.ps1脚本用记事本打开另存为ANSI编码即 ...
Codeforces_835
A.比较两人总时间. #include<bits/stdc++.h> using namespace std; int s,v1,v2,t1,t2; int main() { ios::s ...
python批量删除子文件夹中的空子文件夹
例如A文件夹下有许多子文件夹,我需要获得的是子文件夹中的图片,但是现在子文件夹中不光有图片,还混入了空的文件夹(在使用OpenImages工具箱的时候,按照检索的方式下载的图片文件中是带有label的 ...
根据navigator.userAgent返回值识别浏览器
function validBrowser(){ var u_agent = navigator.userAgent; var browser_name='Failed to identify the ...

【python数据挖掘】使用词云分析来分析豆瓣影评数据

概述：

第一步：引入依赖库

第二步：读取数据

第三步：解析数据并保存

效果图：

源代码：

作者

【python数据挖掘】使用词云分析来分析豆瓣影评数据的更多相关文章

随机推荐

热门专题