scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示

1、数据是使用scrapy-redis爬取的，存放在redis里面，爬取的是最近大热电影《海王》

2、使用了jieba中文分词解析库

3、使用了停用词stopwords，过滤掉一些无意义的词

4、使用matplotlib+wordcloud绘图展示

from redis import Redis

import json

import jieba

from wordcloud import WordCloud

import matplotlib.pyplot as plt

# 加载停用词

# stopwords = set(map(lambda x: x.rstrip('\n'), open('chineseStopWords.txt').readlines()))

stopwords = set()

with open('chineseStopWords.txt') as f:

    for line in f.readlines():

        stopwords.add(line.rstrip('\n'))

    stopwords.add(' ')

    # print(stopwords)

    # print(len(stopwords))

# 读取影评

db = Redis(host='localhost')

items = db.lrange('review:items', 0, -1)

# print(items)

# print(len(items))

# 统计每个word出现的次数

# 过滤掉停用词

# 记录总数，用于计算词频

words = {}

total = 0

for item in items:

    data = json.loads(item)['review']

    # print(data)

    # print('------------')

    for word in jieba.cut(data):

        if word not in stopwords:

            words[word] = words.get(word, 0) + 1

            total += 1

print(sorted(words.items(), key=lambda x: x[1], reverse=True))

# print(len(words))

# print(total)

# 词频

freq = {k: v / total for k, v in words.items()}

print(sorted(freq.items(), key=lambda x: x[1], reverse=True))

# 词云

wordcloud = WordCloud(font_path='simhei.ttf',

                      width=500,

                      height=300,

                      scale=10,

                      max_words=200,

                      max_font_size=40).fit_words(frequencies=freq)  # Create a word_cloud from words and frequencies

plt.imshow(wordcloud, interpolation="bilinear")

plt.axis('off')

plt.show()

绘图结果：

参考：

https://github.com/amueller/word_cloud

http://amueller.github.io/word_cloud/

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示的更多相关文章

Scrapy实战篇（三）之爬取豆瓣电影短评
今天的主要内容是爬取豆瓣电影短评,看一下网友是怎么评价最近的电影的,方便我们以后的分析,以以下三部电影:二十二,战狼,三生三世十里桃花为例. 由于豆瓣短评网页比较简单,且不存在动态加载的内容,我们下面 ...
python 爬取豆瓣电影短评并wordcloud生成词云图
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图第一步, ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影
前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境语言:python 2 ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
爬取豆瓣电影TOP 250的电影存储到mongodb中
爬取豆瓣电影TOP 250的电影存储到mongodb中 1.创建项目sp1 PS D:\scrapy> scrapy.exe startproject douban 2.创建一个爬虫 PS D: ...

随机推荐

Elasticsearch Query DSL 整理总结（四）—— Multi Match Query
目录引言概要 fields 字段通配符提升字段权重 multi_match查询的类型 best_fields 类型 dis_max 分离最大化查询 best_fields 维权使者 tie_b ...
Node.js系列-express(下)
前言距上次更新博客又两个月多了,这两个月内除了上班时间忙公司的项目外,下班后也没有闲着,做了点外包,有小程序的,管理端的项目.也可能那段时间做的外包项目也都比较急,所以晚上都搞到一点左右睡,严重的压 ...
Log4net_简单使用
log4net 有四种主要的组件,分别是Logger(记录器), Repository(库), Appender(附着器)以及 Layout(布局). 第一步:Log4net的安装 Install-P ...
使用Megacli64对服务器物理磁盘做Raid并通过uuid方式挂载
需求说明:公司最近来了一批服务器,用于大数据业务部署.数据节点服务器由14块物理磁盘,其中有2块是900G的盘,12块是4T的盘.在服务器系统安装时,进入系统的BIOS界面:1)将2块900G的磁盘做 ...
Centos6.9下安装并使用VNC的操作记录
VNC是一个的"远程桌面"工具.,通常用于“图形界面”的方式登录服务器,可视化操作.废话不多说了,操作记录如下: 1)安装桌面环境 [root@vm01 ~]# yum -y gr ...
MySQL高可用架构-MMM环境部署记录
MMM介绍MMM(Master-Master replication manager for MySQL)是一套支持双主故障切换和双主日常管理的脚本程序.MMM使用Perl语言开发,主要用来监控和管理 ...
use_frameworks!和#use_frameworks!的区别、解决Swift项目中use_frameworks!冲突的问题
use_frameworks!和#use_frameworks!的区别转自:https://www.jianshu.com/p/0ae58a477459 1. 用cocoapods 导入swift ...
结构体内嵌比较函数bool operator < (const node &x) const {}
直接看别人的链接 [http://www.cnblogs.com/ZERO-/p/9347296.html]
wordcount程序
wordcount程序算是相比于前几次作业来说比较难得一个作业了.进行了一次真的自己编写程序.WC程序实现了对txt文件中的数据的计数,算出程序中有多少单词.字符数以及行数.这次的程序编程是采用的C语 ...
There are no enabled repos.
今天要记录一下自己懵逼的一天,原来自己是Ubuntu系统,还以为是centos,导致命令错了 There are no enabled repos. Run "yum repolist al ...

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示的更多相关文章

随机推荐

热门专题