python爬取豆瓣流浪地球影评，生成词云

代码很简单，一看就懂。

（没有模拟点击，所以都是未展开的）

地址：

https://movie.douban.com/subject/26266893/reviews?rating=&start=0
这里start就是后面参数变化的地方。一页20条，所以循环的话 每次start加20就好。

代码：

import requests

from bs4 import BeautifulSoup

page=0

# url = 'https://movie.douban.com/subject/26266893/reviews?rating=&start='+str(page)

# s = requests.session()

# res = s.get(url).text

# soup = BeautifulSoup(res,'html.parser')

# comments = soup.find_all("div",class_="short-content")

# print (comments[2].get_text().replace("(展开)"," ").strip())

while 1:

    url = 'https://movie.douban.com/subject/26266893/reviews?rating=&start=' + str(page)

    s = requests.session()

    res = s.get(url).text

    soup = BeautifulSoup(res, 'html.parser')

    comments = soup.find_all("div", class_="short-content")

    with open('流浪地球.txt', 'a', encoding='gb18030', errors='ignore') as f:

        for comment in comments:

            str_comment = comment.get_text().replace("(展开)"," ").strip()

            text = str_comment.replace("这篇影评可能有剧透"," ").strip()

            f.write(text+"\n")

    page+=20

　　生成词云代码：

# -*- coding: utf-8 -*-

from wordcloud import WordCloud

import matplotlib.pyplot as plt

import jieba

# 生成词云

def create_word_cloud(filename):

    text = open("流浪地球.txt".format(filename), encoding='gb18030', errors='ignore').read()

    # 结巴分词

    wordlist = jieba.cut(text, cut_all=True)

    wl = " ".join(wordlist)

    # 设置词云

    wc = WordCloud(

        # 设置背景颜色

        background_color="white",

        # 设置最大显示的词云数

        max_words=2000,

        # 这种字体都在电脑字体中，一般路径

        font_path='C:\Windows\Fonts\simfang.ttf',

        height=1200,

        width=1600,

        # 设置字体最大值

        max_font_size=100,

        # 设置有多少种随机生成状态，即有多少种配色方案

        random_state=30,

    )

    myword = wc.generate(wl)  # 生成词云

    # 展示词云图

    plt.imshow(myword)

    plt.axis("off")

    plt.show()

    wc.to_file('py_book_流浪地球.png')  # 把词云保存下

if __name__ == '__main__':

    create_word_cloud('word_py')

　　结果：

撸码千万条，简洁第一条。代码不规范，编译两行泪。

python爬取豆瓣流浪地球影评，生成词云的更多相关文章

用python爬取微博数据并生成词云
很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景. 一年一度的虐汪节,是继续蹲在角落默 ...
【python3】爬取简书评论生成词云
一.起因: 昨天在简书上看到这么一篇文章<中国的父母,大都有毛病>,看完之后个人是比较认同作者的观点. 不过,翻了下评论,发现评论区争议颇大,基本两极化.好奇,想看看整体的评论是个什么样, ...
【Python】利用豆瓣短评数据生成词云
在之前的文章中,我们获得了豆瓣爬取的短评内容,汇总到了一个文件中,但是,没有被利用起来的数据是没有意义的. 前文提到,有一篇微信推文的关于词云制作的一个实践记录,准备照此试验一下. 思路分析读文件 ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
爬取豆瓣电影影评，生成wordcloud词云，并利用监督学习根据评论自动打星
本文的完整源码在git位置:https://github.com/OceanBBBBbb/douban-ml 爬取豆瓣影评爬豆瓣的影评比较简单,豆瓣没有做限制,甚至你都不用登陆就可以看全部,我这里用 ...
python 爬取豆瓣电影短评并wordcloud生成词云图
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图第一步, ...

随机推荐

liunx增强命令
查找命令 grep 格式:grep [option] pattern [file] 实例: ps -ef | grep sshd 查找指定 ssh 服务进程 ps -ef | grep sshd | ...
深入浅出关于SQL Server中的死锁问题
深入浅出关于SQL Server中的死锁问题博客2013-02-12 13:44 分享到:我要吐槽死锁的本质是一种僵持状态,是多个主体对于资源的争用而导致的.理解死锁首先需要对死锁所涉及的相 ...
Java反射创建带构造参数的类并执行方法
部分代码 public void go(ServletRequest request,ServletResponse response){ String methodName = "inde ...
部署Smokeping
1.环境安装 # yum -y install gcc* perl* httpd* libxml2 libxml2-devel libpng libpng-devel glib2 glib2-deve ...
Gecko Robotics, Inc. SE II Test OA -- 菜到扣脚
There are three problems in hackrank. two sum http request to get title binary search (find first la ...
[19/03/15-星期五] 常用类_String类&StringBuilder和StringBuffer类
一.基本概念 String 类对象代表不可变的Unicode字符序列,因此我们可以将String对象称为“不可变对象”. 那什么叫做“不可变对象”呢? 指的是对象内部的成员变量的值无法再改变.Str ...
System.Chare的成员
实现效果: 知识运用: System.Char的静态方法 (判断一个给定的字符是否为数字字母标点符号或其他) 实现效果: static void CharFunctionality() { Con ...
【转】ConcurrentHashMap原理分析（1.7与1.8）
https://www.cnblogs.com/study-everyday/p/6430462.html 前言以前写过介绍HashMap的文章,文中提到过HashMap在put的时候,插入的元素超 ...
Android学习笔记_14_对JSON格式数据的处理
public class ParseJsonTest extends AndroidTestCase{ public void testJson() throws Exception { String ...
HDU 2859 Phalanx（对称矩阵经典dp样例）
传送门: http://acm.hdu.edu.cn/showproblem.php?pid=2859 Phalanx Time Limit: 10000/5000 MS (Java/Others) ...

python爬取豆瓣流浪地球影评，生成词云

python爬取豆瓣流浪地球影评，生成词云的更多相关文章

随机推荐

热门专题