Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy

1. 海王评论数据爬取前分析

海王上映了，然后口碑炸了，对咱来说，多了一个可爬可分析的电影，美哉~

摘录一个评论

零点场刚看完，温导的电影一直很不错，无论是速7，电锯惊魂还是招魂都很棒。打斗和音效方面没话说非常棒，特别震撼。总之，DC扳回一分（￣▽￣）。比正义联盟好的不止一点半点（我个人感觉）。还有艾梅伯希尔德是真的漂亮，温导选的人都很棒。

真的第一次看到这么牛逼的电影转场特效都吊炸天

2. 海王案例开始爬取数据

数据爬取的依旧是猫眼的评论，这部分内容咱们用把牛刀，scrapy爬取，一般情况下，用一下requests就好了

抓取地址

http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=15&startTime=2018-12-11%2009%3A58%3A43

关键参数

url:http://m.maoyan.com/mmdb/comments/movie/249342.json

offset:15

startTime:起始时间

scrapy 爬取猫眼代码特别简单，我分开几个py文件即可。

Haiwang.py

import scrapy

import json

from haiwang.items import HaiwangItem

class HaiwangSpider(scrapy.Spider):

    name = 'Haiwang'

    allowed_domains = ['m.maoyan.com']

    start_urls = ['http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime=0']

    def parse(self, response):

        print(response.url)

        body_data = response.body_as_unicode()

        js_data = json.loads(body_data)

        item = HaiwangItem()

        for info in js_data["cmts"]:

            item["nickName"] = info["nickName"]

            item["cityName"] = info["cityName"] if "cityName" in info else ""

            item["content"] = info["content"]

            item["score"] = info["score"]

            item["startTime"] = info["startTime"]

            item["approve"] = info["approve"]

            item["reply"] = info["reply"]

            item["avatarurl"] = info["avatarurl"]

            yield item

        yield scrapy.Request("http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime={}".format(item["startTime"]),callback=self.parse)

setting.py

设置需要配置headers

DEFAULT_REQUEST_HEADERS = {

    "Referer":"http://m.maoyan.com/movie/249342/comments?_v_=yes",

    "User-Agent":"Mozilla/5.0 Chrome/63.0.3239.26 Mobile Safari/537.36",

    "X-Requested-With":"superagent"

}

需要配置一些抓取条件

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# See also autothrottle settings and docs

DOWNLOAD_DELAY = 1

# Disable cookies (enabled by default)

COOKIES_ENABLED = False

开启管道

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'haiwang.pipelines.HaiwangPipeline': 300,

}

items.py

获取你想要的数据

import scrapy

class HaiwangItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    nickName = scrapy.Field()

    cityName = scrapy.Field()

    content = scrapy.Field()

    score = scrapy.Field()

    startTime = scrapy.Field()

    approve = scrapy.Field()

    reply =scrapy.Field()

    avatarurl = scrapy.Field()

pipelines.py

保存数据，数据存储到csv文件中

import os

import csv

class HaiwangPipeline(object):

    def __init__(self):

        store_file = os.path.dirname(__file__) + '/spiders/haiwang.csv'

        self.file = open(store_file, "a+", newline="", encoding="utf-8")

        self.writer = csv.writer(self.file)

    def process_item(self, item, spider):

        try:

            self.writer.writerow((

                item["nickName"],

                item["cityName"],

                item["content"],

                item["approve"],

                item["reply"],

                item["startTime"],

                item["avatarurl"],

                item["score"]

            ))

        except Exception as e:

            print(e.args)

        def close_spider(self, spider):

            self.file.close()

begin.py

编写运行脚本

from scrapy import cmdline

cmdline.execute(("scrapy crawl Haiwang").split())

走起，搞定，等着数据来到，就可以了

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy的更多相关文章

Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...
Python爬虫入门教程 33-100 电影评论数据抓取 scrapy
1. 海王评论数据爬取前分析海王上映了,然后口碑炸了,对咱来说,多了一个可爬可分析的电影,美哉~ 摘录一个评论零点场刚看完,温导的电影一直很不错,无论是速7,电锯惊魂还是招魂都很棒.打斗和音效方面 ...
Python爬虫入门教程第七讲：蜂鸟网图片爬取之二
蜂鸟网图片--简介今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度. 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文 ...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...
Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

随机推荐

Imcash：一边大裁员，一边大扩招，你能否成为区块链人才中的7%？
农历春节后,互联网创业圈并不太平. 最早,滴滴被曝裁员,占比约为全员的15%,涉及员工约2000人.CEO程维在全员会议上称公司要做好过冬准备.此后,京东接棒,其裁员对象上升至副总裁级别高管,比例占到 ...
python3控制语句---选择结构语句
python中的控制语句主要有if.if--else.if--slif--else.pass语句.其实python的控制语句与其他语言的控制语句工作原理基本一样.控制语句可以分为选择结构语句和循环结构 ...
flask 中使用 socket 遇到的坑
很久没用博客园了,最近涉及到一个问题,需要向前端推送日志考虑的方案两个,一个是定时ajax 但是这样效率太慢了,二是用socket 那看看有没有轮子咯,面向百度编程,有两个库可以使用 1.flask ...
2018-2019-2 网络对抗技术 20162329 Exp6 信息搜集与漏洞扫描
目录 Exp6 信息搜集与漏洞扫描一.实践原理 1. 间接收集 2. 直接收集 3. 社会工程学二.间接收集 1. Zoomeye 2. FOFA 3. GHDB 4. whois 5. dig ...
Oracle截取JSON字符串内容
CREATE OR REPLACE FUNCTION PLATFROM.parsejsonstr(p_jsonstr varchar2,startkey varchar2,endkey varchar ...
Python算术运算
一.算术运算1.四则运算1+(100-20)/4+5*22.乘方运算2**103.求摸运算7%5 4.取整运算 7//5 = 1 5.绝对值函数 abs(-100) 6.导入数学函数后才能执行类似 ...
检查对象是否为NULL或者为Empty
不管是在Winform开发,还是在asp.net 开发中当从一个数据源中获取数据时你总是不知道这个数据的状态,这个时候总要对她进行一次判断,不过每次进行一次判断总是要写怎么一堆代码,时间长了,总感觉不 ...
201771010118 马昕璐《面向对象设计 java》第十七周实验总结
1.实验目的与要求 (1) 掌握线程同步的概念及实现技术: (2) 线程综合编程练习 2.实验内容和步骤实验1:测试程序并进行代码注释. 测试程序1: l 在Elipse环境下调试教材651页程序1 ...
session源码剖析
session机制采用的是一种在客户端与服务端之间保持状态的解决方案,由于采用服务器端保持状态的方案在客户端也要保存标识,session机制也要借助于cookie机制达到目的.session保存了客户 ...
php-cgi占用太多cpu资源而导致服务器响应过慢
服务器环境:redhat linux 5.5 , nginx , phpfastcgi 在此环境下,一般php-cgi运行是非常稳定的,但也遇到过php-cgi占用太多cpu资源而导致服务器响应过慢 ...

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy

1. 海王评论数据爬取前分析

2. 海王案例开始爬取数据

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy的更多相关文章

随机推荐

热门专题