scrapy抓取豆瓣电影相关数据

1. 任务分析及说明

目标网站：https://movie.douban.com/tag/#/

抓取豆瓣电影上，中国大陆地区，相关电影数据约1000条；数据包括：电影名称、导演、主演、评分、电影类型、语言、上映时间、短评top20等数据；

1.1 Fiddler抓包要点分析：

请求均为GET请求；拼接后的URL为是https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=0

其中，range表示评分区间（0,10表示筛选评分在0-10之间的电影）；

tags表示分类类别（电影?剧集？）；

第一次请求默认返回20部电影相关信息，start=0；点击加载更多start=20，即每次点击一次加载更多，start增加20；

返回数据为json格式，数据包括电影名称、导演、电影详情的URL等信息；

从json数据中提取电影详情页的URL，访问并抓取详情信息；

抓取电影短评时，只抓取了最前面的20条，并利用//拼接成一个字符串，数据保存为excel形式。

2. 代码逻辑

2.1 项目创建

利用scrapy的基本命令创建项目、爬虫等，在此不细说，直接上命令。

scrapy startproject DoubanMovie  # 创建项目

cd DoubanMovie  # 进入项目目录

scrapy genspider douban douban.movie.com  # 创建爬虫

2.2 明确抓取字段

scrapy爬虫的套路都相似，创建项目后首先明确爬取字段；其次，编写爬虫逻辑；然后，编写数据保存逻辑；最后，做一些修修补补的工作，例如添加请求头啊，注册通道呀等等。

来到items.py文件中，明确要抓取的字段。

# -*- coding: utf-8 -*-

import scrapy

class DoubanmoviesItem(scrapy.Item):

    # 电影名称

    filmtitle = scrapy.Field()

    # 电影评分

    moviemark = scrapy.Field()

    # 导演名称

    moviedirt = scrapy.Field()

    # 电影主演

    movierole = scrapy.Field()

    # 电影类型

    movietype = scrapy.Field()

    # 制片地区

    moviearea = scrapy.Field()

    # 语言类型

    movielang = scrapy.Field()

    # 上映时间

    moviedate = scrapy.Field()

    # 剧情简介

    moviesyno = scrapy.Field()

    # 电影短评

    moviecoms = scrapy.Field()

    # # 电影影评

    # movierews = scrapy.Field()

2.3 爬虫逻辑

明确抓取字段后，开始到spiders文件夹下的douban.py中编写爬虫逻辑。豆瓣电影返回的数据为json格式，对json格式的数据进行解析，从中提取到电影详情页的url，访问并从中提取详细信息。

# -*- coding: utf-8 -*-

import re

import json

import scrapy

from DoubanMovies.items import DoubanmoviesItem

class DoubanSpider(scrapy.Spider):

    name = 'douban'

    allowed_domains = ['movie.douban.com']

    # start_urls = ['http://movie.douban.com/']

    start = 0

    # 指定参数

    formdata = {

        'sort': 'U',

        'range': '0, 10',

        'tags': '电影',

        'start': '',

        'countries': '中国大陆'  # 这里只抓取中国大陆地区，其他地区可做相应修改

    }

    base_url = 'https://movie.douban.com/j/new_search_subjects'

    def start_requests(self):

        # 构造初始请求url

        url = self.base_url + '?' + 'sort={}&range={}&tags={}&start={}&countries={}'.format(

            self.formdata['sort'], self.formdata['range'], self.formdata['tags'],

            self.formdata['start'], self.formdata['countries']

        )

        # 发起请求

        yield scrapy.Request(

            url=url,

            callback=self.parse,

            meta={'formdata': self.formdata}

        )

    def parse(self, response):

        """

        豆瓣默认返回json格式的数据

        :param response:

        :return:

        """

        formdata = response.meta['formdata']

        # 将json格式的数据转化为字典

        data_list = json.loads(response.body.decode())['data']

        # 数据解析

        for data in data_list:

            # 从json数据中解析基本信息

            item = DoubanmoviesItem()

            item['filmtitle'] = data['title']

            item['moviemark'] = data['rate']

            item['moviedirt'] = ' '.join(data['directors'])

            item['movierole'] = ' '.join(data['casts'])

            # 拿到详情页链接，获取影评等信息

            detail_url = data['url']

            yield scrapy.Request(

                url=detail_url,

                callback=self.parse_detail,

                meta={'item': item, 'formdata': formdata}  # 传入item到parse_detail，继续解析数据

            )

        if not self.start == 1000:  # 抓取1020条数据

            self.start += 20

            formdata = self.formdata

            formdata['start'] = str(self.start)

            url = self.base_url + '?' + 'sort={}&range={}&tags={}&start={}&countries={}'.format(

            formdata['sort'], formdata['range'], formdata['tags'],

            formdata['start'], formdata['countries'])

            yield scrapy.Request(

                url=url,

                callback=self.parse,

                meta={'formdata': formdata}

            )

    def parse_detail(self, response):

        """

        从详情页解析其他信息

        :param response:

        :return:

        """

        formdata = response.meta['formdata']

        item = response.meta['item']

        item['movietype'] = '/'.join(response.xpath("//div[@id='info']/span[@property='v:genre']/text()").extract())

        item['moviearea'] = formdata['countries']

        item['movielang'] = ''.join(re.findall('<span class="pl">语言:</span>(.*?)<br/>', response.body.decode()))

        item['moviedate'] = '/'.join(response.xpath("//div[@id='info']/span[@property='v:initialReleaseDate']/text()").extract())

        item['moviesyno'] = response.xpath("//div[@id='link-report']/span[1]/text()").extract_first().strip()

        # 新页面解析电影短评

        coms_url = response.xpath("//div[@id='comments-section']/div[1]/h2/span/a/@href").extract_first()

        yield scrapy.Request(

            url=coms_url,

            callback=self.parse_coms,  # 在parse_coms中提取电影短评，这里只提取前20

            meta={'item': item}

        )

    def parse_coms(self, response):

        """

        解析电影短评top20，将20条短评以//拼接成一个字符串

        :param response:

        :return:

        """

        item = response.meta['item']

        # 提取短评top20

        coms_list = response.xpath("//div[@id='comments']/div[@class='comment-item']/div[@class='comment']/p/span/text()").extract()

        item['moviecoms'] = '//'.join(coms_list)

        yield item

2.4 数据保存

编写完爬虫逻辑后，来到pipelines.py文件中编写保存数据逻辑。这里将数据保存为excel格式。

# -*- coding: utf-8 -*-

from openpyxl import Workbook

class DoubanmoviesPipeline(object):

    def __init__(self):

        # 创建excel表格保存数据

        self.workbook = Workbook()

        self.booksheet = self.workbook.active

        self.booksheet.append(['电影名称', '评分', '导演',

                               '主演', '电影类型', '制片地区',

                               '语言类型', '上映时间', '剧情简介',

                               '短评(top20)'])

    def process_item(self, item, spider):

        DATA = [

            item['filmtitle'], item['moviemark'], item['moviedirt'],

            item['movierole'], item['movietype'], item['moviearea'],

            item['movielang'], item['moviedate'], item['moviesyno'],

            item['moviecoms']]

        self.booksheet.append(DATA)

        self.workbook.save('./results.xls')

        return item

2.5 其他

1. 通道注册，包括下载中间件，pipelines等的注册，还有不遵循爬虫协议

2. 延时处理，在settings.py文件中添加

DOWNLOAD_DELAY = 5  # 每个请求延迟5秒

3. 添加请求头

在下载中间件（middlewares.py）中给每个请求添加请求头

# -*- coding: utf-8 -*-

from DoubanMovies.settings import USER_AGENTS as ua

import random

class DoubanmoviesDownloaderMiddleware(object):

    def process_request(self, request, spider):

        """

                给每一个请求随机分配一个代理

                :param request:

                :param spider:

                :return:

                """

        user_agent = random.choice(ua)

        request.headers['User-Agent'] = user_agent

4. 将运行命令写在main.py文件中

from scrapy import cmdline

cmdline.execute('scrapy crawl douban'.split())

3. 完整代码

参见：https://github.com/zInPython/DoubanMovie