1. 任务分析及说明

目标网站:https://movie.douban.com/tag/#/

抓取豆瓣电影上,中国大陆地区,相关电影数据约1000条;数据包括:电影名称、导演、主演、评分、电影类型、语言、上映时间、短评top20等数据;

1.1 Fiddler抓包要点分析:

请求均为GET请求;拼接后的URL为是https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=0

其中,range表示评分区间(0,10表示筛选评分在0-10之间的电影);

tags表示分类类别(电影?剧集?);

第一次请求默认返回20部电影相关信息,start=0;点击加载更多start=20,即每次点击一次加载更多,start增加20;

返回数据为json格式,数据包括电影名称、导演、电影详情的URL等信息;

从json数据中提取电影详情页的URL,访问并抓取详情信息;

抓取电影短评时,只抓取了最前面的20条,并利用//拼接成一个字符串,数据保存为excel形式。

2. 代码逻辑

2.1  项目创建

利用scrapy的基本命令创建项目、爬虫等,在此不细说,直接上命令。

scrapy startproject DoubanMovie  # 创建项目

cd DoubanMovie  # 进入项目目录

scrapy genspider douban douban.movie.com  # 创建爬虫

2.2 明确抓取字段

scrapy爬虫的套路都相似,创建项目后首先明确爬取字段;其次,编写爬虫逻辑;然后,编写数据保存逻辑;最后,做一些修修补补的工作,例如添加请求头啊,注册通道呀等等。

来到items.py文件中,明确要抓取的字段。

# -*- coding: utf-8 -*-
import scrapy class DoubanmoviesItem(scrapy.Item): # 电影名称
filmtitle = scrapy.Field()
# 电影评分
moviemark = scrapy.Field()
# 导演名称
moviedirt = scrapy.Field()
# 电影主演
movierole = scrapy.Field()
# 电影类型
movietype = scrapy.Field()
# 制片地区
moviearea = scrapy.Field()
# 语言类型
movielang = scrapy.Field()
# 上映时间
moviedate = scrapy.Field()
# 剧情简介
moviesyno = scrapy.Field()
# 电影短评
moviecoms = scrapy.Field()
# # 电影影评
# movierews = scrapy.Field()

2.3 爬虫逻辑

明确抓取字段后,开始到spiders文件夹下的douban.py中编写爬虫逻辑。豆瓣电影返回的数据为json格式,对json格式的数据进行解析,从中提取到电影详情页的url,访问并从中提取详细信息。

# -*- coding: utf-8 -*-
import re
import json
import scrapy from DoubanMovies.items import DoubanmoviesItem class DoubanSpider(scrapy.Spider):
name = 'douban'
allowed_domains = ['movie.douban.com']
# start_urls = ['http://movie.douban.com/'] start = 0 # 指定参数
formdata = {
'sort': 'U',
'range': '0, 10',
'tags': '电影',
'start': '',
'countries': '中国大陆' # 这里只抓取中国大陆地区,其他地区可做相应修改
} base_url = 'https://movie.douban.com/j/new_search_subjects' def start_requests(self): # 构造初始请求url
url = self.base_url + '?' + 'sort={}&range={}&tags={}&start={}&countries={}'.format(
self.formdata['sort'], self.formdata['range'], self.formdata['tags'],
self.formdata['start'], self.formdata['countries']
) # 发起请求
yield scrapy.Request(
url=url,
callback=self.parse,
meta={'formdata': self.formdata}
) def parse(self, response):
"""
豆瓣默认返回json格式的数据
:param response:
:return:
"""
formdata = response.meta['formdata'] # 将json格式的数据转化为字典
data_list = json.loads(response.body.decode())['data'] # 数据解析
for data in data_list: # 从json数据中解析基本信息
item = DoubanmoviesItem()
item['filmtitle'] = data['title']
item['moviemark'] = data['rate']
item['moviedirt'] = ' '.join(data['directors'])
item['movierole'] = ' '.join(data['casts']) # 拿到详情页链接,获取影评等信息
detail_url = data['url']
yield scrapy.Request(
url=detail_url,
callback=self.parse_detail,
meta={'item': item, 'formdata': formdata} # 传入item到parse_detail,继续解析数据
) if not self.start == 1000: # 抓取1020条数据
self.start += 20
formdata = self.formdata
formdata['start'] = str(self.start) url = self.base_url + '?' + 'sort={}&range={}&tags={}&start={}&countries={}'.format(
formdata['sort'], formdata['range'], formdata['tags'],
formdata['start'], formdata['countries']) yield scrapy.Request(
url=url,
callback=self.parse,
meta={'formdata': formdata}
) def parse_detail(self, response):
"""
从详情页解析其他信息
:param response:
:return:
"""
formdata = response.meta['formdata']
item = response.meta['item'] item['movietype'] = '/'.join(response.xpath("//div[@id='info']/span[@property='v:genre']/text()").extract())
item['moviearea'] = formdata['countries']
item['movielang'] = ''.join(re.findall('<span class="pl">语言:</span>(.*?)<br/>', response.body.decode()))
item['moviedate'] = '/'.join(response.xpath("//div[@id='info']/span[@property='v:initialReleaseDate']/text()").extract())
item['moviesyno'] = response.xpath("//div[@id='link-report']/span[1]/text()").extract_first().strip() # 新页面解析电影短评
coms_url = response.xpath("//div[@id='comments-section']/div[1]/h2/span/a/@href").extract_first()
yield scrapy.Request(
url=coms_url,
callback=self.parse_coms, # 在parse_coms中提取电影短评,这里只提取前20
meta={'item': item}
) def parse_coms(self, response):
"""
解析电影短评top20,将20条短评以//拼接成一个字符串
:param response:
:return:
"""
item = response.meta['item'] # 提取短评top20
coms_list = response.xpath("//div[@id='comments']/div[@class='comment-item']/div[@class='comment']/p/span/text()").extract()
item['moviecoms'] = '//'.join(coms_list) yield item

2.4 数据保存

编写完爬虫逻辑后,来到pipelines.py文件中编写保存数据逻辑。这里将数据保存为excel格式。

# -*- coding: utf-8 -*-
from openpyxl import Workbook class DoubanmoviesPipeline(object): def __init__(self): # 创建excel表格保存数据
self.workbook = Workbook()
self.booksheet = self.workbook.active
self.booksheet.append(['电影名称', '评分', '导演',
'主演', '电影类型', '制片地区',
'语言类型', '上映时间', '剧情简介',
'短评(top20)']) def process_item(self, item, spider): DATA = [
item['filmtitle'], item['moviemark'], item['moviedirt'],
item['movierole'], item['movietype'], item['moviearea'],
item['movielang'], item['moviedate'], item['moviesyno'],
item['moviecoms']]
self.booksheet.append(DATA)
self.workbook.save('./results.xls') return item

2.5 其他

1. 通道注册,包括下载中间件,pipelines等的注册,还有不遵循爬虫协议

2. 延时处理,在settings.py文件中添加

DOWNLOAD_DELAY = 5  # 每个请求延迟5秒

3. 添加请求头

在下载中间件(middlewares.py)中给每个请求添加请求头

# -*- coding: utf-8 -*-
from DoubanMovies.settings import USER_AGENTS as ua
import random class DoubanmoviesDownloaderMiddleware(object): def process_request(self, request, spider):
"""
给每一个请求随机分配一个代理
:param request:
:param spider:
:return:
"""
user_agent = random.choice(ua)
request.headers['User-Agent'] = user_agent

4. 将运行命令写在main.py文件中

from scrapy import cmdline

cmdline.execute('scrapy crawl douban'.split())

3. 完整代码

参见:https://github.com/zInPython/DoubanMovie

scrapy抓取豆瓣电影相关数据的更多相关文章

  1. Python小爬虫——抓取豆瓣电影Top250数据

    python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...

  2. python2.7抓取豆瓣电影top250

    利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...

  3. Python爬虫----抓取豆瓣电影Top250

    有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...

  4. 用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

    抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...

  5. scrapy爬取豆瓣电影top250

    # -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...

  6. Python:python抓取豆瓣电影top250

    一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...

  7. Python3 抓取豆瓣电影Top250

    利用 requests 抓取豆瓣电影 Top 250: import re import requests def main(url): global num headers = {"Use ...

  8. Python抓取豆瓣电影top250!

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound  一直对爬虫感兴趣,学了python后正好看到 ...

  9. python爬取豆瓣电影信息数据

    题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里 琐事也很多, 加上自己 一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...

随机推荐

  1. Java基础(三十五)Math、Random类和数字格式化(String.format方法)

    一.Math类 Math类常用的方法: public static long abs (double a) 返回a的绝对值 public static double max (double a,dou ...

  2. 浅谈Retinex

    Retinex是上个世纪七十年代由Land提出的色彩理论.我认为其核心思想基于俩点 (1)在颜色感知时,人眼对局部相对光强敏感程度要优于绝对光强. (2)反射分量R(x,y)储存有无光源物体的真实模样 ...

  3. 第三十七章 POSIX线程(一)

    POSIX线程库相关介绍   与线程有关的函数构成了一个完整的系列,绝大多数函数的名字都有"pthread_"开头   要使用这些函数库,都需要加入头文件"<pth ...

  4. 百度NLP预训练模型ERNIE2.0最强实操课程来袭!【附教程】

    2019年3月,百度正式发布NLP模型ERNIE,其在中文任务中全面超越BERT一度引发业界广泛关注和探讨.经过短短几个月时间,百度ERNIE再升级,发布持续学习的语义理解框架ERNIE 2.0,及基 ...

  5. ITester软件测试小栈,快来点击领取你的能量值!

    日供一卒,功不唐捐,这不是一个非正常更新的ITester软件测试小栈,不定期分享软件测试相关,包括功能.接口.自动化.性能.专项.测试开发,简历指点,面试助攻,群而不党,和而不同,如趋同,且同行.

  6. RocketMQ 主从同步若干问题答疑

    目录 1.初识主从同步 2.提出问题 3.原理探究 3.1 RocketMQ主从读写分离机制 3.2 消息消费进度同步机制 4.总结 温馨提示:建议参考代码RocketMQ4.4版本,4.5版本引入了 ...

  7. mysql group by使用方法注意

    mysql group by使用方法注意 group by 后面只用能用having 不能加 where等域名

  8. Linux服务器更改Apache2默认页面

    方式一 获取root权限 su root //或者 sudo -i 进入 /var/www目录下 cd /var/www 创建目录 mkdir -m 777 myhtml // myhtml为自己创建 ...

  9. springboot返回统一接口与统一异常处理

    springboot返回统一接口与统一异常处理 编写人员:yls 编写时间:2019-9-19 0001-springboot返回统一接口与统一异常处理 简介 创建统一的返回格式 Result 封装统 ...

  10. linux redhat系列后缀为el5,el6,el7软件包的区别

    - EL6软件包用于在Red Hat 6.x, CentOS 6.x, and CloudLinux 6.x进行安装 - EL5软件包用于在Red Hat 5.x, CentOS 5.x, Cloud ...