scrapy 请求meta参数使用案例-豆瓣电影爬取

num = 0

import scrapy

from scrapy.http import HtmlResponse

from scrapy_demo.items import DoubanItem

"""

这个例子主要是学习meta传参。

"""

class DoubanSpider(scrapy.Spider):

    """爬取豆瓣top250"""

    name = "douban"

    allowed_domains = ["douban.com"]

    start_urls = ["https://movie.douban.com/top250"]

    def parse(self, response: HtmlResponse, **kwargs):

        item_list_xpath = '//div[@class="article"]/ol/li/div[@class="item"]'

        selector_list = response.xpath(item_list_xpath)

        num = 0

        for selector in selector_list:

          # 不爬太多数据了...

            if num >= 2:

                break

            num+=1

            doubanitem = DoubanItem()

            # 取出的数据有&nbsp;这个在unicode中会显示\xa0，所以替换成空格

            title = selector.xpath('./div[@class="info"]/div[@class="hd"]/a/span[@class="title"]/text()').get()\

                .strip().replace('\xa0', ' ')

            summary = selector.xpath('./div[@class="info"]/div[@class="bd"]/p[not(@class="quote")]/text()').get()\

                .strip().replace('\xa0', " ")

            score = selector.xpath(

                './div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').get()

            detail_url = selector.xpath('./div[@class="info"]/div[@class="hd"]/a/@href').get()

            # print(detail_url)

            doubanitem["title"] = title

            doubanitem["score"] = score

            doubanitem["summary"] = summary

            # yield doubanitem

            # 访问详情页

            yield scrapy.Request(

                url=detail_url, callback=self.parse_detail, meta={"item": doubanitem},

                headers={

                    "Host": "movie.douban.com",

                    "Referer": "https://movie.douban.com/top250",

                    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"

                }

            )

    def parse_detail(self, response: HtmlResponse):

        print("enter detail parse")

        # print(response.text)

        doubanitem = response.meta.get("item")

        desc = response.xpath('//span[@property="v:summary"]/text()').get()

        # callback中的修改对传递进来的meta中的字典不会影响原来字典中的值，这玩意估计是deepcopy一份了,,,草...

        doubanitem["desc"] = desc

        yield doubanitem

scrapy 请求meta参数使用案例-豆瓣电影爬取的更多相关文章

Python登录豆瓣并爬取影评
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
单线程多任务协程vip电影爬取
单线程多任务协程vip电影爬取 --仅供学习使用勿作商用如有违规后果自负!!! 这几天一直在使用python爬取电影,主要目的也是为了巩固前段时间强化学习的网络爬虫,也算是一个不错的检验吧,面对众 ...
神技！微信小程序（应用号）抢先入门体验（附最新案例-豆瓣电影）持续更新
微信小程序 Demo(豆瓣电影) 由于时间的关系,没有办法写一个完整的说明,后续配合一些视频资料,请持续关注官方文档:https://mp.weixin.qq.com/debug/wxadoc/de ...
Python爬虫入门教程：豆瓣Top电影爬取
基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路一. ...
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...
Python Scrapy的QQ音乐爬虫音乐下载、爬取歌曲信息、歌词、精彩评论
QQ音乐爬虫(with scrapy)/QQ Music Spider UPDATE 2019.12.23 已实现对QQ音乐文件的下载,出于版权考虑,不对此部分代码进行公开.此项目仅作为学习交流使用, ...
猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...
Scrapy教程——搭建环境、创建项目、爬取内容、保存文件
1.创建项目在开始爬取之前,您必须创建一个新的Scrapy项目.进入您打算存储代码的目录中,运行新建命令. 例如,我需要在D:\00Coding\Python\scrapy目录下存放该项目,打开命令 ...
Scrapy：腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/ 步骤一.分析网站结构和待爬取内容以下省略一万字步骤二.上代码(不能略了) 1.配置items.py import scrapy class ...

随机推荐

细数2019-2023年CWE TOP 25 数据，看软件缺陷的防护
本文分享自华为云社区<从过去5年CWE TOP 25的数据看软件缺陷的防护>,作者:Uncle_Tom. "以史为鉴,可以知兴替".CWE 已经连续5年发布了 CWE ...
一款国产开源 Web 防火墙神器！
随着开源 Web 框架和各种建站工具的兴起,搭建网站已经是一件成本非常低的事情,但是网站的安全性很少有人关注,以至于 WAF 这个品类也鲜为人知. 一.WAF 是什么? WAF 是 Web 应用防火墙 ...
codeblock安装及汉化教程
1.双击图标 2.弹出如下对话框: 3.单击按钮Next,弹出如下对话框: 4.单击按钮I Agree,弹出如下对话框: 5.单击按钮Next,弹出如下对话框: 6.单击Browse按钮,可以重新设置 ...
用OLED屏幕播放视频(1): 项目介绍
下面的系列文章记录了如何使用一块linux开发扳和一块OLED屏幕实现视频的播放: 项目介绍为OLED屏幕开发I2C驱动使用cuda编程加速视频处理这篇文章主要对项目的实现做整体的介绍, 包括硬 ...
实用工具、01 效率篇 | 几个操作快速提升 Typora 使用体验
本篇文章旨在提高大家记笔记的效率,分享的工具请按个人需求安装 Typora-plugins 为 Typora 添加更多新功能,我最喜欢的是多标签页管理 obgnail/typora_plugin: T ...
Solution -「BZOJ 3771」Triple
Description Link. 给你一个序列,你每次可以取 \(1\sim3\) 个数然后计算和,问你对于每一种和,方案数是多少. Solution 设一个 OGF \(A(x)=\sum_{i= ...
掌握这些技巧，让Excel批量数据清洗变得简单高效！
什么是数据清洗数据清洗是指在数据处理过程中对原始数据进行筛选.转换和修正,以确保数据的准确性.一致性和完整性的过程.它是数据预处理的一部分,旨在处理和纠正可能存在的错误.缺失值.异常值和不一致性等数 ...
ERROR: nginx-1.22.1 installation failed.
libraries. You can either do not enable the module or install the libraries.make: *** No rule to mak ...
比赛总结：Japan Registry Services (JPRS) Programming Contest 2023 (AtCoder Beginner Contest 324)
比赛:Japan Registry Services (JPRS) Programming Contest 2023 (AtCoder Beginner Contest 324) A-same 1.常 ...
16.1 Socket 端口扫描技术
端口扫描是一种网络安全测试技术,该技术可用于确定对端主机中开放的服务,从而在渗透中实现信息搜集,其主要原理是通过发送一系列的网络请求来探测特定主机上开放的TCP/IP端口.具体来说,端口扫描程序将从指 ...

scrapy 请求meta参数使用案例-豆瓣电影爬取

scrapy 请求meta参数使用案例-豆瓣电影爬取的更多相关文章

随机推荐

热门专题