爬虫：Scrapy16 - Spider Contracts

sufei 2024-09-03 20:29:57 原文

Scrapy 通过合同（contract）的方式来提供了测试 spider 的集成方法。

可以硬编码（hardcode）一个样例（sample）url，设置多个条件来测试回调函数处理 response 的结果，来测试 spider 的回调函数。每个 contract 包含在文档字符串（docstring）里，以@开头。查看例子：

def parse(self, response):

    """ This function parses a sample response. Some contracts are mingled

    with this docstring.

    @url http://www.amazon.com/s?field-keywords=selfish+gene

    @returns items 1 16

    @returns requests 0 0

    @scrapes Title Author Year Price

    """

该回调函数使用了3个内置的 contract 来测试：

class scrapy.contracts.default.UrlContract

该 contract（@url）设置了用于检查 spider 的其它 contract 状态的样例 url。该 contract 是必须的。所有缺失该 contract 的回调函数在测试时将被忽略：

@url url

class scrapy.contracts.default.ReturnContract

该 contract（@returns）设置 spider 返回的 items 和 requests 的上届和下届。上届是可选的：

@returns item(s)|request(s) [min [max]]

class scrapy.contracts.default.ScrapesContract

该 contract（@scrapes）检查回调函数返回的所有 item 是否有特定的 fields：

@scrapes field_1 field_2 ...

使用 check 命令来运行 contract 检查。

自定义 Contracts

如果想要比内置 Scrapy contract 更为强大的功能，可以在项目里创建并设置自己的 contract，并使用 SPIDER_CONTRACTS 设置来加载：

SPIDER_CONTRACTS = {

    'myproject.contracts.ResponseCheck': 10,

    'myproject.contracts.ItemValidate': 10,

}

每个 contract 必须继承 scrapy.contracts.Contract 并覆盖以下三个方法：

class scrapy.contracts.Contract(method, *args)

参数：

method (function) – contract 所关联的回调函数
args (list) – 传入 docstring 的(以空格区分的)argument 列表(list)

adjust_request_args(args)

接收一个字典（dict）作为参数。该参数包含了所有 Request 对象参数的默认值。该方法必须返回相同或修改过的字典。

pre_process(response)

该函数在 sample request 接收到 response 后，传送给回调函数前被调用，运行测试。

post_process(output)

该函数处理回调函数的输出。迭代器(Iterators)在传输给该函数前会被列表化(listified)。

该样例 contract 在 response 接收时检查了是否有自定义 header。在失败时 Raise scrapy.exceptions.ContractFaild 来展现错误：

from scrapy.contracts import Contract

from scrapy.exceptions import ContractFail

class HasHeaderContract(Contract):

    """ Demo contract which checks the presence of a custom header

        @has_header X-CustomHeader

    """

    name = 'has_header'

    def pre_process(self, response):

        for header in self.args:

            if header not in response.headers:

                raise ContractFail('X-CustomHeader not present')

爬虫：Scrapy16 - Spider Contracts的更多相关文章

爬虫基础spider 之(一) --- 初识爬虫
爬虫概念 (spider,网络蜘蛛)通过互联网上一个个的网络节点,进行数据的提取.整合以及存储.从而获取我们想要的部分 robots协议 robots协议不是技术层面的协议,只是一个君子协定: 首先在 ...
【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider
[爬虫入门01]我第一只由Reuests和BeautifulSoup4供养的Spider 广东职业技术学院欧浩源 1.引言网络爬虫可以完成传统搜索引擎不能做的事情,利用爬虫程序在网络上取得数据 ...
第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...
十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip2.安装,wheel(建议网络安装) pip install wheel ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
【爬虫】从零开始使用 Scrapy
一. 概述最近有一个爬虫相关的需求,需要使用 scrapy 框架来爬取数据,所以学习了一下这个非常强大的爬虫框架,这里将自己的学习过程记录下来,希望对有同样需求的小伙伴提供一些帮助. 本文主要从下面 ...
Python之路【第二十三篇】爬虫
difference between urllib and urllib2 自己翻译的装逼必备 What is the difference between urllib and urllib2 mo ...
python之路 - 爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...
爬虫的入门以及scrapy
一.简介网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

随机推荐

中期ppt制作
陀螺仪的使用解释:https://zhuanlan.zhihu.com/p/29244429 手机坐标轴的图片:http://jcjs.siat.ac.cn/ch/reader/create_pdf. ...
在Linux文件清空的几种方法
在Linux文件清空的几种方法 1.使用重定向的方法 [root@centos7 ~]# du -h test.txt 4.0K test.txt [root@centos7 ~]# > tes ...
【PHP基础】序列化serialize()与反序列化unserialize()
序列化serialize()与反序列化unserialize(): 序列化serialize():就是将一个变量所代表的 “内存数据”转换为“字符串”的形式,并持久保存在硬盘(写入文件中保存)上的一种 ...
php数据加密及数据存储和传输
一.前言个人认为,PHP是世界上为数不多,最人性化的语言. 虽然是二次开发.弱类型语言,由C/C++编写的PHP引擎去解析.但是,其代码优雅性和其运行速度不亚于,其他编译语言. 二.PHP数据加密 ...
Python 对象（type/object/class）作用域一等函数（慕课--Python高级，IO并发第二章）
在python中一共有两种作用域:全局作用域和函数作用域全局作用域:在全局都有效,全局作用域在程序执行时创建,在程序执行结束时销毁:所有函数以外的区域都是全局作用域:在全局作用域中定义的变量,都属于全 ...
PHP小练习题
前几天在百度知道里面看到有位网友询问如何制作一下的小程序:用php语言设计一个小程序,计算今天到达下月的天数.全部输出这些天数,并使得每天的日期以三种颜色循环显示,设置三个表单,让用户选择字体颜色,然 ...
Python学习之函数参数
上一节,我们学习了Python中是如何定义和调用函数且如何得到返回值的.在调用函数时,有的函数需要参数来启动函数,有的则无需参数.这一节我们来介绍Python中有哪些参数类型. 位置参数在调用函数时 ...
Cache、Buffer的区别
什么是Cache?什么是Buffer?二者的区别是什么? Buffer和Cache的区别 buffer与cache操作的对象就不一样. 1.buffer(缓冲)是为了提高内存和硬盘(或其他I/O设备) ...
python开发基础之字符编码、文件处理和函数基础
字符编码为什么要有字符编码? 字符编码是为了让计算机能识别我们人写的字符,因为计算机只认识高低电平,也就是二进制数"0","1". 一个文件用什么编码方式存储 ...
Hive环境搭建及基本操作
伪分布式一.安装及配置Hive 1.配置HADOOP_HOME和Hive conf 目录hive-env.sh # Set HADOOP_HOME to point to a specific ha ...