对scrapy进行单元测试 -- 使用betamax

使用betamax进行单元测试
- 爬虫代码
- 测试代码

对于scrapy的单元测试，官方文档并没有提到，只是说有一个Contract功能。但是相信我，这个东西真的不好用，甚至scrapy的作者在一个issue中都说到希望删去这个功能。

那么scrapy应该怎么测试呢？

首先我们要明白我们真正想测试的是什么：

我们不是要测试爬虫是否能访问站点！这个应该在你编写爬虫的时候就做到；如果你的代码在运行突然不可以访问站点了，也应该使用sentry这种日志监控系统。
我们要测试parse(), parse_xx()方法是否如预期返回想要的item和request
我们要测试parse()返回的item中字段类型是否正确。尤其是你用了scrapy的processor系统之后

使用betamax进行单元测试

关于betamax的介绍，可以看我的这篇博客。

我们实际要做的不仅是单元测试¹，还是集成测试²。我们不想每次都重复进行真实的请求，我们不想使用啰嗦的mock。

爬虫代码

下面是我们的爬虫代码，这是爬取一个ip代理网站，获取最新发布的ip:

# src/spider.py

import scrapy

from scrapy.loader import ItemLoader

from scrapy.loader.processors import TakeFirst, MapCompose, Join

class IPItem(scrapy.Item):

    ip = scrapy.Field(

        input_processor=MapCompose(str, str.strip),

        output_processor=TakeFirst()

    )

    port = scrapy.Field(

        input_processor=MapCompose(str, str.strip),

        output_processor=TakeFirst()

    )

    protocol = scrapy.Field(

        input_processor=MapCompose(str, str.strip, str.lower),

        output_processor=TakeFirst()

    )

    remark = scrapy.Field(

        input_processor=MapCompose(str, str.strip),

        output_processor=Join(separator=', ')

    )

    source = scrapy.Field(

        input_processor=MapCompose(str, str.strip),

        output_processor=TakeFirst()

    )

class IpData5uSpider(scrapy.Spider):

    name = 'ip-data5u'

    allowed_domains = ['data5u.com']

    start_urls = [

        'http://www.data5u.com/free/index.shtml',

        'http://www.data5u.com/free/gngn/index.shtml',

    ]

    custom_settings = {

        'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

        'DOWNLOAD_DELAY': 1

    }

    def parse(self, response):

        for row in response.css('div.wlist ul.l2'):

            loader = ItemLoader(item=IPItem(), selector=row)

            loader.add_value('source', 'data5u')

            loader.add_css('ip', 'span:nth-child(1) li::text')

            loader.add_css('port', 'span:nth-child(2) li::text')

            loader.add_css('protocol', 'span:nth-child(4) li::text')

            loader.add_css('remark', 'span:nth-child(5) li::text')

            loader.add_css('remark', 'span:nth-child(5) li::text')

            yield loader.load_item()

测试代码

我们使用pytest编写项目的单元测试，首先我们编写一些fixture函数:

# tests/conftest.py

import pathlib

import pytest

from scrapy.http import HtmlResponse, Request

import betamax

from betamax.fixtures.pytest import _betamax_recorder

# betamax配置，设置betamax录像带的存储位置

cassette_dir = pathlib.Path(__file__).parent / 'fixture' / 'cassettes'

cassette_dir.mkdir(parents=True, exist_ok=True)

with betamax.Betamax.configure() as config:

    config.cassette_library_dir = cassette_dir.resolve()

    config.preserve_exact_body_bytes = True

@pytest.fixture

def betamax_recorder(request):

    """修改默认的betamax pytest fixtures

    让它默认可用接口pytest.mark.parametrize装饰器，并且生产不同的录像带.

    有些地方可能会用到

    """

    return _betamax_recorder(request, parametrized=True)

@pytest.fixture

def resource_get(betamax_session):

    """这是一个pytest fixture

    返回一个http请求方法，相当于:

    with Betamax(session) as vcr:

        vcr.use_use_cassette('这里是测试函数的qualname')

        resp = session.get(url, *args, **kwargs)

        # 将requests的Response，封装成scrapy的HtmlResponse

        return HtmlResponse(body=resp.content)

    """

    def get(url, *args, **kwargs):

        request = kwargs.pop('request', None)

        resp = betamax_session.get(url, *args, **kwargs)

        selector = HtmlResponse(body=resp.content, url=url, request=request)

        return selector

    return get

然后是测试函数:

# tests/test_spider/test_ip_spider.py

from src.spider import IpData5uSpider, IPItem

def test_proxy_data5u_spider(resource_get):

    spider = IpData5uSpider()

    headers = {

        'user-agent': spider.custom_settings['USER_AGENT']

    }

    for urlr in spider.start_urls:

        selector = resource_get(url, headers=headers, request=req)

        result = spider.parse(selector)

        for item in result:

            if isinstance(item, IPItem):

                assert isinstance(item['port'], str)

                assert item['ip']

                assert item['protocol'] in ('http', 'https')

            elif isinstance(item, Request):

                assert item.url.startswith(req.url)

            else:

                raise ValueError('yield 输出了意料外的item')

然后我们运行它:

>>> pytest

...

Results (2.12s):

       1 passed

我们可以看到fixture目录出现新的文件，类似xxx.tests.test_spiders.test_ip_spider.test_proxy_data5u_spider.json这样的文件名.

再运行一次:

>>> pytest

...

Results (0.56s):

       1 passed

测试运行速度明显变快，这是因为这一次使用的是保存在fixture的文件，用它来代替进行真正的http request操作。

另外我们可以看一下fixture中json文件的内容:

{"http_interactions": [{"request": {"body": {"encoding": "utf-8", "base64_string": ""}, "headers": {"user-agent": ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"], "Accept-Encoding": ["gzip, deflate"], "Accept": ["*/*"], "Connection": ["keep-alive"]}, "method": "GET", "uri": "http://www.data5u.com/free/index.shtml"}, "response": {"body": {"encoding": "UTF-8", "base64_string": "H4sIAAAAAAx..."}]}

可以看到这里保存了一个response的全部信息，通过这个response再构造一个request.Response也不是难事吧。这就是betamax的原理。