Spider

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。

class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。

主要用到的函数及调用顺序为：

__init__() : 初始化爬虫名字和start_urls列表
start_requests() 调用make_requests_from url():生成Requests对象交给Scrapy下载并返回response
parse() : 解析response，并返回Item或Requests（需指定回调函数）。

Item传给Item pipline持久化，

而Requests交由Scrapy下载，并由指定的回调函数处理（默认parse())，一直进行循环，直到处理完所有的数据为止。

源码参考

#所有爬虫的基类，用户定义的爬虫必须从这个类继承

class Spider(object_ref):

    #定义spider名字的字符串(string)。spider的名字定义了Scrapy如何定位(并初始化)spider，所以其必须是唯一的。

    #name是spider最重要的属性，而且是必须的。

    #一般做法是以该网站(domain)(加或不加 后缀 )来命名spider。 例如，如果spider爬取 mywebsite.com ，该spider通常会被命名为 mywebsite

    name = None

    #初始化，提取爬虫名字，start_ruls

    def __init__(self, name=None, **kwargs):

        if name is not None:

            self.name = name

        # 如果爬虫没有名字，中断后续操作则报错

        elif not getattr(self, 'name', None):

            raise ValueError("%s must have a name" % type(self).__name__)

        # python 对象或类型通过内置成员__dict__来存储成员信息

        self.__dict__.update(kwargs)

        #URL列表。当没有指定的URL时，spider将从该列表中开始进行爬取。 因此，第一个被获取到的页面的URL将是该列表之一。 后续的URL将会从获取到的数据中提取。

        if not hasattr(self, 'start_urls'):

            self.start_urls = []

    # 打印Scrapy执行后的log信息

    def log(self, message, level=log.DEBUG, **kw):

        log.msg(message, spider=self, level=level, **kw)

    # 判断对象object的属性是否存在，不存在做断言处理

    def set_crawler(self, crawler):

        assert not hasattr(self, '_crawler'), "Spider already bounded to %s" % crawler

        self._crawler = crawler

    @property

    def crawler(self):

        assert hasattr(self, '_crawler'), "Spider not bounded to any crawler"

        return self._crawler

    @property

    def settings(self):

        return self.crawler.settings

    #该方法将读取start_urls内的地址，并为每一个地址生成一个Request对象，交给Scrapy下载并返回Response

    #该方法仅调用一次

    def start_requests(self):

        for url in self.start_urls:

            yield self.make_requests_from_url(url)

    #start_requests()中调用，实际生成Request的函数。

    #Request对象默认的回调函数为parse()，提交的方式为get

    def make_requests_from_url(self, url):

        return Request(url, dont_filter=True)

    #默认的Request对象回调函数，处理返回的response。

    #生成Item或者Request对象。用户必须实现这个类

    def parse(self, response):

        raise NotImplementedError

    @classmethod

    def handles_request(cls, request):

        return url_is_from_spider(request.url, cls)

    def __str__(self):

        return "<%s %r at 0x%0x>" % (type(self).__name__, self.name, id(self))

    __repr__ = __str__

主要属性和方法

name

定义spider名字的字符串。

例如，如果spider爬取 mywebsite.com ，该spider通常会被命名为 mywebsite
allowed_domains

包含了spider允许爬取的域名(domain)的列表，可选。
start_urls

初始URL元祖/列表。当没有制定特定的URL时，spider将从该列表中开始进行爬取。
start_requests(self)

该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于爬取（默认实现是使用 start_urls 的url）的第一个Request。

当spider启动爬取并且未指定start_urls时，该方法被调用。
parse(self, response)

当请求url返回网页没有指定回调函数时，默认的Request对象回调函数。用来处理网页返回的response，以及生成Item或者Request对象。
log(self, message[, level, component])

使用 scrapy.log.msg() 方法记录(log)message。更多数据请参见 logging

案例

创建一个新的爬虫：

scrapy genspider loaderman "cnblogs.com"

编写items.py

获取信息字段

class LoadermanItem(scrapy.Item):

    title = scrapy.Field()

    detailUrl = scrapy.Field()

    content = scrapy.Field()

    date = scrapy.Field()

编写LoadermanSpider.py

# -*- coding: utf-8 -*-

import scrapy

from scrapyDemo.items import LoadermanItem

class LoadermanSpider(scrapy.Spider):

    name = 'loaderman'

    allowed_domains = ['http://www.cnblogs.com']

    start_urls = ['http://www.cnblogs.com/loaderman']

    def parse(self, response):

        # filename = "loaderman.html"

        # open(filename, 'w').write(response.body)

        xpathList = response.xpath("//div[@class='post']")

        # items= []

        for each in xpathList:

            # 将我们得到的数据封装到一个 `LoadermanItem` 对象

            item = LoadermanItem()

            # extract()方法返回的都是unicode字符串

            title = each.xpath(".//h2/a[@class='postTitle2']/text()").extract()

            detailUrl = each.xpath(".//a[@class='postTitle2']/@href").extract()

            content = each.xpath(".//div[@class='c_b_p_desc']/text()").extract()

            date = each.xpath(".//p[@class='postfoot']/text()").extract()

            # xpath返回的是包含一个元素的列表

            item['title'] = title[0]

            item['detailUrl'] = detailUrl[0]

            item['content'] = content[0]

            item['date'] = date[0]

            # items.append(item)

            # #将获取的数据交给pipelines

            yield items

        # 返回数据，不经过pipeline

        # return items

编写pipeline.py文件

import json

class LoadermanPipeline(object):

    def __init__(self):

        self.file = open('loaderman.json', 'w')

        # self.file.write("[")

    def process_item(self, item, spider):

        jsontext = json.dumps(dict(item), ensure_ascii=False) + " ,\n"

        self.file.write(jsontext.encode("utf-8"))

        return item

    def close_spider(self, spider):

        # self.file.write("]")

        self.file.close()

在 setting.py 里设置ITEM_PIPELINES

ITEM_PIPELINES = {

    'scrapyDemo.pipelines.LoadermanPipeline': 300,

}

执行爬虫：scrapy crawl loaderman

parse()方法的工作机制：

1. 因为使用的yield，而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果，并判断该结果是一个什么样的类型；
2. 如果是request则加入爬取队列，如果是item类型则使用pipeline处理，其他类型则返回错误信息。
3. scrapy取到第一部分的request不会立马就去发送这个request，只是把这个request放到队列里，然后接着从生成器里获取；
4. 取尽第一部分的request，然后再获取第二部分的item，取到item了，就会放到对应的pipeline里处理；
5. parse()方法作为回调函数(callback)赋值给了Request，指定parse()方法来处理这些请求 scrapy.Request(url, callback=self.parse)
6. Request对象经过调度，执行生成 scrapy.http.response()的响应对象，并送回给parse()方法，直到调度器中没有Request（递归的思路）
7. 取尽之后，parse()工作结束，引擎再根据队列和pipelines中的内容去执行相应的操作；
8. 程序在取得各个页面的items前，会先处理完之前所有的request队列里的请求，然后再提取items。
7. 这一切的一切，Scrapy引擎和调度器将负责到底。

Scrapy之Spider的更多相关文章

eclipse+PyDev 中报错"scrapy.spiders.Spider" ,可用"# @UndefinedVariable"压制.
# -*- coding:utf-8 -*- ''' Created on 2015年10月22日 (1.1) 例子来源: http://scrapy-chs.readthedocs.org/zh_C ...
让Scrapy的Spider更通用
1,引言 <Scrapy的架构初探>一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定 ...
scrapy - 给scrapy 的spider 传值
scrapy - 给scrapy 的spider 传值方法一: 在命令行用crawl控制spider爬取的时候,加上-a选项,例如: scrapy crawl myspider -a categor ...
scrapy分布式Spider源码分析及实现过程
分布式框架scrapy_redis实现了一套完整的组件,其中也实现了spider,RedisSpider是在继承原scrapy的Spider的基础上略有改动,初始URL不在从start_urls列表中 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
Scrapy框架-Spider和CrawlSpider的区别
目录 1.目标 2.方法1:通过Spider爬取 3. 通过CrawlSpider爬取 1.目标 http://wz.sun0769.com/index.php/question/questionTy ...
Scrapy框架-Spider
目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取 ...
scrapy之spider模块
scrapy中的spider的用法 : 1.scrapy命令行可以传参数给构造器 scrapy crawl myspider -a category=electronics 构造器接收传入的参数 im ...
爬虫框架Scrapy之Spider
Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及 ...
Scrapy的Spider类和CrawlSpider类
Scrapy shell 用来调试Scrapy 项目代码的命令行工具,启动的时候预定义了Scrapy的一些对象设置 shell Scrapy 的shell是基于运行环境中的python 解释器sh ...

随机推荐

eval用法
在shell的学习中,我们会遇到这两种符号:反引号(` `)和$(),那么它们之间有什么区别和联系呢? 我们都知道在bash中,反引号和$()都是用来做命令替换的,命令替换就是用来重组命令行,先完成引 ...
php7中的dirname,intdiv,define
<?php //dirname可指定目录级数 //intdiv整数整除 //define可以定义数组 echo dirname('/var/www/html/app/etc/config'); ...
Jenkins的HTML报告增加显示Throughput展示
第一步,在summary中添加在pagelist中添加关于display-QPS部分,参考我的博文的另外一篇. 生成的报告如下:
graylog-日志收集
1.linux主机日志收集使用syslog协议将系统日志发送到graylog上进行收集,可以指定端口 touch /etc/rsyslog.d/graylog.conf *.* @192.168.9 ...
Day01~15 - Python语言基础
Day01 - 初识Python Python简介 - Python的历史 / Python的优缺点 / Python的应用领域搭建编程环境 - Windows环境 / Linux环境 / MacO ...
SparkStreaming运行原理
Spark Streaming应用也是Spark应用,Spark Streaming生成的DStream最终也是会转化成RDD,然后进行RDD的计算,所以Spark Streaming最终的计算是RD ...
谷歌浏览器打开不了Axure生成的html文件
1.首先要进行翻墙.https://www.google.com 搜索Axure chrome软件 2. 3.安装axure插件即可. 4.管理扩展程序,允许访问文件网址.
There is no type initializer in Swift----One answer is to use static, it is the same as class final.
“Unlike stored instance properties, you must always give stored type properties a default value. Thi ...
[React] Handle React Suspense Errors with an Error Boundary
Error Boundaries are the way you handle errors with React, and Suspense embraces this completely. Le ...
Linux定时任务crontab命令
linux 系统则是由 cron (crond) 这个系统服务来控制的.Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的.另外, 由于用户自己也可以设置计划任务,所以,Li ...

Scrapy之Spider