总结自:Spiders — Scrapy 2.5.0 documentation

Spider

1、综述

①在回调函数Parse及其他自写的回调函数中,必须返回Item对象、Request对象、或前两种对象的迭代器形式。这些Requests同样也必须包含一个回调函数,之后它们的Response会被特定的回调函数处理;

注:除了start_request方法,其他方法的回调函数必须手动实现在Spider中,如果不写回调函数,会默认视为parse方法。

②在回调函数中,我们通常通过Selector(或BeautifulSoup、lxml、...)爬取页面内容,并用爬取到的数据构造Items

③这些从Spider中返回的Item通常会经过Pipeline处理之后放入数据库或者通过输出命令时的输出参数,直接输出到文件中。

2、属性

属性 说明
name Spider的名字,通常直接命名为域名,即网址中不加前缀和后缀的部分
allowed_domains 可选,允许访问的网址范围;只有当OffsiteMiddleware开启时才起作用
start_urls 一个URL List;爬虫开始的URL
custom_settings 关于要被重写的Settings的Dict;具体设置项见Built-in settings reference.
crawler 该参数通过方法from_crawler()设置,标识了爬虫绑定的Crawler对象
settings 一个Setting对象,标识爬虫运行时的配置
logger 日志

3、方法

方法 说明
from_crawler 被Scrapy用于创造spiders,通常不用管,因为该方法和__init__作用差不多,处理要传入的参数时,只需用处理__init__的方法就可以
start_requests Scrapy开始时调用该方法处理start_urls,该方法必须返回一个Request对象。Scrapy只调用该方法一次,所以用该方法创建Generator是安全的。
parse 默认回调函数(当Request并没有指定回调函数时起作用)
log 发送日志信息
closed 当Spider关闭时被调用。该方法与spider_closed标记相关联

3.5、部分方法的说明

①start_requests

如果没有重写该方法,该方法默认会对start_url中的每个URL使用方法Request(url,dont_filter=True)。

重写示例:如果你想在一开始模拟一个登录的POST请求,可以这样写:

def start_requests(self):
return [scrapy.FormRequest('http://www.example.com/login'),
formdata={'user':'jon','pass':'secret'},
callback=self.logged_in)]
def logged_in(self,response):
pass

②parse

默认回调函数;该方法返回:a、爬取到的数据(以Item形式);b、更多后续URL(以Iterable of Request形式);

其他回调函数同样需要返回以上两种数据,这里所说的几种返回形式如下:

# a、item
item['attr1']=values1
...
return item # b、request
return scrapy.Request(...) # a与b的iterable形式
yield item
yield scrapy.Request(...)

4、命令行传入Spider参数

Spider可以接收参数来修正其行为。这些参数的一般用法是:a、定义起始URLs;b、限制爬取网页的特定部分;c、也能用来设置Spider的部分功能;

Spider参数在命令行运行crawl命令时,通过-a项传递进来,传递方式为:-a attr=value

例如:

scrapy crawl myspider -a category=electronics

Spiders可以在其__init__方法中(Spider.py文件中重写__init__,而不是__init__文件中)访问这些传递进来的参数:

import scrapy
class MySpider(scrapy.Spider):
name='myspider' def __init__(self,category=None,*args,**kws):
super(MySpider,self).__init__(*args,**kw)
self.start_urls=[f'http://www.example.com/categories/{category}']

默认的__init__方法将接收任何Spider参数并将它们复制为Spiders的属性,所以这些传递进来的参数,可以在Spiders.py中的任意方法中通过self.attr的方式访问。

需要注意的是,这些传递进来的参数全都是string,且名字不要设置为start_urls

5、继承Spider

Scrapy中有许多有用的继承Spider,你可以用它们作为父类写自己的Spider。

在以下的例子中,假设我们项目中的Item文件为:

import scrapy
class TestItem(scrapy.Item):
id=scrapy.Field()
name=scrapy.Field()
description=scrapy.Field()

5.1、CrawlSpider

这个Spider是爬取有规律的URL时最常用的Spider,因为其提供了一个方便的机制去获取一系列具有一定规则的URL。

①属性

除了继承自Spider的那些属性外(见本节第2部分),还有一个属性rules

rules:一个Rule对象List,List中的每个Rule都定义了一个爬取URL的规则。如果有多种rules同时匹配了同一个URL,那么只会使用这些rule中第一个(按顺序)。

关于Rule对象,可以看5.1.③

②方法

除了继承自Spider的方法外,还有一个方法parse_start_url

该方法只为start_urls中的URL提供处理方法(原因是,首页的URL可能与那些规则并不一致,需要额外处理,这个处理函数就是该方法)。该方法同样必须返回a、Item对象;b、Request对象;c、包含上述两项的Iterable对象。

③Rule

scrapy.spiders.Rule(
link_extractor, callback,
cb_kewargs, follow, errback,
process_links, process_request
)

参数:

参数 说明
link_extractor

Link Extractor对象;定义了需要爬取的URL规则。

如果省略该项,那么视为无规则,将提取所有URL

callback

回调函数;对符合规则的URL用回调函数进行处理。

回调函数构造时,接收Response作为其第一个参数且必须返回一个Item或Request对象(或它们的Iterable)。这些Response对象将包含这些Link的文本信息,如果要访问它们的话,可以在Reponse对象的meta属性(meta是Dict)中,通过link_text作为Key访问

cb_kwargs 一个Dict;其中包含了传入回调函数中的参数
follow Boolean;每个Response中的link是否应该遵循Rule进行跟进(即每个Response中如果有符合Rule的URL,是否也对该URL进行爬取),如果没指定callback,那么该项默认为True,否则为False
process_links 符合Rule的Link进行处理的函数。可以用于筛选。当调用该方法之后,才会再调用callback方法。
process_request 对通过Rule提取到的Request调用该方法。该方法接收两个参数:Request与Response(产生参数Request的那个Response)。必须返回一个Request对象或None。
errback 异常处理调用函数

注意:

当自己写CrawlSpider子类时,需要明确指定callback响应函数,否则会产生预期之外的错误。

④例子

import scrapy
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor class MySpider(CrawlSpider):
name='example'
allowed_domains=['example.com']
start_urls=['http://www.example.com']
rules=(
Rule(LinkExtractor(allow=('category\.php',),deny=('subsection\.php',))),
Rule(LinkExtractor(allow=('item\.php',)),callback='parse_item'),
)
def parse_item(self,response):
self.logger.info('Hi,this is an item page!%s',response.url)
item=scrapy.Item()
item['id']=response.xpath('//td[@id="item_id"]/text()').re(r'ID:(\d+)')
item['name']=response.xpath('//td[@id="item_name"]/text()').extract()[0]
item['description']=response.xpath('//td[@id="item_description"]/text()').extract()[0]
item['link_text']=response.meta['link_text']
url=response.xpath('//td[@id="additional_data"]/@href').get()
return response.follow(url,self.parse_additional_page,cb_kwargs=dict(item=item))
def parse_additional_page(self,response,item):
item['additional_data']=response.xpath('//p[@id="additional_data"]/text()').get()
return item

这个Spider的作用是爬取example.com的首页,并收集category、item的链接,用parse_item爬取后续页面。对每个Item Response,一些数据将会从该HTML中通XPath表达式提取出来,并且这些数据将会填充到Item项。

Scrapy(六):Spider的更多相关文章

  1. eclipse+PyDev 中报错"scrapy.spiders.Spider" ,可用"# @UndefinedVariable"压制.

    # -*- coding:utf-8 -*- ''' Created on 2015年10月22日 (1.1) 例子来源: http://scrapy-chs.readthedocs.org/zh_C ...

  2. 让Scrapy的Spider更通用

    1,引言 <Scrapy的架构初探>一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定 ...

  3. scrapy - 给scrapy 的spider 传值

    scrapy - 给scrapy 的spider 传值 方法一: 在命令行用crawl控制spider爬取的时候,加上-a选项,例如: scrapy crawl myspider -a categor ...

  4. scrapy分布式Spider源码分析及实现过程

    分布式框架scrapy_redis实现了一套完整的组件,其中也实现了spider,RedisSpider是在继承原scrapy的Spider的基础上略有改动,初始URL不在从start_urls列表中 ...

  5. Scrapy:为spider指定pipeline

    当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...

  6. Scrapy框架-Spider和CrawlSpider的区别

    目录 1.目标 2.方法1:通过Spider爬取 3. 通过CrawlSpider爬取 1.目标 http://wz.sun0769.com/index.php/question/questionTy ...

  7. Scrapy框架-Spider

    目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取 ...

  8. scrapy之spider模块

    scrapy中的spider的用法 : 1.scrapy命令行可以传参数给构造器 scrapy crawl myspider -a category=electronics 构造器接收传入的参数 im ...

  9. 爬虫框架Scrapy之Spider

    Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及 ...

  10. Scrapy的Spider类和CrawlSpider类

    Scrapy shell 用来调试Scrapy 项目代码的 命令行工具,启动的时候预定义了Scrapy的一些对象 设置 shell Scrapy 的shell是基于运行环境中的python 解释器sh ...

随机推荐

  1. 大厂面试:一个四年多经验程序员的BAT面经(字节、阿里、腾讯)

    前言 上次写了篇欢聚时代的面经,公众号后台有些读者反馈说看的意犹未尽,希望我尽快更新其他大厂的面经,这里先说声抱歉,不是我太懒,而是项目组刚好有个活动要赶在春节前上线,所以这几天经常加班,只能工作之余 ...

  2. for、while、do...while循环结构

    循环结构分别有: while 循环 do...while 循环 for 循环 在Java5中引入了一种主要用于数组的增强型for循环 while 循环 while是最基本的循环,它的结构为: whil ...

  3. Java GUI界面补充总结(不定期补充)

    一.Java中如何设置各类组件透明 感谢原文:https://kslsi.iteye.com/blog/2096608 补充:Frame透明:AWTUtilities.setWindowOpacity ...

  4. Python中处理日期时间库的使用方法

    常用的库有time.datetime.其中datetime库是对time库的封装,所以使用起来更加便捷.date是指日期时间(年月日)处理,time往往更加细小的单位(小时分秒等)的时间处理. 一.d ...

  5. Redis-46面试题

    1.什么是 Redis?简述它的优缺点? Redis 的全称是:Remote Dictionary.Server,本质上是一个 Key-Value 类型的内存数据库,很像 memcached,整个数据 ...

  6. webpack打包如何统一js和css中图片资源路径

    目前项目应用的是vue-cli,自行修改了部分配置.三个环境的情况跟你差不多,测试/生产环境的层级比你还深. 先说下修改了哪些配置 1-build/utils.js下的cssLoaders内的gene ...

  7. 【转】python导出依赖库

    原文链接:https://www.cnblogs.com/ceshixuexi/p/8283372.html 在Python开发的过程中,经常会遇到各种各样的小问题,比如在一台计算机上调试好的程序,迁 ...

  8. python办公自动化系列之金蝶K3自动登录(二)

    接上一篇博文python办公自动化系列之金蝶K3自动登录(一),我们接着聊聊利用python脚本实现金蝶K3 Wise客户端自动登录这一需求. 如上图所示,自动选择[组织机构]后,我们还需要驱动[当前 ...

  9. go基础——数组array

    package main import "fmt" /* 数组: array数组属于值类型,存储的是数值本身,数据传递给其他变量时传递的是数据的副本. slice,map等属于引用 ...

  10. abp vnext 调试

    在用Abp或者asp.net core 开发过程中,难免会遇到稀奇古怪的问题,需要对底层源代码进行调试,下面就教大家如何通过配置Visual Studio 2019来进行调试: 首先我们通过查看Abp ...