CrawlSpider模板

crawlSpider

创建CrawlSpider模板 scrapy genspider -t crawl <爬虫名字> <域名>

模板代码示例：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class XxxSpider(CrawlSpider):
    name = 'xxx'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = {}
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        return i

CrawlSpider 继承自Spider 类，除了（name, allowed_domains, start_urls）之外，还定义了rules

rules

CrawlSpider使用rules来定义爬虫的爬取规则，并将匹配后的url自动拼接完整构造成请求提交给引擎。所以在正常情况下，CrawlSpider不需要单独手动返回请求了。
在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了某种特定操作，比如提取当前相应内容里的特定链接，是否对提取的链接跟进爬取，对提交的请求设置回调函数等。
如果多个rule匹配了相同的链接，则根据规则在本集合中被定义的顺序，第一个会被使用。
Rule对象的参数
- LinkExtracto 链接提取器，用于提取需要爬取的链接
- callback 回调函数，提取的url请求对应的响应的处理函数，函数名是一个字符型
  - 注意：当编写爬虫规则时，避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑，如果覆盖了 parse方法，crawl spider将会运行失败。
- follow 是否跟进链接，True表示跟进，就是在请求的url页面，有满足这个规则的url会被继续提取，然后组成Request发送跟调度器排队继续请求
- process_links：指定该spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。
- process_request：指定该spider中哪个的函数将会被调用，该规则提取到每个request时都会调用该函数。 (用来过滤request)
LinkExtractor
- allow：满足括号中正则表达式的URL会被提取，如果为空，则全部匹配。
- deny：满足括号中正则表达式的URL一定不提取（优先级高于allow）。
- allow_domains：会被提取的链接的domains。
- deny_domains：一定不会被提取链接的domains。
- restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接。

案例

crawlSpider爬取腾讯招聘

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from craw_spider.items import PositionItem, DetailItem

class HrSpider(CrawlSpider):
    name = 'hr'
    allowed_domains = ['hr.tencent.com']
    start_urls = ['https://hr.tencent.com/position.php?start=0']

    rules = (
        # 提起职位基本信息规则
        Rule(LinkExtractor(allow=r'position\.php\?&start=\d+#a'),
             callback='parse_item',
             follow=True),

        # 提取职位详情页规则
        Rule(LinkExtractor(allow=r'position_detail\.php\?id=\d+'),
             callback='parse_detail',
             follow=False),
    )

    def parse_item(self, response):
        item = PositionItem()
        trs = response.xpath(
            '//table[@class="tablelist"]/tr[@class="even"] | //table[@class="tablelist"]/tr[@class="odd"]')
        for tr in trs:
            item['position_name'] = tr.xpath('./td/a/text()').extract_first()
            item['position_type'] = tr.xpath('./td[2]/text()').extract_first()
            item['position_num'] = tr.xpath('./td[3]/text()').extract_first()
            item['position_addr'] = tr.xpath('./td[4]/text()').extract_first()
            item['publish_data'] = tr.xpath('./td[5]/text()').extract_first()
            yield item

    def parse_detail(self, response):
        item = DetailItem()
        item['position_require'] = response.xpath('//table[@class="tablelist textl"]/tr[3]/td/ul/li//text()').extract()
        item['position_duty'] = response.xpath('//table[@class="tablelist textl"]/tr[4]/td/ul/li//text()').extract()
        yield item

其他组件的使用和Spider是一样的

CrawlSpider模板的更多相关文章

python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...
Scrapy框架-CrawlSpider
目录 1.CrawlSpider介绍 2.CrawlSpider源代码 3. LinkExtractors:提取Response中的链接 4. Rules 5.重写Tencent爬虫 6. Spide ...
Scrapy 使用CrawlSpider整站抓取文章内容实现
刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实 ...
Scrapy框架——使用CrawlSpider爬取数据
引言本篇介绍Crawlspider,相比于Spider,Crawlspider更适用于批量爬取网页 Crawlspider Crawlspider适用于对网站爬取批量网页,相对比Spider类,Cr ...
scrapy爬取微信小程序社区教程（crawlspider）
爬取的目标网站是: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1 目的是爬取每一个教程的标题,作者,时间和 ...
CrawlSpiders
1.用 scrapy 新建一个 tencent 项目 2.在 items.py 中确定要爬去的内容 # -*- coding: utf-8 -*- # Define here the models f ...
三、scrapy后续
CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com 我们通过正则表达 ...
scrapy入门与进阶
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...
scrapy框架整理
0.安装scrapy框架 pip install scrapy 注:找不到的库,或者安装部分库报错,去python第三方库中找,很详细 https://www.lfd.uci.edu/~gohlke/ ...

随机推荐

Problem - 1062 http://acm.hdu.edu.cn/showproblem.php?pid=1062
对输入字符串的字符的倒置,在这个程序中,我觉得自己最大的问题是怎么识别一个字符,代码中有t个字符串,每个字符串,每个字符串中有若干个单词,单词之间有空格,所以对于下列的正确答案,我的疑惑是当我键盘输入 ...
一般处理程序、Ajax多图片上传带进度条
<!DOCTYPE html><html><head> <meta charset="utf-8" /> <tit ...
Angular No name was provided for external module 'XXX' in output.globals 错误
Angular 7 开发自定义库时,引用ngZorroAntd,build过程中出现 No name was provided for external module 'ng-zorro-antd' ...
活代码LINQ——02
一.复习基础——属性与实例变量 'Fig. 4.8:GradeBookTest.vb 'Create and manipulate a GradeBook object. Module GradeBo ...
R语言最优化(一维)
最优化问题是普遍存在的,以前上运筹学课的时候也接触过最优化相关的问题,当时主要是理论课,并且关注的重点是单纯形法.运输问题以及图论等,这里指的最优化是指函数的最优化,即函数的极值,由于寻找一个局部最优 ...
Django_简单的数据库交互案例
https://www.jianshu.com/p/bd0af02e59ba 一.页面展示做一个简单的数据库交换的练习案例页面.png 二.创建mysql 表 (1)创建django (2)创 ...
python机器可读数据-csv
逗号分隔值(Comma-Separated Values,CSV) 1 csv数据还有一种数据类型,叫制表分隔值(tab-separated values,TSV)数据,有时与CSV归为一类. 若文 ...
C++之类型定义语句--typedef
typedef的作用是给一个已经存在的数据类型起个别名. 使用的语法形式是:typedef 已有类型名新类型名表;. 新类型名表中可以有多个标识符,它们之间用逗号分开,就是在一个typedef ...
Cowboy http服务器 websocket
一.基础介绍 cowboy是一个小巧.快速.模块化的http服务器,采用Erlang开发.其中良好的clean module使得我们可以扩展到多种网络协议之中,cowboy自带的有tcp和ssl,而也 ...
sprigmvc 传值jsp页面
https://blog.csdn.net/qq_41357573/article/details/84675535#如何将controller层值传递到jsp页面

CrawlSpider模板

crawlSpider

rules

案例

CrawlSpider模板的更多相关文章

随机推荐

热门专题