Scrapy框架之CrawlSpider

提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？

方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。

方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）

简介

CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适

使用

　　1.创建scrapy工程：

　　scrapy startproject projectName

　　2.创建爬虫文件：

　　scrapy genspider -t crawl spiderName www.xxx.com

　　　　--此指令对比以前的指令多了 "-t crawl"，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。

　　3.观察生成的爬虫文件

# -*- coding: utf- -*-

import scrapy

from scrapy.linkextractors import LinkExtractor  # 链接解析器

from scrapy.spiders import CrawlSpider, Rule  # 当前爬虫类对应父类 和规则解析器

class CrawldemoSpider(CrawlSpider):

    name = 'crawlDemo'

    # allowed_domains = ['www.x.com']

    start_urls = ['http://www.x.com/']

    # 规则解析器对象:将连接提取器提取到的连接对应的页面源码数据根据只用要求进行解析

    rules = (

        Rule(LinkExtractor(allow=r'Items/'),  # 连接提取器:前提(follow=False),作用就是用来提取起始url对应页面中符合要求的连接

             callback='parse_item',  # follow=True:让连接提取器继续作用在连接提取器提取出的来连接所对应的页面源码中

             follow=True),

    )

    def parse_item(self, response):

        i = {}

        # i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

        # i['name'] = response.xpath('//div[@id="name"]').extract()

        # i['description'] = response.xpath('//div[@id="description"]').extract()

        return i

CrawlSpider类和Spider类的最大不同是CrawlSpider多了一个rules属性，其作用是定义”提取动作“。在rules中可以包含一个或多个Rule对象，在Rule对象中包含了LinkExtractor对象。

LinkExtractor：顾名思义，链接提取器。

　　　　LinkExtractor(

　　　　　　　   allow=r'Items/'，# 满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。

　　　　　　　　 deny=xxx,  # 满足正则表达式的则不会被提取。

　　　　　　　　 restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

　　　　　　　　 restrict_css=xxx, # 满足css表达式的值会被提取

　　　　　　　　 deny_domains=xxx, # 不会被提取的链接的domains。　

　　  )

　　　　- 作用：提取response中符合规则的链接。

Rule : 规则解析器。根据链接提取器中提取到的链接，根据指定规则提取解析器链接网页中的内容

参数介绍：

参数1：指定链接提取器

参数2：指定规则解析器解析数据的规则（回调函数）

参数3：是否将链接提取器继续作用到链接提取器提取出的链接网页中。当callback为None,参数3的默认值为true

rules=( ):指定不同规则解析器。一个Rule对象表示一种提取规则

CrawlSpider整体爬取流程：

爬虫文件首先根据起始url，获取该url的网页内容

链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

将解析数据封装到item中，然后提交给管道进行持久化存储

简单代码实战应用

爬取糗事百科糗图板块的所有页码数据

爬虫文件

# -*- coding: utf- -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class CrawldemoSpider(CrawlSpider):

    name = 'qiubai'

    #allowed_domains = ['www.qiushibaike.com']

    start_urls = ['https://www.qiushibaike.com/pic/']

    #连接提取器：会去起始url响应回来的页面中提取指定的url

    link = LinkExtractor(allow=r'/pic/page/\d+\?') #s=为随机数

    link1 = LinkExtractor(allow=r'/pic/$')#爬取第一页

    #rules元组中存放的是不同的规则解析器（封装好了某种解析规则)

    rules = (

        #规则解析器：可以将连接提取器提取到的所有连接表示的页面进行指定规则（回调函数）的解析

        Rule(link, callback='parse_item', follow=True),

        Rule(link1, callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        print(response)

爬虫文件

汽车之家图片爬取

https://www.cnblogs.com/clbao/articles/10847193.html

Scrapy框架之CrawlSpider的更多相关文章

爬虫scrapy框架之CrawlSpider
爬虫scrapy框架之CrawlSpider 引入提问:如果想要通过爬虫程序去爬取全站数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模 ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之(CrawlSpider)
一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调pa ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...

随机推荐

oldboy s21day14装饰器模块和面试题
# 1.为函数写一个装饰器,在函数执行之后输入 after"""def wrapper(arg): def inner(*args): arg() print('afte ...
clickhouse的使用和技巧,仅个人
centos 安装clickhouse curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script. ...
ARIMA模型原理
一.时间序列分析北京每年每个月旅客的人数,上海飞往北京每年的游客人数等类似这种顾客数.访问量.股价等都是时间序列数据.这些数据会随着时间变化而变化.时间序列数据的特点是数据会随时间的变化而变化. 随 ...
JMX/RMI Nice ENGAGE <= 6.5 Remote Command Execution
CVE ID : CVE-2019-7727 JMX/RMI Nice ENGAGE <= 6.5 Remote Command Execution description=========== ...
通配符的匹配很全面, 但无法找到元素 'mvc:annotation-driven' 的声明
通配符的匹配很全面, 但无法找到元素 'mvc:annotation-driven' 的声明错误原因是springmvc中的约束信息不对 <beans xmlns="http://w ...
Spring-Boot配置文件web性能（服务器）配置项
参数介绍server.address 服务器应绑定到的网络地址server.compression.enabled = false 如果启用响应压缩server.compression.exclud ...
python 中的__new__方法
1.有关__new__方法的介绍 __new__方法调用在构造方法构造实例之前,即在__init__方法执行之前,我们可以这样理解,他的作用是决定是否适用这个__iint__方法来构造实例,但是需要注 ...
第一天学JAVA，下载JDK，配置JAVA环境变量！！！
步骤一:下载JDK https://www.oracle.com 我们首先进入到这个网站下载我们运行JAVA的所必须的JDK 进入到这个网站按照图示进入到下一个页面因为刚学JAVA,我们的JDK版本 ...
Mysql_存储过程
1.navicat新建存储过程选择过程增加输入输出参数(若是无参,直接点击完成) 完成后代码如下: CREATE DEFINER = CURRENT_USER PROCEDURE `kxy_pr ...
2018-2019-2 20165337《网络对抗技术》Exp2 后门原理与实践
基础问题回答 (1)例举你能想到的一个后门进入到你系统中的可能方式? 下载破解游戏,盗版电影或安装来历不明的软件,可能被留下后门. (2)例举你知道的后门如何启动起来(win及linux)的方式? w ...

Scrapy框架之CrawlSpider

简介

使用

简单代码实战应用

Scrapy框架之CrawlSpider的更多相关文章

随机推荐

热门专题