Scrapy框架之CrawlSpider

提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？

方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。

方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）

简介

CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适

使用

　　1.创建scrapy工程：

　　scrapy startproject projectName

　　2.创建爬虫文件：

　　scrapy genspider -t crawl spiderName www.xxx.com

　　　　--此指令对比以前的指令多了 "-t crawl"，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。

　　3.观察生成的爬虫文件

# -*- coding: utf- -*-

import scrapy

from scrapy.linkextractors import LinkExtractor  # 链接解析器

from scrapy.spiders import CrawlSpider, Rule  # 当前爬虫类对应父类 和规则解析器

class CrawldemoSpider(CrawlSpider):

    name = 'crawlDemo'

    # allowed_domains = ['www.x.com']

    start_urls = ['http://www.x.com/']

    # 规则解析器对象:将连接提取器提取到的连接对应的页面源码数据根据只用要求进行解析

    rules = (

        Rule(LinkExtractor(allow=r'Items/'),  # 连接提取器:前提(follow=False),作用就是用来提取起始url对应页面中符合要求的连接

             callback='parse_item',  # follow=True:让连接提取器继续作用在连接提取器提取出的来连接所对应的页面源码中

             follow=True),

    )

    def parse_item(self, response):

        i = {}

        # i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

        # i['name'] = response.xpath('//div[@id="name"]').extract()

        # i['description'] = response.xpath('//div[@id="description"]').extract()

        return i

CrawlSpider类和Spider类的最大不同是CrawlSpider多了一个rules属性，其作用是定义”提取动作“。在rules中可以包含一个或多个Rule对象，在Rule对象中包含了LinkExtractor对象。

LinkExtractor：顾名思义，链接提取器。

　　　　LinkExtractor(

　　　　　　　   allow=r'Items/'，# 满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。

　　　　　　　　 deny=xxx,  # 满足正则表达式的则不会被提取。

　　　　　　　　 restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

　　　　　　　　 restrict_css=xxx, # 满足css表达式的值会被提取

　　　　　　　　 deny_domains=xxx, # 不会被提取的链接的domains。　

　　  )

　　　　- 作用：提取response中符合规则的链接。

Rule : 规则解析器。根据链接提取器中提取到的链接，根据指定规则提取解析器链接网页中的内容

参数介绍：

参数1：指定链接提取器

参数2：指定规则解析器解析数据的规则（回调函数）

参数3：是否将链接提取器继续作用到链接提取器提取出的链接网页中。当callback为None,参数3的默认值为true

rules=( ):指定不同规则解析器。一个Rule对象表示一种提取规则

CrawlSpider整体爬取流程：

爬虫文件首先根据起始url，获取该url的网页内容

链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

将解析数据封装到item中，然后提交给管道进行持久化存储

简单代码实战应用

爬取糗事百科糗图板块的所有页码数据

爬虫文件

# -*- coding: utf- -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class CrawldemoSpider(CrawlSpider):

    name = 'qiubai'

    #allowed_domains = ['www.qiushibaike.com']

    start_urls = ['https://www.qiushibaike.com/pic/']

    #连接提取器：会去起始url响应回来的页面中提取指定的url

    link = LinkExtractor(allow=r'/pic/page/\d+\?') #s=为随机数

    link1 = LinkExtractor(allow=r'/pic/$')#爬取第一页

    #rules元组中存放的是不同的规则解析器（封装好了某种解析规则)

    rules = (

        #规则解析器：可以将连接提取器提取到的所有连接表示的页面进行指定规则（回调函数）的解析

        Rule(link, callback='parse_item', follow=True),

        Rule(link1, callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        print(response)

爬虫文件

汽车之家图片爬取

https://www.cnblogs.com/clbao/articles/10847193.html

Scrapy框架之CrawlSpider的更多相关文章

爬虫scrapy框架之CrawlSpider
爬虫scrapy框架之CrawlSpider 引入提问:如果想要通过爬虫程序去爬取全站数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模 ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之(CrawlSpider)
一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调pa ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...

随机推荐

python之路（9）反射、包装类、动态模块导入
目录反射利用继承二次包装标准类利用授权二次包装标准类动态模块导入反射 python提供自省的四个方法: hasattr(object,name) 判断object中有没有有个name字符串 ...
2018-2019-2 《Java程序设计》第7周学习总结
20175319 2018-2019-2 <Java程序设计>第7周学习总结教材学习内容总结本周学习<Java程序设计>第8章: 1.String类: Java专门提供了用 ...
（三）初探maven之使用IDE
一.在IDE中使用maven 打开Eclipse,在菜单栏依次选中window => preferences => Maven => Installations , 然后添加 ...
第四周WordCount优化
一.GitHub地址 https://github.com/kawoyi/Advanced-WordCounter最终由组长整合的组长github 二.psp表格三.个人模块及实现我负责的是输入模 ...
MySQL学习13 - 索引
一.索引的介绍二 .索引的作用三.常见的几种索引: 3.1 普通索引 3.2 唯一索引 3.3 主键索引 3.4 组合索引四.索引名词五.正确使用索引的情况什么是最左前缀呢? 六.索引的注意 ...
微信小程序常见的坑
wxml的标签跟html里面的一些标签是一样的,比如view标签相当于div标签,text标签相当于span标签. 在微信小程序中,表单元素都是原生组件,微信小程序中原生组件层级最高,所以在用inpu ...
css3混合模式
https://juejin.im/entry/5b4802d15188251ac446d3a9
jQuery mouse and lunbo
自动轮播和鼠标事件var arr = ["images/d.jpg", "images/q.jpg", "images/c.jpg", ...
Unsafe 的简单使用
Unsafe 简介 Unsafe 是sun.misc包中的一个类,可以通过内存偏移量操作类变量/成员变量 Unsafe 用途 AQS(AbstractQueuedSynchronizer) 常用作实现 ...
rsyncd启动脚本
#!/bin/bash ############################################################## # File Name: -.sh # Versi ...

Scrapy框架之CrawlSpider

简介

使用

简单代码实战应用

Scrapy框架之CrawlSpider的更多相关文章

随机推荐

热门专题