scrapy(网络爬虫)———CrawlSpider（规则爬虫）

CrawlSpider（规则爬虫）

一 .简介：它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取的工作更适合。

二.创建爬虫命令：

1.前提是已经创建好爬虫项目了，若没有创建好项目，请使用 scrapy startproject 项目名

进入项目目录

2.在项目目录下执行创建规则爬虫：scrapy genspider -t crawl 爬虫名称爬取域名

三.在pycharm中编写规则爬虫文件

1.爬虫文件中导入的Link Extractors：

class scrapy.linkextractors.LinkExtractor

作用是：

每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，类中定义了Response中的链接的提取规则，并返回一个 scrapy.link.Link 对象，返回的是符合链接匹配对象的列表。

Link Extractors要实例化一次，并且extract_links 方法会根据不同的 response 调用多次提取链接｡

2.Link Extractors 中的主要参数：

allow：满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。（使用最多）

deny：与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。

allow_domains：会被提取的链接的domains。

deny_domains：一定不会被提取链接的domains。

restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接。

3.rules

在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接，则根据规则在本集合中被定义的顺序，第一个会被使用



class scrapy.spiders.Rule(

        link_extractor,

        callback = None,

        cb_kwargs = None,

        follow = None,

        process_links = None,

        process_request = None

解释一下以上参数：

link_extractor：是一个Link Extractor对象，用于定义需要提取的链接。
callback：从link_extractor中每获取到链接时，参数所指定的值作为回调函数，该回调函数接受一个response作为其第一个参数。

注意：当编写爬虫规则时，避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑，如果覆盖了 parse方法，crawl spider将会运行失败。
follow：是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow 默认设置为True ，否则默认为False。
process_links：指定该spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。
process_request：指定该spider中哪个的函数将会被调用，该规则提取到每个request时都会调用该函数。 (用来过滤request)

callback对应的函数

不要写parse

不要写parse！！！

四、以腾讯社招为例，编写crawlspider规则爬虫文件

# -*- coding: utf-8 -*-

import scrapy

from tencentpro.items import TencentproItem

from scrapy.spider import CrawlSpider,Rule

# 导入链接匹配规则，用来提取符合规则的链接

from scrapy.linkextractors import LinkExtractor

class TencentdataSpider(CrawlSpider):

    name = 'tencentdata'

allowed_domains = ['hr.tencent.com']

    start_urls = ['https://hr.tencent.com/position.php?&start=0#a']

    rules = (

        # 先去匹配列表页链接

Rule(LinkExtractor(allow=r'start=\d+'), follow=True),

        # 匹配详情页数据

Rule(LinkExtractor(allow=r'id=\d+'), callback='parse_item',follow=False),

    )

    def parse_item(self, response):

        # 处理详情页数据

item=TencentproItem()

        positionname=response.xpath('//td[@class="l2 bold size16"]/text()').extract()[]

        positionaddress=response.xpath('//tr[@class="c bottomline"]/td[1]/text()').extract()[]

        content=response.xpath('//ul[@class="squareli"]/li/text()').extract()

        content="".join(content)

        item['positionname']=positionname

        item['positionaddress']=positionaddress

        item['content']=content

        print(content)

        yield item

然后编写pipeline文件，运行程序，即可

更多见：https://blog.csdn.net/qq_42281826/article/details/81021280

scrapy(网络爬虫)———CrawlSpider（规则爬虫）的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...
爬虫框架之Scrapy（三 CrawlSpider）
如何爬取一个网站的全站数据? 可以使用Scrapy中基于Spider的递归方式进行爬取(Request模块回调parse方法) 还有一种更高效的方法,就是基于CrawlSpider的自动爬取实现简介 ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参
本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫. 我们选从逻辑上来看,这种爬虫是如何工作的: 我们给定一个起点的url link ,进入页面之后提 ...

随机推荐

初入webform的杂七杂八
客户端---IIS(Internet Information Services的缩写,意为互联网信息服务管理器)---.NET framework---数据库 1.Repeater控件:对应的集合有5 ...
关于dp（背包）
有关背包,我这几天可是尽受其苦(不得不靠我聪颖的背诵代码的大脑来进行一波操作) Step 1 01背包关于01背包的主要代码: ;j<=m;j++) { for(int i=n;i& ...
socketv 验证客户端链接的合法性，socketserver
补充: send()与sendall() 在python socket编程中,有两个发送TCP的函数,send()与sendall(),区别如下: socket.send(string[, flags ...
斯坦福大学公开课机器学习：advice for applying machine learning | diagnosing bias vs. variance（机器学习：诊断偏差和方差问题）
当我们运行一个学习算法时,如果这个算法的表现不理想,那么有两种原因导致:要么偏差比较大.要么方差比较大.换句话说,要么是欠拟合.要么是过拟合.那么这两种情况,哪个和偏差有关.哪个和方差有关,或者是不是 ...
梯度提升树(GBDT)原理小结(转载)
在集成学习值Adaboost算法原理和代码小结(转载)中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boos ...
第二十六节，滑动窗口和 Bounding Box 预测
上节,我们学习了如何通过卷积网络实现滑动窗口对象检测算法,但效率很低.这节我们讲讲如何在卷积层上应用这个算法. 为了构建滑动窗口的卷积应用,首先要知道如何把神经网络的全连接层转化成卷积层.我们先讲解这 ...
pytest 7 assert断言
前言:断言是自动化最终的目的,一个用例没有断言,就失去了自动化测试的意义了. 断言用到的是 assert关键字.之前的介绍,有的测试方法中其实用到了assert断言.简单的来说,就是预期的结果去和实际 ...
memcached 在windows中的部署和使用
第一步:下载memcached 地址:http://www.121down.com/soft/softview-28366.html 第二步:将下载文件解压到文件目录后,打开命令窗口通过cd命令 ...
点赞功能与redis的相遇
https://www.jianshu.com/p/2ab76d5bde71 或者 https://kikoroc.com/2016/06/07/dev-like-function-with-redi ...
CodeForces12D 树状数组降维
http://codeforces.com/problemset/problem/12/D 题意给N (N<=500000)个点,每个点有x,y,z ( 0<= x,y,z <=1 ...

scrapy(网络爬虫)———CrawlSpider（规则爬虫）

四、以腾讯社招为例，编写crawlspider规则爬虫文件

scrapy(网络爬虫)———CrawlSpider（规则爬虫）的更多相关文章

随机推荐

热门专题