一.CrawlSpider简介

如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？

方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。

方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。

一.简介

　　CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

二.使用

　　1.创建scrapy工程：scrapy startproject projectName

　　2.创建爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com

　　　　--此指令对比以前的指令多了 "-t crawl"，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。

　　3.观察生成的爬虫文件

　　爬虫文件.py

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

#不再是引入spider,而是引入了crawlspider,还引入了LinkExtracor(连接提取器),Rule解析器

class ChoutiSpider(CrawlSpider):

    name = 'chouti'

    #allowed_domains = ['www.xxx.com']

    start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

　　#allow后面跟着正则匹配,用正则去匹配符合的连接
　　#rule规则解析器则会去把提取器提取到的连接发起请求,并把获得的响应对象用回调函数去解析
　　#follow表示是否把连接解析器继续作用到提取到的url中(是否提取全站的url)
　　#这是一个元组

    rules = (

        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        item = {}

        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()

        #item['name'] = response.xpath('//div[@id="name"]').get()

        #item['description'] = response.xpath('//div[@id="description"]').get()

        return item

　　案例一:(全站提取)

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):

    name = 'chouti'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

    #把这个单独写比较好看

    link=LinkExtractor(allow=r'/r/scoff/hot/\d+')

    rules = (

        Rule(link,callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        print(response)

#这样就可以迭代提取到我们想要的所有内容,因为其起始页的url为:https://dig.chouti.com/r/scoff/hot/1

　　案例二:(第一页没有数字编号的)

class ChoutiSpider(CrawlSpider):
    name = 'chouti'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']
    #把这个单独写比较好看

    link=LinkExtractor(allow=r'/text/page/\d+/')
    link1=LinkExtractor(allow=r'/text/')
    rules = (
        Rule(link,callback='parse_item', follow=True),
        Rule(link1, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response)


#注意观察器其实url:

https://www.qiushibaike.com/text/
#第一页没有数字表示

　　案例三:(正匹配会有很多相似的,限定开头或者结尾)

class ChoutiSpider(CrawlSpider):

    name = 'chouti'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/pic/']

    # 把这个单独写比较好看


　　#这边的?记得转义\　　

    link = LinkExtractor(allow=r'/pic/page/\d+\?s=')

    link1 = LinkExtractor(allow=r'/pic/$')  #提取第一页这个匹配会有很多其他的干扰,这些并不是我们想要的,要限定结尾$

    rules = (

        Rule(link, callback='parse_item', follow=True),

        Rule(link1, callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        print(response)

　　注:如果allow没有为空,那就是匹配网页中所有的url

scrapy框架之(CrawlSpider)的更多相关文章

爬虫scrapy框架之CrawlSpider
爬虫scrapy框架之CrawlSpider 引入提问:如果想要通过爬虫程序去爬取全站数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模 ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...

随机推荐

EZOJ #202
传送门分析我们知道选一个点的代价就是他所有出边边权的异或和由于一条边如果两个端点均选边权会异或两次变回0,所以不必担心重复的情况于是直接跑线性基即可代码 #include<bits/s ...
9.python 系统批量运维管理器之Fabric模块
前面介绍了paramiko,pexpect模块,今天来说比较适合大型应用自动化部署的模块,或者执行系统命令的模块Fabric. Fabric 是一个 Python 的库,同时它也是一个命令行工具.它提 ...
在Global.asax文件的Application_BeginRequest中获取request请求内容
protected void Application_BeginRequest(object sender, EventArgs e) { try { string isLogRequest = Sy ...
【转】Android Android属性动画深入分析
转载请注明出处:http://blog.csdn.net/singwhatiwanna/article/details/17841165 开篇像设计模式一样,我们也提出一个问题来引出我们的内容. 问 ...
Sharepoint2013搜索学习笔记之自定义结果源(七)
搜索中心新建好之后在搜索结果页上会默认有所有内容,人员,对话,视频这四个结果分类,每个分类会返回指定范围的搜索结果,这里我再添加了部门日志结果分类,搜索这个分类只会返回部门日志内容类型的搜索结果,要实 ...
owinAuthorize
Nuget包获取 Install-Package Microsoft.AspNet.WebApi.Owin -Version 5.1.2 Install-Package Microsoft.Owin. ...
constexpr函数------c++ primer
constexpr函数是指能用于常量表达式的函数.定义constexpr函数的方法有其他函数类似,不过要遵循几项约定:函数的返回值类型及所以形参的类型都是字面值类型,而且函数体中必须有且只有一条ret ...
Kubernetes 集群部署（3） -- Flannel 集群
1. 下载包 wget https://github.com/coreos/flannel/releases/download/v0.11.0/flannel-v0.11.0-linux-amd64. ...
【bzoj2140】: 稳定婚姻图论-tarjan
[bzoj2140]: 稳定婚姻哎..都是模板题.. 一眼看过去哇二分图哎然后发现好像并不能匈牙利算法自己xjb画两张图,发现二分图左向右连配偶的边,然后右向左连交往过的边然后如果Bi G ...
mybatis 学习笔记（三）：mapper 代理开发 dao 层
mybatis 学习笔记(三):mapper 代理开发 dao 层优势通过使用mapper 代理,我们可以不需要去编写具体的实现类(使用 getMapper() 方法自动生成),只需编写接口即可, ...

scrapy框架之(CrawlSpider)

一.CrawlSpider简介

scrapy框架之(CrawlSpider)的更多相关文章

随机推荐

热门专题