全站爬取1

基于管道的持久化存储

  • 数据解析(爬虫类)

  • 将解析的数据封装到item类型的对象中(爬虫类)

  • 将item提交给管道, yield item(爬虫类)

  • 在管道类的process_item中接手收item对象, 并进行任意形式的持久化存储操作(管道类)

  • 在配置文件中开启管道

  • 细节:

    • 将爬取到的数据进行备份:一个管道类对应一种平台的持久化存储

    • 有多个管道类是否意味着多个管道类都可以接收到爬虫文件提交的item?

      只有优先级最高的管道才会接收到item,其余的管道是从优先级最高的管道类中接收item

基于Spider父类进行全站数据的爬取

  • 全站数据的爬取:将所有页码对应的页面数据进行爬取
  • 手动发送请求 (get): yield scrapy.Request(url, callback)
  • 对yield的总结:
    • 向管道提交item时, yield item
    • 手动发送请求: yield scrapy.Request(url, callback)
  • 手动发送请求 (post): yield scrapy.Request(url, formdata, callback)

scrapy请求传参

  • 作用: 实现深度爬取

  • 使用场景: 使用scrapy爬取的数据没有存在于同一个页面中,

  • 传递item: yield Request(url, callback, meta={'item':item})

  • 接收item: response.meta['item']

提升scrapy爬取数据的效率

在配置文件中进行相关配置即可.

  • 增加并发: 默认scrapy开启的并发线程为32个, 可以适当进行增加. 在settings配置文件中修改CONCURRENT_REQUESTS=100
  • 降低日志级别: 在运行scrapy时, 会有大量日志信息的输出, 为了减少CPU的使用率, 可以设置log输出信息为INFO或ERROR即可, 在配置文件中写入 LOG_LEVEL='INFO'
  • 禁止cookie: 如果不是真的需要cookie, 则在scrapy爬取数据时可以禁止cookie, 从而减少CPU的使用率, 提升爬取效率. 在配置文件中设置COOKIES_ENABLED=False
  • 禁止重试: 对失败的HTTP进行重新请求会减慢爬取速度, 因此可以禁止重试. 在配置文件中设置RETRY_ENABLED=False
  • 减少下载超时: 如果对一个非常慢的链接进行爬取, 减少下载超时可以能让卡住的链接被快速放弃, 提升效率. 在配置文件中设置DOWNLOAD_TIMEOUT=10, 设置超时时间为10秒.

scrapy的中间件

  • 爬虫中间件

  • 下载中间件(重点): 处于引擎和下载器之间

    • 作用: 批量拦截所有的请求和响应
    • 拦截请求, 可以篡改请求的头信息, 进行UA伪装; 或者篡改请求对应的IP代理
    • 拦截响应, 可以篡改响应数据, 或者篡改响应对象
  • selenium在scrapy中的使用流程

    • 在爬虫类中定义一个browser属性, 其实就是实例化的浏览器对象
    • 在爬虫类重写父类的closed(self, spider)方法, 并在该方法中关闭browser
    • 在中间件中进行浏览器自动化操作

图片懒加载

  • 应用到标签的伪属性, 数据捕获的时候要基于伪属性进行.
  • 专门用于二进制数据下载和持久化存储的管道类: ImagePipeline

全站爬取2

CrawlSpider

  • 一种基于scrapy进行全站数据爬取的一种新的技术手段
  • CrawlSpider是Spider的一个子类
    • 连接提取器: LinkExtractor
    • 规则解析器: Rule
  • 使用流程:
    • 新建工程
    • cd 工程中, 新建一个爬虫文件 scrapy genspider -t crawl spider_name www.xxx.com
    • 编写爬虫程序

爬虫---scrapy全站爬取的更多相关文章

  1. scrapy全站爬取拉勾网及CrawSpider介绍

    一.指定模板创建爬虫文件 命令 创建成功后的模板,把http改为https 二.CrawSpider源码介绍 1.官网介绍: 这是用于抓取常规网站的最常用的蜘蛛,因为它通过定义一组规则为跟踪链接提供了 ...

  2. python爬虫scrapy框架——爬取伯乐在线网站文章

    一.前言  1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...

  3. 爬虫 Scrapy框架 爬取图虫图片并下载

    items.py,根据需求确定自己的数据要求 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # S ...

  4. scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium

    今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置 全站爬取cnblgos文章 存储数据 爬虫中间件和下载中间件 加代理,加header,集成selenium 内 ...

  5. Scrapy+selenium爬取简书全站

    Scrapy+selenium爬取简书全站 环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容 文字标题 作者 作者头像 发布日期 内容 文章连接 文章ID 思路 分 ...

  6. 爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式

    爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式 目录 爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...

  7. scrapy使用爬取多个页面

    scrapy是个好玩的爬虫框架,基本用法就是:输入起始的一堆url,让爬虫去get这些网页,然后parse页面,获取自己喜欢的东西.. 用上去有django的感觉,有settings,有field.还 ...

  8. scrapy_全站爬取

    如何查询scrapy有哪些模版? scrapy genspider –list 如何创建crawl模版? scrapy genspider -t crawl 域名 scrapy genspider - ...

  9. scrapy增量爬取

    ​开始接触爬虫的时候还是初学Python的那会,用的还是request.bs4.pandas,再后面接触scrapy做个一两个爬虫,觉得还是框架好,可惜都没有记录都忘记了,现在做推荐系统需要爬取一定的 ...

随机推荐

  1. Go值类型和引用类型+作用域+空白标识符+常量

    值类型和引用类型 所有像 int.float.bool 和 string 这些基本类型都属于值类型,使用这些类型的变量直接指向存在内存中的值: 当使用等号 = 将一个变量的值赋值给另一个变量时,如:j ...

  2. Python入门随记(4)

    在涉及一些实际问题,会碰到概率论等相关领域的知识,自然少不了矩阵运算,以下是Python中关于矩阵的简单操作: 1.常用库numpy import numpy as np 2.随机生成矩阵 a=np. ...

  3. Python入门随记(3)

    1.len() 长度或规模函数 2.Unicode转为单字符用chr() 单字符转为Unicode用ord() 3.关于字符的操作函数 函数 作用 lower() 变为小写 upper() 变为大写 ...

  4. 2022 年最受瞩目的新特性 CSS @layer 到底是个啥?

    步入 2022,CSS 的新特性层出不穷,而最近在 CSS 圈最受瞩目的新特性,非 CSS @layer 莫属. 本文,将用最简洁的语言,快速让读者们搞懂,到底什么是 CSS @layer 新规范. ...

  5. C 如何将输出的地址转化为十进制数

    •需求 这两天在看内存对齐的相关问题,因此产生了一个,如何将地址转换为十进制数? 对于如下程序: void func() { int a = 10; printf("a 的地址为:%p\n& ...

  6. 4月19日 python学习总结 套接字模块的使用

    服务端: import socket phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM) # 买电话 phone.bind(('127.0.0 ...

  7. 从零开始,开发一个 Web Office 套件(12):删除文字 & 回车换行

    这是一个系列博客,最终目的是要做一个基于 HTML Canvas 的.类似于微软 Office 的 Web Office 套件(包括:文档.表格.幻灯片--等等). 博客园:<从零开始, 开发一 ...

  8. 数字IC笔试题-芯源

    前言 由于最近开始找数字IC的工作,所以准备多练笔试题,下面贴上芯源笔试题,来源微信公众号<数字IC打工人> 参考资源: 1. mu_guang_ 2.  李锐博恩 3. 长弓的坚持 4. ...

  9. Blazor 003 : Razor的基础语法

    上文,我们通过剖析一个最简单的 Blazor WASM 项目,讲明白了 Razor 文件是什么,以及它被转译成 C#后长什么样子.也介绍了 Razor 中最简单的一个语法:Razor Expressi ...

  10. 《Java多线程编程核心技术》知识梳理

    <Java多线程编程核心技术> @author ergwang https://www.cnblogs.com/ergwang/ 文章末尾附pdf和png下载链接 第1章 Java多线程技 ...