python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

CrawlSpider实现的全站数据的爬取

新建一个工程
cd 工程
创建爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com
连接提取器LinkExtractor
- 可以根据指定的规则对指定的连接进行提取
  - 提取的规则就是构造方法中的allow（‘正则表达式’）参数决定
规则解析器Rule
- 可以将将连接提取器提取到的连接进行请求发送，可以根据指定的规则（callback）对请求到的数据进行解析
follow=True:将连接提取器继续作用到连接提取器提取到的连接所对应的页面源码中

分布式

实现方式：scrapy+scrapy_redis组件实现的分布式。scrapy+redis
原生的scrapy是不可以实现分布式的！！！
什么是分布式
- 需要搭建一个由n台电脑组成的机群，然后在每一台电脑中执行同一组程序，让其对同一个网络资源
  进行联合且分布的数据爬取。
为什么scrapy不可以实现分布式
- 调度器不可以被共享
- 管道不可以被共享
scrapy-reids组件的作用是什么
提供可以被共享的管道和调度器
分布式的实现流程
- 环境的安装：pip install scrapy-redis
- 创建工程
- cd 工程
- 创建爬虫文件：
  - 基于Spider
  - 基于CrawlSpider
- 修改爬虫文件：
  - 导报：
    from scrapy_redis.spiders import RedisCrawlSpider#基于crawlSpider爬虫文件
    from scrapy_redis.spiders import RedisSpider #基于Spider爬虫文件
  - 将当前爬虫类的父类修改为RedisCrawlSpider
  - 删除allowed_domains和start_urls
  - 添加一个redis_key = ‘xxx’属性，表示的是调度器队列的名称、
  - 根据常规形式编写爬虫文件后续的代码
- 修改settings配置文件
  - 指定管道
    ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
    }
  - 指定调度器
    
    增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
    
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    
    使用scrapy-redis组件自己的调度器
    
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    
    配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
    
    SCHEDULER_PERSIST = True
  - 指定redis数据库
    REDIS_HOST = '192.168.13.254'
    REDIS_PORT = 6379
- 修改redis的配置文件redis.windows.conf
  - 关闭默认绑定
    - 56行：#bind 127.0.0.1
  - 关闭保护模式
    - 75行：protected-mode no
- 启动redis的服务端（携带配置文件）和客户端
- 启动分布式的程序：
  - scrapy runspider xxx.py
- 向调度器的队列中扔入一个起始的url
  - 队列是存在于redis中
  - redis的客户端中：lpush sun www.xxx.com
- 在redis中就可以查看爬取到的数据

增量式

概念：监测
核心技术：去重
适合使用增量式的网站：
- 基于深度爬取
  - 对爬取过的页面的url进行一个记录（记录表）
- 基于非深度爬取
  - 记录表：爬取过的数据对应的数据指纹
    - 数据指纹：就是原始数据的一组唯一标识
所谓的记录表是以怎样的形式存在于哪？
- redis的set充当记录表

反爬机制

robots
UA伪装
图片懒加载
验证码
cookie
动态加载的数据
动态变化的请求参数
js加密
js混淆
代理

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制的更多相关文章

python爬取实习僧招聘信息字体反爬
参考博客:http://www.cnblogs.com/eastonliu/p/9925652.html 实习僧招聘的网站采用了字体反爬,在页面上显示正常,查看源码关键信息乱码,如下图所示: 查看网页 ...
Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
Python爬虫工程师必学APP数据抓取实战✍✍✍
Python爬虫工程师必学APP数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
Python爬虫工程师必学——App数据抓取实战
Python爬虫工程师必学 App数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据
写在前面今天要抓取的网站为 https://500px.me/ ,这是一个摄影社区,在一个摄影社区里面本来应该爬取的是图片信息,可是我发现好像也没啥有意思的,忽然觉得爬取一下这个网站的摄影师更好玩一 ...
crawlSpider全站爬取分布式
# 如何提升scrapy爬取数据的效率? 推荐: 单线程加异步协程增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings.py中修改 CONCURRENT_REQU ...
爬虫 crawlSpider 分布式增量式提高效率
crawlSpider 作用:为了方便提取页面整个链接url,不必使用创参寻找url,通过拉链提取器,将start_urls的全部符合规则的URL地址全部取出使用:创建文件scrapy startp ...
Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据
程序说明:抓取斗鱼直播平台的直播房间号及其观众人数,最后统计出某一时刻的总直播人数和总观众人数. 过程分析: 一.进入斗鱼首页http://www.douyu.com/directory/all 进入 ...
python爬虫---实现项目(二) 分析Ajax请求抓取数据
这次我们来继续深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,我们所需的数据是通过ajax渲染到页面上去的,这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Reques ...

随机推荐

块 /宏块(MB)/片(Slice/片组/图像(picture) 对应关系
根据包含关系从大到小顺序排列序列(GOP)-> 帧(I/IDR/P/B)-> 片组 -> 片(slice)-> 宏块(Block)-> 块(Macro Block ...
C#中的函数(一) 无参无返回值的函数
分析下C#中的函数先写一个小例子,一个静态函数,无返回值,无形参在第17行与20行分别下断点 F5调试运行,此时中断在第17行MyFunction(), 在第17行右键反汇编,看下反汇编代码这里 ...
C语言常用库函数实现
1.memcpy函数 memcpy 函数用于把资源内存(src所指向的内存区域) 拷贝到目标内存(dest所指向的内存区域):拷贝多少个?有一个size变量控制拷贝的字节数: 函数原型:void * ...
Python面向对象 | 类属性
property property是一个装饰器函数,可以将一个方法伪装成属性,调用的时候可以不用加().@property被装饰的方法,是不能传参数的,因为它伪装成属性了. 装饰器的使用:在要装饰的函 ...
pychram-redis破解
1. Preferences -> Plugins-> 选择右下角Browse repositories 2. 搜索Iedis 3. 找到Iedis插件目录:C:\Users\用户名\.P ...
解决github release下载慢/下载失败的问题
在使用github时,有时作者会在release中提供编译好的程序,以https://github.com/AkikoZ/alfred-web-search-suggest为例,是一个alfred3的 ...
android studio 修改选中内容背景色，以及匹配的内容背景色
#与选中内容匹配的内容背景色Editor -> Color Scheme -> General -> Code -> Identifier under caret #选中内容前 ...
MySQL重要知识点
可能是全网最好的MySQL重要知识点 | mp.weixin.qq.com 点击蓝色“程序猿DD”关注我回复“资源”获取独家整理的学习资料! 标题有点标题党的意思,但希望你在看了文章之后不会有这个 ...
【Activiti学习之三】Activiti API(二)
环境 JDK 1.8 MySQL 5.6 Tomcat 7 Eclipse-Luna activiti 6.0 一.流程定义1.中止与激活流程定义 package com.wjy.pd; import ...
CentOS7 CPU 降频问题
CentOS7 系统默认的 CPUPOWER 策略是 powersave 节能模式,Google 了非常多的资料,一直没有找到解决办法,现在分享一下. 执行: tuned-adm profile th ...

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

CrawlSpider实现的全站数据的爬取

分布式

增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

使用scrapy-redis组件自己的调度器

增量式

反爬机制

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制的更多相关文章

随机推荐

热门专题