爬虫---scrapy全站爬取

全站爬取1

基于管道的持久化存储

数据解析（爬虫类）
将解析的数据封装到item类型的对象中（爬虫类）
将item提交给管道， yield item（爬虫类）
在管道类的process_item中接手收item对象，并进行任意形式的持久化存储操作（管道类）
在配置文件中开启管道
细节：
- 将爬取到的数据进行备份：一个管道类对应一种平台的持久化存储
- 有多个管道类是否意味着多个管道类都可以接收到爬虫文件提交的item？
  
  只有优先级最高的管道才会接收到item，其余的管道是从优先级最高的管道类中接收item

基于Spider父类进行全站数据的爬取

全站数据的爬取：将所有页码对应的页面数据进行爬取
手动发送请求 (get): yield scrapy.Request(url, callback)
对yield的总结:
- 向管道提交item时, yield item
- 手动发送请求: yield scrapy.Request(url, callback)
手动发送请求 (post): yield scrapy.Request(url, formdata, callback)

scrapy请求传参

作用: 实现深度爬取
使用场景: 使用scrapy爬取的数据没有存在于同一个页面中,
传递item: yield Request(url, callback, meta={'item':item})
接收item: response.meta['item']

提升scrapy爬取数据的效率

在配置文件中进行相关配置即可.

增加并发: 默认scrapy开启的并发线程为32个, 可以适当进行增加. 在settings配置文件中修改CONCURRENT_REQUESTS=100
降低日志级别: 在运行scrapy时, 会有大量日志信息的输出, 为了减少CPU的使用率, 可以设置log输出信息为INFO或ERROR即可, 在配置文件中写入 LOG_LEVEL='INFO'
禁止cookie: 如果不是真的需要cookie, 则在scrapy爬取数据时可以禁止cookie, 从而减少CPU的使用率, 提升爬取效率. 在配置文件中设置COOKIES_ENABLED=False
禁止重试: 对失败的HTTP进行重新请求会减慢爬取速度, 因此可以禁止重试. 在配置文件中设置RETRY_ENABLED=False
减少下载超时: 如果对一个非常慢的链接进行爬取, 减少下载超时可以能让卡住的链接被快速放弃, 提升效率. 在配置文件中设置DOWNLOAD_TIMEOUT=10, 设置超时时间为10秒.

scrapy的中间件

爬虫中间件
下载中间件(重点): 处于引擎和下载器之间
- 作用: 批量拦截所有的请求和响应
- 拦截请求, 可以篡改请求的头信息, 进行UA伪装; 或者篡改请求对应的IP代理
- 拦截响应, 可以篡改响应数据, 或者篡改响应对象
selenium在scrapy中的使用流程
- 在爬虫类中定义一个browser属性, 其实就是实例化的浏览器对象
- 在爬虫类重写父类的closed(self, spider)方法, 并在该方法中关闭browser
- 在中间件中进行浏览器自动化操作

图片懒加载

应用到标签的伪属性, 数据捕获的时候要基于伪属性进行.
专门用于二进制数据下载和持久化存储的管道类: ImagePipeline

全站爬取2

CrawlSpider

一种基于scrapy进行全站数据爬取的一种新的技术手段
CrawlSpider是Spider的一个子类
- 连接提取器: LinkExtractor
- 规则解析器: Rule
使用流程:
- 新建工程
- cd 工程中, 新建一个爬虫文件 scrapy genspider -t crawl spider_name www.xxx.com
- 编写爬虫程序

爬虫---scrapy全站爬取的更多相关文章

scrapy全站爬取拉勾网及CrawSpider介绍
一.指定模板创建爬虫文件命令创建成功后的模板,把http改为https 二.CrawSpider源码介绍 1.官网介绍: 这是用于抓取常规网站的最常用的蜘蛛,因为它通过定义一组规则为跟踪链接提供了 ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
爬虫 Scrapy框架爬取图虫图片并下载
items.py,根据需求确定自己的数据要求 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # S ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
scrapy使用爬取多个页面
scrapy是个好玩的爬虫框架,基本用法就是:输入起始的一堆url,让爬虫去get这些网页,然后parse页面,获取自己喜欢的东西.. 用上去有django的感觉,有settings,有field.还 ...
scrapy_全站爬取
如何查询scrapy有哪些模版? scrapy genspider –list 如何创建crawl模版? scrapy genspider -t crawl 域名 scrapy genspider - ...
scrapy增量爬取
开始接触爬虫的时候还是初学Python的那会,用的还是request.bs4.pandas,再后面接触scrapy做个一两个爬虫,觉得还是框架好,可惜都没有记录都忘记了,现在做推荐系统需要爬取一定的 ...

随机推荐

QQ聊天记录快速迁移
QQ聊天记录快速迁移在工作中大家经常会用到QQ来沟通,但是很多时候在其它设备上登录QQ就无法查看到之前的聊天记录和图片,这是因为电脑上的QQ聊天记录一般都是保存在电脑本地硬盘里,所以我们在换设备登录 ...
PHP命令执行集锦
前言代码审计总要遇到命令执行或者说RCE,打CTF的过程中难免不会碰见,毕竟PHP是世界上最好的语言,总结一下命令执行函数 E.g.1 <?php error_reporting(0); s ...
JAVA 线上问题排查方法
CPU 磁盘内存 GC问题网络线上故障主要会包括cpu.磁盘.内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍. 同时例如jstack.jma ...
Linux 查询文件内容重复数 uniq、sort命令
前提:uniq只能查询数据相邻的重复次数,而sort可以查询乱序的重复次数. 原谅我,以下内容都是复制菜鸟驿站的!!! Linux uniq 命令用于检查及删除文本文件中重复出现的行列,一般与 sor ...
Superset安装部署操作
目录 1.安装Miniconda 1.下载Miniconda 2.安装 3.开启一个新的shell窗口 4.设置新窗口不自动开启conda 2.创建Python3.7环境 1.配置国内镜像 2.常用命 ...
centOS 7 离线安装 MySQL 5.6 完美安装
centOS 7 离线安装 MySQL 5.6 centOS 7 离线安装 MySQL 5.6 准备环境 1.离线 centOS 7(此处为 centOS 7 最小安装) 2.nginx 安装文件 ( ...
解决福大aTrust深信服无法访问部分页面的问题
如果你原先使用过天融信,hosts里会留下 #################################################### Add by VONE SSL VPN Clien ...
Redis+Caffeine两级缓存，让访问速度纵享丝滑
原创:微信公众号码农参上,欢迎分享,转载请保留出处. 在高性能的服务架构设计中,缓存是一个不可或缺的环节.在实际的项目中,我们通常会将一些热点数据存储到Redis或MemCache这类缓存中间件中, ...
eclipse启动指定jvm的版本
参阅:https://www.eclipse.org/forums/index.php/t/1105435/ https://wiki.eclipse.org/Eclipse.ini#-vm_valu ...
(转载) MOS管区分NP沟道
三极管是流控型器件,MOS管是压控型器件,两者存在相似之处.三极管机可能经常用,但MOS管你用的可能较少.对于MOS管先抛出几个问题: 如何区分P-MOS和N-MOS: 如何区分MOS的G.D.S ...

爬虫---scrapy全站爬取

全站爬取1

基于管道的持久化存储

基于Spider父类进行全站数据的爬取

scrapy请求传参

提升scrapy爬取数据的效率

scrapy的中间件

图片懒加载

全站爬取2

CrawlSpider

爬虫---scrapy全站爬取的更多相关文章

随机推荐

热门专题