Scrapy框架解析

Scrapy框架大致包括以下几个组件：Scrapy Engine、Spiders、Scheduler、Item Pipeline、Downloader；

组件

Scrapy Engine

这是框架的核心，负责控制数据流在整个系统的各个组件间的流动过程，并且在特定动作发生时触发相应事件。

Scheduler

调度程序从Scrapy引擎接受其传递过来的Request对象，并且将该对象加入到队列中，下次Scrapy引擎发出请求时再将对象传递给引擎。

Downloader

下载器负责对目标页面发出请求并且获取到页面反馈的数据，之后传递给Scrapy引擎，最终传递给爬虫进行数据提取。

Spiders

爬虫是Scrapy的用户自行编写的程序用来提取数据，针对下载器返沪的Response进行分析，或者指定其它需要跟进的URL和处理方法。

Item Pipeline

数据管道负责处理被爬虫提取出来的Item数据，可以定义多个数据管道来做多种不同的数据操作，比如数据清理、验证、写入数据库；Item可以在不同的数据管道中进行传递，可以设置每个数据管道的优先级，Item会按照优先级依次经过所有的数据管道。

流程

它的流程图如下：

步骤如下：

启动爬虫程序时，引擎开始爬取程序中给定的爬虫，然后获取到需要抓取的URL网址（可以通过爬虫类的属性Start_urls来指定或者重载爬虫类的start_request方法指定），然后将URL网址的Request传递给调度器；
下载器从调度器那获取到相应的请求后发出请求，获得页面返回的数据，将返回的数据以Response的形式传递给爬虫；
爬虫针对Response中的数据进行分析，提取出相应的数据以后，将数据填充到Item中，并且传递给数据管道；
数据管道根据优先级顺序对Item依次进行处理，经过验证等后将Item中的数据保存到数据库中；
继续从调度器中获取到下一个URL请求传递给下载器，重复第二步后的步骤；
调度器中没有请求时，爬虫引擎则停止程序；

Scrapy爬虫框架解析的更多相关文章

Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
Python-S9-Day126——Scrapy爬虫框架
01 今日内容概要 02 内容回顾和补充:scrapy 03 内容回顾和补充:网络和并发编程 04 Scrapy爬虫框架:pipeline做持久化(一) 05 Scrapy爬虫框架:pipeline做 ...
手把手教你如何新建scrapy爬虫框架的第一个项目（上）
前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看.关于Scrapy的介绍 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影
前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境语言:python 2 ...
Scrapy 爬虫框架学习笔记(未完，持续更新)
Scrapy 爬虫框架 Scrapy 是一个用 Python 写的 Crawler Framework .它使用 Twisted 这个异步网络库来处理网络通信. Scrapy 框架的主要架构根据它官 ...

随机推荐

OpenStack（企业私有云）万里长征第六步——OpenStack网络及虚拟机存储位置
一.前言昨天又装了一遍OpenStack.码农这项工作就如同人生,永远有你想不到的意外在等着你,时而是惊喜时而是悲伤.在装的过程中倒是很顺利,只是在安装完成之后碰到了两个之前没有碰到的问题,这里记录 ...
Entity Framework Core 2.0 全局查询过滤器
不定时更新翻译系列,此系列更新毫无时间规律,文笔菜翻译菜求各位看官老爷们轻喷,如觉得我翻译有问题请挪步原博客地址本博文翻译自: http://gunnarpeipman.com/2017/08/ef ...
编译器报错：'IHTMLControlElement' : redefinition
由于我安装了platform SDK,编译导致错误: error C2367: 'IHTMLControlElement' : redefinition; different uuid specifi ...
java调用copy复制子文件夹及文件到指定目录（非xcopy）
因为作所以烦因为烦所以快乐...(为什么不先查一下有没有现成的命令,后悔啊!!) 不知道有xcopy这个命令就自己想写个复制子目录和文件的功能...以下故事诞生了是这样的,昨天在学校弄的半成品,半成 ...
mysql为什么范围查询(>,<,between,%like,like%)之后的索引无效
因为使用了范围索引,所以会使用满足范围的所有的值,也就是说存储引擎在这个时候会提取出满足之后条件的所有值,并遍历获取满足之后条件的值. http://www.itpub.net/thread-1901 ...
shell解析命令行的过程以及eval命令
本文说明的是一条linux命令在执行时大致要经过哪些过程?以及这些过程的大致顺序. 1.1 shell解析命令行 shell读取和执行命令时的大致操作过程如下图: 以执行以下命令为例: echo -e ...
Java 开发环境配置（Windows篇）
window系统安装java 下载JDK 首先我们需要下载java开发工具包JDK,下载地址:http://www.oracle.com/technetwork/java/javase/downloa ...
MySQL 数据库修改登录密码
MySQL 数据库修改登录密码.. -------- mysql修改密码默认的密码为空:mysql -u root -p第一次更改密码:mysqladmin -uroot -p password x ...
k-临近算法学习
本章主要内容: k-临近算法是通过对象本身的特征将对象划分到某一类型中去,比如电影中的题材类型的分类是,可能就会考虑到电影中出现的镜头出现的次数的多少将电影划分为动作电影,爱情电影等等,本次的随笔参考 ...
Python之set
set set集合,是一个无序且不重复的元素集合 set的优势 set 的访问数度快 set 原生解决数据重复问题 # 数据库中原有 old_dict = { "#1":{ 'ho ...

Scrapy爬虫框架解析