Python 爬虫-Scrapy爬虫框架

2017-07-29 17:50:29

Scrapy是一个快速功能强大的网络爬虫框架。

Scrapy不是一个函数功能库，而是一个爬虫框架。爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。

一、Scrapy框架介绍

5+2结构，5个主要模块加2个中间件。

（1）Engine：控制所有模块之间的数据流；根据条件触发事件。不需要用户修改

（2）Downloader：根据请求下载网页。不需要用户修改

（3）Scheduler：对所有爬取请求进行调度管理。不需要用户修改

（4）Downloader Middleware：实施Engine、Scheduler和Downloader之间进行用户可配置的控制，进行修改、丢弃、新增请求或响应。用户可以编写配置代码

（5）Spider：解析Downloader返回的响应（Response）；产生爬取项（scraped item）；产生额外的爬取请求（Request）。需要用户编写配置代码

（6）Item Pipelines：以流水线方式处理Spider产生的爬取项；由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型；可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。需要用户编写配置代码

（7）Spider Middleware：对请求和爬取项的再处理，进行修改、丢弃、新增请求或爬取项。用户可以编写配置代码

流程介绍

数据流的三个路径--1：

1 Engine从Spider处获得爬取请求(Request)
2 Engine将爬取请求转发给Scheduler，用于调度

数据流的三个路径--2：

3 Engine从Scheduler处获得下一个要爬取的请求
4 Engine将爬取请求通过中间件发送给Downloader
5 爬取网页后，Downloader形成响应（Response，通过中间件发给Engine
6 Engine将收到的响应通过中间件发送给Spider处理

数据流的三个路径--3：

7 Spider处理响应后产生爬取项（scraped Item和新的爬取请求（Requests）给Engine
8 Engine将爬取项发送给Item Pipeline（框架出口）
9 Engine将爬取请求发送给Scheduler

数据流的出入口以及用户需要配置的部分

二、Scrapy库和 Requests库的比较

相同点：

两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线
两者可用性都好，文档丰富，入门简单
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

区别：

非常小的需求，requests库
不太小的需求，Scrapy框架，能够持续的爬取信息，并积累成自己的爬取库
定制程度很高的需求（不考虑规模），自搭框架，requests > Scrapy

Python 爬虫-Scrapy爬虫框架的更多相关文章

dota玩家与英雄契合度的计算器，python语言scrapy爬虫的使用
首发:个人博客,更新&纠错&回复演示地址在这里,代码在这里. 一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码: 1.python的scrapy爬虫,总体思路是pag ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
Python之Scrapy爬虫框架入门实例（一）
一.开发环境 1.安装 scrapy 2.安装 python2.7 3.安装编辑器 PyCharm 二.创建scrapy项目pachong 1.在命令行输入命令:scrapy startproject ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
【python】Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
Python使用Scrapy爬虫框架全站爬取图片并保存本地(妹子图)
大家可以在Github上clone全部源码. Github:https://github.com/williamzxl/Scrapy_CrawlMeiziTu Scrapy官方文档:http://sc ...
11.Python使用Scrapy爬虫小Demo（新手入门）
1.前提:已安装好scrapy,且已新建好项目,编写小Demo去获取美剧天堂的电影标题名 2.在项目中创建一个python文件 3.代码如下所示: import scrapy class movies ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...

随机推荐

mysql中delete和truncate区别
delete和truncate区别如下: 一.灵活性:delete可以条件删除数据,而truncate只能删除表的所有数据: delete from table_test where ... trun ...
Filter—过滤器
过滤器的作用是什么? 1.拦截传入的请求和传出的响应,能拿到请求和响应中的数据 2.监视,修改,或处理正在客户端和服务器之间交换的数据流 3.利用过滤器的执行时机,实现Web程序的预处理,和后期的处 ...
Mysql闭包表之关于国家区域的一个实践
在电商系统中,我们总是会遇到一些树形结构数据的存储需求.如地理区域.位置信息存储,地理信息按照层级划分,会分为很多层级,就拿中国的行政区域划分为例,简单的省-市-县-镇-村就要五个级别.如果系统涉及到 ...
hive 配置参数说明（收藏版）
问题导读: 如何设置reduce的个数? Hive 默认的数据文件存储路径? Hive 默认的输出文件格式? 是否开启 map/reduce job的并发提交? 所允许的最大的动态分区的个数? hiv ...
linux常用命令：lsof 命令
lsof(list open files) 是一个列出当前系统打开文件的工具.在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件.所以如传输控制 ...
python-安装，设置环境变量（win10）
python官网: https://www.python.org/ 选择需要的版本下载下载后安装我装的是默认位置C:\Python27 打开环境变量设置: 右键电脑--->属性----> ...
如何合并两个Git仓库
欢迎和大家交流技术相关问题: 邮箱: jiangxinnju@163.com 博客园地址: http://www.cnblogs.com/jiangxinnju GitHub地址: https://g ...
OpenGL边用边学------2 经典照相机模型
https://blog.csdn.net/smstong/article/details/50290327 实际照相步骤 1 布置场景和调整照相机位置 3 选择镜头对焦Focus 4 按下快门 5 ...
Win32 API编程：使用CreateProcess创建新进程
#include <windows.h> #include <tchar.h> #include <stdio.h> int main(int argc, char ...
VC++实现获取文件占用空间大小的两种方法(非文件大小)
// GetFileSpaceSize.cpp : Defines the entry point for the console application. // /***************** ...

Python 爬虫-Scrapy爬虫框架

Python 爬虫-Scrapy爬虫框架的更多相关文章

随机推荐

热门专题