【Python】Scrapy基础

一、Scrapy 架构

Engine（引擎）：负责 Spider（爬虫）、Item Pipeline（管道）、Downloader（下载器）、Scheduler（调度器）中的通讯和数据传递。
Scheduler：接受 Engine 发送过来的 Request 请求，按照一定方式入队，再交给 Downloader 下载。可实现去重。Scheduler 的请求队列为空时，程序才会终止。
Downloader：下载 Engine 发送（中间通过Scheduler）的所有 Requests 请求，并将其获取到的 Responses 交还给 Engine，由 Engine 交给 Spider 处理。
Spider：处理所有 Responses ①提取 Item 字段需要的数据，交给 Pipeline 存储 ②将需要跟进的 URL 提交给 Engine，再进入 Scheduler。
Item Pipeline：负责处理 Spider 提取到的 Item，并进行后期处理，例如分析过滤数据，按自己定制的格式保存到 json、数据库等。
Downloader Middlewares：自定义扩展下载功能，例如给每个 Request 加代理、User-Agent 等。
Spider Middlewares：自定义扩展 Engine 和 Spider 中间的通信，例如进入 Spider 的 Responses、从 Spider 出去的Requests。用处不大，大部分爬虫功能在 Spider 里实现。

二、Scrapy 安装

1、Windows

pip install scrapy

2、Linux

安装非 python 依赖：sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
sudo pip install scrapy

三、官方文档

四、

【Python】Scrapy基础的更多相关文章

python scrapy 基础
scrapy是用python写的一个库,使用它可以方便的抓取网页. 主页地址http://scrapy.org/ 文档 http://doc.scrapy.org/en/latest/index.ht ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
python scrapy 抓取脚本之家文章(scrapy 入门使用简介)
老早之前就听说过python的scrapy.这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫.使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就 ...
Python——Scrapy初学
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.Scrapy最初是为了页面抓取(更确切来说, 网络抓取)所设计的,也 ...
python scrapy版极客学院爬虫V2
python scrapy版极客学院爬虫V2 1 基本技术使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课 ...
python Scrapy安装和介绍
python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel ...
Python.Scrapy.14-scrapy-source-code-analysis-part-4
Scrapy 源代码分析系列-4 scrapy.commands 子包子包scrapy.commands定义了在命令scrapy中使用的子命令(subcommand): bench, check, ...
Python.Scrapy.11-scrapy-source-code-analysis-part-1
Scrapy 源代码分析系列-1 spider, spidermanager, crawler, cmdline, command 分析的源代码版本是0.24.6, url: https://gith ...
Python文件基础
===========Python文件基础========= 写,先写在了IO buffer了,所以要及时保存关闭.关闭会自动保存. file.close() 读取全部文件内容用read,读取一行用 ...
python scrapy cannot import name xmlrpc_client的解决方案，解决办法
安装scrapy的时候遇到如下错误的解决办法: "python scrapy cannot import name xmlrpc_client" 先执行 sudo pip unin ...

随机推荐

Asp.Net Core WebApi 和Asp.Net WebApi上传文件
public class UpLoadController : ControllerBase { private readonly IHostingEnvironment _hostingEnviro ...
PHP 不同类型之间的松散和严格比较
原始数据类型在比较之前先简单介绍一下PHP的9种原始数据类型,包括四种标量类型: boolean(布尔型) integer(整型) float(浮点型,也称作 double) string(字符串 ...
python zip()函数
描述 zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表. 如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符 ...
java线程学习之wait方法
wait 等待方法是让线程进入等待队列,使用方法是 obj.wait(); 这样当前线程就会暂停运行,并且进入obj的等待队列中,称作“线程正在obj上等待”. 如果线程想执行 wait 方法,线程必 ...
Dio添加Cookie
在使用Options添加headers时,Map没有定义内部类型: Dio dio = new Dio(); Map headers = new Map(); headers['Cookie'] = ...
Ruby学习笔记之升级ruby的版本
升级ruby版本,有时候安装ruby的版本过低,需要进行升级,例如安装在centos6.7安装fpm需要ruby版本在1.9以上. 0x00 主机环境如下 [root@test ~]# cat /et ...
原创《开源一个用 vue 写的树层级组件 vue-ztree》
最近由于后台管理项目的需要,页面需要制作一个无限树的需求,我第一感就想到了插件 ztree,不过我觉得它太大了,还是自己动手丰衣足食吧. ztree 的 demo 地址:http://www.tree ...
day19
""" time 用于处理时间相关 1.获取时间 2.不同格式的时间转换 3.sleep函数"""import time# 浮点型的时间戳 ...
JS(JavaScript）的进一步了解6（更新中···）
元素的属性 div.attributes 是所有标签属性构成的数据集合 div.classList 是所有class名构成的数组集合在classList的原型链上看以看到add()和remove() ...
【配置】MongoDB配置文件详细配置
# 数据文件位置 dbpath = /opt/module/mongoData # 日志文件位置 logpath = /opt/module/mongoLog/mongodb.log # 以追加方式写 ...

【Python】Scrapy基础

【Python】Scrapy基础的更多相关文章

随机推荐

热门专题