让Scrapy的Spider更通用

1，引言

《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件，Spider负责把网页内容提取出来，而不同数据采集目标的内容结构不一样，几乎需要为每一类网页都做定制。我们有个设想：是否能做一个比较通用的Spider，把定制部分再进一步隔离出去？

GooSeeker网络爬虫平台有一个爬虫群模式，从技术实现层面来考察的话，其实就是把爬虫软件做成一个被动接受任务的执行单元，给他什么任务他就做什么任务，也就是说同一个执行单元可以爬多种不同的网站。而分配任务的是GooSeeker会员中心的爬虫罗盘，实现集中管理分布执行。

Python开源爬虫项目同样也要尽量实现通用化。主要抓取以下2个重点：

网页内容提取器从外部注入到Spider中，让Spider变通用：参看《Python即时网络爬虫：API说明》，通过API从GooSeeker会员中心获得网页内容提取器，可以充分利用MS谋数台的直观标注快速生成提取器的能力。
抓取目标网址不再存于Spider，而是从外部获得：GooSeeker有个基于大数据平台的网址库系统，还有爬虫罗盘可观察网址的抓取状态，也有用户界面添加删除网址，把Spider进一步做成一个执行机构。

下面我们将进一步讲解实现原理，以助于读者阅读源码。

2，爬虫群模式示意图

中间蓝色部分就是GooSeeker会员中心的地址库和爬虫罗盘。网址和提取规则本来应该硬编码到Spider中的，现在隔离出来，由会员中心进行管理，那么Spider就很容易做通用了。

3，通用Spider的主要功能

地址库和提取规则隔离出来以后，Scrapy的Spider可以专注于以下流程：

通过api从GooSeeker会员中心获取内容提取器：这个api的url可以硬编码到Spider中，放在start_urls列表的位置，这里本来是放目标网页地址的，现在换成一个固定的api地址，在这一点上，Spider变通用了
在第一个parse（）过程，不是解析目标网页内容，而是把api中获得内容提取器注入到gsExtractor中。
在第一个parse（）过程，为第二个api构造一个Request，目的是从GooSeeker会员中心获取要爬取的网址
在第二个parse（）过程，用目标网址构造一个Request，这才是真正的交给Loader去下载目标网页
在第三个parse（）过程，利用gsExtractor提取网页内容
在第三个parse（）过程，再次为第二个api构造一个Request，获得下一个目标网址
跳到4，一直循环，直到GooSeeker会员中心的地址库都用完了。

4，接下来的工作

1，按照上述设想编写和调测Scrapy的通用Spider
2，研究是否可以更加通用，把GooSeeker的爬虫群调度都引入到Spider中，也就是在通过第一个api获得提取器之前再增加一个获得爬虫群调度任务的过程，这样，把所有Spider都变成被动接受任务的工作模式，每个Spider是不固定抓取规则的。

6，集搜客GooSeeker开源代码下载源
1， GooSeeker开源Python网络爬虫GitHub源

7，文档修改历史
2016-07-04：V1.0，首次发布
2016-07-04：V1.1，编辑修改，补充过程描述文字

让Scrapy的Spider更通用的更多相关文章

eclipse+PyDev 中报错"scrapy.spiders.Spider" ,可用"# @UndefinedVariable"压制.
# -*- coding:utf-8 -*- ''' Created on 2015年10月22日 (1.1) 例子来源: http://scrapy-chs.readthedocs.org/zh_C ...
scrapy - 给scrapy 的spider 传值
scrapy - 给scrapy 的spider 传值方法一: 在命令行用crawl控制spider爬取的时候,加上-a选项,例如: scrapy crawl myspider -a categor ...
scrapy分布式Spider源码分析及实现过程
分布式框架scrapy_redis实现了一套完整的组件,其中也实现了spider,RedisSpider是在继承原scrapy的Spider的基础上略有改动,初始URL不在从start_urls列表中 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
Scrapy框架-Spider和CrawlSpider的区别
目录 1.目标 2.方法1:通过Spider爬取 3. 通过CrawlSpider爬取 1.目标 http://wz.sun0769.com/index.php/question/questionTy ...
Scrapy框架-Spider
目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取 ...
scrapy之spider模块
scrapy中的spider的用法 : 1.scrapy命令行可以传参数给构造器 scrapy crawl myspider -a category=electronics 构造器接收传入的参数 im ...
爬虫框架Scrapy之Spider
Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及 ...
Scrapy的Spider类和CrawlSpider类
Scrapy shell 用来调试Scrapy 项目代码的命令行工具,启动的时候预定义了Scrapy的一些对象设置 shell Scrapy 的shell是基于运行环境中的python 解释器sh ...

随机推荐

CSS3弹性盒模型布局模块介绍
来源:Robert’s talk原文:http://robertnyman.com/2010/12/02/css3-flexible-box-layout-module-aka-flex-box-in ...
如何在jQuery中使用 setInterval，setTimeout
当遇到setInterval,setTimeout与jquery混用的问题时,直接按JavaScript中的语法写并不起作用,有以下两种解决方法. 方法1. 直接在ready中调用其他方法,会提示缺 ...
高可用集群(HA)之Keeplived原理+配置过程
原理--> 通过vrrp协议,定义虚拟路由,在多个服务节点上进行转移. 通过节点优先级,将初始虚拟路由到优先级高的节点上,checker工作进程检测到主节点出问题时,则降低此节点优先级,从而实现 ...
［XMPP］iOS聊天软件学习笔记［四］
昨天完成了聊天界面,基本功能算告一段落开发时间:五天(工作时间) 开发工具:xcode6 开发平台:iOS8 XMPP框架:XMPPFramework git clone https://githu ...
SQL触发器学习
简介触发器是一种特殊类型的存储过程.触发器分为: DML( 数据操纵语言 Data Manipulation Language)触发器:数据库中表或视图的数据更改时触发,包括insert,upd ...
【其他】IT公司的企业文化与竞争力
一直觉得三流企业靠成本竞争,二流企业靠体制竞争,一流企业靠文化竞争. 企业在竞争时候,总会提到一个词:核心竞争力.对于IT企业来说,核心竞争是什么?无论是技术也好,销售也罢,归根到底还是人才的竞争,优 ...
Mac Outlook数据文件的位置
****/Documents/Microsoft User Data/Office 2011 Identities/Main Identity 在这里如果是中文版的,在这里: /Users/×××× ...
Linux安装开发环境，必须配置的环节（Fedora15版本）
前提:U盘安装fedora:<[原]U盘安装Fedora15 DVD镜像>.<Grub引导安装Fedora15> 1.设置代理上网:<fedora 配置网络代理> ...
ACM学习-POJ-1143-Number Game
菜鸟学习ACM,纪录自己成长过程中的点滴. 学习的路上,与君共勉. ACM学习-POJ-1143-Number Game Number Game Time Limit: 1000MS Memory ...
Maven引入hadoop依赖包出错解决办法
错误: ArtifactTransferException: Failure to transfer org.apache.hadoop:hadoop-hdfs:jar:2.6.0 from http ...

让Scrapy的Spider更通用

让Scrapy的Spider更通用的更多相关文章

随机推荐

热门专题