Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫

摘要：根据Excel文件配置运行多个爬虫

很多时候，我们都需要为每一个单独的网站编写一个爬虫，但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同，此时要分别为每一个网站编写一个爬虫就显得徒劳了，其实可以只使用一个spider就爬取这些相似的网站。

首先创建一个名为generic的工程和一个名为fromcsv的spider：

scrapy startproject generic

cd generic

scrapy genspider fromcsv example.com

然后创建一个csv文件，在文件中填充以下信息：

使用Python的csv库来验证一下

$ python

>>> import csv

>>> with open("todo.csv", "rU") as f:

        reader = csv.DictReader(f)

        for line in reader:

            print line

输出如下：

注意：todo.csv文件的第一行会自动作为字典的key

现在读取todo.csv文件中的URL和Xpath表达式来运行spider，由于我们并不能提前知道URL，所以要从spider中移除start_urls和allowed_domains部分，使用start_requests()方法，对于csv文件中的每一行都产生一个Request对象，并且将字段名和Xpath表达式放入参数request.mate中，传递到parse函数，然后永Item和ItemLoader来填充item的字段

import csv

import scrapy

from scrapy.http import Request

from scrapy.loader import ItemLoader

from scrapy.item import Item, Field

class FromcsvSpider(scrapy.Spider):

name = "fromcsv"

def start_requests(self):

    with open("todo.csv", "rU") as f:

        reader = csv.DictReader(f)

        for line in reader:

            request = Request(line.pop('url')) #从字典中弹出了key为url的元素

            request.meta['fields'] = line

            yield request

def parse(self, response):

    item = Item() # 在本工程中并没有定义items.py文件

    l = ItemLoader(item=item, response=response)

    for name, xpath in response.meta['fields'].iteritems():

        if xpath:

            item.fields[name] = Field() # 动态创建一个item

            l.add_xpath(name, xpath)

    return l.load_item()

fromcsv.py源文件代码地址：

https://github.com/Kylinlin/scrapybook/blob/master/ch05%2Fgeneric%2Fgeneric%2Fspiders%2Ffromcsv.py

运行spider：scrapy crawl fromcsv

由于上面的源码中硬编码了todo.csv文件名，一旦文件名发生了变动就需要修改源代码，这并不是一个好的设计，其实Scrapy使用了一个简便的方式（使用 -a）可以从命令行向spider传送参数，例如：-a variable=value，那么spider就可以在源代码中的self.variable来获取value。为了检查变量名并提供默认值，就使用Python的方法getarrt(self, ‘variable’, ‘default’)，所以上面的with语句可以修改为：

with open(getarrt(self, “file”, “todo.csv”), “rU”) as f:

然后在运行spider时通过-a参数来指定csv文件（如果没有使用-a参数，就默认使用todo.csv文件）：

scrapy crawl fromcsv –a file=todo.csv

Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫的更多相关文章

Scrapy笔记09- 部署
Scrapy笔记09- 部署本篇主要介绍两种部署爬虫的方案.如果仅仅在开发调试的时候在本地部署跑起来是很容易的,不过要是生产环境,爬虫任务量大,并且持续时间长,那么还是建议使用专业的部署方法.主要是 ...
记录python接口自动化测试--把测试结果写进excel文件(第九目)
python中一般使用xlrd(excel read)来读取Excel文件,使用xlwt(excel write)来生成Excel文件(可以控制Excel中单元格的格式),需要注意的是,用xlrd读取 ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面
摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/, ...
Learning Scrapy笔记（零） - 前言
我已经使用了scrapy有半年之多,但是却一直都感觉没有入门,网上关于scrapy的文章简直少得可怜,而官网上的文档(http://doc.scrapy.org/en/1.0/index.html)对 ...
Learning Scrapy笔记（三）- Scrapy基础
摘要:本文介绍了Scrapy的基础爬取流程,也是最重要的部分 Scrapy的爬取流程 Scrapy的爬取流程可以概括为一个方程式:UR2IM,其含义如下图所示 URL:Scrapy的运行就从那个你想要 ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
scrapy笔记集合
细读http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html 目录 Scrapy介绍安装基本命令项目结构以及爬虫应用介绍简单使用示例选 ...
Scrapy 笔记（二）
一个scrapy爬虫知乎项目的笔记 1.通过命令创建项目 scrapy startproject zhihucd zhihuscrapy genspider zhihu www.zhihu.com(临 ...

随机推荐

mysql 使用说明-1
以下内容是根据官方文档翻译的,执行截图是博主自己实测结果. 3.1 Connecting to and Disconnecting from the Server 连接,断开数据库要连接到mysql ...
getdata
public partial class GetData : System.Web.UI.Page { protected void Page_Load(object sender, EventArg ...
视差贴图（Parallax Mapping）
使用顶点光照的模型,当模型的面数很少的时候,光照效果会显得很奇怪,因为只有顶点上的光照是正确计算出来的,三角面上的光照都是通过硬件插值得到,所以难免会出现问题.基于像素的光照可以很好的改善这个问题.如 ...
学习资料 50个常用的sql语句
Student(S#,Sname,Sage,Ssex) 学生表 Course(C#,Cname,T#) 课程表 SC(S#,C#,score) 成绩表 Teacher(T#,Tname) 教师表问题 ...
No.005 Longest Palindromic Substring
5. Longest Palindromic Substring Total Accepted: 120226 Total Submissions: 509522 Difficulty: Medium ...
Duilib学习笔记《03》— 控件使用
在前面已经对duilib有个一个基本的了解,并且创建了简单的空白窗体.这仅仅只是一个开始,如何去创建一个绚丽多彩的界面呢?这就需要一些控件元素(按钮.文本框.列表框等等)来完善. 一. Duilib控 ...
jQuery之Nestable
空间属性置顶: 属性说明 change 事件,当控件改变时触发 nestable 方法,获取顺序JSON数据,形式如下: [{"id":1},{"id":2} ...
docker1.12 安装redis第三方集群方案 codis
docker1.12 安装redis第三方集群方案 codis
深入理解ASP.NET的内部运行机制(转)
WebForms和WebServices作为.NET平台构建Web程序的两大利器,以其开发简单.易于部署的特点得到了广泛的应用,但殊不知微软公司在背后为我们做了大量的基础性工作,以至于我们开发人员只需 ...
tcp timestamp
Description Protocol suite: TCP/IP. Protocol type: Transport layer protocol. Option length: 10 bytes ...

Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫

Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫的更多相关文章

随机推荐

热门专题