抓取到的item 会被发送到Item Pipeline进行处理

Item Pipeline常用于

  • cleansing HTML data
  • validating scraped data (checking that the items contain certain fields)
  • checking for duplicates (and dropping them)
  • storing the scraped item in a database

目录

[隐藏

写一个自己的item pipeline

就是写一个Python类,并且实现process_item(item, spider)方法

must either return a Item (or any descendant子孙 class) object or raise a DropItem exception.

Price validation and dropping items with no prices

adjusts the price attribute for those items that do not include VAT (price_excludes_vat attribute), and drops those items which don’t contain a price:

如果没有price则丢掉,如果没有price_excludes_vat,调整价格值。

from scrapy.exceptions import DropItem   class PricePipeline(object):       vat_factor =1.15       def process_item(self, item, spider):         if item['price']:             if item['price_excludes_vat']:                 item['price']= item['price'] * self.vat_factor
                    return item         else:             raise DropItem("Missing price in %s" % item)

写到JSON文件中

import json   class JsonWriterPipeline(object):       def__init__(self):         self.file=open('items.jl','wb')       def process_item(self, item, spider):         line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

Duplicates filter

A filter that looks for duplicate items, and drops those items that were already processed. Let say that our items have an unique id, but our spider returns multiples items with the same id:

from scrapy.exceptionsimport DropItem   class DuplicatesPipeline(object):       def__init__(self):         self.ids_seen=set()       def process_item(self, item, spider):         if item['id']in self.ids_seen:             raise DropItem("Duplicate item found: %s" % item)
                   else:             self.ids_seen.add(item['id'])
  return item

Activating激活 an Item Pipeline component

在settings.py中加入如下代码:

ITEM_PIPELINES ={'myproject.pipelines.PricePipeline': 300,'myproject.pipelines.JsonWriterPipeline': 800,}

我们在Scrapy爬虫入门系列2:示例教程的基础上,支持json输出

  • 1,先写好pipeline
import json   class TutorialPipeline(object):       def__init__(self):         self.file=open('output.json','wb')       def process_item(self, item, spider):         line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
  • 2,然后在settings.py中加入
ITEM_PIPELINES={'tutorial.pipelines.TutorialPipeline':400,}

最后运行scrapy crawl dmoz会生成output.json。

存入数据库

打开pipelines.py输入如下:

# -*- coding: utf-8 -*-   # Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html     # -*- coding: utf-8 -*-
from scrapy import log from twisted.enterprise import adbapi from scrapy.httpimport Request from scrapy.selectorimport HtmlXPathSelector import urllib   import MySQLdb import MySQLdb.cursors   class TutorialPipeline(object): 	def__init__(self): 	self.dbpool= adbapi.ConnectionPool('MySQLdb',db ='scrapy',user='root',passwd ='pwd', 		cursorclass = MySQLdb.cursors.DictCursor, 		charset ='utf8', 		use_unicode =False)
         def process_item(self, item, spider): 		query =self.dbpool.runInteraction(self._conditional_insert, item) 		query.addErrback(self.handle_error)
               return item 	def _conditional_insert(self,tx,item): 		tx.execute("select * from item where title = %s",(item['title'])) 		result=tx.fetchone()
         #       log.msg(result,level=log.DEBUG)#print result
             if result: 			log.msg("Item already stored in db:%s" % item,level=log.DEBUG)
             else: 			tx.execute("insert into item (title) values (%s)",(item['title']))

def handle_error(self, e): 		log.err(e)

请注意python的缩进,不然会报错。

然后在settings.py里加上:

ITEM_PIPELINES={'tutorial.pipelines.TutorialPipeline':400,}

运行scrapy crawl dmoz,会发现数据成功插入到数据库中:

如果报错:

No module named MySQLdb

解决:

yum install MySQL-python pip install mysql-python 

源码下载:艺搜下载

[编辑]艺搜参考

http://doc.scrapy.org/en/latest/topics/item-pipeline.html

http://stackoverflow.com/questions/10845839/writing-items-to-a-mysql-database-in-scrapy

http://www.cnblogs.com/lchd/p/3820968.html

Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性的更多相关文章

  1. Scrapy爬虫入门系列2 示例教程

    本来想爬下http://www.alexa.com/topsites/countries/CN 总排名的,但是收费了 只爬了50条数据: response.xpath('//div[@class=&q ...

  2. Scrapy爬虫入门系列4抓取豆瓣Top250电影数据

    豆瓣有些电影页面需要登录才能查看. 目录 [隐藏]  1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考 创建工程 scrapy startproj ...

  3. Scrapy爬虫入门系列1 安装

    安装python2.7 参见CentOS升级python 2.6到2.7 安装pip 参见CentOS安装python setuptools and pip‎ 依赖 https://docs.scra ...

  4. python网络爬虫抓取动态网页并将数据存入数据库MySQL

    简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...

  5. scrapy爬虫学习系列四:portia的学习入门

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  6. scrapy爬虫学习系列五:图片的抓取和下载

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  7. scrapy爬虫学习系列二:scrapy简单爬虫样例学习

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  8. scrapy爬虫学习系列一:scrapy爬虫环境的准备

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  9. scrapy爬虫学习系列三:scrapy部署到scrapyhub上

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

  1. 大湿教我写程序(2)之走向AV之路

    一.大摆庆功宴 上一篇博文<大湿教我写程序(1)之菜单导航篇>中讲到了我撸码到晚上两点多,整出了一个还算是高端大气上档次的demo.半夜回到家里打算着可以好好睡上一个懒觉,到时候直接到客户 ...

  2. 全局流水ID号生成的几种方法

    这个问题源自于,我想找一个分布式下的ID生成器.  这个最简单的方案是,数据库自增ID.为啥不用咧?有这么几点原因,一是,会依赖于数据库的具体实现,比如,mysql有自增,oracle没有,得用序列, ...

  3. iOS: Xcode7安装KSImageNamed插件,自动读取图片名称

    官方文档: ## How do I use it?     Build the KSImageNamed target in the Xcode project and the plug-in wil ...

  4. 写一个函数判断字符串中"{"与"}","["与"]","("与")"匹配,"{"必须在"}"前面,"["必须在"]"前面,"("必须在")"前面,可以嵌套

    boolean matchBracket( String str ) { Stack stack = new Stack(); try { for ( int i = 0; i < str.le ...

  5. HBase 写优化之 BulkLoad 实现数据快速入库

    在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据.我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等.但是这些方式不是慢就是在导入的过程的占用Region资 ...

  6. Docker解析及轻量级PaaS平台演练(三)--Dockerfile编写

    在本篇中将介绍Dockerfile的编写 除了通过修改Image,创建Container,在打包成Image来创建我们需要的Image之外 我们还可以编写Dockerfile文件,通过build来创建 ...

  7. Python 自用代码(拆分txt文件)

    现有一个28G的txt文件,里面每一行是一个分词过的专利全文文档,一共370多万行.我需要把它按每五万行为单位做成一个json文件,格式大致如下: [{"id":"100 ...

  8. APK大小的瘦身的总结:

    首先是看了博客:http://blog.csdn.net/sw950729/article/details/64919051 时.认为大神我就是马云飞写的非常有道理.全部自己就自己写了一遍.长话短说: ...

  9. mysql增量备份(1/2)

    转自:http://www.centos.bz/2012/11/mysql-incremental-backup/ 小量的数据库我们可以每天进行完整备份,因为这也用不了多少时间,但当数据库很大时,我们 ...

  10. Block系列2:Block内存管理

    ViewController.h #import <UIKit/UIKit.h> @interface ViewController : UIViewController { UIImag ...