Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性
抓取到的item 会被发送到Item Pipeline进行处理
Item Pipeline常用于
- cleansing HTML data
- validating scraped data (checking that the items contain certain fields)
- checking for duplicates (and dropping them)
- storing the scraped item in a database
目录[隐藏] |
写一个自己的item pipeline
就是写一个Python类,并且实现process_item(item, spider)方法
must either return a Item (or any descendant子孙 class) object or raise a DropItem exception.
Price validation and dropping items with no prices
adjusts the price attribute for those items that do not include VAT (price_excludes_vat attribute), and drops those items which don’t contain a price:
如果没有price则丢掉,如果没有price_excludes_vat,调整价格值。
from scrapy.exceptions import DropItem class PricePipeline(object): vat_factor =1.15 def process_item(self, item, spider): if item['price']: if item['price_excludes_vat']: item['price']= item['price'] * self.vat_factor
return item else: raise DropItem("Missing price in %s" % item)
写到JSON文件中
import json class JsonWriterPipeline(object): def__init__(self): self.file=open('items.jl','wb') def process_item(self, item, spider): line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
Duplicates filter
A filter that looks for duplicate items, and drops those items that were already processed. Let say that our items have an unique id, but our spider returns multiples items with the same id:
from scrapy.exceptionsimport DropItem class DuplicatesPipeline(object): def__init__(self): self.ids_seen=set() def process_item(self, item, spider): if item['id']in self.ids_seen: raise DropItem("Duplicate item found: %s" % item)
else: self.ids_seen.add(item['id'])
return item
Activating激活 an Item Pipeline component
在settings.py中加入如下代码:
ITEM_PIPELINES ={'myproject.pipelines.PricePipeline': 300,'myproject.pipelines.JsonWriterPipeline': 800,}
我们在Scrapy爬虫入门系列2:示例教程的基础上,支持json输出
- 1,先写好pipeline
import json class TutorialPipeline(object): def__init__(self): self.file=open('output.json','wb') def process_item(self, item, spider): line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
- 2,然后在settings.py中加入
ITEM_PIPELINES={'tutorial.pipelines.TutorialPipeline':400,}
最后运行scrapy crawl dmoz会生成output.json。
存入数据库
打开pipelines.py输入如下:
# -*- coding: utf-8 -*- # Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html # -*- coding: utf-8 -*-
from scrapy import log from twisted.enterprise import adbapi from scrapy.httpimport Request from scrapy.selectorimport HtmlXPathSelector import urllib import MySQLdb import MySQLdb.cursors class TutorialPipeline(object): def__init__(self): self.dbpool= adbapi.ConnectionPool('MySQLdb',db ='scrapy',user='root',passwd ='pwd', cursorclass = MySQLdb.cursors.DictCursor, charset ='utf8', use_unicode =False)
def process_item(self, item, spider): query =self.dbpool.runInteraction(self._conditional_insert, item) query.addErrback(self.handle_error)
return item def _conditional_insert(self,tx,item): tx.execute("select * from item where title = %s",(item['title'])) result=tx.fetchone()
# log.msg(result,level=log.DEBUG)#print result
if result: log.msg("Item already stored in db:%s" % item,level=log.DEBUG)
else: tx.execute("insert into item (title) values (%s)",(item['title']))
def handle_error(self, e): log.err(e)
请注意python的缩进,不然会报错。
然后在settings.py里加上:
ITEM_PIPELINES={'tutorial.pipelines.TutorialPipeline':400,}
运行scrapy crawl dmoz,会发现数据成功插入到数据库中:

如果报错:
No module named MySQLdb
解决:
yum install MySQL-python pip install mysql-python
源码下载:艺搜下载
[编辑]艺搜参考
http://doc.scrapy.org/en/latest/topics/item-pipeline.html
http://stackoverflow.com/questions/10845839/writing-items-to-a-mysql-database-in-scrapy
http://www.cnblogs.com/lchd/p/3820968.html
Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性的更多相关文章
- Scrapy爬虫入门系列2 示例教程
本来想爬下http://www.alexa.com/topsites/countries/CN 总排名的,但是收费了 只爬了50条数据: response.xpath('//div[@class=&q ...
- Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考 创建工程 scrapy startproj ...
- Scrapy爬虫入门系列1 安装
安装python2.7 参见CentOS升级python 2.6到2.7 安装pip 参见CentOS安装python setuptools and pip 依赖 https://docs.scra ...
- python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
- scrapy爬虫学习系列四:portia的学习入门
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
- scrapy爬虫学习系列五:图片的抓取和下载
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
- scrapy爬虫学习系列二:scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
- scrapy爬虫学习系列一:scrapy爬虫环境的准备
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
- scrapy爬虫学习系列三:scrapy部署到scrapyhub上
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
随机推荐
- 关于MYsql 多字段排序
SELECT switch_data.* , lan_data.ename FROM switch_data , lan_data WHERE switch_data.address = '佳合丽景' ...
- iOS 中json解析数据出现中文乱码的问题
一般服务器的编码格式都是UTF8,这样通过json解析下来的的数据,一般中文是不会出现乱码,但是如果服务器的编码格式不是UTF8,通过json解析的数据中的中文容易出现luan乱码,怎么解决这个问题呢 ...
- Devexpress汉化修改 已经汉化过后生成的*.resources.dll文件 z
Devexpress 是很好的第三方控件.但是需要汉化,在从网上下载的zh-CN文件夹里都是*.resources.dll文件,由于汉化的工作量很大,难免有些地方汉化 错误或者不合适(如下图).花了些 ...
- Shell--数据流重定向
数据流重定向就是将某个命令执行后应该要出现在屏幕上的数据传输到其他地方 标准 1.标准输入(stdin):代码为0,使用<或<< 2.标准输出(stdout):代码为1.,使用> ...
- Concise: Compressed ’n’ Composable Integer Set
Word Aligned Hybrid (WAH) bitmap compression 下面是:Concise: Compressed ’n’ Composable Integer Set Figu ...
- Selenium用法示例
收录待用,修改转载已取得腾讯云授权 前言 在上一节我们学习了PhantomJS 的基本用法,归根结底它是一个没有界面的浏览器,而且运行的是 JavaScript 脚本,然而这就能写爬虫了吗?这又和Py ...
- js动态创建和删除option
1.动态创建select function createSelect(){ var mySelect = document.createElement("select&q ...
- netty参考
前言 问题 现如今我们使用通用的应用程序或者类库来实现系统之间地互相访问,比如我们经常使用一个HTTP客户端来从web服务器上获取信息,或者通过web service来执行一个远程的调用. 然而,有时 ...
- Centos 7 修改yum源为阿里源
因为官方的yum源在国内访问效果不佳, 需要改为国内比较好的阿里云或者网易的yum源, 具体修改步骤如下: cd /etc/yum.repos.d # 备份旧的配置文件 mv CentOS-Base. ...
- 对象内部属性[[Class]]
1.概述 所有的typeof返回值为‘object’的对象都包含一个内部属性[[Class]],我们将它可以看做内部的分类,而非传统面向对象意义的分类.这个属性无法直接访问,一般通过Object.pr ...