简介

在下图中可以看到items.py与pipeline.py，其中items是用来定义抓取内容的实体；pipeline则是用来处理抓取的item的管道

Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item，他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到Item管道，并经过几个特定的次序处理数据。每个Item管道的组件都是有一个简单的方法组成的Python类。获取了Item并执行方法，同时还需要确定是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。简而言之，就是通过spider爬取的数据都会通过这个pipeline处理，可以在pipeline中不进行操作或者执行相关对数据的操作。

管道的功能

1.清理HTML数据

2.验证解析到的数据（检查Item是否包含必要的字段）

3.检查是否是重复数据（如果重复就删除）

4.将解析到的数据存储到数据库中

Pipeline中的操作

process_item(item, spider)

每一个item管道组件都会调用该方法，并且必须返回一个item对象实例或raise DropItem异常。被丢掉的item将不会在管道组件进行执行。此方法有两个参数，一个是item,即要处理的Item对象，另一个参数是spider,即爬虫。

此外，我们也可以在类中实现以下方法

open_spider(spider)当spider执行的时候将调用该方法

close_spider(spider)当spider关闭的时候将调用该方法

定制自己的Pipeline组件:

1.生成json数据

class JsonWithEncodingPipeline(object):

    def __init__(self):

        self.file=codecs.open('article.json', 'w', encoding="utf-8")

    def process_item(self, item, spider):

        lines=json.dumps(dict(item), ensure_ascii=False) + '\n'

        self.file.write(lines)

        return item

    def spider_closed(self, spider):

        self.file.close()

2.操作mysql关系数据库

class MysqlPipeline(object):

    def __init__(self):

        self.conn=MySQLdb.connect('localhost', 'root', '*****', 'article_spider', charset="utf8", use_unicode=True)

        self.cursor=self.conn.cursor()

    def process_item(self, item, spider):

        insert_sql="""

            insert into article_items(title, url, url_object_id , create_date)

            VALUES(%s, %s, %s, %s)

        """

        self.cursor.execute(insert_sql, (item["title"], item["url"], item['url_object_id'], item["create_date"]))

        self.conn.commit()

3.异步操作mysql关系数据库

# 异步处理关系数据库

class MysqlTwistedPipline(object):

    def __init__(self, dbpool):

        self.dbpool=dbpool

    @classmethod

    def from_settings(cls, settings):

        dbparms=dict(

            host=settings["MYSQL_HOST"],    #这里要在settings中事先定义好

            db=settings["MYSQL_DBNAME"],

            user=settings["MYSQL_USER"],

            passwd=settings["MYSQL_PASSWORD"],

            charset="utf8",

            cursorclass=MySQLdb.cursors.DictCursor,

            use_unicode=True,

        )

        dbpool=adbapi.ConnectPool("MySQLdb", **dbparms)

        return cls(dbpool)

    def process_item(self, item, spider):

    # 使用twisted将mysql插入变成异步执行

        query = self.dbpool.runInteraction(self.do_insert, item)

        query.addErrback(self.handle_error)

    def handle_error(self, failure, item, spider):

       #处理异步插入的异常

        print(failure)

    def do_insert(self, cursor, item):

        #执行具体的插入

        insert_sql = """

                    insert into article_items(title, url, url_object_id , create_date)

                    VALUES(%s, %s, %s, %s)

                """

        self.cursor.execute(insert_sql, (item["title"], item["url"], item['url_object_id'], item["create_date"]))

4.数据去重

from scrapy.exceptions import DropItem

class DuplicatesPipeline(object):

    def __init__(self):

        self.ids_seen = set()

    def process_item(self, item, spider):

        if item['id'] in self.ids_seen:

            raise DropItem("Duplicate item found: %s" % item)

        else:

            self.ids_seen.add(item['id'])

            return item

使用组件

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   # 'ArticleSpider.pipelines.ArticlespiderPipeline': 300,

  # 'scrapy.pipelines.images.ImagesPipeline': 1,

   'ArticleSpider.pipelines.MysqlPipeline': 1,

   # 'ArticleSpider.pipelines.JsonExporterPipeline': 2,

   # 'ArticleSpider.pipelines.ArticleImagePipeline': 1

}

每个pipeline后面有一个数值，这个数组的范围是0-1000，这个数值是这些在pipeline中定义的类的优先级，越小越优先。

在异步处理数据库的时候会传递一个参数为后面的操作进行初始化，process_item()函数实际上是将处理的操作传回给这个_init__。

Scrapy框架中的Pipeline组件的更多相关文章

scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
Python之爬虫（十八） Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
scrapy框架中Spiders用法
scrapy框架中Spiders用法 Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以 ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...
scrapy框架中Download Middleware用法
scrapy框架中Download Middleware用法 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给sp ...
scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...
Ant Design框架中不同的组件访问不同的models中的数据
Ant Design框架中不同的组件访问不同的models中的数据本文记录了我在使用该框架的时候踩过的坑,方便以后查阅. 一.models绑定在某个组件(控件或是页面),要想从某个models中获 ...

随机推荐

Windows cmd findstr
/********************************************************************************** * Windows cmd fi ...
tbody scroll
http://jsfiddle.net/hashem/CrSpu/555/
HNOI2004宠物收养所(splay维护二叉搜索树模板题)
描述最近,阿Q开了一间宠物收养所.收养所提供两种服务:收养被主人遗弃的宠物和让新的主人领养这些宠物.每个领养者都希望领养到自己满意的宠物,阿Q根据领养者的要求通过他自己发明的一个特殊的公式,得出该领 ...
使用 Anthem.NET 的经验小结
1. 不依靠 Panel 来做省事的区域性 Ajax. 2. 控件不要图偷懒设置 AutoUpdateAfterCallBack = true. 而是每次需要更新的时候指定 UpdateAfterCa ...
第七课 go的运算符
http://www.runoob.com/go/go-operators.html 算术运算符关系运算符逻辑运算符位运算符赋值运算符其他运算符返回变量存储地址: & 指针变量: ...
linux日常管理-linux日志
通过系统日志获得相关信息,出现错误,突发情况可以通过查看日志获得有用的信息.遇到故障,看日志是最常用的方法,在日常工作中一定要养成看日志的习惯. 最核心的日志在这个目录下日志会无限生成,占用的内存会 ...
应用HtmlInputFile进行大文件上传解决asp.net上传大文件默认文件大小限制
选择一个文件,也可以正确上传至服务器,但您会发现文件大于2048的时候,出现:Internet Explorer显示 "The page cannot be displayed - Cann ...
.net开发ActiveX控件
我估计有些朋友不清楚ActiveX控件,但这篇博客不是来解释这些概念的.如果你对ActiveX的概念不清楚,请参考这里: http://baike.baidu.com/view/28141.htm 这 ...
报错:org.springframework.dao.InvalidDataAccessApiUsageException: Executing an update/delete query; nested exception is javax.persistence.TransactionRequiredException: Executing an update/delete query
service实现类上没有加@transaction 事务注解
做c语言的码农专业发展方向
写了几年C语言代码,最近在思索,何去何从比较好? 搜索了一下,发现几个答案: 2015年10月编程语言排行榜丢开C语言在教学应用外.在目前C语言的实际应用中.常见的应用的情景有如下: 内核/驱动,b ...

Scrapy框架中的Pipeline组件