使用item pipeline处理保存数据

一个Item Pipeline 不需要继承特定基类，只需要实现某些特定方法,面向接口。

class MyPipeline(object):

    def __init__(self):

        """

        可选实现，做参数初始化等

        """

    def process_item(self, item, spider):

        """

        该方法必须实现，每个item pipeline组件都需要调用该方法，

        该方法必须返回一个 Item 对象，被丢弃的item将不会被之后的pipeline组件所处理。

        :param item: 被爬取的item

        :param spider: 爬取该item的spider debug查看类属性

        :return:

        """

        return item

    def open_spider(self, spider):

        """

        可选实现，当spider被开启时，这个方法被调用。

        :param spider: 被开启的spider

        :return:

        """

    def close_spider(self, spider):

        """

        可选实现，当spider被关闭时，这个方法被调用

        :param spider: 被关闭的spider

        :return:

        """

采用同步的机制写入数据：

class MysqlPipeline(object):

    def __init__(self):

        pass

    def process_item(self, item, spider):

        if isinstance(item,InstanceItem):

            save(item)

        if spider.name == "spider_name":

            save(item)

采用异步的机制写入代码

class MysqlTwistedPipeline(object):

    # 采用异步的机制写入mysql

    def __init__(self, dbpool):

        self.dbpool = dbpool

    @classmethod

    def from_settings(cls, settings):

        """

        from_settings 激活pipeline之后,会自动调用该函数加载settings中的配置

        :param settings:

        :return:

        """

        dbparms = dict(

            host="127.0.0.1",  # settings["MYSQL_HOST"],

            db="spider",  # settings["MYSQL_DBNAME"],

            user="root",  # settings["MYSQL_USER"]

            password="root",  # settings["MYSQL_PASSWORD"],

            charset="utf8",

            use_unicode=True,  # 不然没办法保存中文

            cursorclass=cursors.DictCursor

        )

        db_pool = adbapi.ConnectionPool('pymysql', **dbparms)

        return cls(db_pool)

    def process_item(self, item, spider):

        ##使用twisted将mysql插入变成异步执行

        query = self.dbpool.runInteraction(self.do_insert, item)

        query.addErrback(self.handle_error, item, spider)  # 处理异常

    def handle_error(self, failure, item, spider):

        # 处理异步插入的异常

        print(failure)

    def do_insert(self, cursor, item):

        # 执行具体的插入

        # 根据不同的的item构建不同的sql语句插入到mysql中

        insert_sql, params = item.get_insert_sql()

        cursor.execute(insert_sql, params)

        # 自动commit

数据库连接异常

pymysql.err.InterfaceError: (0, '')

原因：数据库操作对象实例未注销，但持有的数据库连接已失效，导致后续数据库操作无法进行。

解决：在每次插入数据之前检测连接是否可用Connection.ping()。

其实sqlalchemy就有这个处理，原生pymysql则需要自行处理。

下面是代码

from twisted.enterprise import adbapi

from pymysql import cursors

def get_db_pool():

    dbparms = dict(

        host=MYSQL_HOST,

        port=MYSQL_PORT,

        db=MYSQL_DBNAME,

        user=MYSQL_USER,

        password=MYSQL_PASSWORD,

        charset="utf8",

        use_unicode=True,  # 不然没办法保存中文

        cursorclass=cursors.DictCursor

    )

    db_pool = adbapi.ConnectionPool('pymysql', **dbparms)

    return db_pool

class MysqlTwistedPipeline(object):

    # 采用异步的机制写入mysql

    def __init__(self, dbpool):

        self.dbpool = dbpool

    @classmethod

    def from_settings(cls, settings):

        """

        from_settings 激活pipeline之后,会自动调用该函数加载settings中的配置

        :param settings:

        :return:

        """

        db_pool = get_db_pool()

        return cls(db_pool)

    def process_item(self, item, spider):

        ##使用twisted将mysql插入变成异步执行

        query = self.dbpool.runInteraction(self.do_insert, item)

        query.addErrback(self.handle_error, item, spider)  # 处理异常

    def handle_error(self, failure, item, spider):

        # 处理异步插入的异常

        print(failure)

    def do_insert(self, cursor, item):

        # 执行具体的插入

        # 根据不同的的item构建不同的sql语句插入到mysql中

        conn = cursor.connection

        try:

            conn.ping()

        except:

            self.dbpool.close()

            self.dbpool = get_db_pool()

        insert_sql, params = item.get_insert_sql()

        cursor.execute(insert_sql, params)

使用item pipeline处理保存数据的更多相关文章

scrapy学习笔记(三)：使用item与pipeline保存数据
scrapy下使用item才是正经方法.在item中定义需要保存的内容,然后在pipeline处理item,爬虫流程就成了这样: 抓取 --> 按item规则收集需要数据 -->使用pip ...
如何用item pipeline（管道）清洗数据
版权声明:本文为博主原创文章,转载请注明出处:如果博客中有错误之处抑或有可以改进的地方,欢迎在评论区留言. https://blog.csdn.net/f156207495/article/detai ...
Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
Item Pipeline
当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理. 每个item pipeline组件(有时称之为"Item Pi ...
Scrapy爬虫框架第七讲【ITEM PIPELINE用法】
ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据验证爬取的数据(检查item包含某些字段) 去重(并丢弃)[预防数据去重,真正去重是在url,即请求阶段做] ...
Scrapy学习篇（七）之Item Pipeline
在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系 ...
Scrapy框架学习（三）Spider、Downloader Middleware、Spider Middleware、Item Pipeline的用法
Spider有以下属性: Spider属性 name 爬虫名称,定义Spider名字的字符串,必须是唯一的.常见的命名方法是以爬取网站的域名来命名,比如爬取baidu.com,那就将Spider的名字 ...
6-----Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...

随机推荐

Prometheus & SoundCloud
Prometheus 系统监控方案一 - Vovolie - 博客园https://www.cnblogs.com/vovlie/p/Prometheus_CONCEPTS.html Prometh ...
微信小程序开发的基本流程
微信小程序开发的基本流程一,微信小程序简介 1,微信小程序简称小程序,张小龙在微信公开课 Pro 上发布的小程序正式上线,时间是2017年1月9日. 2,微信小程序这个词可以分解为“微信”和“小程序 ...
（二）类数组对象HTMLCollection
HTMLCollection 表示 HTML 元素的集合. 下面的几种方式将返回 HTMLCollection对象: html: <body> <ul id="box&qu ...
Struts2——namespace、action、以及path问题
简单的介绍下Struts2中的几个简单的问题(namespace.action.以及path问题) namespace(命名空间) Namespace决定了action的访问路径,默认为“”,意味着可 ...
图解Python的直接赋值与浅拷贝和深度拷贝三者区别
直接赋值:其实就是对象的引用(别名). 浅拷贝(copy):拷贝父对象,不会拷贝对象的内部的子对象. 深拷贝(deepcopy): copy 模块的 deepcopy 方法,完全拷贝了父对象及其子对象 ...
1、通过eureka创建注册中心
第一个demo(用户需要调用电影服务) 1.创建项目 new starter project 勾选上Eureka Server 2.编写application.yml #配置端口 server: po ...
跨站请求伪造和cookie伪造
CSRF(Cross-site request forgery跨站请求伪造,也被称成为“one click attack”或者session riding,通常缩写为CSRF或者XSRF,是一种对网站 ...
python numpy笔记(重要)
1.np.array 的shape (2,)与(2,1)含义 ndarray.shape:数组的维度.为一个表示数组在每个维度上大小的整数元组.例如二维数组中,表示数组的“行数”和“列数”. ndar ...
LODOP安装参数及静默安装
在cmd命令里里静默安装lodop(c-lodop不能静默安装),本人的安装文件放在D:\lodopdownload\3060\Lodop6.224_Clodop3.060,如下所示: lodop静默 ...
.NET Core 2.0及.NET Standard 2.0 Description
NET Core 2.0的发布时间,.NET Core 2.0预览版及.NET Standard 2.0 Preview大概在5月中旬或下旬发布. .NET Core 2.0正式版本发布时间大约在Q3 ...

使用item pipeline处理保存数据

采用同步的机制写入数据：

采用异步的机制写入代码

数据库连接异常

使用item pipeline处理保存数据的更多相关文章

随机推荐

热门专题