pipeline的存储代码

在spider中最后一个函数返回item时会scrapy会调用pipeline里面的

process_item(self, item, spider):
函数并传入item，spider等参数
在这里可以将数据进行持久化储存
我的piple代码

# -*- coding: utf- -*-

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import MySQLdb

import MySQLdb.cursors

from twisted.enterprise import adbapi

class MyPipeline(object):  ##这里的函数名于setting中的对应

    def __init__(self, dbpool):

        self.dbpool = dbpool

    @classmethod 　　 ##得到数据库的连接

    def from_settings(cls, settings):

        dbargs = dict(

                host = settings['MYSQL_HOST'],

                db = settings['MYSQL_DBNAME'],

                port = settings['MYSQL_PORT'],

                user = settings['MYSQL_USER'],

                passwd = settings['MYSQL_PASSWD'],

                charset = 'utf8',

                cursorclass = MySQLdb.cursors.DictCursor,

                use_unicode = True,

            )

        dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs)

        return cls(dbpool)

    def process_item(self, item, spider): ##这个函数会在spider返回时调用

        d = self.dbpool.runInteraction(self._do_upinsert, item, spider)

        return item

    def _do_upinsert(self, conn, item, spider):

        valid = True

        for data in item:

            if not data:

                valid = False

        if valid: 　　　　　　　　##执行sql

            result = conn.execute(‘sql’)

            if result:

                print 'added a record'

            else:

                print 'failed insert into table'

代码git地址：过几天会上传

pipeline的存储代码的更多相关文章

drone的pipeline原理与代码分析
最近的一个项目,需要实现一个工作任务流(task pipeline),基于之前CICD的经验,jenkins pipeline和drone的pipeline进入候选. drone是基于go的cicd解 ...
Rails的静态资源管理（六）—— Asset Pipeline缓存存储方式、预处理、升级等
官方文档:http://guides.ruby-china.org/asset_pipeline.html http://guides.rubyonrails.org/asset_pipeline.h ...
jenkins2 pipeline插件的10个最佳实践
jenkins pipeline的10个最佳实践. 文章来自:http://www.ciandcd.com文中的代码来自可以从github下载: https://github.com/ciandcd ...
Jenkins高级用法 - Pipeline 安装
一.总体介绍总体介绍内容摘自玩转Jenkins Pipeline(大宝鱼) 1.核心概念 Pipeline,简而言之,就是一套运行于Jenkins上的工作流框架,将原本独立运行于单个或者多个节点的 ...
scrapy中pipeline的一点综合知识
初次学习scrapy ,觉得spider代码才是最重要的,越往后学,发现pipeline中的代码也很有趣, 今天顺便把pipeline中三种储存方法写下来,算是对自己学习的一点鼓励吧,也可以为后来者的 ...
Scrapy持久化存储
基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作; 执行输出指定格式进行存储:将爬 ...
scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
scrapy 框架持久化存储
1.基于终端的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. # 执行输出指定格式进行存储:将 ...
GStreamer基础教程04 - 动态连接Pipeline
摘要在以前的文章中,我们了解到了2种播放文件的方式:一种是在知道了文件的类型及编码方式后,手动创建所需Element并构造Pipeline:另一种是直接使用playbin,由playbin内部动态创 ...

随机推荐

MySQL索引失效的场景
WHERE字句的查询条件里有不等于号(WHERE column!=-),MYSQL将无法使用索引类似地,如果WHERE字句的查询条件里使用了函数(如:WHERE DAY(column)=-),MYS ...
如何成为 Python 高手
这篇文章主要是对我收集的一些文章的摘要.因为已经有很多比我有才华的人写出了大量关于如何成为优秀Python程序员的好文章. 我的总结主要集中在四个基本题目上:函数式编程,性能,测试,编码规范.如果一个 ...
C#第一个windows窗体应用程序
Form1.cs using System; …… namespace self_1_1{ public partial class Form1 : Form { public Form1() { I ...
VMWare虚拟机网络配置
Bridged(桥接模式) 桥接模式相当于虚拟机和主机在同一个真实网段,VMWare充当一个集线器功能(一根网线连到主机相连的路由器上),所以如果电脑换了内网,静态分配的ip要更改.图如下: NAT( ...
Codeforces Round #412
第一题水题,8分钟1a #include<map> #include<set> #include<cmath> #include<queue> #inc ...
UVA-11374 Airport Express （dijkstra+枚举）
题目大意:n个点,m条无向边,边权值为正,有k条特殊无向边,起止点和权值已知,求从起点到终点的边权值最小的路径,特殊边最多只能走一条. 题目分析:用两次dijkstra求出起点到任何一个点的最小权值, ...
cookie和localstorage sessionStorage的概念、区别、使用场景
本文分为三大板块: 1 webStorage的概念 2 cookie/localStorage/sessionStorage的介绍 3 三者之间的共同点和区别 **所有代码引用均来自作者:OBKor ...
Python中面向对象的一些关于私有变量和继承的理解
成员可见性,变量和方法的可见性.使用“__”开头的变量和方法为私有变量和方法 class Student(): def __init__(self, name, age): # 构造函数 # 初始化变 ...
Algorithm3: 获得一个int数中二进制位为1 的个数
获得一个int数中二进制位为1 的个数 int NumberOfOne(int n){ int count = 0; unsig ...
C# 常用字符串处理办法
再基础的东西不常用的话就得记下来...不然就忘记了. C#字符串中特殊字符的转义一个是双引号",另一个就是转义符\ 对于同样一个字符串:地址:"C:\Users\E.txt&qu ...

pipeline的存储代码

pipeline的存储代码的更多相关文章

随机推荐

热门专题