scrapy pipeline

pipeline的四个方法

@classmethod

def from_crawler(cls, crawler):

    """

    初始化的时候，用以创建pipeline对象

    :param crawler:

    :return:

    """

    pass

def open_spider(self, spider):

    """

    爬虫开始执行时，调用

    :param spider:

    :return:

    """

    pass

def process_item(self, item, spider):

    """

          每当数据需要持久化时，就会被调用

          :param item:

          :param spider:

          :return:

    """

    return item

def close_spider(self, spider):

    """

        爬虫结束执行时，调用

        :param spider:

        :return:

    """

    pass

实例

import pymysql

from scrapy.exceptions import DropItem

class ChoutiPipeline(object):

    def __init__(self, db_conf):

        self.db_conf = db_conf

        self.conn = None

        self.cursor = None

    @classmethod

    def from_crawler(cls, crawler):

        """

        初始化的时候，用以创建pipeline对象

        :param crawler:

        :return:

        """

        db_conf = crawler.settings.get('DATABASE')

        return cls(db_conf)

    def open_spider(self, spider):

        """

        爬虫开始执行时，调用

        :param spider:

        :return:

        """

        print('爬虫开始 ...')

        self.conn = pymysql.connect(

            host=self.db_conf['host'],

            port=self.db_conf['port'],

            user=self.db_conf['user'],

            passwd=self.db_conf['password'],

            db=self.db_conf['db'],

            charset=self.db_conf['charset']

        )

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        """

              每当数据需要持久化时，就会被调用

              :param item:

              :param spider:

              :return:

        """

        sql = 'INSERT INTO articles(title, title_url, summary, create_time, url_md5)' \

              ' VALUES ("%s", "%s" ,"%s", "%s", "%s")'

        a = sql % (item['title'], item['title_url'], item['summary'], item['create_time'], item['url_md5'])

        try:

            self.cursor.execute(a)

            self.conn.commit()

        except Exception as e:

            print(e)

        return DropItem()

    def close_spider(self, spider):

        """

            爬虫结束执行时，调用

            :param spider:

            :return:

        """

        self.cursor.close()

        self.conn.close()

        print('爬虫结束 ...')

注册配置文件

全局配置：

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'day1.pipelines.ChoutiPipeline': 300,

}

也可以控制某个爬虫执行那行那个pipeline

class ChoutiSpider(scrapy.Spider):

    name = 'Chouti'

    allowed_domains = ['dig.chouti.com']

    start_urls = ['https://dig.chouti.com/']

    custom_settings = {

        'ITEM_PIPELINES': {'day1.pipelines.ChoutiPipeline': 1}

    }

scrapy pipeline的更多相关文章

scrapy Pipeline使用twisted异步实现mysql数据插入
from twisted.enterprise import adbapi class MySQLAsyncPipeline: def open_spider(self, spider): db = ...
scrapy Pipeline 练习
class WeatherPipeline(object): def process_item(self, item, spider): print(item) return item #插入到red ...
scrapy项目5：爬取ajax形式加载的数据，并用ImagePipeline保存图片
1.目标分析: 我们想要获取的数据为如下图: 1).每本书的名称 2).每本书的价格 3).每本书的简介 2.网页分析: 网站url:http://e.dangdang.com/list-WY1-dd ...
Scrapy 下载文件和图片
我们学习了从网页中爬取信息的方法,这只是爬虫最典型的一种应用,除此之外,下载文件也是实际应用中很常见的一种需求,例如使用爬虫爬取网站中的图片.视频.WORD文档.PDF文件.压缩包等. 1.Files ...
Python逆向爬虫之scrapy框架,非常详细
爬虫系列目录目录 Python逆向爬虫之scrapy框架,非常详细一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
Scrapy爬虫框架第七讲【ITEM PIPELINE用法】
ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据验证爬取的数据(检查item包含某些字段) 去重(并丢弃)[预防数据去重,真正去重是在url,即请求阶段做] ...

随机推荐

python获取文件及文件夹大小
Python3.3下测试通过获取文件大小使用os.path.getsize函数,参数是文件的路径获取文件夹大小 import os from os.path import join, getsi ...
python对比线程，进程，携程，异步，哪个快
目录概念介绍测试环境开始测试测试[单进程单线程]测试[多进程并行]测试[多线程并发]测试[协程 + 异步]结果对比绘图展示概念介绍首先简单介绍几个概念: 进程和线程进程就是一个程序在一个数据集上的 ...
Java学习笔记【三、运算符、表达式、语句】
运算符算数运算符 /* / % ++ -- 关系运算符 == != > /< >= /<= 位运算符 &(按位与,有0是0,否则1) |(按位或,有1是1,否则0) ...
第五篇.python进阶
目录第五篇.python进阶 1. 异常处理 2. 数字类型内置方法 2.定义: 3.常用操作+内置方法: 4.存一个值or多个值: 5.有序or无序: 6.可变和不可变 1.用途: 2.定义: 3 ...
JDBC模拟登陆及SQL语句防注入问题
实现模拟登陆效果:基于表Tencent package boom; import java.sql.Connection; import java.sql.DriverManager; import ...
Android 计算器制作 2.注册View 构建函数
鄙人新手整了快两天终于搞定了.. 1.首先是MainActivity 中在Oncreate函数中注册 2.按+ 或者 - 号来分成两大字符串 s1 和 s2 再将s2 分为更小的s1 和 ...
生产者消费者问题--lock
# 代码: public class App { public static void main(String[] args) { Depot depot = new Depot(100); Prod ...
zencart设置产品始终免运费sql
zencart网站后台-Tools(工具)-Install SQL Patches(安装SQL脚本): 运行以下相应sql语句,即可实现产品始终免运费. zencart设置所有产品始终免运费: '; ...
dedecms织梦系统后台验证码图片不显示的解决方法
网站迁移后,dedecms织梦系统后台验证码图片不显示的解决方法通用解决方案-取消后台验证码功能因为没有验证码,不能进后台,所以修改php文件源代码:方法一:打开dede/login.php 找到如下 ...
java 如何实现文件变动的监听
获取修改时间 long lastTime = file.lastModified(); 原文链接:https://blog.csdn.net/liuyueyi25/article/details/79 ...

scrapy pipeline

pipeline的四个方法

实例

注册配置文件

scrapy pipeline的更多相关文章

随机推荐

热门专题