Scrapy笔记：持久化，Feed exports的使用

首先要明确的是，其实所有的FeedExporter都是类，里面封装了一般进行io操作的方法。因此，要怎么输出呢？其实从技术实现来说，在生成item的每一步调用其进行储存都是可以的，只不过为了更加符合scrapy的架构，一般都是在Pipeline中使用FeedExporter的。

每一个Exporter的使用都是类似的：

在settings.py中写入相应的配置，

在pipeline中调用exporter：

　　exporter.start_exporter()

　　exporter.export_item()

　　exporter.finish_exporter()

其它工作都已经由scrapy封装好了，所以就不需要再进行额外设定了。

由于item的输出一般是连续输出的，因此可以将export开始和结束的方法放到spider_opened和spider_closed中启动。

以将item输出到json文件为例，下面是相关的配置和写法：

在settings.py中的配置：

 FEED_FORMAT = 'json' # 输出格式

 FEED_EXPORTERS_BASE = {

     'json': 'scrapy.exporters.JsonItemExporter',

     'jsonlines': 'scrapy.exporters.JsonLinesItemExporter',

 }

在pipeline中的设定：

 class MyCustomPipeline(object):

     def __init__(self):

         self.files = {}

     @classmethod

     def from_crawler(cls, crawler): # 生成pipeline实例的方法

          pipeline = cls()

          crawler.signals.connect(pipeline.spider_opened, signals.spider_opened) # 将spider_opened连接到信号上，当spider打开时执行spider_opened方法

          crawler.signals.connect(pipeline.spider_closed, signals.spider_closed)

          return pipeline

     def spider_opened(self, spider): #

         file = open('%s_ip.json' % spider.name, 'w+b') # 生成文件描述符

         self.files[spider] = file # 保存描述符的引用

         self.exporter = JsonLinesItemExporter(file) # 实例化一个Exporter类

         self.exporter.start_exporting() # 开始输出

     def spider_closed(self,spider):

         self.exporter.finish_exporting() # 结束输出

         #print('*'*50)

         file = self.files.pop(spider)

         #print(file.name)

         file.close()

     def process_item(self, item, spider):

         self.exporter.export_item(item) # 正式输出

         return item

那么怎样输出到mysql数据库中呢？

　　实际上scrapy自带的FeedExporter中并没有输出到关系型数据库的输出器，因此只能在pipelines中自己定义函数进行处理。由于scrapy是基于twisted异步框架开发的，使用传统的MySQLdb等mysql连接库会出现阻塞。为此，twisted提供了异步数据库实现方法，也就是使用连接池的方式进行交互。

from twisted.enterprise import adbapi

self.dbpool  = adbapi.ConnectPool(xxxx) # 生成连接池对象

yield self.dbpool.runInteraction(interaction_function, arg) # 返回异步处理数据库交互的方法

具体使用：

假设已经在配置文件settings.py中设定了

 MYSQL_PIPELINE_URI = 'mysql://root:root@localhost/proxyip' #MySQL的uri

pipelines.py文件中的设置：

 class MySQLPipeline(object):

     def __init__(self, mysql_url):

         '''创建连接池'''

         # 储存以便将来引用

         self.mysql_url = mysql_url

         # 报告连接错误

         self.report_connection_error = True

         # 解析mysql的uri，并初始化dbpool

         conn_kwargs = MySQLPipeline.parse_mysql_url(mysql_url)

         self.dbpool = adbapi.ConnectionPool('MySQLdb',

                                             charset='utf8',

                                             use_unicode=True,

                                             connect_timeout=5,

                                             **conn_kwargs)

     @classmethod

     def from_crawler(cls, crawler):

         '''检索crawler，获取settings'''

         # Get url from settings

         mysql_url = crawler.settings.get('MYSQL_PIPELINE_URI', None)

         # 如果没有配置uri，触发错误

         if not mysql_url:

             raise NotConfigured

         # 生成MySQLPipeline实例

         return cls(mysql_url)

     def close_spider(self, spider):

         '''spider关闭时关闭连接池'''

         self.dbpool.close()

     @defer.inlineCallbacks

     def process_item(self, item, spider):

         '''处理item，将其传入mysql数据库'''

         logger = spider.logger

         try:

             yield self.dbpool.runInteraction(MySQLPipeline._do_replace, item)

         except MySQLdb.OperationalError:

             if self.report_connection_error:

                 print('Can not connect to MySQL:%s'%self.mysql_url)

                 self.report_connection_error = False

         else:

             print(traceback.format_exc())

         # 返回item给下一阶段

         defer.returnValue(item)

     @staticmethod

     def _do_replace(tx, item):

         '''实现具体的替换操作'''

         sql = '''INSERT INTO ips(ip, port, protocol, speed, auth_time, is_transparent) VALUES(%s, %s, %s, %s, %s, %s)'''

         args = (

             item['ip'],

             item['port'],

             item['protocol'],

             item['speed'],

             item['auth_time'],

             item['is_transparent'],

             )

         tx.execute(sql, args)

     @staticmethod

     def parse_mysql_url(mysql_url):

         '''通过url获取数据库连接的参数，提供给adbapi的连接池'''

         params = dj_database_url.parse(mysql_url)

         conn_kwargs = {}

         conn_kwargs['host'] = params['HOST']

         conn_kwargs['user'] = params['USER']

         conn_kwargs['passwd'] = params['PASSWORD']

         conn_kwargs['db'] = params['NAME']

         conn_kwargs['port'] = params['PORT']

         # 删除空值

         conn_kwargs = dict((k,v) for k,v in conn_kwargs.iteritems() if v)

         return conn_kwargs

Scrapy笔记：持久化，Feed exports的使用的更多相关文章

Scrapy笔记03- Spider详解
Scrapy笔记03- Spider详解 Spider是爬虫框架的核心,爬取流程如下: 先初始化请求URL列表,并指定下载后处理response的回调函数.初次请求URL通过start_urls指定, ...
Scrapy笔记06- Item Pipeline
Scrapy笔记06- Item Pipeline 当一个item被蜘蛛爬取到之后会被发送给Item Pipeline,然后多个组件按照顺序处理这个item. 每个Item Pipeline组件其实就 ...
Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面
摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/, ...
Learning Scrapy笔记（零） - 前言
我已经使用了scrapy有半年之多,但是却一直都感觉没有入门,网上关于scrapy的文章简直少得可怜,而官网上的文档(http://doc.scrapy.org/en/1.0/index.html)对 ...
scrapy的持久化相关
终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 需求是:将糗百首页中段子的内容和标 ...
11.scrapy框架持久化存储
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
scrapy之持久化存储
scrapy之持久化存储 scrapy持久化存储一般有三种,分别是基于终端指令保存到磁盘本地,存储到MySQL,以及存储到Redis. 基于终端指令的持久化存储 scrapy crawl xxoo - ...
scrapy框架持久化存储
基于终端指令的持久化存储基于管道的持久化存储 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文 ...
转 Scrapy笔记（5）- Item详解
Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API,并且可以很方便的声明字段,很多Scra ...
11，scrapy框架持久化存储
今日总结基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...

随机推荐

用jq给img添加error事件
<img src="xxxx.jpg" alt="" /> <script> $(document).ready(function(){ ...
node实现一个简单的聊天室（认识一下socket）
边学边理解node的高深,今天写了一个聊天室的demo,很简单,认识一下socket node服务端代码 var express = require('express'); var app = exp ...
JZOJ 3382. 【NOIP2013模拟】七夕祭
3382. [NOIP2013模拟]七夕祭 Time Limits: 1000 ms Memory Limits: 131072 KB Detailed Limits Goto Problem ...
从源码带你看懂functools的partial方法
1.what? partial是什么, partial也叫偏函数.源码的描述是: 部分应用给定参数和关键字的新函数. New function with partial application of ...
vscode添加Astyle
1.安装astyle插件,在应用商城里面一键安装即可.2.下载astyle的bin文件,并添加到系统环境变量.3.打开vscode的settings.json,添加以下代码. { "edit ...
遗传算法 | Java版GA_TSP （2）
嗯哼,上一篇博客中用Java实现了遗传算法求解TSP(Java版GA_TSP(我的第一个Java程序)),但明显求解效果不太好,都没太好意思贴出具体的结果,今天捣腾了下,对算法做了一些小改进,求解效果 ...
OpenCV学习笔记（四） Mat的简单操作
转自:OpenCV Tutorial: core 模块. 核心功能改变图像对比度和亮度:convertTo 可以把看成源图像像素,把看成输出图像像素.这样一来,调整亮度和对比度的方法可表示为 ...
Codeforces 653G Move by Prime 组合数学
题意: 有一个长度为$n$的正整数序列$a$,有这样一种操作: 每次可以选序列中的某一个数乘上或除以某一个素数. 求对于每一个子序列使其所有元素相等的最少操作次数之和. 分析: 因为两个素数之 ...
data相关应用
文案参考:HTML5中的data-*属性和jQuery中的.data()方法使用 data属性选择器 $("li[data-id='1']")//选择li元素中data-id属性等 ...
ObjectOutputStream和ObjectInputStream的简单使用
使用ObjectOutputStream往文本写内容时,首先在文本里面标记开始,然后是内容,最后加上结束标示.如果想再次往文本里面添加内容的话,就要加在开始标示之后和结束标示之前,不然会读取不到写入的 ...

Scrapy笔记：持久化，Feed exports的使用

Scrapy笔记：持久化，Feed exports的使用的更多相关文章

随机推荐

热门专题