上节说到Pipeline会拦截item,根据设置的优先级,item会依次经过这些Pipeline,所以可以通过Pipeline来保存文件到json、数据库等等。

下面是自定义json

#存储item到json文件
class JsonWithEncodingPipeline(object):
def __init__(self):
#使用codecs模块来打开文件,可以帮我们解决很多编码问题,下面先初始化打开一个json文件
import codecs
self.file = codecs.open('article.json','w',encoding='utf-8')
#接着创建process_item方法执行item的具体的动作
def process_item(self, item, spider):
import json
#注意ensure_ascii入参设置成False,否则在存储非英文的字符会报错
lines = json.dumps(dict(item),ensure_ascii=False) + "\n"
self.file.write(lines)
#注意最后需要返回item,因为可能后面的Pipeline会调用它
return item
#最后关闭文件
def spider_close(self,spider):
self.file.close()

scrapy内置了json方法:

from scrapy.exporters import JsonItemExporter

除了JsonItemExporter,scrapy提供了多种类型的exporter

class JsonExporterPipeline(object):
#调用scrapy提供的json export导出json文件
def __init__(self):
#打开一个json文件
self.file = open('articleexport.json','wb')
#创建一个exporter实例,入参分别是下面三个,类似前面的自定义导出json
self.exporter = JsonItemExporter(self.file,encoding='utf-8',ensure_ascii=False)
#开始导出
self.exporter.start_exporting()
def close_spider(self,spider):
#完成导出
self.exporter.finish_exporting()
#关闭文件
self.file.close()
#最后也需要调用process_item返回item
def process_item(self, item, spider):
self.exporter.export_item(item)
return item

和自定义json相比,存的文件由【】

通过源码可以看到如下:

接着是如何把数据存储到mysql,我这开发环境是ubuntu,支持的mysql-client工具不多,免费的就用Mysql Workbench,也可以使用navicat(要收费)

spider要创建的一张表,和ArticleSpider项目里的item一一对应就行。

然后接下来是配置程序连接mysql

这里我使用第三方库pymysql来连接mysql,安装方式很简单,可以使用pycharm内置的包安装,也可以在虚拟环境用pip安装

然后直接在pipline里创建mysql的pipline

import pymysql
class MysqlPipeline(object):
def __init__(self):
"""
初始化,建立mysql连接conn,并创建游标cursor
"""
self.conn = pymysql.connect(
host='localhost',
database='spider',
user='root',
passwd='',
charset='utf8',
use_unicode=True
)
self.cursor = self.conn.cursor()
def process_item(self,item,spider):
#要执行的sql语句
insert_sql = """
insert into jobbole_article(title,create_date,url,url_object_id,
front_image_url,front_image_path,praise_num,comment_num,fav_num,tags,content)
VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
"""
#使用游标的execute方法执行sql
self.cursor.execute(insert_sql,(item["title"],item['create_date'],
item['url'],item['url_object_id'],
item['front_image_url'],item['front_image_path'],
item['praise_num'],item['comment_num'],item['fav_num'],
item['tags'],item['content']))
#commit提交才能生效
self.conn.commit()
return item

上面的这种mysql存储方式是同步的,也就是execute和commit不执行玩,是不能继续存储数据的,而且明显的scrapy爬取速度会比数据存储到mysql的速度快些,

所以scrapy提供了另外一种异步的数据存储方法(一种异步的容器,还是需要使用pymysql)

首先把mysql的配置连接信息写进setting配置文件,方便后期修改

MYSQL_HOST = "localhost"
MYSQL_DBNAME = 'spider'
MYSQL_USER = "root"
MYSQL_PASSWORD = ""

接着在pipeline中导入scrapy提供的异步的接口:adbapi

from twisted.enterprise import adbapi

完整的pipeline如下:

class MysqlTwistedPipeline(object):
#下面这两个函数完成了在启动spider的时候,就把dbpool传入进来了
def __init__(self,dbpool):
self.dbpool = dbpool #通过下面这种方式,可以很方便的拿到setting配置信息
@classmethod
def from_settings(cls,setting):
dbparms = dict(
host = setting['MYSQL_HOST'],
db = setting['MYSQL_DBNAME'],
user = setting['MYSQL_USER'],
password = setting['MYSQL_PASSWORD'],
charset = 'utf8',
#cursorclass = pymysql.cursors.DictCursor, use_unicode = True, ) #创建连接池,
dbpool = adbapi.ConnectionPool("pymysql",**dbparms) return cls(dbpool) # 使用twisted将mysql插入变成异步执行
def process_item(self, item, spider):
# 指定操作方法和操作的数据
query = self.dbpool.runInteraction(self.do_insert,item)
#处理可能存在的异常,hangdle_error是自定义的方法
query.addErrback(self.handle_error,item,spider) def handle_error(self,failure,item,spider):
print(failure) def do_insert(self,cursor,item):
#执行具体的插入
# 根据不同的item 构建不同的sql语句并插入到mysql中
insert_sql = """
insert into jobbole_article(title,create_date,url,url_object_id,
front_image_url,front_image_path,praise_num,comment_num,fav_num,tags,content)
VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
"""
# 使用游标的execute方法执行sql
cursor.execute(insert_sql, (item["title"], item['create_date'],
item['url'], item['url_object_id'],
item['front_image_url'], item['front_image_path'],
item['praise_num'], item['comment_num'], item['fav_num'],
item['tags'], item['content']))

注意:导入pymysql需要单独导入cursors

import pymysql
import pymysql.cursors

一般我们只需要修改do_insert方法内容就行

还有,传递给的item要和数据表的字段对应上,不能以为不传值就会自动默认为空(但是存储到json文件就是这样)

除了pymysql,还可以通过安装mysqlclient连接数据库,但安装前需要先安装别的包,否则会报错

ubuntu需要安装:

(one_project) laoni@ubuntu:~$ sudo apt-get install libmysqlclient-dev

centos下需要安装:

(one_project) laoni@ubuntu:~$ sudo yum install python-devel mysql-devel

第九篇 数据表设计和保存item到json文件的更多相关文章

  1. SpringBoot + Vue + ElementUI 实现后台管理系统模板 -- 后端篇(五): 数据表设计、使用 jwt、redis、sms 工具类完善注册登录逻辑

    (1) 相关博文地址: SpringBoot + Vue + ElementUI 实现后台管理系统模板 -- 前端篇(一):搭建基本环境:https://www.cnblogs.com/l-y-h/p ...

  2. 【原创】C#搭建足球赛事资料库与预测平台(3) 基础数据表设计

            本博客所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 开源C#彩票数据资料库系列文章总目录:http://www.cn ...

  3. 【原创】C#搭建足球赛事资料库与预测平台(4) 比赛信息数据表设计

            本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新 开源C#彩票数据资料库系列文章总目录:[目录]C#搭建足球赛事资料库与预测平台与彩票数据分析目录 本篇文章开始将逐步介 ...

  4. 【原创】C#搭建足球赛事资料库与预测平台(6) 赔率数据表设计2

            本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新 开源C#彩票数据资料库系列文章总目录:[目录]C#搭建足球赛事资料库与预测平台与彩票数据分析目录 本篇文章开始将逐步介 ...

  5. MySql数据表设计,索引优化,SQL优化,其他数据库

    MySql数据表设计,索引优化,SQL优化,其他数据库 1.数据表设计 1.1数据类型 1.2避免空值 1.3text类型优化 2.索引优化 2.1索引分类 2.2索引优化 3.SQL优化 3.1分批 ...

  6. PHP 开发 APP 接口 学习笔记与总结 - APP 接口实例 [5] 版本设计分析及数据表设计

    APP 版本升级以及 APP 演示 ① 版本升级分析以及数据表设计 ② 版本升级接口开发以及 APP 演示 /** * version_upgrade 版本升级信息表 */ CREATE TABLE ...

  7. mysql status关键字 数据表设计中慎重使用

    mysql status关键字  数据表设计中慎重使用

  8. 中小型WEB系统权限日志数据表设计

    中小型WEB系统权限日志数据表设计 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMjc1MDU3OA==/font/5a6L5L2T/fontsi ...

  9. 数据表设计之主键自增、UUID或联合主键

    最近在做数据库设计的时候(以MySQL为主),遇到不少困惑,因为之前做数据库表设计,基本上主键都是使用自增的形式,最近因为这种做法,被领导指出存在一些不足,于是我想搞明白哪里不足. 一.MySQL为什 ...

随机推荐

  1. 力扣算法——140WordBreakII【H】

    Given a non-empty string s and a dictionary wordDict containing a list of non-empty words, add space ...

  2. 通用唯一标识码UUID的介绍及使用。

    什么是UUID? UUID全称:Universally Unique Identifier,即通用唯一识别码. UUID是由一组32位数的16进制数字所构成,是故UUID理论上的总数为16^32 = ...

  3. PAT(A) 1042. Shuffling Machine (20)

    Shuffling is a procedure used to randomize a deck of playing cards. Because standard shuffling techn ...

  4. python的起源和作用

    python来源 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆(中文名字:龟叔)为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程 ...

  5. 12-vim-撤销和删除命令-02-删除文本

    删除文本 命令 英文 功能 x cut 删除光标所在字符 d(移动命令) delete 删除移动命令对应的内容 dd delete 删除光标所在行 D delete 从光标位置删除至行尾 注: 如果使 ...

  6. Android apiDemo 学习——对话框AlertDialogSamples

    版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/zpf8861/article/details/31423049 注意:该代码仅仅适用于当次简单调用对 ...

  7. Python之元组、列表and 字典

    序列: 元组和字符串都是不可变的哦 你看,数据空间不一样了 元组的话,你可以联想到C里面的结构体变量啊,为了包容不同的数据类型: 也可以这样取值哦: 列表:列表是可修改的哦~ 不然数据大了再另外开辟空 ...

  8. im开发总结:netty的使用

    最近公司在做一个im群聊的开发,技术使用得非常多,各种代码封装得也是十分优美,使用到了netty,zookeeper,redis,线程池·,mongdb,lua,等系列的技术 netty是对nio的一 ...

  9. 小技巧-CSS 三角的做法

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  10. 解决vcenter 6.0 vcsa安装插件第二个的时候报错的问题

    解决vcenter 6.0 vcsa安装插件第二个的时候报错的问题 需要打一下windows 的Microsoft v C++ 2013的2个补丁就可以正常运行了. 然后在后续安装过程中,到达最后一步 ...