前面讲解到将Item中的所有字段都已经填写完成,那么接下来就是将他们存储到mysql数据库中,
那就用到了pipeline项目管道了;
  对项目管道的理解:做一个比喻,爬取好比是开采石油,Item装的都是原油,需要通过一系列的管道
和工艺进行提炼,而这些原油都是通过pipeline进行加工的,才能真正的到我们所能使用的油(数据)
  大致思路:
      1, 安装MySQLdb和连接数据库的驱动mysqlclient,并创建数据库和相应的表,创建和Item的字段
        一样的字段(注意各个字段的类型,长度和默认值);这些操作可通过navicat进行操作
      2,自定义pipeline,引入mysqldb库,将Item中的数据写入数据库
      3,在settings文件中注册这个管道,并给这个管道一个编号(这个管道在哪条工艺之后进行)

具体代码

 #引入操作数据库模块
import MySQLdb class MysqlPipeline(object):
'''
同步机制实现mysql写入操作
''' #定义初始化函数,当类被使用时自动调用这个函数,我们让他初始化时就连接上数据库
def __init__(self):
#取个变量名,连接数据库,依次是: host,user,password,dbname
self.conn = MySQLdb.connect("127.0.0.1","root","root","artical_spider")
#通过cursor()的方法获取游标
self.cursor = self.conn.cursor() #自定义的管道必须有此方法
def process_item(self,item,spider):
#要执行的插入sql语句
insert_sql = """
insert into jobbole_artical(title,creat_date,url,url_object_id,
front_image_url2,front_image_path,tags,comment_num,
fav_num,like_num,content
)
VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
""" #执行sql语句,注意后面是元组,将Item中的数据格式化填充到插入语句中
self.cursor.execute(insert_sql,(item["title"],item["creat_date"],item["url"],
item["url_object_id"],item["front_image_url2"],item["front_image_path"],
item["tags"],item["comment_num"],item["fav_num"],item["like_num"],item["content"])) #将sql语句提交到数据库执行
self.conn.commint()

注意:

一:

我们从前设置过

artical_item["front_image_url"] = [front_image_url]

这个Item是一个列表类型,当你写入数据库时候报错,

File "C:\Users\Administrator\Envs\artical_spider\lib\site-packages\MySQLdb\converters.py", line 90, in quote_tuple
    return "(%s)" % (','.join(escape_sequence(t, d)))
TypeError: sequence item 0: expected str instance, bytes found

当我们改为str时图片的下载路径又不能正常工作,

所以只能添加一个新的一样的Item,一个设置为列表,供图片下载,一个为写入数据库中做准备

二:

对于数据库各个字段的设置,这里可将一些字段设置为不为空,并且设置一些字段的默认值;

这里讲url_object_id设置成主键,主键不能为空且唯一;在

在写入数据库时,各个字段要和Item字段的顺序相对应

三:

关于python对数据库的操作,本篇参考了这篇博文

以下是运行结果

'''

Scrapy基础(十)———同步机制将Item中的数据写在Mysql的更多相关文章

  1. Scrapy基础(十二)————异步导出Item数据到Mysql中

    异步导出数据到Mysql中 上次说过从Item中同步写入数据库,因为网络的下载速度和数据库的I/O速度是不一样的所以有可能会发生下载快,但是写入数据库速度慢,造成线程的堵塞:关于堵塞和非堵塞,同步和异 ...

  2. C#同步SQL Server数据库中的数据--数据库同步工具[同步新数据]

    C#同步SQL Server数据库中的数据 1. 先写个sql处理类: using System; using System.Collections.Generic; using System.Dat ...

  3. 使用Python将Excel中的数据导入到MySQL

    使用Python将Excel中的数据导入到MySQL 工具 Python 2.7 xlrd MySQLdb 安装 Python 对于不同的系统安装方式不同,Windows平台有exe安装包,Ubunt ...

  4. Sql Server中的数据类型和Mysql中的数据类型的对应关系(转)

    Sql Server中的数据类型和Mysql中的数据类型的对应关系(转):https://blog.csdn.net/lilong329329/article/details/78899477 一.S ...

  5. 浅谈利用同步机制解决Java中的线程安全问题

    我们知道大多数程序都不会是单线程程序,单线程程序的功能非常有限,我们假设一下所有的程序都是单线程程序,那么会带来怎样的结果呢?假如淘宝是单线程程序,一直都只能一个一个用户去访问,你要在网上买东西还得等 ...

  6. 机器学习实战基础(十五):sklearn中的数据预处理和特征工程(八)特征选择 之 Filter过滤法(二) 相关性过滤

    相关性过滤 方差挑选完毕之后,我们就要考虑下一个问题:相关性了. 我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息.如果特征与标签无关,那只会白白浪费我们的计算内存,可能还会 ...

  7. (转)SQLServer_十步优化SQL Server中的数据访问 三

    原文地址:http://tech.it168.com/a2009/1125/814/000000814758_all.shtml 第六步:应用高级索引 实施计算列并在这些列上创建索引 你可能曾经写过从 ...

  8. (转)SQLServer_十步优化SQL Server中的数据访问一

    原文地址:http://tech.it168.com/a2009/1125/814/000000814758_all.shtml 第一步:应用正确的索引 我之所以先从索引谈起是因为采用正确的索引会使生 ...

  9. (转)SQLServer_十步优化SQL Server中的数据访问 二

    原文地址:http://tech.it168.com/a2009/1125/814/000000814758_all.shtml 第五步:识别低效TSQL,采用最佳实践重构和应用TSQL 由于每个程序 ...

随机推荐

  1. java源代码

    //信1705-1 20173527 刘津鑫 package money; import java.io.IOException; import java.io.Serializable; impor ...

  2. ready()事件;使外置JS代码正常运行

    JavaScript代码放在哪里? 浏览器在渲染HTML页面时,是从头到尾,一行一行地检查执行的.如果JavaScript代码在前面,HTML元素在后面,遇到JavaScript选择一个还未渲染的HT ...

  3. Mac Mojave(10.14.1)执行Matlab的mex报错

    先装了matlab2018b,发现很频繁的crash,同时考虑到要跑的代码在>=2017a时就计算错误,于是转战matlab2016b matlab2016b安装后,执行mex -setup报错 ...

  4. Oracle数据库中字符型字段按数字排序

    今天在转换数据时,遇到了一个主键排序的问题.字符型的主键,保存的都是数字,数据导过来以后发现数据排序都是乱的,就想着按数字规则排序. 但发现to_number总是报错,就想着里面应该是有字符存在.后来 ...

  5. Git基础(一) 创建项目仓库

    一.取得Git项目仓库的两种方法: 在现有目录中初始化仓库 git init 如果是在一个已经存在文件的文件夹(而不是空文件夹)中初始化Git仓库来进行版本控制的话,应该跟踪这些文件并提交,通过git ...

  6. [转] 梦里Babel知多少(一)

    平时开发中,经常需要用到ES6/ES7的语法.那么就需要用到Babel来对代码进行转码处理. 之前用Vue比较多,所以以Vue-cli作为参考来分析.  第一张图是几个月前的Vue-cli生成的 第二 ...

  7. signal() 和 sigaction()

    [摘自<Linux/Unix系统编程手册>] Unix系统提供了两种方式来改变信号处置:signal() 和 sigaction(). signal() 的行为在不同Unix实现间存在差异 ...

  8. mybatis拦截器处理

    1.自定义注释 package com.hsfw.backyard.biz.security.authority; import java.lang.annotation.*; /** * 数据权限过 ...

  9. 51Nod1317 相似字符串对 容斥原理 动态规划

    原文链接https://www.cnblogs.com/zhouzhendong/p/51Nod1317.html 题目传送门 - 51Nod1317 题意 称一对字符串(A,B)是相似的,当且仅当满 ...

  10. SPOJ LCS - Longest Common Substring 字符串 SAM

    原文链接http://www.cnblogs.com/zhouzhendong/p/8982392.html 题目传送门 - SPOJ LCS 题意 求两个字符串的最长公共连续子串长度. 字符串长$\ ...