python3+Scrapy爬虫使用pipeline数据保存到文本和数据库，数据少或者数据重复问题

爬取的数据结果是没有错的，但是在保存数据的时候出错了，出现重复数据或者数据少问题。那为什么会造成这种结果呢？

其原因是由于Spider的速率比较快，而scapy操作数据库操作比较慢，导致pipeline中的方法调用较慢，这样当一个变量正在处理的时候，一个新的变量过来，之前的变量的值就会被覆盖。

就比如pipline的速率是1TPS，而spider的速率是5TPS，那么数据库应该会有5条重复数据。

解决方案是对变量进行保存，在保存的变量进行操作，通过互斥确保变量不被修改。

下面将代码进行改造一下：

将 pipelines.py 中的 process_item 方法中的item改为深度拷贝，即

def process_item(self, item, spider):

copy_item = copy.deepcopy(item)

将下面的代码中item用copy_item替换

并在头部加载copy包

import copy

没有copy包的小伙伴可以在命令窗口进行下载

pip install copy

python3+Scrapy爬虫使用pipeline数据保存到文本和数据库，数据少或者数据重复问题的更多相关文章

Scrapy Item用法示例（保存item到MySQL数据库，MongoDB数据库，使用官方组件下载图片）
需要学习的地方: 保存item到MySQL数据库,MongoDB数据库,下载图片 1.爬虫文件images.py # -*- coding: utf-8 -*- from scrapy import ...
（未完成...）Python3网络爬虫（2）:利用urllib.urlopen向有道翻译发送数据并获得翻译结果
环境: 火狐浏览器 pycharm2017.3.3 python3.5 1.url不仅可以是一个字符串,例如:http://www.baidu.com.url也可以是一个Request对象,这就需要我 ...
python3 scrapy爬虫项目的诞生
前提安装好scrapy模块最好 requests和bs4模块都安装好可以概括为五个步骤步骤一:新建一个项目无论你用windows也好,linux也罢,在cmd或者终端切换到目标文件夹,然后输入 ...
Python小数据保存，有多少中分类？不妨看看他们的类比与推荐方案...
小数据存储我们在编写代码的时候,经常会涉及到数据存储的情况,如果是爬虫得到的大数据,我们会选择使用数据库,或者excel存储.但如果只是一些小数据,或者说关联性较强且存在存储后复用的数据,我们该如何 ...
第三百四十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存
第三百四十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件 spider是一个信号检测 ...
二十一 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存
注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件 spider是一个信号检测 # -*- coding: utf-8 -*- # Define your ite ...
scrapy爬虫事件以及数据保存为txt,json,mysql
今天要爬取的网页是虎嗅网我们将完成如下几个步骤: 创建一个新的Scrapy工程定义你所需要要抽取的Item对象编写一个spider来爬取某个网站并提取出所有的Item对象编写一个Item Pi ...
scrapy爬虫保存数据
1.数据保存为TXT 打开Pipeline.py import codecs import os import json import pymysql class CoolscrapyPipeline ...
Scrapy爬虫实例教程（二）---数据存入MySQL
书接上回实例教程(一) 本文将详细描述使用scrapy爬去左岸读书所有文章并存入本地MySql数据库中,文中所有操作都是建立在scrapy已经配置完毕,并且系统中已经安装了Mysql数据库(有权限操 ...

随机推荐

CSS学习笔记-边框图片等属性
1.边框图片: 1.1含义: 告诉浏览器指定一张图片作为边框 1.2格式: border-image-source:url ...
我的第一个CCS工程
直接用别人已经弄好的例程,学习创建属于自己的工程,就发现还是有很多问题的: 首先是:1. 想加载头文件到include工程文件夹中却发现总是在Document文件夹中,很是纳闷,在网上搜了搜,发现时路 ...
CSS .css边框属性（border）
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
hadoop节点动态删除与增加
动态删除 1)修改配置文件修改hdfs-site.xml文件,适当减小dfs.replication的数量,增加dfs.hosts.exclude选项 vi hdfs-site.xml <pr ...
Python语法速查： 3. 字符串格式化
返回目录 (1)简易字符串格式化字符串属于不可变序列,只能生成新的,不能改变旧的.“字符串格式化”有点像以前C语言的sprintf,可以将若干变量代入格式化的字符串,生成一个符合要求的新字符串. 转 ...
itest(爱测试) 4.2.1 发布，开源BUG 跟踪管理 & 敏捷测试管理软件
itest 入选 2019 年度最受欢迎开源中国软件开源工具的发展,离不开你我的支持,需要您投上宝贵的一票去投票 itest 简介:查看简介 itest 开源敏捷测试管理,testOps 践行者 ...
flex.css声明式布局
flex.css能完美的运行在移动端的各种浏览器,甚至能运行在ie10+的各种PC端浏览器中 flex和data-flex flex.css 有两个版本,一个是flex.css一个是data-flex ...
推荐几个公众号Markdown格式化网站
好多人都喜欢用 Markdown 写文但是公众号后台编辑又不支持 Markdown 因此,催生出了一系列 Markdown 渲染格式化的工具网站我使用了其中的一些分享给你 1.Md2All 官方 ...
python调用C++实例：用C++对numpy执行BFS（广度优先搜索）
下文的代码可能展示不全,详情请下载文件:用cpp遍历ndarray.rar 问题背景: 现在我有一张二值图test.npy,需要对其闭区域进行孔洞填充,如下图所示: 文件下载链接:用cpp遍历ndar ...
HTML连载47-设计思想、浮动元素高度问题
一.设计网页的思想拿到需求之后我们先对各个模块(盒子)进行划分,然后从外到内进行设计(1)设计一个盒子最基本的设计大致包括背景颜色(其实用于识别),宽,高,边界浮动流还是标准流. (2)然后盒子和盒 ...