这2天遇到一个问题，之前调试的时候爬取了一些数据，结果第二天重新调试的时候发现爬虫很快结束，而且还没有报错。后来从日志里看到这个：

no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicate

这句就是在get第一个链接后出现的日志，大概意思就是“不会重复出现”，所以我猜想可能是因为redis自带了去重的机制，所以已经爬取的内容不会重新去爬

后来我去百度解决方案。首先，有人说在setting里把SCHEDULER_PERSIST改为false，经验证是没有用的。

然后无意间看到redis目录下有个文件叫dump.rdb，百度了一下，网友的回答：

”简而言之，dump.rdb是由Redis服务器自动生成的

默认情况下每隔一段时间redis服务器程序会自动对数据库做一次遍历，把内存快照写在一个叫做“dump.rdb”的文件里，这个持久化机制叫做SNAPSHOT。有了SNAPSHOT后，如果服务器宕机，重新启动redis服务器程序时redis会自动加载dump.rdb，将数据库状态恢复到上一次做SNAPSHOT时的状态。

至于多久做一次SNAPSHOT，SNAPSHOT文件的路径和文件名，你可以在redis的conf文件里指定。

除了SNAPSHOT，redis还支持AOF持久化。”

看了和这个回答之后，我在想如果删掉了这个文件，会不会就可以了呢？

事实证明，结果还是一样的。今天再继续查，发现有网友跟我遇到同样问题：

scrapy-redis的dupefilter的数据如何重置或者清空呢：

使用scrapy-redis蜘蛛爬过以后，再爬就无法爬了。如果给蜘蛛改个名字，就可以重新爬取，如果改回原来的名字就又开始了去重机制，虽然需要dupefilter，但是如果调试中生成一些数据，想重新爬取的话，如何解决这个问题呢。

如何删除dupefilter之前记录的爬过的url数据呢。

在这里下面找到这样一个答案：

SCHEDULER_FLUSH_ON_START = True
在设置里面可以添加这一句就可以,自动清理redis里面的key

做了这个设置以后，再次运行，现在就没有get一个连接就结束了（虽然还有其他报错= = 不过这个去重的问题应该是没有了）

这里稍稍补充一下，如果你的项目没有使用redis的去重机制，那仍然会反复爬取数据，不需要添加SCHEDULER_FLUSH_ON_START 参数

【scrapy_redis】调试后爬取了部分数据，然后重新调试时，直接被去重机制过滤掉无法重头开始爬取的更多相关文章

webMagic+RabbitMQ+ES爬取京东建材数据
本次爬虫所要爬取的数据为京东建材数据,在爬取京东的过程中,发现京东并没有做反爬虫动作,所以爬取的过程还是比较顺利的. 为什么要用WebMagic: WebMagic作为一款轻量级的Java爬虫框架,可 ...
用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
利用selenium 爬取豆瓣武林外传数据并且完成数据可视化情绪分析
全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写my ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
吴裕雄--天生自然python数据清洗与数据可视化：MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB
本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使 ...
C# 爬取猫眼电影数据
最近做了一个新项目,因为项目需要大量电影数据,猫眼电影又恰好有足够的数据,就上猫眼爬数据了. 1.先分析一下网页地址,发现电影都是被排好序号了,这就很简单了. 2.在分析页面,这次主要爬取黄色框中的内 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
Java实现爬取京东手机数据
Java实现爬取京东手机数据最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上.项目没什么太 ...

随机推荐

python中的center
center(self,width,fillchar=None)让字符串居中显示,width定义字长度,fillchar定义空白处填充,不填写默认为空白举个列子: 1 a = "hello ...
Mybatis学习3——动态代理
动态代理只需要接口和mapper映射文件不需要实现类动态代理规范 1.namespace必须是接口的全路径 2.接口的方法必须与sql的id一致 3.接口的入参与parameterType类型一致 ...
JS 事件 Event
注册事件 target.addEventListener(type, listener, options); 或者 target.addEventListener(type, listener, us ...
mysql每天凌晨0点准时启动taskeng.exe如何关闭
MySQL弹出一个taskeng.exe. 内容如下:=====================Start Initialization====================mysql Instal ...
EMQ笔记
飞行窗口(Inflight Window)保存当前正在发送未确认的Qos1/2消息.窗口值越大,吞吐越高:窗口值越小,消息顺序越严格. 当客户端离线或者飞行窗口(Inflight Window)满时, ...
架构之微服务(zookeeper)转
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等.Zookeeper是hadoop的一个子项目,其 ...
1.13.Mark1
[经济学人]双语阅读:律师事务所标价更高收益更少 Business 商业报道 Law firms 律师事务所 Charging more, getting less 标价更高,收益更少 L ...
二、消息队列之如何在C#中使用RabbitMQ(转载)
二.消息队列之如何在C#中使用RabbitMQ 1.什么是RabbitMQ.详见 http://www.rabbitmq.com/. 作用就是提高系统的并发性,将一些不需要及时响应客户端且占用较多资源 ...
Extjs4 上传图片并进行图片格式以及大小验证
在做项目是遇到上传图片,并在前端限制图片上传的大小,下面就直接贴出主要的上传图片的代码,以及图片大小的验证,但前端没有验证图片的宽高验证一.先创建出上传图片的组件,使用filefield组件 var ...
[PHP]更新中间关联表数据的两种思路
---------------------------------------------------------------------------------------------------- ...

【scrapy_redis】调试后爬取了部分数据，然后重新调试时，直接被去重机制过滤掉无法重头开始爬取

scrapy-redis的dupefilter的数据如何重置或者清空呢：

【scrapy_redis】调试后爬取了部分数据，然后重新调试时，直接被去重机制过滤掉无法重头开始爬取的更多相关文章

随机推荐

热门专题