python scrapy爬虫数据库去重方法

1. scrapy对request的URL去重

yield scrapy.Request(url, self.parse, dont_filter=False)

注意这个参数：dont_filter=False

2. Jobs: 暂停，恢复爬虫

启用一个爬虫的持久化，运行以下命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

然后，你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。

恢复这个爬虫也是同样的命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

这样爬虫断掉后，再启动会接着上次的 url 跑。

详细请看 https://www.howtoing.com/scra...

如果命令行里不想看到那么多输出的话，可以加个 -L WARNING 参数

运行爬虫如：

scrapy crawl spider1 -L WARNING

1、Pipleline 加入如下代码：（在数据爬完后将URL塞入redis去重）

class RedisInsert(object):    
   def process_item(self,item,spider):    
    set_redis_values_1(item['url'])    
    return item

2、Middleware加入如下代码：（在爬数据之前查看该URL是否爬取过）

class IngoreRequestMiddleware(object):  
  def __init__(self):    
    self.middlewareLogging=getLogger("IngoreRequestMiddleware")  
   def process_request(self,request,spider):    
    if get_redis_values_1(request.url):       
     self.middlewareLogging.debug("IgnoreRequest : %s" % request.url)        
    raise IgnoreRequest("IgnoreRequest : %s" % request.url)   
     else:           

 self.middlewareLogging.debug("haveRequest : %s" % request.url)      
      return None

---------------------

python scrapy爬虫数据库去重方法的更多相关文章

Python操作SQLite数据库的方法详解
Python操作SQLite数据库的方法详解本文实例讲述了Python操作SQLite数据库的方法.分享给大家供大家参考,具体如下: SQLite简单介绍 SQLite数据库是一款非常小巧的嵌入式开 ...
python - scrapy 爬虫框架（创建, 持久化, 去重, 深度, cookie）
## scrapy 依赖 twisted - twisted 是一个基于事件循环的异步非阻塞框架/模块 ## 项目的创建 1. 创建 project scrapy startproject ...
如何在vscode中调试python scrapy爬虫
本文环境为 Win10 64bit+VS Code+Python3.6,步骤简单罗列下,此方法可以不用单独建一个Py入口来调用命令行安装Python,从官网下载,过程略,这里主要注意将python目 ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy爬虫框架之初次使用
此篇博客为本人对小甲鱼的课程的总结. 关于Scrapy的安装网上都有方法,这里便不再叙述. 使用Scrapy抓取一个网站一共需要四个步骤: 0.创建一个Scrapy项目: 1.定义Item容器: 2. ...
Python使用MySQL数据库的方法以及一个实例
使用环境:Windows+python3.4+MySQL5.5+Navicat 一.创建连接 1.准备工作,想要使用Python操作MySQL,首先需要安装MySQL-Python的包,在Python ...
postgresql数据库去重方法
数据库去重有很多方法,下面列出目前理解与使用的方法第一种通过group by分组,然后将分组后的数据写入临时表然后再写入另外的表,对于没有出现再group by后面的field可以用函数max,m ...
python scrapy爬虫存储数据库方法带去重步骤
import pymongo import requests import random import time import pymysql db = pymongo.MongoClient()[' ...

随机推荐

Python编码处理和文件路径处理
#变量编码格式化 a='我是中文' print(u'%s'%a)------------------ 结果:我是中文引用网址 #变量编码格式化 a='我是中文' print(a.encode('ut ...
ubuntu Sublime Text 2编辑器安装
官网下载http://www.sublimetext.com/2 选择合适的包下载回来的格式是.tar.bz2格式,需要进行解压. 1,解压:tar -xvf Sublime\ Text\ 2.0.2 ...
lua中的逻辑运算符
逻辑运算符也是3个,and,or,not,只是不是返回false和true,只有false和nil表示假,其他的都是真 and and使用短路运算,a and b,如果a为假,结果已经定了,返回a假, ...
Spring Boot: remove jsessionid from url
参考代码 :Spring Boot: remove jsessionid from url 我的SpringBoot用2.0.*,答案中的第一二个方案亲测无效. 应该在继承了Configuration ...
二十二、Spring MVC与Structs2的区别总结
一.框架的入口 1.Structs2采用Filter(StructsPrepartAndExecuteFilter)来进行实现. 2.SpringMVC采用Servlet(DispatcherServ ...
TLS 改变密码标准协议(Change Cipher Spec Protocol) 就是加密传输中每隔一段时间必须改变其加解密参数的协议
SSL修改密文协议的设计目的是为了保障SSL传输过程的安全性,因为SSL协议要求客户端或服务器端每隔一段时间必须改变其加解密参数.当某一方要改变其加解密参数时,就发送一个简单的消息通知对方下一个要传送 ...
利用神经网络进行网络流量识别——特征提取的方法是（1）直接原始报文提取前24字节，24个报文组成596像素图像CNN识别；或者直接去掉header后payload的前1024字节（2）传输报文的大小分布特征；也有加入时序结合LSTM后的CNN综合模型
国外的文献汇总: <Network Traffic Classification via Neural Networks>使用的是全连接网络,传统机器学习特征工程的技术.top10特征如下 ...
nodejs 修改端口号 process.env.PORT（window环境下）
各个环境下,nodejs设置process.env.PORT的值的命令,如下1.linux环境下: PORT= node app.js 使用上面命令每次都需要重新设置,如果想设置一次永久生效,使用下面 ...
js之全局变量与window对象
所有在全局作用域中声明的变量.函数都会变成window对象的属性和方法. 即: var age = 55; 可以通过window.age访问然而全局变量和与在window对象上定义的属性还是有一点区 ...
mac navicate破解版汉化
https://pan.baidu.com/s/1dRoalG8lZ-AMGmZrj8OhpQ 提取密码:e8ad 安装完navicate之后解压zh-Hans.zip 点击Resources文件夹 ...

python scrapy爬虫数据库去重方法

python scrapy爬虫数据库去重方法的更多相关文章

随机推荐

热门专题