python - scrapy 爬虫框架 ( redis去重 )

1. 使用内置，并加以修改 ( 自定义 redis 存储的 keys )

settings 配置

# ############### scrapy redis连接 ####################

REDIS_HOST = '140.143.227.206'                            # 主机名

REDIS_PORT = 8888                                   # 端口

REDIS_PARAMS  = {'password':'beta'}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

REDIS_ENCODING = "utf-8"                            # redis编码类型             默认：'utf-8'

# REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'

# DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

DUPEFILTER_CLASS = 'dbd.xxx.RedisDupeFilter'

from scrapy_redis.dupefilter import RFPDupeFilter

from scrapy_redis.connection import get_redis_from_settings

from scrapy_redis import defaults

class RedisDupeFilter(RFPDupeFilter):

    @classmethod

    def from_settings(cls, settings):

        """Returns an instance from given settings.

        This uses by default the key ``dupefilter:<timestamp>``. When using the

        ``scrapy_redis.scheduler.Scheduler`` class, this method is not used as

        it needs to pass the spider name in the key.

        Parameters

        ----------

        settings : scrapy.settings.Settings

        Returns

        -------

        RFPDupeFilter

            A RFPDupeFilter instance.

        """

        server = get_redis_from_settings(settings)

        # XXX: This creates one-time key. needed to support to use this

        # class as standalone dupefilter with scrapy's default scheduler

        # if scrapy passes spider on open() method this wouldn't be needed

        # TODO: Use SCRAPY_JOB env as default and fallback to timestamp.

        key = defaults.DUPEFILTER_KEY % {'timestamp': '这里写 keys'}

        debug = settings.getbool('DUPEFILTER_DEBUG')

        return cls(server, key=key, debug=debug)

2. 自定义

from scrapy.dupefilter import BaseDupeFilter

import redis

from scrapy.utils.request import request_fingerprint

import scrapy_redis

class DupFilter(BaseDupeFilter):

    def __init__(self):

        self.conn = redis.Redis(host='140.143.227.206',port=8888,password='beta')

    def request_seen(self, request):

        """

        检测当前请求是否已经被访问过

        :param request:

        :return: True表示已经访问过；False表示未访问过

        """

        fid = request_fingerprint(request)

        result = self.conn.sadd('visited_urls', fid)

        if result == 1:

            return False

        return True

python - scrapy 爬虫框架 ( redis去重 )的更多相关文章

Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
python - scrapy 爬虫框架（创建, 持久化, 去重, 深度, cookie）
## scrapy 依赖 twisted - twisted 是一个基于事件循环的异步非阻塞框架/模块 ## 项目的创建 1. 创建 project scrapy startproject ...
python scrapy爬虫框架概念介绍(个人理解总结为一张图)
python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 python和scrapy的安装就不介绍了,资料很多这里我个人总结一下,能更加快理解scrapy和快速上手一个简 ...
[Python] Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
Python Scrapy爬虫框架之初次使用
此篇博客为本人对小甲鱼的课程的总结. 关于Scrapy的安装网上都有方法,这里便不再叙述. 使用Scrapy抓取一个网站一共需要四个步骤: 0.创建一个Scrapy项目: 1.定义Item容器: 2. ...
python - scrapy 爬虫框架 ( 起始url的实现，深度和优先级，下载中间件 )
1. start_urls -- 起始URL 的内部实现(将迭代器转换为生成器) class QSpider(scrapy.Spider): name = 'q' allowed_domains ...
(1)python Scrapy爬虫框架
部署 1.安装python3.6 64bit 2.下载pywin32 https://sourceforge.net/projects/pywin32/files/pywin32/ 双击安装 3.下 ...
python scrapy爬虫框架
http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html scrapy 提取html的标签内容 from scrapy.selec ...

随机推荐

Flink状态管理和容错机制介绍
本文主要内容如下: 有状态的流数据处理: Flink中的状态接口: 状态管理和容错机制实现: 阿里相关工作介绍: 一.有状态的流数据处理# 1.1.什么是有状态的计算# 计算任务的结果不仅仅依赖于输入 ...
DateTimeFormatter 的操作与使用 -- 通俗易懂
在上一章我们讲解了LocalDate.LocalTime.LocalDateTime.Instant的操作与使用,下面讲解它们之间是如何进行格式化 DateTimeFormatter这个类它只提供了时 ...
Zuul【文件上传】
1.搭建一个eureka-server注册中心工程该工程比较简洁,没有太多配置,不在描述,单节点,服务端口:8888 2.创建zuul-gateway网关工程 2.1.工程pom依赖 <dep ...
Git时间 —— 初始版本控制工具
<第一行代码>读书手札可能你早就听闻git,奈何看不懂命令吓退了. 今天逆流而上. (1.)安装Git 登录官网,下载最新版,一路下一步.就完成安装了. (2.)创建本地代码仓库首先配 ...
解决idea中maven项目无法读取src/main/java目录下面的配置文件问题
解决idea中maven项目无法读取src/main/java目录下面的配置文件问题当我们在maven项目中使用Mybatis的时候,需要给Mybatis配置核心xml文件(MyBatis-Conf ...
Word 删除多余空行
打开查找替换框: 「^p^p」(意思:换行,换行)替换为「^p」「^p^w^p」(意思:换行,空白区域,换行)替换为「^p」未完 ...... 点击访问原文(进入后根据右侧标签,快速定位到本文)
Python-01-编程语言简介
一.编程与编程语言 1. 编程的目的计算机的发明,是为了用机器取代/解放人力,而编程的目的则是将人类的思想流程按照某种能够被计算机识别的表达方式传递给计算机,从而达到让计算机能够像人脑/电脑一样自动 ...
c++实现的顺序栈
栈是一种运算受限的线性表,是一种先进后出的数据结构,限定只能在一端进行插入和删除操作,允许操作的一端称为栈顶,不允许操作的称为栈底因此需要的成员变量如下 int *_stack; //指向申请的空间 ...
PB笔记之验证必填（pfc_validation）
pfc_validation事件中可以在保存时进行提示
[Luogu5327][ZJOI2019]语言(树上差分+线段树合并)
首先可以想到对每个点统计出所有经过它的链的并所包含的点数,然后可以直接得到答案.根据实现不同有下面几种方法.三个log:假如对每个点都存下经过它的链并S[x],那么每新加一条路径进来的时候,相当于在路 ...

python - scrapy 爬虫框架 ( redis去重 )

python - scrapy 爬虫框架 ( redis去重 )的更多相关文章

随机推荐

热门专题