Scrapy去重

一、原生

1、模块

from scrapy.dupefilters import RFPDupeFilter

2、RFPDupeFilter方法

a、request_seen

核心：爬虫每执行一次yield Request对象，则执行一次request_seen方法

作用：用来去重，相同的url只能访问一次

实现：将url值变成定长、唯一的值，如果这个url对象存在，则返回True表名已经访问过，若url不存在则添加该url到集合

1)、request_fingerprint

作用：对request(url)变成定长唯一的值，如果使用md5的话，下面的两个url值不一样

注意：request_fingerprint() 只接收request对象

from scrapy.utils.request import request_fingerprint

from scrapy.http import Request

#

url1 = 'https://test.com/?a=1&b=2'

url2 = 'https://test.com/?b=2&a=1'

request1 = Request(url=url1)

request2 = Request(url=url2)

# 只接收request对象

rfp1 = request_fingerprint(request=request1)

rfp2 = request_fingerprint(request=request2)

print(rfp1)

print(rfp2)

if rfp1 == rfp2:

    print('url相同')

else:

    print('url不同')

2)、request_seen

def request_seen(self, request):

    # request_fingerprint 将request(url) -> 唯一、定长

    fp = self.request_fingerprint(request)

    if fp in self.fingerprints:

        return True        # 返回True，表明已经执行过一次

    self.fingerprints.add(fp)

b、open

父类BaseDupeFilter中的方法，爬虫开始时，执行

def open(self):

    # 爬虫开始

    pass

c、close

爬虫结束时执行

def close(self, reason):

    # 关闭爬虫时执行

    pass

d、log

记录日志

def log(self, request, spider):

    # 记录日志

    pass

e、from_settings

原理及作用：和pipelines中的from_crawler一致

@classmethod

def from_settings(cls, settings):

    return cls()

二、自定义

待续

1、配置文件(settings.py)

# 原生

# DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'

DUPEFILTER_CLASS = 'toscrapy.dupefilters.MyDupeFilter'

2、自定义去重类(继承BaseDupeFilter)

from scrapy.dupefilters import BaseDupeFilter

from scrapy.utils.request import request_fingerprint

#

class MyDupeFilter(BaseDupeFilter):

    def __init__(self):

        self.visited_fp = set()

    @classmethod

    def from_settings(cls, settings):

        return cls()

    def request_seen(self, request):

        # 判断当前的request对象是否，在集合中，若在则放回True，表明已经访问，否则，访问该request的url并将该url添加到集合中

        if request_fingerprint(request) in self.visited_fp:

            return True

        self.visited_fp.add(request_fingerprint(request))

    def open(self):  # can return deferred

        print('开启爬虫')

    def close(self, reason):  # can return a deferred

        print('结束爬虫')

    def log(self, request, spider):  # log that a request has been filtered

        pass

3、前提条件

yield request的对象

yield scrapy.Request(url=_next, callback=self.parse, dont_filter=True)

dont_filter不能为True,这个值默认为False

Scrapy去重的更多相关文章

scrapy 去重 dont_filter=False
yield Request(...... dont_filter=False)
scrapy暂停和重启，及url去重原理,telenet简单使用
一.scrapy暂停与重启 1.要暂停,就要保留一些中间信息,以便重启读取中间信息并从当前位置继续爬取,则需要一个目录存放中间信息: scrapy crawl spider_name -s JOBDI ...
Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
Scrapy学习-18-去重原理
Scrapy去重原理 scrapy本身自带一个去重中间件 scrapy源码中可以找到一个dupefilters.py去重器源码去重算法 # 将返回值放到集合set中,实现去重 def reque ...
使用 Scrapy 爬取去哪儿网景区信息
Scrapy 是一个使用 Python 语言开发,为了爬取网站数据,提取结构性数据而编写的应用框架,它用途广泛,比如:数据挖掘.监测和自动化测试.安装使用终端命令 pip install Scrapy ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
2.python知识点总结
1.什么是对象?什么是类? 对象是对类的具体表达,类是对象的抽象表达. 类只是为所有的对象定义了抽象的属性与行为. —————————————————————————————————————————— ...
笔记-scrapy-去重
笔记-scrapy-去重 1. scrapy 去重 scrapy 版本:1.5.0 第一步是要找到去重的代码,scrapy在请求入列前去重,具体源码在scheduler.py: def en ...
python scrapy爬虫数据库去重方法
1. scrapy对request的URL去重 yield scrapy.Request(url, self.parse, dont_filter=False) 注意这个参数:dont_filter= ...

随机推荐

js 的this指向问题
this指向的,永远只可能是对象! this指向谁,永远不取决于this写在哪!而是取决于函数在哪调用. this指向的对象,我们称之为函数的上下文context,也叫函数的调用者. 1:通过函数名直 ...
git常用常用操作指令
GIT操作 1:git init 初始化空的仓库,会在当前文件夹生成一个隐藏.git的文件夹,相当于一个仓库. 2:提交代码的流程:工作代码区-->暂存区 -->主仓库 -->服务器 ...
怎么安装GUI
python安装easygui的过程中,下载的是0.97.安装的时候提示setuptools模块不存在.然后又去安装setuptools等等, 真麻烦.也没有成功.后来又下载了0.96的.才成功.下面 ...
deep Q learning小笔记
1.loss 是什么 2. Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作.如下式,通过更新参数 θθ 使Q函数逼近最优Q值深度神经网络可以自动提取复杂特征,因此,面对高 ...
MongoDB not authorized for query - code 13 错误解决办法
跟着教程走完到了鉴权阶段,不加 --auth 登陆正常,但会出现warning :没有鉴权,修改不会生效,此时登陆正常. 但是加上了--auth 启动之后加上密码登陆则无法登陆. 添加用户和鉴权: 先 ...
CentOS 下 jenkins 安装
前置条件 jdk 和 maven 都配置好的环境,不赘述. 下载安装文件选择一个 rpm 包 http://pkg.jenkins-ci.org/redhat/ 完成后执行命令 sudo rpm - ...
beta 1/2 阶段中间产物提交入口
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2019fall/homework/9918 git地址:https://e.coding.net/Eustia ...
OpenVINO 入门
关于OpenVINO 入门,今天给大家分享一个好东西和好消息! 现如今,说人工智能(AI)正在重塑我们的各行各业绝不虚假,深度学习神经网络的研究可谓如火如荼, 但这一流程却相当复杂,但对于初学者来说也 ...
洛谷$1156$ 垃圾陷阱 $dp$
$Sol$ $f_{i,j}$前$i$个垃圾,能活到时间$j$的最高垃圾高度.$t_i$表示第$i$个垃圾掉落的时间,$g_i$表示吃垃圾$i$能维持的时间,\(h_i ...
Jenkins构建Vue项目
一.Jenkins Job相关配置二.发布脚本 [root@pdata-nps05 nps]# cat nps_web-page.sh #!/bin/sh USER_IP=172.168.168.1 ...

Scrapy去重

Scrapy去重的更多相关文章

随机推荐

热门专题