Scrapy去重

一、原生

1、模块

from scrapy.dupefilters import RFPDupeFilter

2、RFPDupeFilter方法

a、request_seen

核心：爬虫每执行一次yield Request对象，则执行一次request_seen方法

作用：用来去重，相同的url只能访问一次

实现：将url值变成定长、唯一的值，如果这个url对象存在，则返回True表名已经访问过，若url不存在则添加该url到集合

1)、request_fingerprint

作用：对request(url)变成定长唯一的值，如果使用md5的话，下面的两个url值不一样

注意：request_fingerprint() 只接收request对象

from scrapy.utils.request import request_fingerprint

from scrapy.http import Request

#

url1 = 'https://test.com/?a=1&b=2'

url2 = 'https://test.com/?b=2&a=1'

request1 = Request(url=url1)

request2 = Request(url=url2)

# 只接收request对象

rfp1 = request_fingerprint(request=request1)

rfp2 = request_fingerprint(request=request2)

print(rfp1)

print(rfp2)

if rfp1 == rfp2:

    print('url相同')

else:

    print('url不同')

2)、request_seen

def request_seen(self, request):

    # request_fingerprint 将request(url) -> 唯一、定长

    fp = self.request_fingerprint(request)

    if fp in self.fingerprints:

        return True        # 返回True，表明已经执行过一次

    self.fingerprints.add(fp)

b、open

父类BaseDupeFilter中的方法，爬虫开始时，执行

def open(self):

    # 爬虫开始

    pass

c、close

爬虫结束时执行

def close(self, reason):

    # 关闭爬虫时执行

    pass

d、log

记录日志

def log(self, request, spider):

    # 记录日志

    pass

e、from_settings

原理及作用：和pipelines中的from_crawler一致

@classmethod

def from_settings(cls, settings):

    return cls()

二、自定义

待续

1、配置文件(settings.py)

# 原生

# DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'

DUPEFILTER_CLASS = 'toscrapy.dupefilters.MyDupeFilter'

2、自定义去重类(继承BaseDupeFilter)

from scrapy.dupefilters import BaseDupeFilter

from scrapy.utils.request import request_fingerprint

#

class MyDupeFilter(BaseDupeFilter):

    def __init__(self):

        self.visited_fp = set()

    @classmethod

    def from_settings(cls, settings):

        return cls()

    def request_seen(self, request):

        # 判断当前的request对象是否，在集合中，若在则放回True，表明已经访问，否则，访问该request的url并将该url添加到集合中

        if request_fingerprint(request) in self.visited_fp:

            return True

        self.visited_fp.add(request_fingerprint(request))

    def open(self):  # can return deferred

        print('开启爬虫')

    def close(self, reason):  # can return a deferred

        print('结束爬虫')

    def log(self, request, spider):  # log that a request has been filtered

        pass

3、前提条件

yield request的对象

yield scrapy.Request(url=_next, callback=self.parse, dont_filter=True)

dont_filter不能为True,这个值默认为False

Scrapy去重的更多相关文章

scrapy 去重 dont_filter=False
yield Request(...... dont_filter=False)
scrapy暂停和重启，及url去重原理,telenet简单使用
一.scrapy暂停与重启 1.要暂停,就要保留一些中间信息,以便重启读取中间信息并从当前位置继续爬取,则需要一个目录存放中间信息: scrapy crawl spider_name -s JOBDI ...
Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
Scrapy学习-18-去重原理
Scrapy去重原理 scrapy本身自带一个去重中间件 scrapy源码中可以找到一个dupefilters.py去重器源码去重算法 # 将返回值放到集合set中,实现去重 def reque ...
使用 Scrapy 爬取去哪儿网景区信息
Scrapy 是一个使用 Python 语言开发,为了爬取网站数据,提取结构性数据而编写的应用框架,它用途广泛,比如:数据挖掘.监测和自动化测试.安装使用终端命令 pip install Scrapy ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
2.python知识点总结
1.什么是对象?什么是类? 对象是对类的具体表达,类是对象的抽象表达. 类只是为所有的对象定义了抽象的属性与行为. —————————————————————————————————————————— ...
笔记-scrapy-去重
笔记-scrapy-去重 1. scrapy 去重 scrapy 版本:1.5.0 第一步是要找到去重的代码,scrapy在请求入列前去重,具体源码在scheduler.py: def en ...
python scrapy爬虫数据库去重方法
1. scrapy对request的URL去重 yield scrapy.Request(url, self.parse, dont_filter=False) 注意这个参数:dont_filter= ...

随机推荐

Codeforces Round #564(div2)
Codeforces Round #564(div2) 本来以为是送分场,结果成了送命场. 菜是原罪 A SB题,上来读不懂题就交WA了一发,代码就不粘了 B 简单构造很明显,$n*n$的矩阵可 ...
win10 uwp 使用 Border 布局
在 UWP 写一个界面需要将元素排列,在排列元素的时候有特殊的元素叫容器.容器的意思是元素里面包含元素,在 UWP 用到的容器有很多,也可以自己写一个.简单的容器是 Border 边框控件,如控件说的 ...
linux 位操作
atomic_t 类型在进行整数算术时是不错的. 但是, 它无法工作的好, 当你需要以原子方式操作单个位时. 为此, 内核提供了一套函数来原子地修改或测试单个位. 因为整个操作在单步内发生, 没有 ...
H3C 聚合链路负载分担原理
POJ 1797 Heavy Transportation（Dijkstra运用）
Description Background Hugo Heavy is happy. After the breakdown of the Cargolifter project he can no ...
【58.75%】【BZOJ 1087】[SCOI2005]互不侵犯King
Time Limit: 10 Sec Memory Limit: 162 MB Submit: 3040 Solved: 1786 [Submit][Status][Discuss] Descri ...
Comb CodeForces - 46E (动态规划)
题面 Having endured all the hardships, Lara Croft finally found herself in a room with treasures. To h ...
CF1209
CF1209 A B 水题不管 C 因为要求最终整个序列是要单调的所以我们就考虑枚举断点$x$ 之后把$<x$的数放到第一个集合把$> x$的数放到第二个集合至于$=x$的数他能放 ...
CodeForces 1213F (强联通分量分解+拓扑排序)
传送门 •题意给你两个数组 p,q ,分别存放 1~n 的某个全排列: 让你根据这两个数组构造一个字符串 S,要求: (1)$\forall i \in [1,n-1],S_{pi}\leq S _ ...
Educational Codeforces Round 63部分题解
Educational Codeforces Round 63 A 题目大意就不写了. 挺简单的,若果字符本来就单调不降,那么就不需要修改否则找到第一次下降的位置和前面的换就好了. #include ...

Scrapy去重

Scrapy去重的更多相关文章

随机推荐

热门专题