爬取文件时，对已经操作过的URL进行过滤

1.创建过滤规则文件filter.py在spiders同级目录

class RepeatUrl:

    def __init__(self):

        self.visited_url = set()

    @classmethod

    def from_settings(cls, settings):

        """

        初始化时，调用

        :param settings:

        :return:

        """

        return cls()

    def request_seen(self, request):

        """

        检测当前请求是否已经被访问过

        :param request:

        :return: True表示已经访问过；False表示未访问过

        """

        if request.url in self.visited_url:

            return True

        self.visited_url.add(request.url)

        return False

    def open(self):

        """

        开始爬去请求时，调用

        :return:

        """

        print('open replication')

    def close(self, reason):

        """

        结束爬虫爬取时，调用

        :param reason:

        :return:

        """

        print('close replication')

    def log(self, request, spider):

        """

        记录日志

        :param request:

        :param spider:

        :return:

        """

        print('repeat', request.url)

2.在settings.py中指定配置文件

# 定义过滤规则

DUPEFILTER_CLASS = 'sp1.filter.RepeatUrl'

# DUPEFILTER_DEBUG = False

# JOBDIR = "保存范文记录的日志路径，如：/root/"   # 最终路径为 /root/requests.seen

爬取文件时，对已经操作过的URL进行过滤的更多相关文章

python爬取文件时，内容为空
解决方式: img_res = requests.get(src,headers=header)在header中加上referer防盗链加上防盗链header的例子: header = {" ...
利用scrapy爬取文件后并基于管道化的持久化存储
我们在pycharm上爬取首先我们可以在本文件打开命令框或在Terminal下创建 scrapy startproject xiaohuaPro ------------创建文件 scrapy ...
python+selenium实现动态爬取及selenuim的常用操作
应用实例可以参考博客中的12306自动抢票应用 https://www.cnblogs.com/mumengyun/p/10001109.html 动态网页数据抓取什么是AJAX: AJAX(Asy ...
爬取数据时解析url时一直报错Caused by: java.net.URISyntaxException: Illegal character in query at index 823替换了所有空格和特殊字符还是无效
近日在用HttpClient访问抓取汇率时,为了省力,直接采用 String url = "http://api.liqwei.com/currency/?exchange=usd|cny& ...
Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
python 爬虫爬取内容时， \xa0 、 \u3000 的含义
最近用 scrapy 爬某网站,发现拿到的内容里面含有 \xa0 . \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少 233 . \xa0 是不间断空白符我们通常所用的 ...
node爬虫爬取中文时乱码问题 | nodejs gb2312、GBK中文乱码解决方法
iconv需要依赖native库,这样一来,在一些不支持native模块安装的虚拟主机和windows平台上,我们还是无法安心处理GBK编码. 老外写了一个通过纯Javascript转换编码的模块 i ...
less命令查看文件时的常用操作
下键或者回车:往下一行 D:往下半页空格和f:往下一页上键:往上一行 B:往上一页 shift+G:直接切到末尾 ?+搜索条件:从下往上搜索 /+搜索条件:从上往下搜索
爬虫任务一：使用httpclient去爬取百度新闻首页的新闻标题和url，编码是utf-8
第一个入手的爬虫小任务: maven工程 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=" ...

随机推荐

WC2019 游记
Day 0 早上奇迹般的六点半起床平常这时候我还没睡呢早餐在武汉站吃了一碗28的番茄牛肉米线,结果上菜后我把所有非米线的固体(包括番茄和牛肉)全挑出去了高二大佬:一个愿宰一个愿挨在高铁上待了四个 ...
CF1091F New Year and the Mallard Expedition
题目地址:CF1091F New Year and the Mallard Expedition 题意比较复杂,整理一下: \(n\) 段,每段有两个属性:长度,地形(G,W,L) 有三种运动方式: ...
Python运维开发基础07-文件基础【转】
一,文件的基础操作对文件操作的流程 [x] :打开文件,得到文件句柄并赋值给一个变量 [x] :通过句柄对文件进行操作 [x] :关闭文件创建初始操作模板文件 [root@localhost sc ...
go学习笔记
安装 brew install go 国际惯例hello,world. 创建文件hello.go go文件的main方法为函数的主入口,必须有这个方法. hello.go package main i ...
词向量之Word2vector原理浅析
原文地址:https://www.jianshu.com/p/b2da4d94a122 一.概述本文主要是从deep learning for nlp课程的讲义中学习.总结google word2v ...
Tour HDU - 3488 有向环最小权值覆盖费用流
http://acm.hdu.edu.cn/showproblem.php?pid=3488 给一个无源汇的,带有边权的有向图让你找出一个最小的哈密顿回路可以用KM算法写,但是费用流也行思路 1 ...
数字证书及CA的扫盲介绍
★ 先说一个通俗的例子考虑到证书体系的相关知识比较枯燥.晦涩.俺先拿一个通俗的例子来说事儿. ◇ 普通的介绍信想必大伙儿都听说过介绍信的例子吧?假设 A 公司的张三先生要到 B 公司去拜访,但是 ...
023_nginx跨域问题
什么是跨域? 使用js获取数据时,涉及到的两个url只要协议.域名.端口有任何一个不同,都被当作是不同的域,相互访问就会有跨域问题.例如客户端的域名是www.redis.com.cn,而请求的域名是w ...
Qt5全局热键第三方库qxtglobalshortcut5使用
1.下载第三方库https://github.com/ddqd/qxtglobalshortcut5. 2.把qxtglobalshortcut5文件放在项目目录下,在项目.pro加入一句,inclu ...
新建项目虚拟环境及pycharm配置
基本操作查询已有的虚拟环境 workon 激活虚拟环境 workon 虚拟环境名退出虚拟环境 deactivate 删除虚拟环境 rmvirtualenv 虚拟环境名查看python版本检查 p ...

爬取文件时，对已经操作过的URL进行过滤

爬取文件时，对已经操作过的URL进行过滤

爬取文件时，对已经操作过的URL进行过滤的更多相关文章

随机推荐

热门专题