爬虫_url去重策略

如何对url去重？

将访问url保存到数据库中，效率低，最简单
将url保存到set中，查询速度快，但当url达到1亿多条时候，占用太多内存空间
将url经过md5等方法哈希后保存到set中
用bitmap，讲访问过的url通过hash函数映射到某一位，很容易出现冲突，更能压缩
bloomfilter方法对bitmap进行改进，多重hash函数，避免冲突

那，如何实现bloomfilter方式url去重？

#!/usr/bin/python3

__author__ = 'beimenchuixue'

__blog__ = 'http://www.cnblogs.com/2bjiujiu/'

import mmh3

import redis

import math

import time

class PyBloomFilter():

    #内置100个随机种子

    SEEDS = [543, 460, 171, 876, 796, 607, 650, 81, 837, 545, 591, 946, 846, 521, 913, 636, 878, 735, 414, 372,

             344, 324, 223, 180, 327, 891, 798, 933, 493, 293, 836, 10, 6, 544, 924, 849, 438, 41, 862, 648, 338,

             465, 562, 693, 979, 52, 763, 103, 387, 374, 349, 94, 384, 680, 574, 480, 307, 580, 71, 535, 300, 53,

             481, 519, 644, 219, 686, 236, 424, 326, 244, 212, 909, 202, 951, 56, 812, 901, 926, 250, 507, 739, 371,

             63, 584, 154, 7, 284, 617, 332, 472, 140, 605, 262, 355, 526, 647, 923, 199, 518]

    #capacity是预先估计要去重的数量

    #error_rate表示错误率

    #conn表示redis的连接客户端

    #key表示在redis中的键的名字前缀

    def __init__(self, capacity=1000000000, error_rate=0.00000001, conn=None, key='BloomFilter'):

        self.m = math.ceil(capacity*math.log2(math.e)*math.log2(1/error_rate))      #需要的总bit位数

        self.k = math.ceil(math.log1p(2)*self.m/capacity)                           #需要最少的hash次数

        self.mem = math.ceil(self.m/8/1024/1024)                                    #需要的多少M内存

        self.blocknum = math.ceil(self.mem/512)                                     #需要多少个512M的内存块,value的第一个字符必须是ascii码，所有最多有256个内存块

        self.seeds = self.SEEDS[0:self.k]

        self.key = key

        self.N = 2**31-1

        self.redis = conn

        print(self.mem)

        print(self.k)

    def add(self, value):

        name = self.key + "_" + str(ord(value[0]) % self.blocknum)

        hashs = self.get_hashs(value)

        for hash in hashs:

            self.redis.setbit(name, hash, 1)

    def is_exist(self, value):

        name = self.key + "_" + str(ord(value[0]) % self.blocknum)

        hashs = self.get_hashs(value)

        exist = True

        for hash in hashs:

            exist = exist & self.redis.getbit(name, hash)

        return exist

    def get_hashs(self, value):

        hashs = list()

        for seed in self.seeds:

            hash = mmh3.hash(value, seed)

            if hash >= 0:

                hashs.append(hash)

            else:

                hashs.append(self.N - hash)

        return hashs

pool = redis.ConnectionPool(host='127.0.0.1', port=6379, db=0)

conn = redis.StrictRedis(connection_pool=pool)

if __name__ == '__main__':

    start = time.time()

    bf = PyBloomFilter(conn=conn)

    bf.add('www.jobbole.com')

    bf.add('www.zhihu.com')

    print(bf.is_exist('www.zhihu.com'))

    print(bf.is_exist('www.lagou.com'))

爬虫_url去重策略的更多相关文章

aio 爬虫，去重，入库
#aio 爬虫,去重,入库 import asyncio import aiohttp import aiomysql import re from pyquery import PyQuery st ...
RocketMQ学习笔记（14）----RocketMQ的去重策略
1. Exactly Only Once (1). 发送消息阶段,不允许发送重复的消息 (2). 消费消息阶段,不允许消费重复的消息. 只有以上两个条件都满足情况下,才能认为消息是“Exactly O ...
【Python必学】Python爬虫反爬策略你肯定不会吧？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 正文 Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了: ...
python爬虫爬取策略
爬取策略关注公众号"轻松学编程"了解更多. 在爬虫系统中,待抓取URL队列是很重要的一部分.待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那 ...
python scrapy爬虫数据库去重方法
1. scrapy对request的URL去重 yield scrapy.Request(url, self.parse, dont_filter=False) 注意这个参数:dont_filter= ...
爬虫URL去重
这个要看你想抓取的网页数量是哪种规模的.如果是千万以下用hash表, set, 布隆过滤器基本可以解决,如果是海量的......嗯我也没做过海量的,不过hash表之类的就别想了,内存根本不够,分割线下 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
crawler_爬虫_反爬虫策略
关于反爬虫和恶意攻击的一些策略和思路有时网站经常受到恶意spider攻击,疯狂抓取网站内容,对网站性能有较大影响. 下面我说说一些反恶意spider和spam的策略和思路. 1. 通过日志分析来 ...
网络爬虫（java）
陆陆续续做了有一个月,期间因为各种技术问题被多次暂停,最关键的一次主要是因为存储容器使用的普通二叉树,在节点权重相同的情况下导致树高增高,在进行遍历的时候效率大大降低,甚至在使用递归的时候导致栈 ...

随机推荐

[转载]MySQL5.6 PERFORMANCE_SCHEMA 说明
背景: MySQL 5.5开始新增一个数据库:PERFORMANCE_SCHEMA,主要用于收集数据库服务器性能参数.并且库里表的存储引擎均为PERFORMANCE_SCHEMA,而用户是不能创建存储 ...
在ASP.NET Core 2.0中使用MemoryCache
说到内存缓存大家可能立马想到了HttpRuntime.Cache,它位于System.Web命名空间下,但是在ASP.NET Core中System.Web已经不复存在.今儿个就简单的聊聊如何在ASP ...
AOP及spring AOP的使用
介绍 AOP是一种概念(思想),并没有设定具体语言的实现. AOP是对oop的一种补充,不是取而代之. 具体思想:定义一个切面,在切面的纵向定义处理方法,处理完成之后,回到横向业务流. 特征散布于应 ...
shiro真正项目中的实战应用核心代码！！！
欢迎转载!!!请注明出处!!! 说道shiro的学习之路真是相当坎坷,网上好多人发的帖子全是简单的demo样例,核心代码根本没有,在学习过程中遇到过N多坑. 经过自己的努力,终于整出来了,等你整明白之 ...
2017广东工业大学程序设计竞赛决赛题解&源码(A,数学解方程，B,贪心博弈，C,递归，D,水，E,贪心，面试题，F,贪心，枚举，LCA，G,dp，记忆化搜索，H,思维题)
心得: 这比赛真的是不要不要的,pending了一下午,也不知道对错,直接做过去就是了,也没有管太多! Problem A: 两只老虎 Description 来,我们先来放松下,听听儿歌,一起“唱” ...
[51nod1254]最大子段和 V2
N个整数组成的序列a[1],a[2],a[3],-,a[n],你可以对数组中的一对元素进行交换,并且交换后求a[1]至a[n]的最大子段和,所能得到的结果是所有交换中最大的.当所给的整数均为负数时和为 ...
java.lang.NoSuchMethodError: javax.wsdl.xml.WSDLReader.readWSDL(Ljavax/wsdl/xml/WSDLLocator;Lorg/w3c/dom/Element;)Ljavax/wsdl/Definition;
http://stackoverflow.com/questions/6066054/whats-wrong-with-my-apache-cxf-client You likely have a 1 ...
vueThink权限配置
vueThink中的 admin 默认是展示所有权限,其他的权限组用户就要自己去特定进行配置 http://vuedemo.cn:8181 这里我是默认本地配置了apache到 php\public ...
phpstorm（或webstorm）打开后一直停留在scanning files to index....，或跳出内存不够的提示框
记得3月份做项目时就遇到过这个问题,当时解决的 ,但是忘记怎么解决的啦,所以 ,写博文是多么的重要啊. 说明: 在npm install 后,会出现Scanning files to index .. ...
5.04 toArray()有一个问题须要解决一下
把查询数据转为数组输出,这个toArray()方法是把对像转为数组输出,本身是没啥问题.但是里面好像少写了一句判断:应先判断这个对像是否为空!如果为空则不转换直接输出空就行了吗,否则一个空值去转成数 ...

爬虫_url去重策略

爬虫_url去重策略的更多相关文章

随机推荐

热门专题