python爬虫模块之URL管理器模块

URL管理器模块

一般是用来维护爬取的url和未爬取的url已经新添加的url的，如果队列中已经存在了当前爬取的url了就不需要再重复爬取了，另外防止造成一个死循环。举个例子

我爬www.baidu.com 其中我抓取的列表中有music.baidu.om，然后我再继续抓取该页面的所有链接，但是其中含有www.baidu.com，可以想象如果不做处理的话就成了一个死循环了，在百度首页和百度音乐页循环，所以有一个对列来维护URL是很重要的。

下面以python代码实现为例，使用的deque双向队列方便取出以前的url。

from collections import deque

class URLQueue():

    def __init__(self):

        self.queue = deque()  # 待抓取的网页

        self.visited = set()  # 已经抓取过的网页

    def new_url_size(self):

        '''''

        获取未爬取URL集合的大小

        :return:

        '''

        return len(self.queue)

    def old_url_size(self):

        '''''

        获取已爬取URL的大小

        :return:

        '''

        return len(self.visited)

    def has_new_url(self):

        '''''

        判断是否有未爬取的URL

        :return:

        '''

        return self.new_url_size() != 0

    def get_new_url(self):

        '''''

        获取一个未爬取的URL

        :return:

        '''

        new_url = self.queue.popleft()#从左侧取出一个链接

        self.old_urls.add(new_url)#记录已经抓取

        return new_url

    def add_new_url(self, url):

        '''''

        将新的URL添加到未爬取的URL集合

        :param url: 单个url

        :return:

        '''

        if url is None:

            return False

        if url not in self.new_urls and url not in self.old_urls:

            self.new_urls.append(url)

    def add_new_urls(self, urlset):

        '''''

        将新的URL添加到未爬取的URL集合

        :param urlset: url集合

        :return:

        '''

        if urlset is None or len(urlset) == 0:

            return

        for url in urlset:

             self.add_new_url(url)

python爬虫模块之URL管理器模块的更多相关文章

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python3 爬虫五大模块之二：URL管理器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
第4章 URL管理器和实现方法
URL管理器:管理待抓取URL集合和已抓取URL集合 -- 防止重复抓取.防止循环抓取 URL需要支持哪些功能: 添加新URL到待爬取集合中.判断待添加URL是否在容器中,判断是否还有待爬取URL,获 ...
Python 上下文管理器模块--contextlib
在 Python 处理文件的时候我们使用 with 关键词来进行文件的资源关闭,但是并不是只有文件操作才能使用 with 语句.今天就让我们一起学习 Python 中的上下文管理 contextlib ...
Python进阶——什么是上下文管理器？
在 Python 开发中,我们经常会使用到 with 语法块,例如在读写文件时,保证文件描述符的正确关闭,避免资源泄露问题. 你有没有思考过, with 背后是如何实现的?我们常常听到的上下文管理器究 ...
Python with语句和上下文管理器
open("FishC.txt","w")#此处需注意如果被打开的文件中,已有内容,那么用w的方式打开,则会导致原文件内容被截断,也就是相当于被清空了,然后重新 ...
python爬虫入门之URL
python爬虫,顾名思义是爬取信息的.大数据时代,信息的获取是非常关键的,它甚至能决定一个公司大发展的方向与未来,互联网就好像一张大网,人们想要获取信息就要从这张大网里爬取,这种手段也可以称为搜索引 ...
Python基础=== Tkinter Grid布局管理器详解
本文转自:https://www.cnblogs.com/ruo-li-suo-yi/p/7425307.html @ 箬笠蓑衣 Grid(网格)布局管理器会将控件放置到一个二维的表 ...
vertx模块DeploymentManager部署管理器
DeploymentManager public DeploymentManager(VertxInternal vertx) { this.vertx = vertx; loadVerticleFa ...

随机推荐

RT-thread内核对象标志flag总结
一.内核标志flag 在内核对象控制块中有一个标志成员flag(rt_uint8_t flag; ),这个标志在不同有内核对象中具有不同的含义.rt-thread的内核对象有定时器.线程.信号量.互斥 ...
codeforces 985 E. Pencils and Boxes (dp 树状数组)
E. Pencils and Boxes time limit per test 2 seconds memory limit per test 256 megabytes input standar ...
[BZOJ3380] [USACO2004 Open]Cave Cows 1 洞穴里的牛之一
Description 很少人知道其实奶牛非常喜欢到洞穴里面去探险. 洞窟里有N(1≤N≤100)个洞室,由M(1≤M≤1000)条双向通道连接着它们．每对洞室间至多只有一条双向通道．有K( ...
BZOJ1486：[HNOI2009]最小圈——题解
https://www.lydsy.com/JudgeOnline/problem.php?id=1486 https://www.luogu.org/problemnew/show/P3199 题面 ...
UVA.12096 The SetStack Computer ( 好题栈 STL混合应用)
UVA.12096 The SetStack Computer ( 好题栈 STL混合应用) 题意分析绝对的好题. 先说做完此题的收获: 1.对数据结构又有了宏观的上的认识; 2.熟悉了常用STL ...
JavaScript Date的原型方法扩展
在JavaScript开发中,经常需要对Date类型的对象进行各种验证或格式化,但是js并没有提供那么多的那么细的函数,所以只好自己去用 prototype 扩充了,下面是我自己实现的Date类型常用 ...
Linux试题
1.编写脚本,统计/etc./usr./var目录中有多少个一级子目录和文件 #!/bin/bash # danran # time is Mon Jun 5 13:09:12 CST 2017 li ...
jenkins实现maven项目自动化部署tomcat
最近公司有用到jenkins实现自动化部署,这里我对新的东西也是比较感兴趣,就用了点时间尝试了一下,虽然网上有很多这种例子,但是可能有些细节我也走了一些弯路.在这里记录一下,方便下次用到. 实现环境: ...
基于DCT系数的实时监控中运动目标检测
本文的主要内容来自2009 Advanced Video and Signal Based Surveillance会议的一篇论文“Real-Time Moving Object Detection ...
springcloud文章推荐
有幸加入到springcloud中国社区,在这里获取到了不一样的技术,也接触到了不少的大牛! 这篇文章对于springcloud能否在企业中应用或者对springcloud想了解的人个人感觉写的非常好 ...

python爬虫模块之URL管理器模块

URL管理器模块

python爬虫模块之URL管理器模块的更多相关文章

随机推荐

热门专题