python爬虫模块之URL管理器模块

URL管理器模块

一般是用来维护爬取的url和未爬取的url已经新添加的url的，如果队列中已经存在了当前爬取的url了就不需要再重复爬取了，另外防止造成一个死循环。举个例子

我爬www.baidu.com 其中我抓取的列表中有music.baidu.om，然后我再继续抓取该页面的所有链接，但是其中含有www.baidu.com，可以想象如果不做处理的话就成了一个死循环了，在百度首页和百度音乐页循环，所以有一个对列来维护URL是很重要的。

下面以python代码实现为例，使用的deque双向队列方便取出以前的url。

from collections import deque

class URLQueue():

    def __init__(self):

        self.queue = deque()  # 待抓取的网页

        self.visited = set()  # 已经抓取过的网页

    def new_url_size(self):

        '''''

        获取未爬取URL集合的大小

        :return:

        '''

        return len(self.queue)

    def old_url_size(self):

        '''''

        获取已爬取URL的大小

        :return:

        '''

        return len(self.visited)

    def has_new_url(self):

        '''''

        判断是否有未爬取的URL

        :return:

        '''

        return self.new_url_size() != 0

    def get_new_url(self):

        '''''

        获取一个未爬取的URL

        :return:

        '''

        new_url = self.queue.popleft()#从左侧取出一个链接

        self.old_urls.add(new_url)#记录已经抓取

        return new_url

    def add_new_url(self, url):

        '''''

        将新的URL添加到未爬取的URL集合

        :param url: 单个url

        :return:

        '''

        if url is None:

            return False

        if url not in self.new_urls and url not in self.old_urls:

            self.new_urls.append(url)

    def add_new_urls(self, urlset):

        '''''

        将新的URL添加到未爬取的URL集合

        :param urlset: url集合

        :return:

        '''

        if urlset is None or len(urlset) == 0:

            return

        for url in urlset:

             self.add_new_url(url)

python爬虫模块之URL管理器模块的更多相关文章

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python3 爬虫五大模块之二：URL管理器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
第4章 URL管理器和实现方法
URL管理器:管理待抓取URL集合和已抓取URL集合 -- 防止重复抓取.防止循环抓取 URL需要支持哪些功能: 添加新URL到待爬取集合中.判断待添加URL是否在容器中,判断是否还有待爬取URL,获 ...
Python 上下文管理器模块--contextlib
在 Python 处理文件的时候我们使用 with 关键词来进行文件的资源关闭,但是并不是只有文件操作才能使用 with 语句.今天就让我们一起学习 Python 中的上下文管理 contextlib ...
Python进阶——什么是上下文管理器？
在 Python 开发中,我们经常会使用到 with 语法块,例如在读写文件时,保证文件描述符的正确关闭,避免资源泄露问题. 你有没有思考过, with 背后是如何实现的?我们常常听到的上下文管理器究 ...
Python with语句和上下文管理器
open("FishC.txt","w")#此处需注意如果被打开的文件中,已有内容,那么用w的方式打开,则会导致原文件内容被截断,也就是相当于被清空了,然后重新 ...
python爬虫入门之URL
python爬虫,顾名思义是爬取信息的.大数据时代,信息的获取是非常关键的,它甚至能决定一个公司大发展的方向与未来,互联网就好像一张大网,人们想要获取信息就要从这张大网里爬取,这种手段也可以称为搜索引 ...
Python基础=== Tkinter Grid布局管理器详解
本文转自:https://www.cnblogs.com/ruo-li-suo-yi/p/7425307.html @ 箬笠蓑衣 Grid(网格)布局管理器会将控件放置到一个二维的表 ...
vertx模块DeploymentManager部署管理器
DeploymentManager public DeploymentManager(VertxInternal vertx) { this.vertx = vertx; loadVerticleFa ...

随机推荐

洛谷3258：[USACO2012 MAR]Flowerpot 花盆——题解
https://www.luogu.org/problemnew/show/P2698#sub 老板需要你帮忙浇花.给出N滴水的坐标,y表示水滴的高度,x表示它下落到x轴的位置. 每滴水以每秒1个单位 ...
C++重载运算简介
本文基于<C++ Primer(第5版)>中14章和<More Effective C++>条款7,整理而成. 其实写这篇博客之前,内心还是很忐忑的,因为,博主的水平很有限,视 ...
[Leetcode] Construct binary tree from inorder and postorder travesal 利用中序和后续遍历构造二叉树
Given inorder and postorder traversal of a tree, construct the binary tree. Note: You may assume th ...
AOJ.562 寻找罗恩和赫敏
寻找罗恩和赫敏考察点水题 Time Mem Len Lang 0 492KB 0.42K G++ 题意分析计算1/C(n,2)的值代码总览 /* Title:AOJ.562 Author:pe ...
foo.prototype作为新对象的原型来使用
最近在研究js,疑惑也比较多.主要是被原型这个东西给弄迷糊了.疑惑出自于: function foo { this.name = 'foo'; } alert(foo.prototype === Fu ...
Java HashMap工作原理及实现？
参考:http://yikun.github.io/2015/04/01/Java-HashMap%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86%E5%8F%8A%E5%AE ...
开发系统级应用不被Kill
一.设置方法 (1) 在AndroidManifest中application根节点下,添加如下代码: android:persistent="true" (2) 将应用程序pus ...
字符串模式匹配算法--BF和KMP详解
1,问题描述字符串模式匹配:串的模式匹配 ,是求第一个字符串(模式串:str2)在第二个字符串(主串:str1)中的起始位置. 注意区分: 子串:要求连续 (如:abc 是abcdef的子串) ...
git版本回退与撤销操作
场景1:当你改乱了工作区某个文件的内容,想直接丢弃工作区的修改时,用命令git checkout -- file. 场景2:当你不但改乱了工作区某个文件的内容,还添加到了暂存区时,想丢弃修改,分两步, ...
liunx系统下安装mysql数据库5.7.13版本
一:在/usr/local目录下解压安装包

python爬虫模块之URL管理器模块

URL管理器模块

python爬虫模块之URL管理器模块的更多相关文章

随机推荐

热门专题