python爬虫模块之调度模块

调度模块也就是对之前所以的模块的一个调度，作为一个流水的入口。

下面的代码的获取数据部分暂时没有写，细节部分在实际开发中，要根据要求再定义，这里说的是使用方法

from savedb import DataOutput

from getnodelist import GetNodeList

from gethtml import Gethtml

from urlqueue import URLQueue

class Run(object):

    def __init__(self):

        self.queue = URLQueue()

        self.downloader = Gethtml()

        self.parser = GetNodeList()

        self.output = DataOutput()

    def crawl(self, root_url):

        # 添加入口URL

        self.queue.add_new_url(root_url)

        # 判断URL管理器是否有新的URL，同时计算抓取了多少个url

        while (self.queue.has_new_url() and self.queue.old_url_size() < 100):

            try:

                new_url = self.queue.get_new_url()

                html = self.downloader.get_source(new_url)

                new_urls = self.parser.use_xpath(new_url, html)

                self.queue.add_new_urls(new_urls)

                # 数据存储器存储文件

                data="" #datalist一般是上面取xpath获取值的一个集合这里略。

                self.output.store_data(data)

                print("已经抓取%s个链接" % self.queue.old_url_size())

            except Exception:

                print("err")

if __name__ == "__main__":

    spider_man = Run()

    spider_man.crawl("https://www.baidu.com")

python爬虫模块之调度模块的更多相关文章

python爬虫模块之URL管理器模块
URL管理器模块一般是用来维护爬取的url和未爬取的url已经新添加的url的,如果队列中已经存在了当前爬取的url了就不需要再重复爬取了,另外防止造成一个死循环.举个例子我爬www.baidu. ...
python爬虫模块之HTML解析模块
这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析. from lxml import html import json ...
python爬虫模块之HTML下载模块
HTML下载模块该模块主要是根据提供的url进行下载对应url的网页内容.使用模块requets-HTML,加入重试逻辑以及设定最大重试次数,同时限制访问时间,防止长时间未响应造成程序假死现象. 根 ...
python爬虫模块之数据存储模块
数据存储模块的话,目前我这用的比较多的是存储到mysql,所以下面的这个例子也是保存到mysql,用到了ORM映射的SQLAlchemy ,(ORM:Object-Relational Mapping ...
Python "爬虫"出发前的装备之二数据先行（ Requests 模块）
1. 概念爬虫不是动物,而是一种计算机程序. 这种程序有自己特定的功能,能按照使用者给定的一系列规则自行浏览万维网并获取需要的信息.此类程序被称为网络爬虫(web crawler) 或网络蜘蛛( ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
Python爬虫之urllib模块1
Python爬虫之urllib模块1 本文来自网友投稿.作者PG,一个待毕业待就业二流大学生.玄魂工作室未对该文章内容做任何改变. 因为本人一直对推理悬疑比较感兴趣,所以这次爬取的网站也是平时看一些悬 ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

随机推荐

error C2143: 语法错误 : 缺少“;”(在“类型”的前面)
C编程老是遇到这个问题: 错误 error C2143: 语法错误 : 缺少“;”(在“类型”的前面) d:\kinectproject\ceshiglad\ceshiglad\shili.c ces ...
只有父类的init方法才有创建servletConfig与servletContext的能力
如果重写了父类的init方法但又没有显示调用父类的init方法那么子类无法使用servletContext 因为子类方法没有创建出 servletConfig
【bzoj3932】[CQOI2015]任务查询系统离散化+主席树
题目描述最近实验室正在为其管理的超级计算机编制一套任务管理系统,而你被安排完成其中的查询部分.超级计算机中的任务用三元组(Si,Ei,Pi)描述,(Si,Ei,Pi)表示任务从第Si秒开始,在第Ei ...
[牛客Wannafly挑战赛27D]绿魔法师
description newcoder 给你一个空的可重集合\(S\). \(n\)次操作,每次操作给出\(x\),\(k\),\(p\),执行以下操作: \(opt\ 1\):在S中加入x. \( ...
[CQOI2014]数三角形组合数 + 容斥 + gcd
推导过程 : 组合数+容斥原理+gcd 正确做法是暴力的一种优化,ans=所有情况 - 平行坐标轴的三点共线 - 斜线三点共线如果快速求斜线三点共线: 首先要知道一个结论,对于点(a,b) (x,y ...
POJ2774：Long Long Message——题解
http://poj.org/problem?id=2774 给定两个字符串 A 和 B,求最长公共子串. 论文题,把两个串合并起来,比较两个串各自的后缀的height值取最大即可. #include ...
BZOJ5322：[JXOI2018]排序问题——题解
https://www.lydsy.com/JudgeOnline/problem.php?id=5322 https://loj.ac/problem/2543 <-可以看数据,要没有这数据我 ...
Android Json解析与总结
一.JSON定义 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. 易于人阅读和编写.同时也易于机器解析和生成. 它基于JavaScript Progra ...
[技巧篇]11.JavaScript原生态如何获取浏览器请求地址中的参数
var getAccessParams = function(){ var i,ilen,strs,keyName,keyValue, params={}, path = window.locatio ...
js的数据类型--数字
近期做一些项目的时候发现,自己的js基础还是不够扎实,再看一遍犀牛书,加深自己的理解和印象.所以从这篇文章开始,后面都是关于原生js的一些内容. 这篇文章,我们具体介绍一下js的数据类型其中一种. j ...

python爬虫模块之调度模块

python爬虫模块之调度模块的更多相关文章

随机推荐

热门专题