Python 开发轻量级爬虫

(imooc总结03--简单的爬虫架构)

现在来看一下一个简单的爬虫架构。

要实现一个简单的爬虫，有哪些方面需要考虑呢？

    首先需要一个爬虫调度端，来启动爬虫、停止爬虫、监视爬虫的运行情况。

    在爬虫程序中有三个模块。首先url管理器来对将要爬取的url和已经爬取过的url这两个数据的进行管理。

从url管理器中取出一个待爬取的url将其传送给网页下载器，下载器将指定的网页下载下来存储成一个字符串，这个字符串会传送给网页解析器进行解析，

一方面会解析出有价值的数据，另一方面每一个网页都有很多指向其它网页的url，这些url被解析出来之后，可以补充进url管理器。

    url管理器、网页下载器、网页解析器这三个模块就形成了循环。只要有相关的url就会一直运行下去，以上这些模块就组成了这个简单的爬虫架构，

这个架构的运行就可以将互联网上相关联的所有网页都爬取下来。

简单爬虫架构的动态运行流程

是怎样运行起来的，我们来看一下动态运行流程，以时序图的方式进行讲解。

    该时序图中包含以下角色，调度器、url管理器、下载器、解析器、应用。

首先调度器询问url管理器有没有待爬取的url, url管理器返回是和否？

如果是的话，调度器会从url管理器中取出一个待爬取的url，url管理器将这个url返回给调度器，得到这个url。

调度器将这个url传送给下载器，对网页的内容进行下载，下载好后，下载器将url内容返回给调度器。

调度器会将url的内容传送给解析器，进行网页的解析，解析之后，会返回价值数据和新的url列表。

一方面调度器会将价值数据传送给应用，进行数据的收集，另一方面，会将新的url列表补充到url管理器，

这个时候，url管理器还有新的待爬取的url，那么这个循环会一直进行下去，直到爬取完所有的没有爬取过的url，

最后调度器会调用应用的方法进行输出，将价值数据输出我们需要的格式。

以上就是简单爬虫架构整体动态运行流程。

Python 开发轻量级爬虫03的更多相关文章

Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫02
Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...
Python开发轻量级爬虫
这两天自学了python写爬虫,总结一下: 开发目的:抓取百度百科python词条页面的1000个网页设计思路: 1,了解简单的爬虫架构: 2,动态的执行流程: 3,各部分的实现: URL管理器:p ...
Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...

随机推荐

abrtd是什么进程
abrtd 是一个守护进程监控的应用程序崩溃.当发生崩溃时,它将收集的崩溃(核心文件的命令行, etc .)application ,并采取措施根据类型崩溃并根据 abrt.conf config 文 ...
Linux下的百度云客户端
项目的github地址:https://github.com/LiuLang/bcloud 安装包以及说明:https://github.com/LiuLang/bcloud-packages 我在百 ...
Linux服务器管理: 系统的定时任务crond
cornd 是定时任务的守护进程这个服务系统是默认启动的 [root@localhost/]#/etc/init.d/crond strat|restart|stop [root@localhos ...
HITtrainning20140417题解
题目列表: ID Origin Title 10 / 15 Problem A FZU 2152 文件系统 0 / 16 Problem B FZU 2153 A simple geome ...
CocoaPods版本升级
和往常一样使用CocoaPods管理一个基于FMDB的项目类库命令行执行 $ pod install [!] The 'master' repo requires CocoaPods 0.32.1 ...
solr
一.启动命令 tar -zxvf solr-.tgz cd solr-\example java -jar start.jar 默认监听8983端口 java -Djetty.port= -jar s ...
Ubuntu 12 修改环境变量
Ubuntu Linux系统包含两类环境变量:系统环境变量和用户环境变量.系统环境变量对所有系统用户都有效,用户环境变量仅仅对当前的用户有效. 修改用户环境变量用户环境变量通常被存储在下面的文件中: ...
ASN.1编码
来自几年前本人写的一篇博客 http://blog.csdn.net/newyf_cun/article/details/13016069 如下使用libtasn1分析asn1的编码规则. http: ...
SQL双重游标（双重循环）--笔记
declare )='', )='', )='' --创建游标 declare @cursor cursor --设定游标欲操作的数据集 set @cursor=cursor for select s ...
JQuery simpleModal插件的使用-遁地龙卷风
(0)写在前面 jquery.simpleModal.浏览器这三者的兼容性,不仅显示在报错上,还体现在所呈现的效果不是预期上. 说一下我的环境 jquery-1.8.3.js jquery.simpl ...

Python 开发轻量级爬虫03

Python 开发轻量级爬虫

(imooc总结03--简单的爬虫架构)

Python 开发轻量级爬虫03的更多相关文章

随机推荐

热门专题