python——爬虫&问题解决&思考（三）

　　继续上一篇文章的内容，上一篇文章中，将爬虫调度器已经写好了，调度器是整个爬虫程序的“大脑”，也可以称之为指挥中心。而现在，我们要做的就是去将调度器中用到的其他组件写好。首先是url管理器，它既然作为管理器，那么它一定要区分待爬取的url和已经爬取的url，否则会重复爬取。这里教程用的是set集合，将两个url暂时存放到集合中，也就是内存中，毕竟比较爬取的数据比较少，当然也可以存放到别的地方，比如缓存或者关系型数据库中。

　　从图中可以看出，一共出现5次：

　　　　第一次是调度器初始化函数中，创建这个urlmanager对象，

　　　　第二次是调用了add_new_url方法来将最初始的url加入到带爬取的集合中，

　　　　第三次是在爬取过程中来判断是否有待爬取的url,

　　　　第四次是将要爬取的url从集合中取出来，

　　　　第五次是将页面解析出来的新的一组url再次添加到带爬去集合中

　　那么我们接下来就要做的是用代码来实现这些功能：

 class UrlManager(object):
     """docstring for UrlManager"""
     def __init__(self):
         self.new_urls = set()
         self.old_urls = set()
     #向管理器中添加一个新的url
     def add_new_url(self,url):
         if url is None:
             return
         if url not in self.new_urls and url not in self.old_urls:
             self.new_urls.add(url)
     #从爬取数据中向管理器中批量添加url
     def add_new_urls(self,urls):
         if urls is None or len(urls) == 0:
             return
         for url in urls:
             self.add_new_url(url)
     #判断是否有新的url
     def has_new_url(self):
         return (len(self.new_urls) != 0)
     #从管理器中取出一个新的url
     def get_new_url(self):
         new_url = self.new_urls.pop()
         self.old_urls.add(new_url)
         return new_url

　　好，到这，url管理器就搞定了！

　　接下来就是url下载器了，很简单一个功能，将程序访问的页面保存下来。

　　从上图可以看出，下载器只在调度器中出现过两次：

　　　　第一次是初始化的时候创建

　　　　第二次是紧接着取到url之后，马上调用它来下载页面

　　在url下载器中，原教程使用的是urllib库，我觉得有点繁琐。所以我换成了一个更好用的库：requests。这个库可以帮助我屏蔽许多技术难题，直接去抓取我们想要访问的页面，而且使用起来非常简单。

 import requests

 class HtmlDownloader(object):
     """docstring for HtmlDownloader"""
     def download(self,url):
         if url is None:
             return
         response = requests.get(url, timeout = 0.1)
         response.encoding = 'utf-8'
         if response.status_code == requests.codes.ok:
             return response.text
         else:
             return

　　简要讲一下这段代码：

　　　　a.首先要导入requests库，这个因为是第三方库，所以需要你自己下载，在命令行输入：pip install requests

　　　　b.然后开始写下载器这个类，这个类只有一个方法，就是download。这个方法首先会接受你给定的url，然后对其进行判断是否存在。

　　　　c.然后调用requests的get方法，它里面接受两个参数，一个是url,还有一个是timeout

　　　　　　timeout是我自己额外加进去的，就是访问超时。如果不加timeout，程序会假死，也就是说会一直在那里等待页面的响应，也不抛出异常。

　　　　d.然后对返回的response进行编码设置，因为爬取的百度百科页面是utf-8，所以这里最好还是设置一下，虽然requests会智能判断，但是还是手动改一下为宜。

　　　　e.然后在判断页面是否响应，这里的codes.ok其实就是200，表示网页正常响应，你这里直接写 response.status_code == 200 也没问题。

　　　　f.最后，将页面的所有内容都返回，这里的text就是一个字符串，它包含了一个页面的所有代码（html,css,js）。

python——爬虫&问题解决&思考（三）的更多相关文章

python——爬虫&问题解决&思考（1）
最近刚接触python,找点小任务来练练手,希望自己在实践中不断的锻炼自己解决问题的能力.这个小爬虫来自慕课网的一门课程,我在这里记录的是自己学习的过程中遇到的问题和解决方法以及爬虫之外的思考. 这次 ...
python——爬虫&问题解决&思考（四）
继续上一篇文章的内容,上一篇文章中已经将url管理器和下载器写好了.接下来就是url解析器,总的来说这个模块是几个模块中比较难的.因为通过下载器下载完页面之后,我们虽然得到了页面,但是这并不是我们想要 ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
路飞学城-Python爬虫集训-第三章
这个爬虫集训课第三章的作业讲得是Scrapy 课程主要是使用Scrapy + Redis实现分布式爬虫惯例贴一下作业: Python爬虫可以使用Requests库来进行简单爬虫的编写,但是Reque ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
Python 爬虫入门（三）—— 寻找合适的爬取策略
写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 ...
python爬虫入门（三）XPATH和BeautifulSoup4
XML和XPATH 用正则处理HTML文档很麻烦,我们可以先将 HTML文件转换成 XML文档,然后用 XPath 查找 HTML 节点或元素. XML 指可扩展标记语言(EXtensible Ma ...
Python爬虫实例（三）代理的使用
一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问.所以我们需要设置一些代理服务器,每隔一段时间换一 ...
Python爬虫基础（三）urllib2库的高级使用
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,其中urlopen是模块默认构建的opener. 但是基本的urlopen()方法不 ...

随机推荐

循环神经网络RNN公式推导走读
0语言模型-N-Gram 语言模型就是给定句子前面部分,预测后面缺失部分 eg．我昨天上学迟到了,老师批评了____. N-Gram模型: ,对一句话切词我昨天上学迟到了 ,老师批评了 ...
SVG如何做圆形图片
SVG如何做圆形图片 2016年5月31日17:30:48 提到圆形图片,大家首先想到的一定是border-radius,但在SVG中这些方法很难起效,下面方法适合SVG中制作任意规则与不规则的图形. ...
Apache设置404页面
使用版本:Apache 2.2 1.添加404页面在所配置网站的根目录添加编辑好的 404.html (页面名字无所谓比如也可以叫missing.html) 如C:\Program Files\A ...
Java线程详解----借鉴
Java线程:概念与原理一.操作系统中线程和进程的概念现在的操作系统是多任务操作系统.多线程是实现多任务的一种方式. 进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,一个进程 ...
Hibernate启动非常慢问题分析
项目中使用hibernate3,在启动项目过程中,发现加载显示数据很慢,要多几分钟才显示出数据,没有报其他异常.今天特别慢,过了好久都不加载显示数据. 排查思路有以下几个方面: 1.数据库是否开启.检 ...
POJ 3261 出现至少K次的可重叠最长子串
题意就是给一列数字,求最长的一个子串,并且满足子串在原数串中出现至少K次,子串可以重叠. 解法是将问题转为判定性问题,二分子串的长度,判定是否满足重复至少K次.判定方法是经典的根据子串长度将Heigh ...
Virtualbox mac版centos7.2 安装共享文件夹
因为用的是mac本,在自己电脑上用virtualbox安装了centos7.2 虚拟机,为了实现与本机交换文件,需要用到贡享文件夹功能. 网上搜的时候多是windows版的,所以自己写一个mac版的. ...
推送一个已有的代码到新的 gerrit 服务器
1.指定项目代码库中迭代列出全部ProductList(.git)到pro.log文件中 repo forall -c 'echo $REPO_PROJECT' | tee pro.log pro.l ...
js小数处理
js中的小数处理先说说Math的几个方法: 1.Math.floor(x) 返回不大于当前数的最大整数. 我的记法:floor 直译地板也就是不大于的的意思 (x-0.5 四舍五入取整 ...
新建Android项目，会出现两个项目一个是自己创建的项目，另一个是“appcompat_v7”项目，这是怎么回事呢？该怎么解决呢？
做Android开发的朋友最近会发现,更新ADT至22.6.0版本之后,创建新的安装项目,会出现appcompat_v7的内容.并且是创建一个新的内容就会出现.这到底是怎么回事呢?原来appcompa ...

python——爬虫&问题解决&思考（三）

python——爬虫&问题解决&思考（三）的更多相关文章

随机推荐

热门专题