Python 网络爬虫 008 (编程) 通过ID索引号遍历目标网页里链接的所有网页
通过 ID索引号 遍历目标网页里链接的所有网页
使用的系统:Windows 10 64位
Python 语言版本:Python 2.7.10 V
使用的编程 Python 的集成开发环境:PyCharm 2016 04
我使用的 urllib 的版本:urllib2
注意: 我没这里使用的是 Python2 ,而不是Python3
一 . 前言
通过之前两节(爬取一个网页 的网络爬虫 和 解决爬取到的网页显示时乱码问题),我们终于完成了最终的 download() 函数。
并且上一节,我们通过网站地图解析里面的URL的方式爬取了目标站点的所有网页。这一节 我再介绍一种方法来爬取一个网页里面所有的链接网页。
简单的说:就是利用一些网站结构的弱点,更加轻松地访问所有内容。
二 . 原理
对于一些网站,它里面的链接网址是由索引号设定的。举个例子:
下面这些网页的URL是同一个站点的:
http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Aland-Islands-2
http://example.webscraping.com/view/Albania-3
它们之间有规律,前面(http://example.webscraping.com/view/)都是一样的,而后面是ID索引号。这样我们就可以使用这样的规律来对这个站点进行下载操作。
一般情况下,Web服务器会忽略ID索引号跟随的这个字符串,(这个字符串叫着:页面别名),只使用ID来匹配数据库中的相关记录。也就是说:http://example.webscraping.com/view/1 这个网址也可以使用,得到的结果和访问 http://example.webscraping.com/view/Afghanistan-1 是一样的。
所以,我们只使用ID索引号是行得通的,网页依然可以成功加载。
三 . 代码
现在我们将来忽略页面别名,只遍历ID来下载这个站点(http://example.webscraping.com/view/)里面的所有网页。
简单的程序如下。这段代码我对ID索引号进行遍历,直到出现下载错误时停止,(我们现在就假设此时为:到达最后一个国家的页面。)
import itertools
def traverse_id():
for page in itertools.count(1):
url = 'http://example.webscraping.com/view/%d' % page
html = download(url)
if html is None:
break
else:
# success - can scrape the result
pass
download()函数 完整的代码在这篇博客的最下面:http://blog.csdn.net/github_35160620/article/details/52529435
四 . 运行:
先启动 Python27 的终端交互界面,执行下面的命令:
> C:\Python27\pytho
n.exe -i 1-4-3-id-traverse.py
执行:
>>> traverse_id()
输出:
Downloading: http://example.webscraping.com/view/1
Downloading: http://example.webscraping.com/view/2
Downloading: http://example.webscraping.com/view/3
Downloading: http://example.webscraping.com/view/4
Downloading: http://example.webscraping.com/view/5
上面这段代码是存在一个缺陷的:可能目标站点的某些ID索引号的网页已经被删除了,就是目标站点数据库的ID索引号不是连续的。那么,上面这段程序访问到目标站点的某个间断点,爬虫就会立即退出。所以我们需要对上面的代码进行升级。
五 . 代码升级:
下面的代码是升级后的代码。程序会在连续发生多次下载错误后才会退出程序。
import itertools
# maximum number of consecutive download errors allowed
max_errors = 5
# current number of consecutive download errors
num_errors = 0
for page in itertools.count(1):
url = 'http://example.webscraping.com/view/%d' % page
html = download(url)
if html is None:
# received an error trying to download this webpage
num_errors += 1
if num_errors == max_errors:
# reached maximum number of
# consecutive errors so exit
break
else:
# success - can scrape the result
# ...
num_errors = 0
上面这个程序就是实现了一个:如果连续5次下载错误才停止遍历 的功能。这样做就可以很大程度上降低了遇到间断点时,过早停止遍历的风险。
搞定
总结:
在爬取网站时,使用遍历ID索引号是一个很便捷的方法。但是:
1 . 一些网站会检查页面别名是否满足预期,如果不是,则会返回 404 Not Found 错误。
2 . 另一些网站则会使用非连接的多位数字作为ID,或者根本就不使用数值作为ID,此时遍历就难以发挥其作用了。
所以在爬取网站的时候,使用的方法要根据网站的特点来选择使用。
下一节,我介绍在一个网页中使用正则表达式来得到这个网页中所有的链接URL。
Python 网络爬虫 008 (编程) 通过ID索引号遍历目标网页里链接的所有网页的更多相关文章
- Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页
通过网站地图爬取目标站点的所有网页 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 ...
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...
- Python 网络爬虫 004 (编程) 如何编写一个网络爬虫,来下载(或叫:爬取)一个站点里的所有网页
爬取目标站点里所有的网页 使用的系统:Windows 10 64位 Python语言版本:Python 3.5.0 V 使用的编程Python的集成开发环境:PyCharm 2016 04 一 . 首 ...
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
通过 正则表达式 来获取一个网页中的所有的 URL链接,并下载这些 URL链接 的源代码 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 ...
- Python 网络爬虫 005 (编程) 如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫
如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
- Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
- 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
- 《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮 著 目录结构 第一章 什么是网络爬虫 第二章 爬虫技能概览 第三章 爬虫实现原理与实现技术 第四章 Urllib库与URLError异常处理 第五章 正则 ...
- Python网络爬虫与信息提取
1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
随机推荐
- Tomcat部署项目后有括号的处理方法
常见的问题,收录整理了一下,方便查找. 如下3个地方都修改为一致即可解决. 1,右键项目名 --> properties --> 输入web project settings --> ...
- SSM整合(spring、springMVC、mybatis)
需要用的包: 包括:spring的包.springMVC的包.mybatis的包.数据库驱动包.json相关的包 配置如下,首先是mybatis的配置 <?xml version="1 ...
- Django pymysql学员管理系统
学员管理系统 项目规划阶段 项目背景 近年来老男孩教育的入学学员数量稳步快速增长,传统的excel统计管理学员信息的方式已经无法满足日渐增长的业务需求.因此公司急需一套方便易用的“学员管理系统”,来提 ...
- 2017 年比较 Angular、React、Vue 三剑客(转载)
为 web 应用选择 JavaScript 开发框架是一件很费脑筋的事.现如今 Angular 和 React 非常流行,并且最近出现的新贵 VueJS 同样博得了很多人的关注.更重要的是,这只是一些 ...
- bzoj3597 方伯伯运椰子
有一个 DAG,有一个源点,一个汇点和很多条边,每条边有花费 $d_i$ 和最大流量 $c_i$,可以花 $b_i$ 的钱把最大流量增加 $1$,花 $a_i$ 的钱把最大流量减少 $1$ 现在要进行 ...
- Http请求状态码
1xx - 信息提示 这些状态代码表示临时的响应.客户端在收到常规响应之前,应准备接收一个或多个 1xx 响应. ·0 - 本地响应成功. · 100 - Continue 初始的请求已 ...
- poj 2262 Goldbach's Conjecture——筛质数(水!)
题目:http://poj.org/problem?id=2262 大水题的筛质数. #include<iostream> #include<cstdio> #include& ...
- Python 算法之二分查找
二分查找 二分查找又称折半查找 优点是比较次数少,查找速度快,平均性能好 缺点是要求待查表为有序表,且插入删除困难 折半查找方法适用于不经常变动而查找频繁的有序列表. 猜数字游戏 1.生成一个有序列表 ...
- laravel 添加自定义类 全局自定义方法 自定义常量
添加自定义类 https://blog.csdn.net/suchfool/article/details/38758367 https://blog.csdn.net/liukai6/article ...
- RPCServiceClient-调用webservice客户端
import javax.xml.namespace.QName; import org.apache.axis2.AxisFault; import org.apache.axis2.address ...