Python3网络爬虫(三)：urllib.error异常

运行平台：Windows
Python版本：Python3.x
IDE：Sublime text3

转载请注明作者和出处：http://blog.csdn.net/c406495762/article/details/59488464

一.urllib.error

urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。如下图所示：

URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP的响应会返回一个状态码，根据这个HTTP状态码，我们可以知道我们的访问是否成功。例如第二个笔记中提到的200状态码，表示请求成功，再比如常见的404错误等。

1.URLError

让我们先看下URLError的异常，创建文件urllib_test06.py，编写如下代码：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.iloveyou.com/"

    req = request.Request(url)

    try:

        response = request.urlopen(req)

        html = response.read().decode('utf-8')

        print(html)

    except error.URLError as e:

        print(e.reason)

我们可以看到如下运行结果：

2.HTTPError

再看下HTTPError异常，创建文件urllib_test07.py，编写如下代码：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.douyu.com/Jack_Cui.html"

    req = request.Request(url)

    try:

        responese = request.urlopen(req)

        # html = responese.read()

    except error.HTTPError as e:

        print(e.code)

运行之后，我们可以看到404，这说明请求的资源没有在服务器上找到，www.douyu.com这个服务器是存在的，但是我们要查找的Jack_Cui.html资源是没有的，所以抛出404异常。

二.URLError和HTTPError混合使用

最后值得注意的一点是，如果想用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面，因为HTTPError是URLError的一个子类。如果URLError放在前面，出现HTTP异常会先响应URLError，这样HTTPError就捕获不到错误信息了。

如果不用上面的方法，也可以使用hasattr函数判断URLError含有的属性，如果含有reason属性表明是URLError，如果含有code属性表明是HTTPError。创建文件urllib_test08.py，编写代码如下：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.douyu.com/Jack_Cui.html"

    req = request.Request(url)

    try:

        responese = request.urlopen(req)

    except error.URLError as e:

        if hasattr(e, 'code')

            print("HTTPError")

            print(e.code)

        elif hasattr(e, 'reason')

            print("URLError")

            print(e.reason)

运行结果如下：

Python3网络爬虫(三)：urllib.error异常的更多相关文章

Python3网络爬虫：urllib.error异常
转载请注明作者和出处:http://blog.csdn.net/c406495762/article/details/59488464 一.urllib.error urllib.error可以接收有 ...
转：【Python3网络爬虫开发实战】 requests基本用法
1. 准备工作在开始之前,请确保已经正确安装好了requests库.如果没有安装,可以参考1.2.1节安装. 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而 ...
崔庆才Python3网络爬虫开发实战电子版书籍分享
资料下载地址: 链接:https://pan.baidu.com/s/1WV-_XHZvYIedsC1GJ1hOtw 提取码:4o94 <崔庆才Python3网络爬虫开发实战>高清中文版P ...
Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载提取码:d03u 内容简介本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
《Python3 网络爬虫开发实战》开发环境配置过程中踩过的坑
<Python3 网络爬虫开发实战>学习资料:https://www.cnblogs.com/waiwai14/p/11698175.html 如何从墙内下载Android Studio: ...
《Python3 网络爬虫开发实战》学习资料
<Python3 网络爬虫开发实战> 学习资料百度网盘:https://pan.baidu.com/s/1PisddjC9e60TXlCFMgVjrQ
python3网络爬虫系统学习：第一讲基本库urllib
在python3中爬虫常用基本库为urllib以及requests 本文主要描述urllib的相关内容 urllib包含四个模块:requests——模拟发送请求 error——异常处理模块 pars ...
Python3网络爬虫（1）：利用urllib进行简单的网页抓取
1.开发环境 pycharm2017.3.3 python3.5 2.网络爬虫的定义网络爬虫,也叫网络蜘蛛(web spider),如果把互联网比喻成一个蜘蛛网,spider就是一只在网上爬来爬去的 ...

随机推荐

LoadRunner问题解决
1.问题:复制脚本,修改后并保存,直接在controller中加载脚本,无法创建用户,出现“Loadrunner Controller cannot create Vusers. Ensure th ...
Tomcat控制台乱码问题
乱码效果图解决办法 1.修改cmd的编码格式快捷键win+R打开运行程序,输入regedit打开注册表,找到以下路劲并且修改. [HKEY_LOCAL_MACHINE\SOFTWARE\Micro ...
UVA 1611 Crane 起重机（子问题）
题意:给一个1~n排列,1<=n<=10000,每次操作选取一个长度为偶数的连续区间.交换前一半和后一半,使它变成升序. 题解:每次只要把最小的移动到最左边,那么问题规模就缩小了.假设当前 ...
Spark Job具体的物理执行
即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式: 1.f(record),f作用于集合的每一条记录,每次只作用于一条记录 2.f(records),f一次性作用于 ...
[论文理解] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的t ...
使用控件的Tag属性传递信息
实现效果: 知识运用: Control类的Tag属性 //获取或设置包含有关控件的数据的对象 public object Tag {get;set;} 实现代码: private void Form ...
CPP-网络/通信：经典HTTP协议详解
2008-11-03 09:11 by Hundre, 266688 阅读, 23 评论, 收藏, 编辑转自:http://blog.csdn.net/gueter/archive/2007/03/ ...
idea spring boot启动项目上面有红色叉
一打开IDEA,在启动debug项目有一个红色叉如下图因为打开项目可以主项目的包没有加载进来,解决办法就是右击项目->maven->Reimport 就搞定了..
实验十三团队作业9：Beta冲刺与团队项目验收
实验十三团队作业9:Beta冲刺与团队项目验收实验时间 2019-6-20(21) Deadline: [6.20-6.26]之间任选连续3天的23:00,以团队随笔博文提交时间为准. 评分标准: ...
虚拟机设置NAT
需要开启虚拟机网络相关服务, 安装虚拟网卡, 还有必须安装 VMware Tools VMware虚拟机下实现NAT方式上网1. 把你的虚拟网卡VMnet8设置为自动获得IP.自动获得DNS服务器,启 ...

Python3网络爬虫(三)：urllib.error异常

Python3网络爬虫(三)：urllib.error异常的更多相关文章

随机推荐

热门专题