Python3网络爬虫：urllib.error异常

转载请注明作者和出处：http://blog.csdn.net/c406495762/article/details/59488464

一.urllib.error

urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。如下图所示：

URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP的响应会返回一个状态码，根据这个HTTP状态码，我们可以知道我们的访问是否成功。例如第二个笔记中提到的200状态码，表示请求成功，再比如常见的404错误等。

1.URLError

让我们先看下URLError的异常，创建文件urllib_test06.py，编写如下代码：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.iloveyou.com/"

    req = request.Request(url)

    try:

        response = request.urlopen(req)

        html = response.read().decode('utf-8')

        print(html)

    except error.URLError as e:

        print(e.reason)

我们可以看到如下运行结果：

2.HTTPError

再看下HTTPError异常，创建文件urllib_test07.py，编写如下代码：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.douyu.com/Jack_Cui.html"

    req = request.Request(url)

    try:

        responese = request.urlopen(req)

        # html = responese.read()

    except error.HTTPError as e:

        print(e.code)

运行之后，我们可以看到404，这说明请求的资源没有在服务器上找到，www.douyu.com这个服务器是存在的，但是我们要查找的Jack_Cui.html资源是没有的，所以抛出404异常。

二.URLError和HTTPError混合使用

最后值得注意的一点是，如果想用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面，因为HTTPError是URLError的一个子类。如果URLError放在前面，出现HTTP异常会先响应URLError，这样HTTPError就捕获不到错误信息了。

如果不用上面的方法，也可以使用hasattr函数判断URLError含有的属性，如果含有reason属性表明是URLError，如果含有code属性表明是HTTPError。创建文件urllib_test08.py，编写代码如下：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.douyu.com/Jack_Cui.html"

    req = request.Request(url)

    try:

        responese = request.urlopen(req)

    except error.URLError as e:

        if hasattr(e, 'code')

            print("HTTPError")

            print(e.code)

        elif hasattr(e, 'reason')

            print("URLError")

            print(e.reason)

运行结果如下：

Python3网络爬虫：urllib.error异常的更多相关文章

网络爬虫urllib：request之urlopen
网络爬虫urllib:request之urlopen 网络爬虫简介定义:按照一定规则,自动抓取万维网信息的程序或脚本. 两大特征: 能按程序员要求下载数据或者内容能自动在网络上流窜(从一个网页跳转 ...
转：【Python3网络爬虫开发实战】 requests基本用法
1. 准备工作在开始之前,请确保已经正确安装好了requests库.如果没有安装,可以参考1.2.1节安装. 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而 ...
崔庆才Python3网络爬虫开发实战电子版书籍分享
资料下载地址: 链接:https://pan.baidu.com/s/1WV-_XHZvYIedsC1GJ1hOtw 提取码:4o94 <崔庆才Python3网络爬虫开发实战>高清中文版P ...
Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载提取码:d03u 内容简介本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
《Python3 网络爬虫开发实战》开发环境配置过程中踩过的坑
<Python3 网络爬虫开发实战>学习资料:https://www.cnblogs.com/waiwai14/p/11698175.html 如何从墙内下载Android Studio: ...
《Python3 网络爬虫开发实战》学习资料
<Python3 网络爬虫开发实战> 学习资料百度网盘:https://pan.baidu.com/s/1PisddjC9e60TXlCFMgVjrQ
Python3网络爬虫(三)：urllib.error异常
运行平台:Windows Python版本:Python3.x IDE:Sublime text3 转载请注明作者和出处:http://blog.csdn.net/c406495762/article ...
python3网络爬虫系统学习：第一讲基本库urllib
在python3中爬虫常用基本库为urllib以及requests 本文主要描述urllib的相关内容 urllib包含四个模块:requests——模拟发送请求 error——异常处理模块 pars ...

随机推荐

自定义类型转换器之TypeConverter
C#提供了很多类型转换的方法如ConvertToInt.int.Parse.int.tryParse等等,这些方法都能将一个C#的基本数据类型转换成另一个C#基本数据类型.那么.既然如此,C#肯定会提 ...
Spark 概念学习系列之Spark Core（十五）
不多说,直接上干货! 最关键的是转换算子Transformations和缓存算子Actions. 主要是对RDD进行操作. RDD Objects -> Scheduler(DAGSched ...
android4.0 4.1 4.2 4.3 4.4新特性
http://blog.csdn.net/kaiyang45/article/details/7179349 4.0 http://digi.tech.qq.com/a/20120628/000827 ...
MySQL之mysql命令使用详解
MySQL Name mysql - the MySQL command-line tool Synopsis mysql [options] db_name Description mysql is ...
vue 获取数据联动下拉框select ，并解决报Duplicate value found in v-for="...": "". Use track-by="$index" 错误
公司项目中遇到一个问题,联动下拉框,并且数据是使用vue-resource从后台获取的,格式不利于输出联动下拉框,联动下拉框是第一个下拉框输出一个数组里每一项json的一个text值,从而第二下拉框输 ...
js文件加载太慢，JavaScript文件加载加速
原文出自:https://blog.csdn.net/seesun2012 js脚本加载太慢,JavaScript脚本加载加速(亲测有效) 测试背景: JS文件大小:6.1kB 传统形式加载js文件: ...
WCF WCF的宿主
一.WCF服务应用程序与WCF服务库我们在平时开发的过程中常用的项目类型有“WCF 服务应用程序”和“WCF服务库”. WCF服务应用程序,是一个可以执行的程序,它有独立的进程,WCF服务类契约的定 ...
Entity FreamWork框架
实体框架 (Entity Framework) 1.是微软以ADO.Net为基础所发展出来的对象关系对应(O/R Mapping)解决方案. 2.实体框架Entity Framework是ADO.Ne ...
MySQL数据源驱动报错
报错信息:MySQL数据源驱动报错: 1.mysql8.0以上版本需要连接数据库的JDBC驱动也是8.0版本以上 com.mysql.cj.jdbc.Driver 2.MySQL高版本需要指明是否需要 ...
Spring入门（一）— IOC、DI
一.Spring介绍 Spring 是一个开源框架,是为了解决企业应用程序开发复杂性而创建的.框架的主要优势之一就是其分层架构,分层架构允许您选择使用哪一个组件,同时为 J2EE 应用程序开发提供集成 ...

Python3网络爬虫：urllib.error异常

Python3网络爬虫：urllib.error异常的更多相关文章

随机推荐

热门专题