Python爬虫基础之UrlError

一、urllib.error

python的urllib.error模块主要是应对urllib.request在网络请求过程中出现的异常而定义的异常处理类。主要有URLError和HTTPError两个类，URLError的父类是OSError，HTTPError是URLError的子类。

1.urllib.error.URLError

URLError是OSError的子类，当请求过程中没有网络连接，域名映射的服务器不存在都会抛出异常。

属性reason，说明产生异常的原因，返回一个字符串错误信息或者另外一个异常实例对象。

 import urllib.request

 import urllib.error

 try:

     request = urllib.request.Request('http://www.baidu.com/')

     response = urllib.request.urlopen(request)

     print(response.read().decode('utf-8'))

 except urllib.error.HTTPError as e:

     print('http error:%s' % e.reason)

 except urllib.error.URLError as e:

     print('url error:%s' % e.reason)

产生异常：

Request参数Url传入一个不存在的域名地址www123.baidu.com或者直接拔掉网线（禁用网络连接），程序就会抛出URLError

request = urllib.request.Request('http://www123.baidu.com/')

捕捉并打印异常信息：url error:[Errno 11004] getaddrinfo failed

2.urllib.error.HTTPError

HTTPError是URLError的子类，urllib.request.urlopen()请求过程中产生HTTP错误，例如资源不存在、身份授权异常，服务器内部错误等。

属性code，返回http请求的状态码，例如200、404、500等

属性reason，说明产生异常的原因，返回一个字符串错误信息。

属性headers，urllib.request请求触发HTTP Error异常，返回响应的请求头headers信息。

 import urllib.request

 import urllib.error

 try:

     request = urllib.request.Request('https://www.cnblogs.com/123.html')

     response = urllib.request.urlopen(request)

     print(response.read().decode('utf-8'))

 except urllib.error.HTTPError as e:

     print('http error: http code :{0},error msg :{1}'.format(e.code, e.reason))

 except urllib.error.URLError as e:

     print('url error:%s' % e.reason)

产生异常：
Request参数Url传入一个不存在的页面地址123.html,请求的资源不存在，程序就会抛出HTTPError异常

request = urllib.request.Request('https://www.cnblogs.com/123.html')

捕捉并打印异常信息：http error: http code :404,error msg :Not Found

Python爬虫基础之UrlError的更多相关文章

Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫基础之认识爬虫
一.前言爬虫Spider什么的,老早就听别人说过,感觉挺高大上的东西,爬网页,爬链接~~~dos黑屏的数据刷刷刷不断地往上冒,看着就爽,漂亮的校花照片,音乐网站的歌曲,笑话.段子应有尽有,全部都过来 ...
python 爬虫基础知识一
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 网络爬虫必备知识点 1. Python基础知识2. P ...
Python爬虫基础（一）——HTTP
前言因特网联系的是世界各地的计算机(通过电缆),万维网联系的是网上的各种各样资源(通过超文本链接),如静态的HTML文件,动态的软件程序······.由于万维网的存在,处于因特网中的每台计算机可以很 ...
【学习笔记】第二章 python安全编程基础---python爬虫基础（urllib）
一.爬虫基础 1.爬虫概念网络爬虫(又称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或脚本.用爬虫最大的好出是批量且自动化得获取和处理信息.对于宏观或微观的情况都可以多一个侧面去了 ...

随机推荐

[转帖]流程控制：for 循环
流程控制:for 循环 http://wiki.jikexueyuan.com/project/linux-command/chap34.html need more study need more ...
CSS3 移动端 1PX 线变成0.5PX
.line1 {position:relative} .line1:after {content:'';position:absolute;bottom:0;left:0;width:100%;hei ...
golang面向对象和interface接口
一. golang面向对象介绍 1.golang也支持面向对象编程,但是和传统的面向对象编程有区别,并不是纯粹的面向对象语言.2.golang没有类(class),golang语言的结合体(struc ...
2019-04-18 Beetl模板学习
1. beetl的安装使用maven: <dependency> <groupId>com.ibeetl</groupId> <artifactId> ...
在vue 里使用腾讯ditu
https://www.cnblogs.com/mrer/p/7144705.html
SpringBoot配置日志logback
1.这里我们选择logback,首先加入pom依赖 <dependency> <groupId>ch.qos.logback</groupId> <artif ...
Python Spider - urllib.request
import urllib.request import urllib.parse import json proxy_support = urllib.request.ProxyHandler({' ...
UOJ22 UR #1外星人（动态规划）
https://www.cnblogs.com/Gloid/p/10629779.html 这一场的D. #include<bits/stdc++.h> using namespace s ...
[BJOI2019]奥术神杖
https://www.luogu.org/problemnew/show/P5319 题解首先观察我们要求的答案的形式: \[ \biggl(\prod V_i \biggr)^x\ \ \ x= ...
python 内置函数详解
懒得写了参考1:https://www.cnblogs.com/xiao1/p/5856890.html 参考2:https://www.runoob.com/python/python-buil ...

Python爬虫基础之UrlError

Python爬虫基础之UrlError的更多相关文章

随机推荐

热门专题