2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议

1.异常处理

URLError类来自urllib库的error模块，它继承自OSError类，是error异常模块的基类，由request模块产生的异常都可以通过这个类来处理。

from urllib import request, error

try:

    response = request.urlopen('http://cuiqingcai.com/index.htm')

except error.HTTPError as e:

    print(e.reason, e.code, e.headers, sep='\n')

except error.URLError as e:

    print(e.reason)

else:

    print('Request Successfully')

输出结果如下：

Not Found

404

Server: nginx/1.10.3 (Ubuntu)

Date: Tue, 09 Apr 2019 07:25:19 GMT

Content-Type: text/html; charset=UTF-8

Transfer-Encoding: chunked

Connection: close

Vary: Cookie

Expires: Wed, 11 Jan 1984 05:00:00 GMT

Cache-Control: no-cache, must-revalidate, max-age=0

Link: <https://cuiqingcai.com/wp-json/>; rel="https://api.w.org/"

* 这样来理解：URLError 和 HTTPError ==> URLError其子类是HTTPError。

*URLError拥有属性reason；HTTPError拥有属性reason(原因)、headers(请求头)、code(状态码).

import socket

import urllib.request

import urllib.error

try:

    response = urllib.request.urlopen('https://www.baidu.com', timeout=0.01)

except urllib.error.URLError as e:

    print(type(e.reason))

    if isinstance(e.reason, socket.timeout):

        print('TIME OUT')

2.解析链接

urllib库中的parse模块，它定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换.

!!! scheme协议://netloc域名/path访问路径;params参数?query查询条件#fragment瞄点

urlencode() !!! 这个函数前面提到过，很重要，用于构造get请求参数

from urllib.parse import urlencode

params = {

    'name': 'germey',

    'age': 22

}

base_url = 'http://www.baidu.com?'

url = base_url + urlencode(params)

print(url)

输出结果如下：

http://www.baidu.com?name=germey&age=22

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)：

*该方法可以实现URL的识别和分段 urlstring必填项，即代解析的URL地址；scheme默认的协议(eg：http、https)；allow_fragments是否忽略fragment

实例0：

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')

print(type(result), result)

输出结果如下：

<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

实例1：

from urllib.parse import urlparse

result = urlparse('www.baidu.com/index.html;user?id=5#comment', scheme='https')

print(result)

"""

输出结果：

ParseResult(scheme='https', netloc='', path='www.baidu.com/index.html', params='user', query='id=5', fragment='comment')

"""

实例2：

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment', scheme='https')

print(result)

"""

输出结果：

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

"""

实例3：

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment', allow_fragments=False)

print(result)

"""

输出结果：

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5#comment', fragment='')

"""

实例4：

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html#comment', allow_fragments=False)

print(result)

"""

输出结果：

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html#comment', params='', query='', fragment='')

"""

urlunparse(data) :实现URL的构造。长度必须为6、类型:列表、元组或特定的数据结构

from urllib.parse import urlunparse

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']

print(urlunparse(data))

"""

结果如下：

http://www.baidu.com/index.html;user?a=6#comment

"""

urljoin():实现链接的解析合并和生成

from urllib.parse import urljoin

print(urljoin('http://www.baidu.com', 'FAQ.html'))

print(urljoin('http://www.baidu.com', 'https://cuiqingcai.com/FAQ.html'))

print(urljoin('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html'))

print(urljoin('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html?question=2'))

print(urljoin('http://www.baidu.com?wd=abc', 'https://cuiqingcai.com/index.php'))

print(urljoin('http://www.baidu.com', '?category=2#comment'))

print(urljoin('www.baidu.com', '?category=2#comment'))

print(urljoin('www.baidu.com#comment', '?category=2'))

输出结果如下：

http://www.baidu.com/FAQ.html

https://cuiqingcai.com/FAQ.html

https://cuiqingcai.com/FAQ.html

https://cuiqingcai.com/FAQ.html?question=2

https://cuiqingcai.com/index.php

http://www.baidu.com?category=2#comment

www.baidu.com?category=2#comment

www.baidu.com?category=2

*有点晕？没关系.是有一定规律的，简单来说，有两个参数，以后面的那个为准，没有的补充，有的后者覆盖前者。

*值得注意的是：第一个参数path访问路径后面的(即params、query、fragment)是不起作用的。(看最后的那个打印就明白了)

urlsplit()：类似与urlparse。区别：urlsplit()会将params合并到path中，返回5个结果，其返回的结果是一个元组类型，即可以用属性获取值，也可以用索引来索取。

from urllib.parse import urlsplit

result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment')

print(type(result), result)

print(result.scheme,result[0])

"""

<class 'urllib.parse.SplitResult'> SplitResult(scheme='http', netloc='www.baidu.com', path='/index.html;user', query='id=5', fragment='comment')

http http

"""

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')

print(type(result), result)

"""

<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

"""

urlunsplit()：类似与urlunparse。唯一的区别是：传入的参数长度必须为5.

from urllib.parse import urlunsplit

data = ['http', 'www.baidu.com', 'index.html', 'a=6', 'comment']

print(urlunsplit(data))

"""

http://www.baidu.com/index.html?a=6#comment

"""

from urllib.parse import urlunparse

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']

print(urlunparse(data))

"""

http://www.baidu.com/index.html;user?a=6#comment

"""

parse_qs()：反序列化，将一串Get请求数据转回字典。

from urllib.parse import parse_qs

query = 'name=germey&age=22'

print(parse_qs(query))

"""

{'name': ['germey'], 'age': ['22']}

"""

parse_qsl()：将参数转换为元组组成的列表。

from urllib.parse import parse_qsl

query = 'name=germey&age=22'

print(parse_qsl(query))

"""

[('name', 'germey'), ('age', '22')]

"""

quote()与unquote():URL编码和解码

from urllib.parse import quote

keyword = "我爱你"

url = 'https://www.baidu.com/s?wd=' + quote(keyword)

print(url)

"""

https://www.baidu.com/s?wd=%E6%88%91%E7%88%B1%E4%BD%A0

"""

from urllib.parse import unquote

url = 'https://www.baidu.com/s?wd=%E6%88%91%E7%88%B1%E4%BD%A0'

print(unquote(url))

"""

https://www.baidu.com/s?wd=我爱你

"""

3.分析Robots协议(爬虫协议、机器人协议)

*告知爬虫和搜索引擎哪些页面可以爬取，哪些页面不可爬取。它通常是一个叫作robots.txt的文本文件。

举例：robots.txt

　　User-agent：* （*指代所有爬虫）

　　Disallow： / (禁止爬取'/'所有目录)

　　Allow：/public/ (允许爬取的目录)

*利用urllib的robotparser模块，我们可以实现网站的Robots协议的分析。

==>常用的几个方法：(只例举出3个，其实还有parse()、mtime()、modified()，用到的时候再说)

set_url：设置robots.txt文件的链接。

read()：读取robots.txt文件并进行分析.必须调用！！！

can_fetch()：参数1 User-agent，参数2 URL.返回结果True.False表明是否可以爬取.

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()

rp.set_url('http://www.jianshu.com/robots.txt')

rp.read()

print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'))

print(rp.can_fetch('*','http://www.jianshu.com/search?q=python&page=1&type=collections'))

"""

结果如下：

False

False

"""
# 也可以使用parse()方法执行读取和分析.那个相对复杂，我选择简单的，够用就行.

2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议的更多相关文章

3.爬虫 urlib库讲解总结
urllib库的总结: 用ProcessOn(安利这个软件,够用了)根据前面的几节内容做了个思维导图. urllib库一共有四个模块: request:它是最基本的模块,可以用来模拟发送请求 erro ...
0.爬虫 urlib库讲解 urlopen()与Request()
# 注意一下是import urllib.request 还是 form urllib import request 0. urlopen() 语法:urllib.request.urlopen(u ...
1.爬虫 urlib库讲解 Handler高级用法
在前面我们总结了urllib库的 urlopen()和Request()方法的使用,在这一小节我们要使用相关的Handler来实现代理.cookies等功能. 写在前面: urlopen()方法不支持 ...
「Python 编程」编码实现网络请求库中的 URL 解析器
摘要:怎么写出更短的代码并不是这次要讨论的话题.今天我们来研究一下:运行代码的计算机是如何找到目标服务器的? 相信各位 Python 开发者都用过 Requests 库,有些朋友还用过 WebSock ...
4.爬虫 requests库讲解 GET请求 POST请求响应
requests库相比于urllib库更好用!!! 0.各种请求方式 import requests requests.post('http://httpbin.org/post') requests ...
5.爬虫 requests库讲解高级用法
0.文件上传 import requests files = {'file': open('favicon.ico', 'rb')} response = requests.post("ht ...
6.爬虫 requests库讲解总结
requests库的总结: 用ProcessOn根据前面的几节内容做了个思维导图:
urllib库:分析Robots协议
1from urllib.robotparser import RobotFileParser 2import ssl 3from urllib.request import urlopen 4ssl ...
爬虫-Python爬虫常用库
一.常用库 1.requests 做请求的时候用到. requests.get("url") 2.selenium 自动化会用到. 3.lxml 4.beautifulsoup 5 ...

随机推荐

SpringBoot非官方教程 | 第二十三篇：异步方法
转载请标明出处: 原文首发于https://www.fangzhipeng.com/springboot/2017/07/11/springboot-ansy/ 本文出自方志朋的博客这篇文章主要介绍 ...
工具类(过滤接口空值, value 或空字符串) - iOS
为了便于日常开发效率,因此创建了一些小的工具类便于使用.具体 code 如下:声明: #import <Foundation/Foundation.h> #import <UIKit ...
【2017 World Final E】Need For Speed（二分）
Sheila is a student and she drives a typical student car: it is old, slow, rusty, and falling apart. ...
baidu 地图鼠标移上显示标签鼠标离开隐藏标签
为了解决 label太多,文字会重叠看不清所以提出这种办法核心代码 1,创建的时候将label设置为隐藏 2,通过百度地图监听事件 , mouseover或onmouseover 触发显示 3 ...
【Win10分区教程】
Win10怎么分区?如何为Win10硬盘分区? 注:本教程适用于Win7.Win8.Win8.1和Win10系到了Windows10时代,TB级硬盘已经很普及了,那么在Win10系统下如何为这些大容 ...
centos7中vsftp的搭建
开启vsftpd:service vsftpd start关闭vsftp:service vsftpd stop 安装vsftpd: yum -y install vsftpd 建立vsftpd帐号: ...
【php学习-4】
var_1=11; print $var1->var_1.$var2->var_1; ?> print_Color(); ?> y=self::$x; # code... } ...
安装docker和更改docker镜像下载目录
centos6.x系列: yum install http://mirrors.yun-idc.com/epel/6/i386/epel-release-6-8.noarch.rpm yum inst ...
23.3.3 Web存储机制【JavaScript高级程序设计第三版】
Web Storage 最早是在Web 超文本应用技术工作组(WHAT-WG)的Web 应用1.0 规范中描述的. 这个规范的最初的工作最终成为了HTML5 的一部分.Web Storage 的目的是 ...
python面向对象-多继承区别
#!/usr/local/bin/python3 # -*- coding:utf-8 -*- ''' 构造方法继承策略: 在python2中,经典类是按照深度优先继承构造方法的:新式类是按照广度优先 ...

2.爬虫 urlib库讲解 异常处理、URL解析、分析Robots协议

2.爬虫 urlib库讲解 异常处理、URL解析、分析Robots协议的更多相关文章

随机推荐

热门专题

2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议

2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议的更多相关文章