urllib的基本使用介绍

1. urllib中urlopen的基本使用介绍

 1 ### urllib中urlopen的基本使用介绍

 2

 3 ## urlopen的基本用法（GET请求）

 4 import urllib.request as r

 5 # 访问一个url，返回一个对象

 6 response = r.urlopen("https://www.python.org")

 7 # 查看返回的网页页面内容

 8 print(response.read().decode("utf-8"))

 9 # 查看response类型

10 print(type(response))

11 # 查看response对象有什么方法和属性

12 print(dir(response))

13 # 获取response对象的相关用法帮助

14 help(response)

15 # 页面返回状态

16 print(response.status)

17 # 页面的headers元素内容

18 print(response.getheaders())

19 # 获取页面headers的Server属性值

20 print(response.getheader('Server'))

21

22

23 ## data参数（POST请求），urlencode可以把字典格式数据转化成字符串

24 import urllib.request as r

25 import urllib.parse as p

26 # 通过字符转换获取可直接post提交的数据data

27 data = bytes(p.urlencode({'word':'hello'}),encoding = 'utf-8')

28 data2 = p.urlencode({'word':'hello'})

29 print(data,data2)

30 # 通过post提交data数据

31 response2 = r.urlopen('http://httpbin.org/post',data=data)

32 response3 = r.urlopen('http://httpbin.org/post',data=bytes(data2,encoding = 'utf-8'))

33 print(response3.read())

34

35

36 # timeout参数

37 import urllib.request as r

38 import urllib.error as er

39 import socket

40

41 # 尝试执行

42 try:

43     response4 = r.urlopen('http://httpbin.org/get',timeout=0.1)

44     print(response4.read())

45 # 出现错误进行抓取而不中断程序

46 except er.URLError as e:

47     # 错误原因

48     print(e.reason)

49     print(socket.timeout)

50     # 判断类型是否相同

51     if isinstance(e.reason, socket.timeout):

52         print(isinstance(e.reason, socket.timeout))

53         print('TIME OUT')

54

55

56 # 其他参数：cafile指定CA证书，capath指定CA证书路径，context参数，必须是ssl.SSLContext类型，用来指定SSL设置

2. urllib中Request的基本使用介绍

 1 ### urllib中Request的基本使用介绍

 2

 3

 4 ## Request对象进行传参爬取页面

 5 import urllib.request

 6

 7 # 生成一个request对象

 8 request = urllib.request.Request('https://python.org')

 9 # 将request对象进行传参

10 response = urllib.request.urlopen(request)

11 print(type(request))

12 print(response.read().decode('utf-8'))

13

14

15 ## Request对象的参数：

16 ## url，用于请求URL，必传参数

17 ## data，必须传bytes类型的数据

18 ## headers，请求头，是一个字典，也可以通过请求实例的add_header()方法进行添加

19 ## origin_req_host指的是请求方的host名称或者IP地址

20 ## unverifiable布尔类型，表示这个请求是无法验证的，默认是False

21 ## method是一个字符串，指定请求方法，如get,post

22 from urllib import request, parse

23

24 url = 'http://httpbin.org/post'

25 headers = {

26     'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',

27     'Host':'httpbin.org',

28 }

29 dict = {

30     'name':'dmr'

31 }

32 # 转换数据类型为bytes

33 data = bytes(parse.urlencode(dict), encoding='utf-8')

34 # 生成Request请求对象

35 req = request.Request(url=url,data=data,headers=headers)

36 response = request.urlopen(req)

37 print(response.read().decode('utf-8'))

38

39

40 ### 高级用法

41

42 ## web弹窗认证

43 from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener

44 from urllib.error import URLError

45

46 username = 'username'

47 password = 'password'

48 url = 'http://127.0.0.1:6666'

49 # 生成HTTPPasswordMgrWithDefaultRealm对象

50 p = HTTPPasswordMgrWithDefaultRealm()

51 # 为对象添加认证参数信息

52 p.add_password(None,url=url,username=username,password=password)

53 # 生成认证对象

54 auth_handler = HTTPBasicAuthHandler(p)

55 # 生成opener对象

56 opener = build_opener(auth_handler)

57

58 try:

59     result = opener.open(url)

60     html = result.read().decode('utf-8')

61     print(html)

62 except URLError as e:

63     print(e.reason)

64

65

66 ## 代理

67 from urllib.error import URLError

68 from urllib.request import ProxyHandler, build_opener

69

70 proxy = {

71     'http':'http://127.0.0.1:4564',

72     'https':'http://127.0.0.1:4564'

73 }

74 proxy_handler = ProxyHandler(proxy)

75 opener = build_opener(proxy_handler)

76 try:

77     result = opener.open('https://www.baidu.com')

78     print(result.read().decode('utf-8'))

79 except URLError as e:

80     print(e.reason)

81

82

83 ## Cookies，提取网页的Cookies；可通过http.cookiejar.Mozilla(LWP)CookieJar(filename)和.save()将cookies保存到文件

84 import http.cookiejar, urllib.request

85

86 cookie = http.cookiejar.CookieJar()

87 handler = urllib.request.HTTPCookieProcessor(cookie)

88 opener = urllib.request.build_opener(handler)

89 response = opener.open('http://www.baidu.com')

90 for item in cookie:

91     print(item.name+'='+item.value)

3. 处理异常

 1 ### 处理异常

 2

 3 ## URLError

 4 from urllib import request, error

 5

 6 try:

 7     response = request.urlopen('http:www.dmr666.org')

 8 except error.URLError as e:

 9     print(e.reason)

10

11

12 ## HTTPError, URLError的子类

13 from urllib import request, error

14

15 try:

16     response = request.urlopen('http://www.dmr66.org')

17 except error.HTTPError as e:

18     print(e.reason, e.code, e.headers, seq='\n')

19 else:

20     pass

4. 解析链接&robots

  1 ### 解析链接

  2

  3 ## urlparse()

  4 ## scheme协议，://前面部分

  5 ## netloc域名，第一个/符号前面

  6 ## path路径，域名后面;前面部分

  7 ## params参数，;号后面问号?前面

  8 ## query查询条件，?号后面，用于get类型的url

  9 ## flagment描点，#后面，用于定位页面内部的下拉位置

 10 from urllib.parse import urlparse

 11

 12 result = urlparse('http://www.baidu.com/index.html;user?id=$#comment')

 13 print(type(result), result)

 14

 15

 16 ## urlunparse()，传入可迭代对象，长度必须是6

 17 from urllib.parse import urlunparse

 18

 19 data = ['http','www.baidu.com','index.html','user','b=6','comment']

 20 print(urlunparse(data))

 21

 22

 23 ## urlsplit()，params会合并在path中

 24 from urllib.parse import urlsplit

 25

 26 result = urlsplit('http://www.baidu.com/index.html;user?id=$#comment')

 27 print(result)

 28

 29 ## urlunsplit()，传入可迭代对象，长度必须是5

 30 from urllib.parse import urlunsplit

 31

 32 data = ['http','www.baidu.com','index.html','a=6','comment']

 33 print(data)

 34

 35

 36 ## urljoin()，url拼接，只保留scheme，netloc，path

 37 ## scheme，netloc，path三部分内容新链接中不存在，则补充，新链接中存在，则用新链接的

 38 from urllib.parse import urljoin

 39

 40 print(urljoin('http://www.baidu.com','index.html'))

 41 print(urljoin('http://www.baidu.com','https://www.baidu.com/index.html'))

 42 print(urljoin('http://www.baidu.com/dmr.html','https://www.baidu.com/index.html'))

 43 print(urljoin('http://www.baidu.com/dmr.html','https://www.baidu.com/index.html?q=2'))

 44 print(urljoin('http://www.baidu.com/dmr.html','q=2#comment'))

 45 print(urljoin('www.baidu.com/dmr.html','q=2#comment'))

 46 print(urljoin('www.baidu.com#coment','q=2'))

 47

 48

 49 ## urlencode()，字典序列化，把字典序列化成get请求参数，常用于get请求url的拼接

 50 from urllib.parse import urlencode

 51

 52 query = {

 53     'name':'dmr',

 54     'age':'25',

 55 }

 56 base_url = 'http://www.badu.com'

 57 q = urlencode(query)

 58 url = base_url + q

 59 print(url)

 60

 61

 62 ## parse_qs()，反序列化，将参数转换成字典格式

 63 from urllib.parse import parse_qs

 64

 65 query='name=dmr&age=25'

 66 dict = parse_qs(query)

 67 print(type(dict),dict)

 68

 69

 70 ## parse_qsl()，反序列化，将参数转换成元组组成的列表

 71 from urllib.parse import parse_qsl

 72

 73 query = 'name=dmr&age=25'

 74 list = parse_qsl(query)

 75 print(list)

 76

 77

 78 ## quote()，将内容转换成url编码格式，url中有中文内容时，常出现乱码

 79 from urllib.parse import quote

 80

 81 keyword = '杜某人'

 82 url = 'https://www.baidu.com/?wd=' + keyword

 83 print(url)

 84 print(quote(url))

 85

 86 ## unquote()，解码

 87 from urllib.parse import unquote

 88

 89 url = 'https%3A//www.baidu.com/%3Fwd%3D%E6%9D%9C%E6%9F%90%E4%BA%BA'

 90 print(unquote(url))

 91

 92

 93

 94 ### Robots协议，即爬虫协议，用来告诉爬虫哪些页面可以爬取，哪些页面不可以爬取

 95 # 当搜索爬虫访问一个站点时，它先检查这个站点根目录下是否存在robots文件，如果存在，则按照其中定义的范围来爬取，否则，皆可爬取

 96 # 其中，robots文件基本包含如下3项内容

 97 # User-agent:* # 爬虫名称，*为所有

 98 # Disallow:/   # 禁止爬取的网站目录

 99 # Allow:/public/  # 仅允许爬取的网站目录，一般不与Disallow共用

100 ## robotparser()，解析robots文件模块

101  ## set_url(),用来设置设置robots.txt文件链接

102  ## read(),读取robots.txt文件并进行分析

103  ## parse(),用来解析robots.txt文件

104  ## can_fetch(User-agent,URL),判断url页面是否可以爬取

105  ## mtime(),返回上次抓取和分析robots.txt的时间

106  ## modified(),将当前时间设置为上次抓取和分析robots.txt的时间

107

108 from urllib.robotparser import RobotFileParser

109

110 rp = RobotFileParser()

111 rp.set_url('http://www.baidu.com/robots.txt')

112 rp.read()

113 print(rp.can_fetch('*','http://www.baidu.com/p/ldkfjlk'))

114 print(rp.can_fetch('*','http://www.baidu.com/s?wd=Python'))

urllib的基本使用介绍的更多相关文章

Python urllib和urllib2模块学习(二)
一.urllib其它函数前面介绍了 urllib 模块,以及它常用的 urlopen() 和 urlretrieve()函数的使用介绍.当然 urllib 还有一些其它很有用的辅助方法,比如对 ur ...
爬虫框架urllib 之(三) --- urllib模块
Mac本需导入ssl import ssl ssl._create_default_https_context = ssl._create_unverified_context urllib.re ...
第六节：web爬虫之urllib（二）
二.urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, metho ...
python网络编程（六）---web客户端访问
1.获取web页面 urllib2 支持任何协议的工作---不仅仅是http,还包括FTP,Gopher. import urllib2 req=urllib2.Request('http://www ...
Python 3基础教程31-urllib模块
本文介绍Python里的urllib模块,这个urllib主要处理web服务的,如果需要做接口测试,或者写Python的网络爬虫,这个urllib就是最底层的库.需要用到里面的请求方法等. 1. 先看 ...
Python采集VIP收费QQ音乐，一起来听周董最新的《说好不哭》，省3块不香吗？
环境: windows python3.6.5 模块: requests selenium json re urllib 环境与模块介绍完毕后,就可以来实行我们的操作了. 第1步: 通过一个解析网站: ...
小白学 Python 爬虫（18）：Requests 进阶操作
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫之urllib库介绍
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python 爬虫 urllib模块介绍
一.urllib库概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urll ...

随机推荐

[技术博客]在团队中使用Pull Request来管理代码
在团队中使用Pull Request来管理代码前言在参加多人共同开发项目,且选用Git作为代码托管工具的时候,我们不免会遇到分支冲突.覆盖.合并等问题.显然,因为同一个仓库是属于大家的,所以每个人 ...
期望dp好题选做
前言: 最近连考两场期望dp的题目,sir说十分板子的题目我竟然一点也不会,而且讲过以后也觉得很不可改.于是开个坑. 1.晚测10 T2 大佬(kat) 明明有\(O(mlog)\)的写法,但是\(m ...
linux shell 函数返回值问题（超过255）
最近再写一个shell测试的时候出现问题,函数返回值异常用shell计算斐波那契数列数列,写了一个shell函数,然后调用的,验证的时候我只随便计算了几个数(10以内),确认结果是正确的就提交了,后 ...
hdu 5172 GTY's gay friends（线段树最值）
题意: GTY有n个朋友,站成一排,每个人有一个特征值ai. 有m个询问.每次询问给两个数L,R.问你[L,R](即aL...aR)是否是1..(R-L+1)的一个全排列. 是输出YES,否则输出NO ...
SimpleNVR流媒体服务在多分屏直播实时阅览时所遇到问题的解决
视频有一个流的概念,称为流媒体.当大量的客户端或WEB访问监控摄像机的时候,大多数的录像机无法承受那么大的网络压力,这时候SimpleNVR流媒体服务器的优势就显示出来了.其能将客户端的访问压力转到服 ...
Spring Cloud 生产环境性能优化
先思考几个问题: 什么是百万并发连接? 什么是吞吐量? 操作系统能否支持百万连接? 操作系统维持百万连接需要多少内存? 应用程序维持百万连接需要多少内存? 百万连接的吞吐量是否超过了网络限制? 百万的 ...
Linux基本命令学习-文件基本操作1
关机重启 shutdown -h now #立即关机 shutdown -h 5 # 5秒后关机 #重启 shutdown -r now #立即重启 reboot halt #重启文件相关系统目录 ...
mysql 免密码登录
mysql 8免密码登录 UPDATE mysql.user SET authentication_string=null WHERE User='root'; FLUSH PRIVILEGES; e ...
快速排序平均时间复杂度O(nlogn)的推导
快速排序作为随机算法的一种,不能通过常规方法来计算时间复杂度 wiki上有三种快排平均时间复杂度的分析,本文记录了一种推导方法. 先放快速排序的伪代码,便于回顾.参考 quicksort(int L, ...
在随着layui官网下架后 layui镜像站起来了
layui:https://gitee.com/lh_yun/layui 介绍 layui镜像站「本站仅为 layui 文档保留的镜像站点,与官方无关」源码地址在线 pdf 1.主页 https ...

urllib的基本使用介绍

urllib的基本使用介绍的更多相关文章

随机推荐

热门专题