urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法,下面一起来看看。

python3 抓取网页资源的 N 种方法

1、最简单

1 import urllib.request
2
3 response = urllib.request.urlopen('http://python.org/')
4
5 html = response.read()

2、使用 Request

1 import urllib.request
2
3 req = urllib.request.Request('http://python.org/')
4
5 response = urllib.request.urlopen(req)
6
7 the_page = response.read()

3、发送数据

 1 #! /usr/bin/env python3
2
3 import urllib.parse
4
5 import urllib.request
6
7 url = 'http://localhost/login.php'
8
9 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
10
11 values = { 'act' : 'login', 'login[email]' : 'abc@abc.com', 'login[password]' : '123456' }
12
13 data = urllib.parse.urlencode(values)
14
15 req = urllib.request.Request(url, data)
16
17 req.add_header('Referer', 'http://www.python.org/')
18
19 response = urllib.request.urlopen(req)
20
21 the_page = response.read()
22
23 print(the_page.decode("utf8"))

4、发送数据和header

 1 #! /usr/bin/env python3
2
3 import urllib.parse
4
5 import urllib.request
6
7 url = 'http://localhost/login.php'
8
9 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
10
11 values = { 'act' : 'login', 'login[email]' : 'abc@abc.com', 'login[password]' : '123456' }
12
13 headers = { 'User-Agent' : user_agent }
14
15 data = urllib.parse.urlencode(values)
16
17 req = urllib.request.Request(url, data, headers)
18
19 response = urllib.request.urlopen(req)
20
21 the_page = response.read()
22
23 print(the_page.decode("utf8"))

5、http 错误

 1 #! /usr/bin/env python3
2
3 import urllib.request
4
5 req = urllib.request.Request('http://python.org/')
6
7 try:
8
9   urllib.request.urlopen(req)
10
11 except urllib.error.HTTPError as e:
12
13   print(e.code)
14
15 print(e.read().decode("utf8"))

6、异常处理1

 1 #! /usr/bin/env python3
2
3 from urllib.request import Request, urlopen
4
5 from urllib.error import URLError, HTTPError
6
7 req = Request('http://www.python.org/')
8
9 try:
10
11   response = urlopen(req)
12
13 except HTTPError as e:
14
15   print('The (www.python.org)server couldn't fulfill the request.')
16
17   print('Error code: ', e.code)
18
19 except URLError as e:
20
21   print('We failed to reach a server.')
22
23   print('Reason: ', e.reason)
24
25 else:
26
27   print("good!")
28
29   print(response.read().decode("utf8"))

7、异常处理2

 1 #! /usr/bin/env python3
2
3 from urllib.request import Request, urlopen
4
5 from urllib.error import URLError
6
7 req = Request("http://www.python.org/")
8
9 try:
10
11   response = urlopen(req)
12
13 except URLError as e:
14
15   if hasattr(e, 'reason'):
16
17     print('We failed to reach a server.')
18
19     print('Reason: ', e.reason)
20
21   elif hasattr(e, 'code'):
22
23     print('The server couldn't fulfill the request.')
24
25     print('Error code: ', e.code)
26
27 else: print("good!")
28
29   print(response.read().decode("utf8"))

8、HTTP 认证

 1 #! /usr/bin/env python3
2
3 import urllib.request
4
5 # create a password manager
6
7 password_mgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()
8
9 # Add the username and password.
10
11 # If we knew the realm, we could use it instead of None.
12
13 top_level_url = "https://www.python.org/"
14
15 password_mgr.add_password(None, top_level_url, 'rekfan', 'xxxxxx')
16
17 handler = urllib.request.HTTPBasicAuthHandler(password_mgr)
18
19 # create "opener" (OpenerDirector instance)
20
21 opener = urllib.request.build_opener(handler)
22
23 # use the opener to fetch a URL
24
25 a_url = "https://www.python.org/"
26
27 x = opener.open(a_url)
28
29 print(x.read())
30
31 # Install the opener.
32
33 # Now all calls to urllib.request.urlopen use our opener.
34
35 urllib.request.install_opener(opener)
36
37 a = urllib.request.urlopen(a_url).read().decode('utf8')
38
39 print(a)

9、使用代理

 1 #! /usr/bin/env python3
2
3 import urllib.request
4
5 proxy_support = urllib.request.ProxyHandler({'sock5': 'localhost:1080'})
6
7 opener = urllib.request.build_opener(proxy_support)
8
9 urllib.request.install_opener(opener)
10
11 a = urllib.request.urlopen("http://www.python.org/").read().decode("utf8")
12
13 print(a)

10、超时

 1 #! /usr/bin/env python3
2
3 import socket
4
5 import urllib.request
6
7 # timeout in seconds
8
9 timeout = 2
10
11 socket.setdefaulttimeout(timeout)
12
13 # this call to urllib.request.urlopen now uses the default timeout
14
15 # we have set in the socket module
16
17 req = urllib.request.Request('http://www.python.org/')
18
19 a = urllib.request.urlopen(req).read()
20
21 print(a)

来源:http://www.cnblogs.com/ifso/p/4707135.html

【转】Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)的更多相关文章

  1. Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)

    urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...

  2. Python3中urllib详细使用方法(header,代理,超时,认证,异常处理) 转

    urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...

  3. Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)_python

    我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3 抓取网页资源的多种方法,有需要的可以参考借鉴. 1.最简单 import urllib.request response = ...

  4. Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)

    出自  http://www.jb51.net/article/93125.htm

  5. Python2和Python3中urllib库中urlencode的使用注意事项

    前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包 ...

  6. python3中使用builtwith的方法(很详细)

    1. 首先通过pip install builtwith安装builtwith C:\Users\Administrator>pip install builtwith Collecting b ...

  7. python3中urllib库的request模块详解

    刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...

  8. Python3中Urllib库基本使用

    什么是Urllib? Python内置的HTTP请求库 urllib.request          请求模块 urllib.error              异常处理模块 urllib.par ...

  9. python3中urllib的基本使用

    urllib 在python3中,urllib和urllib2进行了合并,现在只有一个urllib模块,urllib和urllib2的中的内容整合进了urllib.request,urlparse整合 ...

随机推荐

  1. 笔记:Maven 仓库及配置详解

    本地创建默认路径在 用户目录\.m2\repository,如果需要自定义本地创建目录地址,可以编辑文件 用户目录\.m2\settings.xml(文件不存在,则需要从Maven安装目录的Conf目 ...

  2. 你不知道的Google控制台

    1.页面可编辑 document.body.contentEditable=true 2.console.table() 3.console.dir 4.clear() 清空控制台 5.sources ...

  3. Algorithm --> 两个栈实现队列和两个队列实现栈

    两个栈实现队列和两个队列实现栈 队列(queue)先进先出的线性表:栈(stack)先进后出的线性表. 两个栈实现队列 法一思路: s1是入栈的,s2是出栈的. 入队列:直接压入s1即可: 出队列:如 ...

  4. selenium +python+windows 环境搭建

    很久不弄selenium了,好怀念,现在搭建下环境 1,先安装pip ,因为装的是python3,所以只要你不是在渣渣网站下载到坏的版本,在scripts目录下都有pip.exe文件 直接在环境变量里 ...

  5. (译文)学习ES6非常棒的特性——Async / Await函数

    try/catch 在使用Async/Await前,我们可能这样写: const main = (paramsA, paramsB, paramsC, done) => { funcA(para ...

  6. eoLinker API-Shop 抓住区块链机遇,从这些API开始

    区块链是分布式存储.点对点传输.共识机制.加密算法等计算机技术的新型应用模式.所谓共识机制是区块链系统中实现不同节点之间建立信任.获取权益的数学算法. 区块链目前分为三类: 公有区块链(PublicB ...

  7. C作业--数据类型

    一.PTA实验作业 题目1:7-3 倒顺数字串 1. 本题PTA提交列表 2. 设计思路(伪代码) (1)本题是要求输入倒顺序数串,首先看到这种题肯定是需要用到循环,那就先定一个整形i来进行循环,n是 ...

  8. 一些琐碎的C/C++知识点

    1. C++ 数组作为函数参数 在C/C++中,当数组作为函数的参数进行传递时,数组就自动退化为同类型的指针.(在32位系统中,对任意指针求sizeof结果为4) 2. C++ 中const的用法总结 ...

  9. 团队作业6——展示博客(Alpha版本)

    Deadline: 2017-12-3  23:00PM,以博客发表日期为准   评分基准 按时交 - 有分,检查的项目包括后文的两个方面 团队成员介绍 Alpha阶段进展 团队合作,各成员分工 Be ...

  10. 项目Alpha冲刺Day5

    一.会议照片 二.项目进展 1.今日安排 熟悉后台框架并尝试编写及继续搭建前台框架模版.完成登录相关的功能实现,添加一些用户相关的单元测试代码,以及相应的测试数据. 2.问题困难 前端不是很熟,页面框 ...