一、简介

urllib.request 模块提供了访问 URL 的相关功能

二、常用函数

urllib.request.urlopen("http://httpbin.org", timeout=1)

  // 访问网页,并设置1秒的超时时间(urlopen 只能实现最基本的请求)

读:

  • .read()   // 读取网页(二进制)
  • .decode('utf-8')   // 以 utf-8 解码网页
  • .geturl()   // 获取访问的 URL

信息:

  • .info()   // 获取网响应页的 Headers 信息
  • .headers   // 获取网页响应的 Headers 信息
  • .getheaders()   // 获取网页响应的 Headers 信息(以列表形式返回)
  • .getheader(name="Content-Type")   // 获取网页响应的 Headers 信息(查看指定的属性)
  • .version   // 查看 HTTP 使用的版本协议号

状态码:

  • .getcode()   // 获取当前访问的状态码
  • .status   // 获取当前访问的状态码
  • .reason   // 获取当前访问的状态码(如访问成功则返回 OK)

urllib.request.Request(url=url, data=data, headers=header, method="POST")

  • .add_header   // 添加新的 Header(接受元组类型)
参数 作用
url 需请求的 url
data 必须为 bytes(字节流)类型,如为字典,可用 urllib.parse.urlencode()
headers 请求头
origin_req_host 指定请求方的 host 名称或 ip 地址
unverifiable 设置网页是否需要验证(默认为 Flase)
method 指定请求方法(如:GET、POST等)

三、实例

1、读取网页,并以 utf-8 格式解码

#  读取网页,并以 utf-8 格式解码
urllib.request.urlopen("http://httpbin.org").read().decode('utf-8')

2、获取访问的 URL

#  获取访问的 URL
urllib.request.urlopen("http://httpbin.org").geturl()

3、获取 Headers 信息

#  获取 Headers 信息
urllib.request.urlopen("http://httpbin.org").info()

4、获取访问的状态码

#  获取访问的状态码
urllib.request.urlopen("http://httpbin.org").getcode()

5、指定 Headers 访问网页

import urllib.request

#  指定访问的 URL
url = "http://httpbin.org/get" # 指定访问的 Headers
header = {
"Host": "httpbin.org",
"Referer": "http://httpbin.org/",
"User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
} # 使用指定的 Headers 访问网页
test = urllib.request.Request(url=url, headers=header) # 以 utf-8 的格式打印出访问的页面
test_2 = urllib.request.urlopen(test).read().decode("utf-8")
print (test_2)

6、发送带参数的 GET 请求

import urllib.request
import urllib.parse # 指定访问的 URL
url = "http://httpbin.org/get" # 指定访问的 Headers
header = {
"Host": "httpbin.org",
"Referer": "http://httpbin.org/",
"User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
} # 设置需传递的参数(使用 urlencode 将字典转换成可提交的参数,如:a=test_1&b=test_2)
data = urllib.parse.urlencode({'a':'test_1', 'b':'test_2'})
url = url + "?" + data # 使用指定的 Headers 访问网页
test = urllib.request.Request(url=url, headers=header) # 以 utf-8 的格式打印出访问的页面
test_2 = urllib.request.urlopen(test).read().decode("utf-8")
print (test_2)

7、发送带参数的 POST 请求

import urllib.request
import urllib.parse # 指定访问的 URL
url = "http://httpbin.org/post" # 指定访问的 Headers
header = {
"Host": "httpbin.org",
"Origin": "http://httpbin.org",
"Referer": "http://httpbin.org/",
"User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
} # 设置需传递的参数(使用 urlencode 将字典转换成可提交的参数,如:a=test_1&b=test_2)
data = urllib.parse.urlencode({'a':'test_1', 'b':'test_2'})
# 将序列化后的字符串转换成二进制数据(POST 请求携带的参数是二进制)
data = bytes(data, encoding='utf-8') # 使用指定的 Headers 访问网页
test = urllib.request.Request(url=url, headers=header, data = data, method="POST")
# 指定新的 Headers(接受元组类型(会替换掉对应的项))
test.add_header("User-Agent", "Mozilla/99.0 (Windows NT 99.0; Win99; x99) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
)
# 以 utf-8 的格式打印出访问的页面
test_2 = urllib.request.urlopen(test).read().decode("utf-8")
print (test_2)

8、设置全局代理

import urllib.request

#  需访问测试页面
url = "http://httpbin.org/ip" # 设置代理 IP
ip = {"http":"127.0.0.1:8888"}
proxy_ip = urllib.request.ProxyHandler(ip) # 使用 build_opener() 构建一个 opener 对象
opener = urllib.request.build_opener(proxy_ip)
# 设置新的 Headers
header = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36')
opener.addheaders = [header]
urllib.request.install_opener(opener) # 访问测试的页面
response = urllib.request.urlopen(url)
# 以 utf-8 的格式打印出访问的页面
html = response.read().decode('utf-8')
print (html)

python urllib.request的更多相关文章

  1. 第14.6节 使用Python urllib.request模拟浏览器访问网页的实现代码

    Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...

  2. Python urllib Request 用法

    转载自:https://blog.csdn.net/ywy0ywy/article/details/52733839 python2.7 httplib, urllib, urllib2, reque ...

  3. 第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息

    利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节 使用 ...

  4. Python Spider - urllib.request

    import urllib.request import urllib.parse import json proxy_support = urllib.request.ProxyHandler({' ...

  5. Python 基于urllib.request封装http协议类

    基于urllib.request封装http协议类 by:授客QQ:1033553122 测试环境: Python版本:Python 3.3   代码实践 #!/usr/bin/env python ...

  6. Python 3.X 要使用urllib.request 来抓取网络资源。转

    Python 3.X 要使用urllib.request 来抓取网络资源. 最简单的方式: #coding=utf-8 import urllib.request response = urllib. ...

  7. Python做简单爬虫(urllib.request怎么抓取https以及伪装浏览器访问的方法)

    一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧 首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...

  8. python之urllib.request.urlopen(url)报错urllib.error.HTTPError: HTTP Error 403: Forbidden处理及引申浏览器User Agent处理

    最近在跟着院内大神学习python的过程中,发现使用urllib.request.urlopen(url)请求服务器是报错: 在园子里找原因,发现原因为: 只会收到一个单纯的对于该页面访问的请求,但是 ...

  9. 通过python的urllib.request库来爬取一只猫

    我们实验的网站很简单,就是一个关于猫的图片的网站:http://placekitten.com 代码如下: import urllib.request respond = urllib.request ...

随机推荐

  1. Windows下 Navicat Premium 15安装教程(图文,含注册)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://www.cnblogs.com/zhangzhicheng1996/ ...

  2. unity探索者之复制内容到剪贴板

    版权声明:本文为原创文章,转载请声明http://www.cnblogs.com/unityExplorer/p/8417014.html unity中提供的TextEditor类,只能在window ...

  3. CODING DevOps 微服务项目实战系列第二课来啦!

    近年来,工程项目的结构越来越复杂,需要接入合适的持续集成流水线形式,才能满足更多变的需求,那么如何优雅地使用 CI 能力提升生产效率呢?CODING DevOps 微服务项目实战系列第二课 <D ...

  4. python 05 列表 元组 (序列)

    循环(loop),指的是在满足条件的情况下,重复执行同一段代码.比如,while语句. [ 循环则技能对应集合,列表,数组等,也能对执行代码进行操作.] 迭代(iterate),指的是按照某种顺序逐个 ...

  5. UML活动图(Activity Diagram)

    目录: 1.什么是活动图 2.活动图的构成 (1)起点 (2)重点 (3)活动名称 (4)判断条件 (5)同步条 (6)接收信号 (7)发送信号 (8)泳道 (9)转移 3.活动图实例--订单处理 4 ...

  6. Linux基础 Day2

    Linux-Day2 1.文件目录结构 文件和目录被组织成一颗倒置的树的结构 文件系统从根开始,"/" 文件名称严格区分大小写 隐藏文件以"."开头 路径的分隔 ...

  7. 一文说通Jwt、Session、Cooike区别

    JWT 全称是 JSON Web Token,是目前非常流行的跨域认证解决方案,在单点登录场景中经常使用到. 有些人觉得它非常好用,用了它之后就不用在服务端借助 redis 实现认证过程了,但是,还有 ...

  8. composer安装包的时候触发PHP fatal error,提示允许的内存耗光

    在composer require之前加COMPOSER_MEMORY_LIMIT=-1

  9. lombook插件的说明

    lombok是一个可以帮助我们简化java代码编写的工具类,尤其是简化javabean的编写,即通过采用注解的方式,消除代码中的构造方法,getter/setter等代码,使我们写的类更加简洁,当然, ...

  10. 怎么给Ubuntu Server安装GUI桌面

    sudo apt update sudo apt upgrade sudo add-apt-repository universe sudo add-apt-repository multiverse ...