python urllib.request

一、简介

urllib.request 模块提供了访问 URL 的相关功能

二、常用函数

urllib.request.urlopen("http://httpbin.org", timeout=1)

// 访问网页，并设置1秒的超时时间（urlopen 只能实现最基本的请求）

读：

.read() // 读取网页（二进制）
.decode('utf-8') // 以 utf-8 解码网页
.geturl() // 获取访问的 URL

信息：

.info() // 获取网响应页的 Headers 信息
.headers // 获取网页响应的 Headers 信息
.getheaders() // 获取网页响应的 Headers 信息（以列表形式返回）
.getheader(name="Content-Type") // 获取网页响应的 Headers 信息（查看指定的属性）
.version // 查看 HTTP 使用的版本协议号

状态码：

.getcode() // 获取当前访问的状态码
.status // 获取当前访问的状态码
.reason // 获取当前访问的状态码（如访问成功则返回 OK）

urllib.request.Request(url=url, data=data, headers=header, method="POST")

.add_header // 添加新的 Header（接受元组类型）

参数	作用
url	需请求的 url
data	必须为 bytes（字节流）类型，如为字典，可用 urllib.parse.urlencode()
headers	请求头
origin_req_host	指定请求方的 host 名称或 ip 地址
unverifiable	设置网页是否需要验证（默认为 Flase）
method	指定请求方法（如：GET、POST等）

三、实例

1、读取网页，并以 utf-8 格式解码

#  读取网页，并以 utf-8 格式解码

urllib.request.urlopen("http://httpbin.org").read().decode('utf-8')

2、获取访问的 URL

#  获取访问的 URL

urllib.request.urlopen("http://httpbin.org").geturl()

3、获取 Headers 信息

#  获取 Headers 信息

urllib.request.urlopen("http://httpbin.org").info()

4、获取访问的状态码

#  获取访问的状态码

urllib.request.urlopen("http://httpbin.org").getcode()

5、指定 Headers 访问网页

import urllib.request

#  指定访问的 URL

url = "http://httpbin.org/get"

#  指定访问的 Headers

header = {

    "Host": "httpbin.org",

    "Referer": "http://httpbin.org/",

    "User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",

}

#  使用指定的 Headers 访问网页

test = urllib.request.Request(url=url, headers=header)

#  以 utf-8 的格式打印出访问的页面

test_2 = urllib.request.urlopen(test).read().decode("utf-8")

print (test_2)

6、发送带参数的 GET 请求

import urllib.request

import urllib.parse

#  指定访问的 URL

url = "http://httpbin.org/get"

#  指定访问的 Headers

header = {

    "Host": "httpbin.org",

    "Referer": "http://httpbin.org/",

    "User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",

}

#  设置需传递的参数（使用 urlencode 将字典转换成可提交的参数，如：a=test_1&b=test_2）

data = urllib.parse.urlencode({'a':'test_1', 'b':'test_2'})

url = url + "?" + data

#  使用指定的 Headers 访问网页

test = urllib.request.Request(url=url, headers=header)

#  以 utf-8 的格式打印出访问的页面

test_2 = urllib.request.urlopen(test).read().decode("utf-8")

print (test_2)

7、发送带参数的 POST 请求

import urllib.request

import urllib.parse

#  指定访问的 URL

url = "http://httpbin.org/post"

#  指定访问的 Headers

header = {

    "Host": "httpbin.org",

    "Origin": "http://httpbin.org",

    "Referer": "http://httpbin.org/",

    "User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",

}

#  设置需传递的参数（使用 urlencode 将字典转换成可提交的参数，如：a=test_1&b=test_2）

data = urllib.parse.urlencode({'a':'test_1', 'b':'test_2'})

#  将序列化后的字符串转换成二进制数据（POST 请求携带的参数是二进制）

data = bytes(data, encoding='utf-8')

#  使用指定的 Headers 访问网页

test = urllib.request.Request(url=url, headers=header, data = data, method="POST")

#  指定新的 Headers（接受元组类型（会替换掉对应的项））

test.add_header("User-Agent", "Mozilla/99.0 (Windows NT 99.0; Win99; x99) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",

)

#  以 utf-8 的格式打印出访问的页面

test_2 = urllib.request.urlopen(test).read().decode("utf-8")

print (test_2)

8、设置全局代理

import urllib.request

#  需访问测试页面

url = "http://httpbin.org/ip"

#  设置代理 IP

ip = {"http":"127.0.0.1:8888"}

proxy_ip = urllib.request.ProxyHandler(ip)

#  使用 build_opener() 构建一个 opener 对象

opener = urllib.request.build_opener(proxy_ip)

#  设置新的 Headers

header = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36')

opener.addheaders = [header]

urllib.request.install_opener(opener)

#  访问测试的页面

response = urllib.request.urlopen(url)

#  以 utf-8 的格式打印出访问的页面

html = response.read().decode('utf-8')

print (html)

python urllib.request的更多相关文章

第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...
Python urllib Request 用法
转载自:https://blog.csdn.net/ywy0ywy/article/details/52733839 python2.7 httplib, urllib, urllib2, reque ...
第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节使用 ...
Python Spider - urllib.request
import urllib.request import urllib.parse import json proxy_support = urllib.request.ProxyHandler({' ...
Python 基于urllib.request封装http协议类
基于urllib.request封装http协议类 by:授客QQ:1033553122 测试环境: Python版本:Python 3.3 代码实践 #!/usr/bin/env python ...
Python 3.X 要使用urllib.request 来抓取网络资源。转
Python 3.X 要使用urllib.request 来抓取网络资源. 最简单的方式: #coding=utf-8 import urllib.request response = urllib. ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python之urllib.request.urlopen(url)报错urllib.error.HTTPError: HTTP Error 403: Forbidden处理及引申浏览器User Agent处理
最近在跟着院内大神学习python的过程中,发现使用urllib.request.urlopen(url)请求服务器是报错: 在园子里找原因,发现原因为: 只会收到一个单纯的对于该页面访问的请求,但是 ...
通过python的urllib.request库来爬取一只猫
我们实验的网站很简单,就是一个关于猫的图片的网站:http://placekitten.com 代码如下: import urllib.request respond = urllib.request ...

随机推荐

树莓派4B的CPU系统里查到为BCM2835而非BCM2711
树莓派4B采用四核64位的ARM Cortex-A72架构CPU,型号为博通BCM2711 SoC.2711是个64位的四核,而2835是多年前的32位单核CPU. 查看当前芯片版本,显示为4核心,但 ...
精讲RestTemplate第4篇-POST请求方法使用详解
本文是精讲RestTemplate第4篇,前篇的blog访问地址如下: 精讲RestTemplate第1篇-在Spring或非Spring环境下如何使用精讲RestTemplate第2篇-多种底层H ...
定宽整形（C++11起）
定义于头文件 cstdint中int8_t.int16_t.int32_t.int64_t 分别为宽度恰为 8 . 16 . 32 和 64 位的有符号整数类型无填充位并对负值使用补码(仅若实现支持该 ...
2020-04-24：Object obj = new Object()这句话在内存里占用了多少内存
福哥答案2020-04-25:这道题最好把对象和变量分开说明,否则容易产生误解.以下都是64位环境下.针对对象:压缩状态:MarkWord 8+klass 4+数据0+对齐4=16非压缩状态:Mark ...
四博智慧物联系统入门示例-1.增加一个DHT11温湿度传感器
1.准备工作 DOIT农业控制开发板或者esp32模组,并下载四博智慧物联系统快速入门-2.准备工作章节中的固件 DHT11连接在端口01 使用快速入门注册的管理账号和用户 2.配置网络 3.绑定 ...
代码备忘录--常用的一些Doxygen格式
1.文件头的格式: /** **************************************************************************** * @file x ...
计算机网络要点---TCP
计算机网络要点---TCP 浏览器在通过域名通过dns服务器找到你的服务器外网ip,将http请求发送到你的服务器,在tcp3次握手之后(http下面是tcp/ip),通过tcp协议开始传输数据,你的 ...
Java并发--volatile关键字
一.volatile的实现原理 synchronized是阻塞式同步,在线程竞争激烈的情况下会升级为重量级锁,而volatile就可以说是JVM提供的最轻量级的同步机制.JMM告诉我们,各个线程会将共 ...
Js中的各种高度问题
一.屏幕宽高相关屏幕高度就是你的整个屏幕高度(开机会亮的那片区域的高度),相关的其他高度划分很简单,就是以任务栏为分界线从而分为两部分. screen.height :屏幕高度. screen.wi ...
UML活动图（Activity Diagram）
目录: 1.什么是活动图 2.活动图的构成 (1)起点 (2)重点 (3)活动名称 (4)判断条件 (5)同步条 (6)接收信号 (7)发送信号 (8)泳道 (9)转移 3.活动图实例--订单处理 4 ...