python urllib.request
一、简介
urllib.request 模块提供了访问 URL 的相关功能
二、常用函数
urllib.request.urlopen("http://httpbin.org", timeout=1)
// 访问网页,并设置1秒的超时时间(urlopen 只能实现最基本的请求)
读:
.read()// 读取网页(二进制).decode('utf-8')// 以 utf-8 解码网页.geturl()// 获取访问的 URL
信息:
.info()// 获取网响应页的 Headers 信息.headers// 获取网页响应的 Headers 信息.getheaders()// 获取网页响应的 Headers 信息(以列表形式返回).getheader(name="Content-Type")// 获取网页响应的 Headers 信息(查看指定的属性).version// 查看 HTTP 使用的版本协议号
状态码:
.getcode()// 获取当前访问的状态码.status// 获取当前访问的状态码.reason// 获取当前访问的状态码(如访问成功则返回 OK)
urllib.request.Request(url=url, data=data, headers=header, method="POST")
.add_header// 添加新的 Header(接受元组类型)
| 参数 | 作用 |
|---|---|
| url | 需请求的 url |
| data | 必须为 bytes(字节流)类型,如为字典,可用 urllib.parse.urlencode() |
| headers | 请求头 |
| origin_req_host | 指定请求方的 host 名称或 ip 地址 |
| unverifiable | 设置网页是否需要验证(默认为 Flase) |
| method | 指定请求方法(如:GET、POST等) |
三、实例
1、读取网页,并以 utf-8 格式解码
# 读取网页,并以 utf-8 格式解码
urllib.request.urlopen("http://httpbin.org").read().decode('utf-8')
2、获取访问的 URL
# 获取访问的 URL
urllib.request.urlopen("http://httpbin.org").geturl()
3、获取 Headers 信息
# 获取 Headers 信息
urllib.request.urlopen("http://httpbin.org").info()
4、获取访问的状态码
# 获取访问的状态码
urllib.request.urlopen("http://httpbin.org").getcode()
5、指定 Headers 访问网页
import urllib.request
# 指定访问的 URL
url = "http://httpbin.org/get"
# 指定访问的 Headers
header = {
"Host": "httpbin.org",
"Referer": "http://httpbin.org/",
"User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
}
# 使用指定的 Headers 访问网页
test = urllib.request.Request(url=url, headers=header)
# 以 utf-8 的格式打印出访问的页面
test_2 = urllib.request.urlopen(test).read().decode("utf-8")
print (test_2)
6、发送带参数的 GET 请求
import urllib.request
import urllib.parse
# 指定访问的 URL
url = "http://httpbin.org/get"
# 指定访问的 Headers
header = {
"Host": "httpbin.org",
"Referer": "http://httpbin.org/",
"User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
}
# 设置需传递的参数(使用 urlencode 将字典转换成可提交的参数,如:a=test_1&b=test_2)
data = urllib.parse.urlencode({'a':'test_1', 'b':'test_2'})
url = url + "?" + data
# 使用指定的 Headers 访问网页
test = urllib.request.Request(url=url, headers=header)
# 以 utf-8 的格式打印出访问的页面
test_2 = urllib.request.urlopen(test).read().decode("utf-8")
print (test_2)
7、发送带参数的 POST 请求
import urllib.request
import urllib.parse
# 指定访问的 URL
url = "http://httpbin.org/post"
# 指定访问的 Headers
header = {
"Host": "httpbin.org",
"Origin": "http://httpbin.org",
"Referer": "http://httpbin.org/",
"User-Agent": "Mozilla/5.0 (Windows NT 99.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
}
# 设置需传递的参数(使用 urlencode 将字典转换成可提交的参数,如:a=test_1&b=test_2)
data = urllib.parse.urlencode({'a':'test_1', 'b':'test_2'})
# 将序列化后的字符串转换成二进制数据(POST 请求携带的参数是二进制)
data = bytes(data, encoding='utf-8')
# 使用指定的 Headers 访问网页
test = urllib.request.Request(url=url, headers=header, data = data, method="POST")
# 指定新的 Headers(接受元组类型(会替换掉对应的项))
test.add_header("User-Agent", "Mozilla/99.0 (Windows NT 99.0; Win99; x99) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
)
# 以 utf-8 的格式打印出访问的页面
test_2 = urllib.request.urlopen(test).read().decode("utf-8")
print (test_2)
8、设置全局代理
import urllib.request
# 需访问测试页面
url = "http://httpbin.org/ip"
# 设置代理 IP
ip = {"http":"127.0.0.1:8888"}
proxy_ip = urllib.request.ProxyHandler(ip)
# 使用 build_opener() 构建一个 opener 对象
opener = urllib.request.build_opener(proxy_ip)
# 设置新的 Headers
header = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36')
opener.addheaders = [header]
urllib.request.install_opener(opener)
# 访问测试的页面
response = urllib.request.urlopen(url)
# 以 utf-8 的格式打印出访问的页面
html = response.read().decode('utf-8')
print (html)
python urllib.request的更多相关文章
- 第14.6节 使用Python urllib.request模拟浏览器访问网页的实现代码
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...
- Python urllib Request 用法
转载自:https://blog.csdn.net/ywy0ywy/article/details/52733839 python2.7 httplib, urllib, urllib2, reque ...
- 第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节 使用 ...
- Python Spider - urllib.request
import urllib.request import urllib.parse import json proxy_support = urllib.request.ProxyHandler({' ...
- Python 基于urllib.request封装http协议类
基于urllib.request封装http协议类 by:授客QQ:1033553122 测试环境: Python版本:Python 3.3 代码实践 #!/usr/bin/env python ...
- Python 3.X 要使用urllib.request 来抓取网络资源。转
Python 3.X 要使用urllib.request 来抓取网络资源. 最简单的方式: #coding=utf-8 import urllib.request response = urllib. ...
- Python做简单爬虫(urllib.request怎么抓取https以及伪装浏览器访问的方法)
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧 首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
- python之urllib.request.urlopen(url)报错urllib.error.HTTPError: HTTP Error 403: Forbidden处理及引申浏览器User Agent处理
最近在跟着院内大神学习python的过程中,发现使用urllib.request.urlopen(url)请求服务器是报错: 在园子里找原因,发现原因为: 只会收到一个单纯的对于该页面访问的请求,但是 ...
- 通过python的urllib.request库来爬取一只猫
我们实验的网站很简单,就是一个关于猫的图片的网站:http://placekitten.com 代码如下: import urllib.request respond = urllib.request ...
随机推荐
- OpenCV之高斯平滑(Python实现)
假设一个列数为W,行数为H的高斯卷计算子gaussKernel,其中W,H均为奇数,描点位置在((H-1)/2 ,(W-1)/2),构建高斯卷积核的步骤如下 1.计算高斯矩阵 \[gaussMatri ...
- windows安装msys2 mingw64
msys2包含mingw32和mingw64 步骤1 首选安装msys64 链接:https://pan.baidu.com/s/1l9Zfm4TE1Gg3c7tkaH6KeQ 安装到指定目录 步骤2 ...
- .NET或.NET Core Web APi基于tus协议实现断点续传
前言 前两天我采用技巧式方案基本实现大文件分片上传,这里只是重点在于个人思路和亲身实践,若在实际生产环境要求比较高的话肯定不行,仍存在一些问题需要深入处理,本文继续在之前基础上给出基于tus协议的轮子 ...
- kereas 实现鸢尾花分类
import tensorflow as tf from sklearn import datasets import numpy as np x_train=datasets.load_iris() ...
- 运用cookie实现记住密码自动登陆:
苦命的程序员:只有博客才能了解我的路!!! 废话不多说:直接上代码: 1.首先在现在登录的页面上来获取cookie的所有: 2.在验证页面来设置clookie的用户名和密码还有是否是自动登录: 到此就 ...
- DB2根据报错代码查看表与字段信息
select * from syscat.tables where tbspaceid='?' and tableid='?' select * from syscat.columns where t ...
- 二叉搜索树 [四边形不等式优化区间dp]
二叉搜索树 [四边形不等式优化区间dp] 题目描述 有 \(n\) 个结点,第 \(i\) 个结点的权值为 \(i\) . 你需要对它们进行一些操作并维护一些信息,因此,你需要对它们建立一棵二叉搜索树 ...
- 【SCOI2013】摩托车交易 - 最大生成树+树链剖分
题目描述 mzry1992 在打完吊针出院之后,买了辆新摩托车,开始了在周边城市的黄金运送生意.在mzry1992 生活的地方,城市之间是用双向高速公路连接的.另外,每条高速公路有一个载重上限,即在不 ...
- TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程
TfidfVectorizer.CountVectorizer 和 TfidfTransformer 是 sklearn 中处理自然语言常用的工具.TfidfVectorizer 相当于 CountV ...
- 关于make及makefile的工作笔记
之前一直是用java的,最近工作中需要在Linux中写一个C++程序,之前的写法很不规范,只有一个CPP.记录一下关于makefile的相关知识 想要完整的了解相关内容,推荐看这本书<程序员的自 ...