urllib python3 请求、登录、下载网页
urllib.request 发送request和获取request的结果
urllib.error包含了urllib.request产生的异常
urllib.parse用来解析和处理Url
urllib.robotparse用来解析页面的robots.txt文件
urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)
url 可以是一个URL的字符串,也可以是一个Request对象
data 传给服务器的数据,支持字节类型(Bytes)、文件格式(file-like objects)和可迭代的对象(iterables),如果头文件中Content-Length 和 Transfer-Encoding 都没有提供,HTTPHandler就会根据data的类型来设置这些参数。 对于post类型的request method ,data应该以标准的application/x-www-form-urlencoded格式提供,urllib.parse.urlencode()方法可将 字典类或2元素的队列类 数据 转换成这种格式的Ascii字符码。入参data在使用前需要先编码成字节类型。
timeout 用于设置连接时长,只对HTTP,HTTPS,FTP类型的连接有效。
context 必须是一个ssl.SSLContext实例
cafile 指向的是单个包含CA 证书的文件
capath 指向的是这个hashed 认证文件的路径
class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)
headers 字典类型数据 也可以通过add_header()方法传入单个的key-value参数。 User-Agent ,通常用于标识请求所使用的浏览器(某些HTTP服务器只允许来自常用浏览器的请求);Content-Type,如果data参数被提供,就需要设置这个参数,如果没设置Content-Type,默认值为application/x-www-form-urlencoded
origin_req_host和unverifiable仅用来准确的处理第三方Http cookies:
origin_req_host 用户设置的原始请求的主机名或IP地址,例如果请求的是某html中的一张图片,则原始请求主机名为请求(包含该图片的)html的主机名或地址。
unverifiable 表明这个请求 是否 无法访问
method 表示请求方式的字符串,可通过get_method()获取它的值。在data没有提供的情况下,默认是GET,否则默认是POST。
response:
urlopen()返回的对象urllib.response can work as a context manager,具有方法:
read(),readline() 基本的返回页面文本的方法
geturl() 返回根据根据实际页面定位的url地址,通常用来判断是否有发生重定向。
info() 返回页面的元信息,headers。
getcode() 返回这个response的http状态码
openers:获取URL的方法
通常我们使用默认的opener 的open方法: urllib.request.urlopen ()
如果需要个性化openers,就需要创建一个OpenerDirector实例。可以把不同的handlers传给OpenerDirector实例。
Handlers:Openers的处理器
所有的‘繁重’工作由handlers处理。不同的handlers处理不同事项,如通过特定协议打开URLs,HTTP重定向或获取一个不重定向的opener.
创建urllib.request.OpenerDirector 实例 可通过 urllib.request.build_opener([handler,...]) 一步创建
或 a=OpenerDirector(),a.add_handler(some_handler_instance) 两步来创建,入参handlers必须是BaseHandler或其子类的实例。
安装opener , install_opener(opener)安装完后,会使这个opener作为全局的opener,urlopen()方法会按照这个自定义的opener来打开url。如果不希望urlopen()也使用这个方法的话,就不需要安装这个opener,直接使用OpenerDirector.open()来打开url, opener 的open()方法与urlopen()方法具有相同的功能。
class urllib.request.ProxyHandler(proxies=None)
使request请求通过这个代理,proxies是字典类型数据 {协议名:这个代理的URL},如果没有指定proxies,就会默认读取环境变量<protocol>_proxy中的proxies.如果没有设置代理的环境变量,windows系统下会从注册表内部的设置部分获取。为防止这种自动定位的proxies,可以传递一个空字典。
示例:代理方式的验证请求
proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})
proxy_auth_handler = urllib.request.ProxyBasicAuthHandler()
proxy_auth_handler.add_password('realm', 'host', 'username', 'password')
opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler)
还是不知道这个代理的url是什么样的,要怎么写,有什么用。也许就是添加代理吧,可是这个代理在哪~
urllib.request各部分的小介:http://www.cnblogs.com/zknublx/p/6274599.html
class urllib.request.ProxyBasicAuthHandler(password_mgr=None)
通过proxy.password_mgr处理认证的类,入参与urllib.request.HTTPPasswordMgr 相兼容,类似。
class urllib.request.HTTPPasswordMgr
用于保持(realm,uri)到 (user,password)的映射
class urllib.request.HTTPPasswordMgrWithDefaultRealm
用于保持(realm,uri)到 (user,password)的映射,如果realm是None,并且没有其他合适的范围,就会搜索所有范围。
urllib python3 请求、登录、下载网页的更多相关文章
- python3爬虫.3.下载网页图片
目标,豆瓣读书, 下载页面书籍图片. import urllib.request import re #使用正则表达式 def getJpg(date): jpgList = re.findall(r ...
- Python下载网页的几种方法
get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...
- Python3 根据m3u8下载视频,批量下载ts文件并且合并
Python3 根据m3u8下载视频,批量下载ts文件并且合并 m3u8是苹果公司推出一种视频播放标准,是一种文件检索格式,将视频切割成一小段一小段的ts格式的视频文件,然后存在服务器中(现在为了减少 ...
- (Python基础教程之二十二)爬虫下载网页视频(video blob)
Python基础教程 在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...
- JavaWeb学习之转发和重定向、会话技术:cookie、session、验证码实例、URLConnection使用(下载网页)(4)
1.转发和重定向 HttpServletResponse response 转发: RequestDispatcher dispatcher = request.getRequestDispatche ...
- windows 7 共享,未授予用户在此计算机上的请求登录类型
刚刚重装了windows7,新下载的一个ghost版本,结果却不能共享,每次访问这台机器的共享都提示, 未授予用户在此计算机上的请求登录类型 这个情况好像是存在于win7访问win7,我用一台XP系统 ...
- http下载网页
//http.c #include <stdio.h>#include <stdlib.h>#include <string.h>#include <sys/ ...
- C语言Linix服务器网络爬虫项目(二)项目设计和通过一个http请求抓取网页的简单实现
我们通过上一篇了解了爬虫具体要实现的工作之后,我们分析得出的网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出 ...
- Lynx以纯文本的形式下载网页
Lynx是一款基于命令行的web浏览器 [root@test88 ~]# yum install lynx -y [root@test88 ~]# lynx www.baidu.com 以纯文本的形式 ...
随机推荐
- 通过AndroidSDK自带的Tool在dos命令行窗口显示日志,并存入txt文档中
1.在默认情况下,命令行窗口中使用的代码页是中文或者美国的,即编码是中文字符集或者西文字符集. 如果一个文本文件是utf-8的,那么在dos窗口中不能正确显示文件中的内容. 以下命令切换编码: ch ...
- ASP.NET 4.x Web Api Odata v4 backend modify query 修改查询
有时候我们会想给予权限添加 filter 到查询上. 比如 会员和管理员都使用了 /api/products 作为 product 查询 但是会员不应该可以看见还没有上架的货品 /api/produc ...
- 启动node程序报错:event.js:183 throw er; // unhandled 'error' event
启动node程序时,报如下错误:
- HAL库详解
转自:https://blog.csdn.net/zcshoucsdn/article/details/55213616
- SSD固态硬盘是会掉速的。
也没什么好的办法. 只是自己不再疑神疑鬼,总觉得中病毒了. 下面的文章还是挺有参考意义的. http://diy.pconline.com.cn/627/6271636_all.html SSD变慢了 ...
- 20170906xlVBA_RecursionGetFiles
Dim Dic As Object Sub GetFileName() Dim FolderPath As String Set Dic = CreateObject("Scripting. ...
- IntelliJ IDEA 安装 Scala 插件
本页面中对在 IntelliJ 中安装 Scala 插件的步骤和方法进行了描述. 需要在 IntelliJ 安装 Scala 插件,你首先需要在你的计算机中安装 IntelliJ .IntelliJ ...
- ubuntu下安装CAJ阅读器
目录 1.ubuntu下wine的基本介绍 (1)wine的介绍 (2)wine的安装 (3)exe文件的安装 (4)exe程序的卸载 (6)wine的基本使用 2.CAJ阅读器的安装 (1)首先放上 ...
- 通过selenium控制浏览器滚动条
目的:通过selenium控制浏览器滚动条 原理:通过 driver.execute_script()执行js代码,达到目的 driver.execute_script("window.sc ...
- 突破本地离线存储5M限制的JS库localforage简介
http://www.zhangxinxu.com/wordpress/2018/06/js-localforage-localstorage-indexdb/