urllib python3 请求、登录、下载网页

urllib.request 发送request和获取request的结果

urllib.error包含了urllib.request产生的异常

urllib.parse用来解析和处理Url

urllib.robotparse用来解析页面的robots.txt文件

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

url 可以是一个URL的字符串，也可以是一个Request对象

data 传给服务器的数据，支持字节类型（Bytes）、文件格式（file-like objects）和可迭代的对象（iterables）,如果头文件中Content-Length 和 Transfer-Encoding 都没有提供，HTTPHandler就会根据data的类型来设置这些参数。对于post类型的request method ,data应该以标准的application/x-www-form-urlencoded格式提供，urllib.parse.urlencode()方法可将字典类或2元素的队列类数据转换成这种格式的Ascii字符码。入参data在使用前需要先编码成字节类型。

timeout 用于设置连接时长，只对HTTP,HTTPS,FTP类型的连接有效。

context 必须是一个ssl.SSLContext实例

cafile 指向的是单个包含CA 证书的文件

capath 指向的是这个hashed 认证文件的路径

class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)

headers 字典类型数据也可以通过add_header()方法传入单个的key-value参数。 User-Agent ，通常用于标识请求所使用的浏览器（某些HTTP服务器只允许来自常用浏览器的请求）；Content-Type,如果data参数被提供，就需要设置这个参数，如果没设置Content-Type,默认值为application/x-www-form-urlencoded

origin_req_host和unverifiable仅用来准确的处理第三方Http cookies:

origin_req_host 用户设置的原始请求的主机名或IP地址，例如果请求的是某html中的一张图片，则原始请求主机名为请求（包含该图片的）html的主机名或地址。

unverifiable 表明这个请求是否无法访问

method 表示请求方式的字符串，可通过get_method()获取它的值。在data没有提供的情况下，默认是GET，否则默认是POST。

response：

urlopen()返回的对象urllib.response can work as a context manager，具有方法：

read(),readline() 基本的返回页面文本的方法

geturl() 返回根据根据实际页面定位的url地址，通常用来判断是否有发生重定向。

info() 返回页面的元信息，headers。

getcode() 返回这个response的http状态码

openers:获取URL的方法

通常我们使用默认的opener 的open方法: urllib.request.urlopen ()

如果需要个性化openers，就需要创建一个OpenerDirector实例。可以把不同的handlers传给OpenerDirector实例。

Handlers:Openers的处理器

所有的‘繁重’工作由handlers处理。不同的handlers处理不同事项，如通过特定协议打开URLs,HTTP重定向或获取一个不重定向的opener.

创建urllib.request.OpenerDirector 实例可通过 urllib.request.build_opener([handler,...]) 一步创建

或 a=OpenerDirector(),a.add_handler(some_handler_instance) 两步来创建,入参handlers必须是BaseHandler或其子类的实例。

安装opener , install_opener(opener)安装完后，会使这个opener作为全局的opener,urlopen()方法会按照这个自定义的opener来打开url。如果不希望urlopen()也使用这个方法的话，就不需要安装这个opener,直接使用OpenerDirector.open()来打开url, opener 的open()方法与urlopen()方法具有相同的功能。

class urllib.request.ProxyHandler(proxies=None)

使request请求通过这个代理，proxies是字典类型数据 {协议名：这个代理的URL}，如果没有指定proxies,就会默认读取环境变量<protocol>_proxy中的proxies.如果没有设置代理的环境变量，windows系统下会从注册表内部的设置部分获取。为防止这种自动定位的proxies,可以传递一个空字典。

示例：代理方式的验证请求

proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})

proxy_auth_handler = urllib.request.ProxyBasicAuthHandler()

proxy_auth_handler.add_password('realm', 'host', 'username', 'password')

opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler)

还是不知道这个代理的url是什么样的，要怎么写，有什么用。也许就是添加代理吧，可是这个代理在哪~

urllib.request各部分的小介：http://www.cnblogs.com/zknublx/p/6274599.html

class urllib.request.ProxyBasicAuthHandler(password_mgr=None)

通过proxy.password_mgr处理认证的类，入参与urllib.request.HTTPPasswordMgr 相兼容，类似。

class urllib.request.HTTPPasswordMgr

用于保持（realm,uri）到（user,password）的映射

class urllib.request.HTTPPasswordMgrWithDefaultRealm

用于保持（realm,uri）到（user,password）的映射，如果realm是None，并且没有其他合适的范围，就会搜索所有范围。

urllib python3 请求、登录、下载网页的更多相关文章

python3爬虫.3.下载网页图片
目标,豆瓣读书, 下载页面书籍图片. import urllib.request import re #使用正则表达式 def getJpg(date): jpgList = re.findall(r ...
Python下载网页的几种方法
get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...
Python3 根据m3u8下载视频，批量下载ts文件并且合并
Python3 根据m3u8下载视频,批量下载ts文件并且合并 m3u8是苹果公司推出一种视频播放标准,是一种文件检索格式,将视频切割成一小段一小段的ts格式的视频文件,然后存在服务器中(现在为了减少 ...
（Python基础教程之二十二）爬虫下载网页视频(video blob)
Python基础教程在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...
JavaWeb学习之转发和重定向、会话技术：cookie、session、验证码实例、URLConnection使用（下载网页）（4）
1.转发和重定向 HttpServletResponse response 转发: RequestDispatcher dispatcher = request.getRequestDispatche ...
windows 7 共享，未授予用户在此计算机上的请求登录类型
刚刚重装了windows7,新下载的一个ghost版本,结果却不能共享,每次访问这台机器的共享都提示, 未授予用户在此计算机上的请求登录类型这个情况好像是存在于win7访问win7,我用一台XP系统 ...
http下载网页
//http.c #include <stdio.h>#include <stdlib.h>#include <string.h>#include <sys/ ...
C语言Linix服务器网络爬虫项目（二）项目设计和通过一个http请求抓取网页的简单实现
我们通过上一篇了解了爬虫具体要实现的工作之后,我们分析得出的网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出 ...
Lynx以纯文本的形式下载网页
Lynx是一款基于命令行的web浏览器 [root@test88 ~]# yum install lynx -y [root@test88 ~]# lynx www.baidu.com 以纯文本的形式 ...

随机推荐

redhat 7.0 配置Bond
把/etc/sysconfig/network-scripts/目录下的ifcfg-bond*文件手动移动到/tmp目录. 重启网络:systemctl restart NetworkManager ...
（转）C# Assembly.Load 使用
在C#中,我们要使用反射,首先要搞清楚以下命名空间中几个类的关系: System.Reflection命名空间(1) AppDomain:应用程序域,可以将其理解为一组程序集的逻辑容器(2) As ...
java学习视频
随着信息化的发展,IT行业变得越来火,在开发领域,Java语言在是市面上很受欢迎的编程语言,很多初学者不知道从何学起,为了找资源浪费大量时间,而我就将自己的寻找资源分享给大家,让大家能够更加便捷的学习 ...
雷林鹏分享：jQuery EasyUI 表单 - 创建树形下拉框
jQuery EasyUI 表单 - 创建树形下拉框树形下拉框(ComboTree)是一个带有下列树形结构(Tree)的下拉框(ComboBox).它可以作为一个表单字段进行使用,可以提交给远程服务 ...
SQL的其他用法
SQL语言的其他用法 --求半径2米.高3米的圆柱体体积 select PI() select SQUARE(2)*PI()*3 '体积' --求字符串‘adsgdajfhwruhwuiriutoo ...
PHP策略模式demo
<?php//策略模式就是你有很多的方法,选择一种适合自己的,// 单例模式就是只有一个实例对象,不需要每个文件都要加载,比如连接数据库,// 工厂模式就是//策略模式interface cha ...
Find a way HDU - 2612
Pass a year learning in Hangzhou, yifenfei arrival hometown Ningbo at finally. Leave Ningbo one year ...
mysql find_in_set()函数的使用
mysql 中 find_in_set() 函数语法: FIND_IN_SET(str,strList) str 要查询的字符串 strList 字段名,参数以“,”分隔,如(1,2,6,8) 查询字 ...
Symmetric Tree leetcode java
问题描述: Given a binary tree, check whether it is a mirror of itself (ie, symmetric around its center). ...
poj-2689-素数区间筛
Prime Distance Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 22420 Accepted: 5954 Descr ...

urllib python3 请求、登录、下载网页

urllib python3 请求、登录、下载网页的更多相关文章

随机推荐

热门专题