爬虫——Handler处理器和自定义Opener

我们之前一直都在使用的urlopen，这是一个特殊的opener（也就是模块帮我们构建好的）。

但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：

　　1.使用相差的Handler处理器来创建特定功能的处理器对象；

　　2.然后通过urllib.request.build_opener()方法，创建自定义opener对象

　　3.使用自定义的opener对象，调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener，可以使用urllib.request.install_opener()将自定义的opener对象定义为全局opener，表示如果之后凡是调用urlopen，都将使用这个opener（根据自己的需求来选择）

简单的自定义opener()

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

import urllib.request

# 构建一个HTTPHandler处理器对象，支持处理HTTP请求。

http_handler = urllib.request.HTTPHandler()

# # 构建一个HTTPSHandler处理器对象，支持处理HTTPS请求

# https_handler = urllib.request.HTTPSHandler()

# 调用urllib.request.build_opener()方法，创建支持处理HTTP请求的opener对象

opener = urllib.request.build_opener(http_handler)

# 构建Request请求

request = urllib.request.Request("http://www.baidu.com/")

# 调用自定义opener对象的open()方法，发送request请求

response = opener.open(request)

# 获取服务器响应内容

html = response.read()

print(html)

这种方式发送请求得到的结果，和使用urllib.request.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

如果在HTTPHandler()增加debuglevel = 1参数，还会将Debug Log打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调度，有时可以省去抓包的工作。

# 仅需要修改的代码部分：

# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求，同时开启Debug Log，debuglevel 值默认 0

http_handler = urllib.request.HTTPHandler(debuglevel = 1)

# 构建一个HTTPHSandler 处理器对象，支持处理HTTPS请求，同时开启Debug Log，debuglevel 值默认 0

https_handler = urllib.request.HTTPSHandler(debuglevel = 1)

ProxyHandler处理器（IP代理设置）

很多网站会检测某一段时间IP的访问次数（通过流量统计、系统日志等），如果某个IP访问次数多的不像正常人，它会禁止这个IP的访问。

所以我们通常可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。

urllib.request中通过ProxyHandler来设置使用代理服务器，下面代码说明如何使用自定义opener来使用代理：

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

"""

ProxyHandler处理器（代理设置）

很多网站会检测某一段时间某个IP的访问次数（通过流量统计，系统日志等），如果

访问次数多的不像正常人，它会禁止这个IP的访问。

所以我们可能通过设置一些代理服务器，每隔一段时间换一个代理IP，就算IP被禁

止，我们依然可以换个IP继续爬取。

"""

import urllib.request

# 构建了两个代理Handler，一个有代理IP，一个没有代理IP

http_proxy_handler = urllib.request.ProxyHandler({"http":"222.33.192.238:8118"})

null_proxy_handler = urllib.request.ProxyHandler({})

# 定义一个代理开关

proxy_switch = True

# 根据代理开关是否拱形，使用不同的代理模式

# 通过urllib.request.build_opener()方法使用这些代理Handler对象，创建自定义opener对象

if proxy_switch:

    opener = urllib.request.build_opener(http_proxy_handler)

else:

    opener = urllib.request.build_opener(null_proxy_handler)

request = urllib.request.Request("http://www.baidu.com/")

# 1. 如果这么写，只有使用opener.open()方法发送请求才使用自定义的代理，而urlopen()则不使用自定义代理。

response = opener.open(request)

# 2. 如果这么写，就是将opener应用到全局，之后所有的，不管是opener.open()还是urlopen() 发送请求，都将使用自定义代理。

# urllib.request.install_opener(opener)

# response = urlopen(request)

html = response.read()

print(html)

免费的开放代理获取基本没有什么成本，我们可以在一些代理网站上收集这些免费代理，测试后如果可以用，就把它收集起来用在爬虫上面。

免费代理网站举例：

　　西刺免费代理IP

　　快代理免费代理

　　Proxy360代理

　　全网代理IP

如果代理IP足够多，就可以让程序随机获取一个代理IP去访问网站。

import random

proxy_list = [

    {"http" : "1.85.220.77:8118"},

    {"http" : "110.73.6.57:8123"},

    {"http" : "171.39.4.8:8123"},

    {"http" : "122.244.53.133:808"},

    {"http" : "171.39.75.81:8123"}

]

# 随机选择一个代理

proxy = random.choice(proxy_list)

但是，这些免费开放的代理一般会有很多人都在使用，而且代理有寿命短、速度慢、匿名度不高、HTTP/HTTPS支持不稳定等缺点。

所以，要根据自己的需求，选择是否需要使用高品质的私密代理（通常需要找专门的代理供应商购买，再通过用户名/密码授权使用）。

Cookie是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。

Cookie原理

HTTP是无状态的面向连接的协议，为了保持连接状态，引入了Cookie机制，Cookie是HTTP消息头中的一种属性,包括:

Cookie名字（Name）

Cookie的值（Value）

Cookie的过期时间（Expires/Max-Age）

Cookie作用路径（Path）

Cookie所在域名（Domain），

使用Cookie进行安全连接（Secure）。

前两个参数是Cookie应用的必要条件，另外，还包括Cookie大小（Size，不同浏览器对Cookie个数及大小限制是有差异的）。

Cookie由变量名和值组成，根据Netscape公司的规定，Cookie格式如下：

Set－Cookie: NAME=VALUE；Expires=DATE；Path=PATH；Domain=DOMAIN_NAME；SECURE

http.cookiejar库和HTTPCookieProcessor处理器

在Python3.x处理Cookie，一般是通过http.cookjar模块和urllib.request模块的HTTPCookieProcessor处理器类一起使用。

http.cookjar模块：主要作用是提供用于存储cookie的对象

HTTPCookieProcessor处理器：主要作用是处理这些cookie对象，并构建handler对象。

http.cookjar库

该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

CookieJar：管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失。
FileCookieJar(filename, delayload = None, policy = None)：从CookieJar派生而来，用来创建FileCookieJar实例，检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件，即只有在需要时才读取文件或文件中存储数据。
MozillaCookieJar(filename, delayload = None, policy = None)：从FileCookieJar派生而来，创建与Mozilla浏览器cookies.txt兼容的FileCookieJar实例。
LWPCookieJar(filename, delayload = None, policy = None)：从FileCookieJar派生而来，创建与libwww-perl标准的Set-Cookie3文件格式兼容的FileCookieJar实例。

其实大多数情况下，我们只用CookieJar()，如果需要和本地文件交互，就用MozillaCookiejar()或LWPCookieJar()

案例：利用http.cookiejar和post登录人人网

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

"""

利用http.cookiejar和post登录人人网

url = "http://www.renren.com/PLogin.do"

"""

import urllib

import urllib.request

import http.cookiejar

# 构建一个CookieJar对象实例来保存cookie

cookie = http.cookiejar.CookieJar()

# 使用HTTPCookieProcessor()来创建cookie处理器对象，参数为CookieJar()对象

cookie_handler = urllib.request.HTTPCookieProcessor(cookie)

# 通过build_opener()来构建opener

opener = urllib.request.build_opener(cookie_handler)

# 设置User-Agent头：addheaders接受一个列表，里面每个元素都是一个headers信息的元组，opener将附带headers信息

opener.addheaders  = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36')]

# 需要登录的账户和密码

email = input("请输入您的账户：")

password = input("请输入您的密码：")

data = {"email": email, "password": password}

# 通过urlencode()转码

postdata = urllib.parse.urlencode(data)

postdata = postdata.encode(encoding = "utf-8")  # str转bytes

# 构建Request请求对象，包含需要发送的用户名和密码

request = urllib.request.Request("http://www.renren.com/PLogin.do", data = postdata)

# 通过opener发送这个请求，并获取登录后的Cookie值

opener.open(request)

# opener包含用户登录后的Cookie值，可以直接访问那些登录后才可以访问的页面

response = opener.open("http://www.renren.com/413928886/profile")

# 获取页面内容

html = response.read()

# 将页面内容存储至本地磁盘

fo = open("renren.html", "wb")

fo.write(html)

fo.close()

模拟登录要注意几点：

登录一般都会先有一个HTTP GET，用于获取一些信息及获得Cookie，然后再HTTP POST登录。
HTTP POST登录的链接有可能是动态的，从GET返回的信息中获取。
password（密码）有些是明文发送，有些是加密后发送。有些网站甚至采用动态加密的，同时包括了很多其他数据的加密信息，只能通过查看JS源码获得加密算法，再去破解加密，非常困难。
大多数网站的登录整体流程是类似的，可能部分细节不一样，所以其他网站登录时，需根据具体情况，作对应的修改。

爬虫——Handler处理器和自定义Opener的更多相关文章

爬虫之Handler处理器和自定义Opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
爬虫urllib2中Handler处理器和自定义Opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,urlopen是一个特殊的opener(也就是模块已经构建好的). 但是基本的url ...
爬虫之Handler处理器和自定义Opener
一.Handler处理器和自定义Opener opener是 request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
2.Handler处理器和自定义Opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
urllib2 Handler处理器和自定义opener（六）
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
Handler处理器和自定义Opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
爬虫（GET）——handler处理器和自定义opener
工具:python3 解释:urlopen()不支持代理.cookie等其他的http/https高级功能,所以需要handler处理器创建特定功能的处理器对象,urllib.request.buli ...
python爬虫(六)_urllib2：handle处理器和自定义opener
本文将介绍handler处理器和自定义opener,更多内容请参考:python学习指南 opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页 ...
python爬虫（3）——SSL证书与Handler处理器
一.SSL证书问题上一篇文章,我们创建了一个小爬虫,下载了上海链家房产的几个网页.实际上我们在使用urllib联网的过程中,会遇到证书访问受限的问题. 处理HTTPS请求SSL证书验证,如果SSL证 ...

随机推荐

PAT 1070 Mooncake
题目意思能搞成这样我也是服了这个女人了 #include <cstdio> #include <cstdlib> #include <vector> #includ ...
JavaSE环境Shiro的搭建及常用API
通过shiroAPI来进行角色的管理模拟用户是否登录: 模拟用户是否具有相应的权限:
10th week task -2 Object 的起源
Objective-C与C++.Java等面向对象语言类似,不过很多方面有所差别.若是用过另一种面向对象语言,那么就能理解Objective-C所用的许多范式与模版了.然而语法上也许会显得陌生,因为该 ...
Pairwise ranking methods: RankNet与LambdaRank
转自:http://blog.csdn.net/u014374284/article/details/49385065, 感谢分享! LamdaMart 介绍见博客http://blog.csdn.n ...
Informatica 9.1.0 Domain地址变化修改
由于公司机房的变动,infa所连数据库的IP地址变化,致使INFA不能启动.经过查找资料终于解决,现分享给大家,解决方法如下: 1.查看日志路径: Informatica/9.1.0/tomcat/l ...
最新一道面試題目，input: int[1,1,2,2,2,3,3,3]，output [3,2,1]，要求按照數字出現的次數從多到少排列元素。
面試當時沒有及時答出來,感覺當時在面試官的提示下跑偏了.想用兩個數組來mapping key和value然後對等排序,但是因為面試官讓用Array.sort而沒想好有什麼好辦法,結果可想而知.但是題目 ...
SONA Topology
N多年以前就有有人设计传了一种类似“房子”状结构的拓扑图,在Cisco的文档中可以查到这种叫SONA.这是个非常神奇的设计,适合用于中小型网络,之所以这么讲,是因为在这个结构下,但凡任何一台接入层或者 ...
python：类与对象命名空间、面对对象的组合用法
1,类里可以定义两种属性: #静态属性 #静态属性就是直接在类中定义的变量 #动态属性 #动态属性就是定义在类中的方法 class Course: language = ['Chinese']#静态属 ...
【洛谷5309】[Ynoi2012] D1T1（分块）
点此看题面大致题意: 两种操作,区间求和,将形如\(ax+y\)的位置的元素值加\(z\). 分块这种题目显然就是按照\(x\)与\(\sqrt n\)的大小关系来分块. 对于\(x>\sq ...
初学Pollard Rho算法
前言 \(Pollard\ Rho\)是一个著名的大数质因数分解算法,它的实现基于一个神奇的算法:\(MillerRabin\)素数测试(关于\(MillerRabin\),可以参考这篇博客:初学Mi ...

爬虫——Handler处理器 和 自定义Opener

爬虫——Handler处理器 和 自定义Opener的更多相关文章

随机推荐

热门专题

爬虫——Handler处理器和自定义Opener

爬虫——Handler处理器和自定义Opener的更多相关文章