Python 爬虫从入门到进阶之路（四）

之前的文章我们做了一个简单的例子爬取了百度首页的 html，我们用到的是 urlopen 来打开请求，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的 urlopen() 方法不支持代理、cookie等其他的HTTP/HTTPS高级功能，所以我们需要用到 Python 的 opener 来自定义我们的请求内容。

具体步骤：

使用相关的 Handler处理器 来创建特定功能的处理器对象；
然后通过 build_opener()方法使用这些处理器对象，创建自定义opener对象；
使用自定义的opener对象，调用open()方法发送请求。

我们先来回顾一下使用 urlopen 获取百度首页的 html 代码实例：

 # 导入urllib 库

 import urllib.request

 # url 作为Request()方法的参数，构造并返回一个Request对象

 request = urllib.request.Request("http://www.baidu.com")

 # Request对象作为urlopen()方法的参数，发送给服务器并接收响应

 response = urllib.request.urlopen(request)

 # 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

接下来我们看一下使用 opener 的处理方式：

 from urllib import request

 # 构建一个HTTPHandler 处理器对象，支持处理HTTP请求

 http_handler = request.HTTPHandler()

 # 构建一个HTTPSHandler 处理器对象，支持处理HTTPS请求

 # http_handler = request.HTTPSHandler()

 # 调用 request.build_opener()方法，创建支持处理HTTP请求的opener对象

 opener = request.build_opener(http_handler)

 # 构建 Request请求

 request = request.Request("http://www.baidu.com/")

 # 调用自定义opener对象的open()方法，发送request请求

 response = opener.open(request)

 # 获取服务器响应内容

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

在上面的第一段代码中，我们是通过直接 import urllib.request 来导入我们需要的包，这样当我们要使用时需要 urllib.request 来使用，第二段代码我们是通过 from urllib import request 来导入我们需要的包，这样当我们使用时直接 request 来使用就可以了。

第一段代码在前面的文章中我们已经说过了，这里就不多做解释了。

第二段代码中，我们使用了 opener 的方法来处理我们的请求，这样我们就可以对代理，cookie 等做进一步的操作，后续文章会讲到。最终结果如下：

在 http_handler = request.HTTPHandler() 中，我们还可以添加一个 debuglevel=1 参数，会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。

代码如下：

 from urllib import request

 # 构建一个HTTPHandler 处理器对象，支持处理HTTP请求

 http_handler = request.HTTPHandler(debuglevel=1)

 # 构建一个HTTPHandler 处理器对象，支持处理HTTPS请求

 # http_handler = request.HTTPSHandler(debuglevel=1)

 # 调用 request.build_opener()方法，创建支持处理HTTP请求的opener对象

 opener = request.build_opener(http_handler)

 # 构建 Request请求

 request = request.Request("http://www.baidu.com/")

 # 调用自定义opener对象的open()方法，发送request请求

 response = opener.open(request)

 # 获取服务器响应内容

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

输出结果如下：

可以看出在响应结果的时候会为我们打印输出一些请求信息。

Python 爬虫从入门到进阶之路（四）的更多相关文章

Python 爬虫从入门到进阶之路（八）
在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网 ...
Python 爬虫从入门到进阶之路（二）
上一篇文章我们对爬虫有了一个初步认识,本篇文章我们开始学习 Python 爬虫实例. 在 Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取. ...
Python 爬虫从入门到进阶之路（六）
在之前的文章中我们介绍了一下 opener 应用中的 ProxyHandler 处理器(代理设置),本篇文章我们再来看一下 opener 中的 Cookie 的使用. Cookie 是指某些网站服务器 ...
Python 爬虫从入门到进阶之路（九）
之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块,本章我们就利用正则表达式和 re 模块来做一个案例,爬取<糗事百科>的糗事并存储到本地. 我们要爬取的 ...
Python 爬虫从入门到进阶之路（十二）
之前的文章我们介绍了 re 模块和 lxml 模块来做爬虫,本章我们再来看一个 bs4 模块来做爬虫. 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也 ...
Python 爬虫从入门到进阶之路（十五）
之前的文章我们介绍了一下 Python 的 json 模块,本章我们就介绍一下之前根据 Xpath 模块做的爬取<糗事百科>的糗事进行丰富和完善. 在 Xpath 模块的爬取糗百的案例中我 ...
Python 爬虫从入门到进阶之路（十六）
之前的文章我们介绍了几种可以爬取网站信息的模块,并根据这些模块爬取了<糗事百科>的糗百内容,本章我们来看一下用于专门爬取网站信息的框架 Scrapy. Scrapy是用纯Python实现一 ...
Python 爬虫从入门到进阶之路（十七）
在之前的文章中我们介绍了 scrapy 框架并给予 scrapy 框架写了一个爬虫来爬取<糗事百科>的糗事,本章我们继续说一下 scrapy 框架并对之前的糗百爬虫做一下优化和丰富. 在上 ...
Python 爬虫从入门到进阶之路（五）
在之前的文章中我们带入了 opener 方法,接下来我们看一下 opener 应用中的 ProxyHandler 处理器(代理设置). 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很 ...
Python 爬虫从入门到进阶之路（七）
在之前的文章中我们一直用到的库是 urllib.request,该库已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Hum ...

随机推荐

Node Js模块讲解
Node JS模块所谓的Node JS模块其实就是指Node JS package,即nodejs包. 一什么是NodeJS模块? 在说这个问题之前,我们有必要提出一个概念,即模块规范. 现阶段J ...
2.java三大特性
1. 封装方法:将属性值修饰为私有,提供get和set方法.造成所有对对象的访问都是通过方法的调用来完成(配合this的使用) 结果:用户不能直接随意改变一个对象内的属性,必须通过调用方法(验证)来 ...
如何下载Vimeo视频
MediaHuman YouTube Downloader是应用在Mac上的一款非常优秀的YouTube视频下载工具,YouTube Downloader破解版将帮助你快速完成视频下载,而不会挂断.您 ...
keras模型保存和权重保存
模型保存和读取(包括权重): model.save('./model.h5') from keras import models model = models.load_model(./model.h ...
管程(Moniter)：并发编程的基本心法
JavaStorm 关注公众号获取更多并发在吃透 Syncchronized 原理中介绍了关于 Synchronize的实现原理,无论是同步方法还是同步代码块,无论是ACC_SYNCHRONIZE ...
基于Tomcat部署的Geoserver配置Geowebcache，并转发ArcGIS切片
1.将GeowebCache的war包解压到tomcat的webapp下,打开war包中的WEB-INF中的web.xml文件,同时创建一个你想保存geowencache的切片的空文件夹,例如我命名叫 ...
GIS面试小知识点
1.什么是地理信息系统?简述其基本功能它是随着地理科学.计算机技术.遥感技术和信息科学的发展而产生的一门科学.就应用而言,是对空间数据进行组织.管理.分析.显示的系统.其实本质上它探讨的就是 ...
【代码审计】ESPCMSP8(易思企业建站管理系统)漏洞报告
0x00简介项目名称:ESPCMS-P8(易思企业建站管理系统) 测试平台:Windwos 版本信息:P8.19082801稳定版更新时间:2019-08-30 00:56:32 网站官网:htt ...
Vim 基本的使用
三种模式按 ESC 进入命令模式命令模式下输入 Shift + : 进入末行模式命令模式下输入插入命令,如(i,a,o) 进入输入模式进入 vim 文件名 vim直接编辑一个文件,如果是已经存 ...
CodeForces - 519D（思维+前缀和）
题意 https://vjudge.net/problem/CodeForces-519D 给定每个小写字母一个数值,给定一个只包含小写字母的字符串 s,求 s 的子串 t 个数,使 t满足: 首位字 ...

Python 爬虫从入门到进阶之路（四）

Python 爬虫从入门到进阶之路（四）的更多相关文章

随机推荐

热门专题