Python 爬虫从入门到进阶之路（四）

之前的文章我们做了一个简单的例子爬取了百度首页的 html，我们用到的是 urlopen 来打开请求，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的 urlopen() 方法不支持代理、cookie等其他的HTTP/HTTPS高级功能，所以我们需要用到 Python 的 opener 来自定义我们的请求内容。

具体步骤：

使用相关的 Handler处理器 来创建特定功能的处理器对象；
然后通过 build_opener()方法使用这些处理器对象，创建自定义opener对象；
使用自定义的opener对象，调用open()方法发送请求。

我们先来回顾一下使用 urlopen 获取百度首页的 html 代码实例：

 # 导入urllib 库

 import urllib.request

 # url 作为Request()方法的参数，构造并返回一个Request对象

 request = urllib.request.Request("http://www.baidu.com")

 # Request对象作为urlopen()方法的参数，发送给服务器并接收响应

 response = urllib.request.urlopen(request)

 # 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

接下来我们看一下使用 opener 的处理方式：

 from urllib import request

 # 构建一个HTTPHandler 处理器对象，支持处理HTTP请求

 http_handler = request.HTTPHandler()

 # 构建一个HTTPSHandler 处理器对象，支持处理HTTPS请求

 # http_handler = request.HTTPSHandler()

 # 调用 request.build_opener()方法，创建支持处理HTTP请求的opener对象

 opener = request.build_opener(http_handler)

 # 构建 Request请求

 request = request.Request("http://www.baidu.com/")

 # 调用自定义opener对象的open()方法，发送request请求

 response = opener.open(request)

 # 获取服务器响应内容

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

在上面的第一段代码中，我们是通过直接 import urllib.request 来导入我们需要的包，这样当我们要使用时需要 urllib.request 来使用，第二段代码我们是通过 from urllib import request 来导入我们需要的包，这样当我们使用时直接 request 来使用就可以了。

第一段代码在前面的文章中我们已经说过了，这里就不多做解释了。

第二段代码中，我们使用了 opener 的方法来处理我们的请求，这样我们就可以对代理，cookie 等做进一步的操作，后续文章会讲到。最终结果如下：

在 http_handler = request.HTTPHandler() 中，我们还可以添加一个 debuglevel=1 参数，会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。

代码如下：

 from urllib import request

 # 构建一个HTTPHandler 处理器对象，支持处理HTTP请求

 http_handler = request.HTTPHandler(debuglevel=1)

 # 构建一个HTTPHandler 处理器对象，支持处理HTTPS请求

 # http_handler = request.HTTPSHandler(debuglevel=1)

 # 调用 request.build_opener()方法，创建支持处理HTTP请求的opener对象

 opener = request.build_opener(http_handler)

 # 构建 Request请求

 request = request.Request("http://www.baidu.com/")

 # 调用自定义opener对象的open()方法，发送request请求

 response = opener.open(request)

 # 获取服务器响应内容

 html = response.read().decode("utf-8")

 # 打印字符串

 print(html)

输出结果如下：

可以看出在响应结果的时候会为我们打印输出一些请求信息。

Python 爬虫从入门到进阶之路（四）的更多相关文章

Python 爬虫从入门到进阶之路（八）
在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网 ...
Python 爬虫从入门到进阶之路（二）
上一篇文章我们对爬虫有了一个初步认识,本篇文章我们开始学习 Python 爬虫实例. 在 Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取. ...
Python 爬虫从入门到进阶之路（六）
在之前的文章中我们介绍了一下 opener 应用中的 ProxyHandler 处理器(代理设置),本篇文章我们再来看一下 opener 中的 Cookie 的使用. Cookie 是指某些网站服务器 ...
Python 爬虫从入门到进阶之路（九）
之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块,本章我们就利用正则表达式和 re 模块来做一个案例,爬取<糗事百科>的糗事并存储到本地. 我们要爬取的 ...
Python 爬虫从入门到进阶之路（十二）
之前的文章我们介绍了 re 模块和 lxml 模块来做爬虫,本章我们再来看一个 bs4 模块来做爬虫. 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也 ...
Python 爬虫从入门到进阶之路（十五）
之前的文章我们介绍了一下 Python 的 json 模块,本章我们就介绍一下之前根据 Xpath 模块做的爬取<糗事百科>的糗事进行丰富和完善. 在 Xpath 模块的爬取糗百的案例中我 ...
Python 爬虫从入门到进阶之路（十六）
之前的文章我们介绍了几种可以爬取网站信息的模块,并根据这些模块爬取了<糗事百科>的糗百内容,本章我们来看一下用于专门爬取网站信息的框架 Scrapy. Scrapy是用纯Python实现一 ...
Python 爬虫从入门到进阶之路（十七）
在之前的文章中我们介绍了 scrapy 框架并给予 scrapy 框架写了一个爬虫来爬取<糗事百科>的糗事,本章我们继续说一下 scrapy 框架并对之前的糗百爬虫做一下优化和丰富. 在上 ...
Python 爬虫从入门到进阶之路（五）
在之前的文章中我们带入了 opener 方法,接下来我们看一下 opener 应用中的 ProxyHandler 处理器(代理设置). 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很 ...
Python 爬虫从入门到进阶之路（七）
在之前的文章中我们一直用到的库是 urllib.request,该库已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Hum ...

随机推荐

[ASP.NET Core 3框架揭秘] 配置[7]：多样化的配置源[中篇]
物理文件是我们最常用到的原始配置载体,而最佳的配置文件格式主要有三种,它们分别是JSON.XML和INI,对应的配置源类型分别是JsonConfigurationSource.XmlConfigura ...
Github挂载大文件解决方案
正常情况下,我们上传代码之类的文本文件,都不会太大,可以直接通过[Upload Files]选项直接上传. 但是这样的操作仅限文件大小在25MB以内. 如果你选择的文件超过25MB,那么Github会 ...
Android Activity启动流程， app启动流程，APK打包流程， APK安装过程
1.Activity启动流程 (7.0版本之前) 从startActivity()开始,最终都会调用startActivityForResult() 在该方法里面会调用Instrumentation. ...
ANSIBLE安装和常用模块模块使用详细教程
目录 ANSIBLE安装和各种模块应用功能安装配置ANSIBLE ANSIBLE使用 ansible-galaxy工具 ansible-pull工具 ansible-playbook ansible ...
从一个OutOfMemoryError 学会了分析Java内存泄漏问题
以前都是好好的,最近出现了 oom. 问题开始是: java.lang.OutOfMemoryError: Java heap space -- :: --- [nio--exec-] c.e.p. ...
Spring Boot中使用Swagger2构建强大的RESTful(最新全,无坑)
1:说明网上这类文章太多, 一搜一大把 ,但是要不是知识太过于老旧,就是配置没有说名清楚,你的项目按照他的配置却不能正常运行: 所以本文的目的: 配置swagger 2 那swagger 1 不 ...
对Python中一些“坑”的总结及技巧
一.赋值即定义 1.运行以下代码会出现报错 #!/usr/bin/env python #_*_conding:utf-8_*_ x = 100 def outer(): def inner(): x ...
Spring Boot 的静态资源处理
做web开发的时候,我们往往会有很多静态资源,如html.图片.css等.那如何向前端返回静态资源呢?以前做过web开发的同学应该知道,我们以前创建的web工程下面会有一个webapp的目录,我们只要 ...
如何利用随机数产生验证码（java基础知识）
以前我们通用的验证码都是五个不同的大小写字母,那么今天我就带大家学习一下利用Java基础怎么生成验证码.首先我们应该有一个清晰的思路:首先定义一个固定长度的数组用来存储需要生成的字母:其次生成随机数, ...
SpringBoot集成swagger2.0
最近项目里要用到SpringBoot + swagger,查了其他小伙伴们的资料,或多或少有点问题,在此我再梳理一遍. 1.maven依赖 <parent> <groupId> ...

Python 爬虫从入门到进阶之路（四）

Python 爬虫从入门到进阶之路（四）的更多相关文章

随机推荐

热门专题