Python3爬虫一之（urllib库）

urllib库是python3的内置HTTP请求库。

ython2中urllib分为 urllib2、urllib两个库来发送请求，但是在python3中只有一个urllib库，方便了许多。

urllib库官方文档地址：https://docs.python.org/3/library/urllib.html

urllib库包含四个模块：

　　request: 最基本的request请求模块，用来模拟的发送请求

　　error: 异常处理模块用来捕获异常

　　parse：提供了许多URL处理方法，比如拆分、解析、合并

　　robotparser: 用来识别网站的robot.txt文件

发送请求：request下的urlopen()方法

import urllib.request

url = 'http://xa.meituan.com/meishi/'

response = urllib.request.urlopen(url)

print(response.read().decode())

得到的response是一个HTTPResponse类型的对象，包含了 read(), readinto(), getheader(name), getheaders(), fileno()等方法和msg, version, status, debuglevel, closed等属性。

使用urlopen()方法是也可以传递一些参数，如data， timeout 等

data参数：

　　data是可选参数，如果在请求中想要添加data参数， data参数必须用bytes()将其转化为bytes类型,并且，如果传递了参数，那么请求方式就是POST类型（urlopen请求方式默认是get）

import urllib.request

import urllib.parse

data = bytes(urllib.parse.urlencode({'world':'Hello'}), encoding='utf-8')

#传递一个data字典，使用bytes方法将data转为bytes类型，bytes方法的第一个参数是str，所以使用urllib.parse.urlencode()方法将字典转为str，第二个参数是编码格式

url = 'http://xa.meituan.com/meishi/'

response = urllib.request.urlopen(url=url, data=data)

print(response.read().decode())

timeout参数：

　　该参数用于设定超时时间。单位是秒。超时就会抛出异常。

import urllib.request

url = 'http://xa.meituan.com/meishi/'

response = urllib.request.urlopen(url=url, timeout=1)

print(response.read().decode())

其他参数：

　　context参数，必须是ssl.SSLCentext类型，用来指定SSL设置。

　　cafile参数和capath参数分别指定CA证书与他的路径。

request下的Request方法：

Request的构造方法：

　　urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

import urllib.request

url = 'http://xa.meituan.com/meishi/'

request = urllib.request.Request(url=url)

response = urllib.request.urlopen(request)

print(response.read().decode())

origin_req_host: 请求方的host名称或者IP地址。

unverifiable：表示这个请求是否是无法验证的，默认是False，意思是

Handler

urllib,request.BaseHandler类。他是所有Handler的父类。

下面各种子类继承父类。

　　HTTPDefaultErrorHandler: 用于处理HTTP请求

　　HTTPRedirectHandler: 用于重定向。

　　HTTP Cookie Processor：用于处理Cookies

　　ProxyHandler:用于设置代理。

　　HTTPPasswordMgr:用于管理密码。

　　HTTPBasicAuthHandler: 用于认证管理。

URL: scheme + netloc + path + parms + query + fragment

协议域名访问路径参数查询条件锚点

Python3爬虫一之（urllib库）的更多相关文章

第三百三十六节，web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
第三百二十九节，web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
第三百二十八节，web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...
第三百二十七节，web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
第三百二十七节,web爬虫讲解2—urllib库爬虫利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode(& ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...
爬虫常用的 urllib 库知识点
urllib 库 urllib 库是 Python 中一个最基本的网络请求库.它可以模仿浏览器的行为向指定的服务器发送请求,同时可以保存服务器返回的数据. urlopen() 在 Python3 的 ...
爬虫入门之urllib库(一)
1 爬虫概述 (1)互联网爬虫一个程序,根据Url进行爬取网页,获取有用信息 (2)核心任务爬取网页解析数据难点 :爬虫和反爬虫之间的博弈 (3)爬虫语言 php 多进程和多线程支持不好 ja ...
爬虫基础(1):urllib库
urllib库 urllib库是python中的一个基本网络请求库.用于模拟浏览器的行为,向指定服务器发送请求,并接收返回的数据. 在python3中所有的网络请求相关函数都集中在urllib.req ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...

随机推荐

java.lang.ClassNotFoundException: org.slf4j.LoggerFactory
缺少slf4j-api.jar和slf4j-log4j12.jar这两个jar包导致的错误.
FusionCharts图表控件中文版使用手册
三要素:swf.data.xml.承载图表的载体 1.Swf: 按照你所设计的图表类型加载相应的.swf文件到你的工程即可(eg:若你想生成一张二维柱状图,那么在你的工程里就必须包含Column2D. ...
node.js安装Oracledb指导文档
https://community.oracle.com/docs/DOC-931127
[转]Todd.log - a place to keep my thoughts on programming 分布式架构中的幂等性
Todd.log - a place to keep my thoughts on programming 理解HTTP幂等性基于HTTP协议的Web API是时下最为流行的一种分布式服务提供方式. ...
Android 开发干货，键盘状态
地址:http://www.imooc.com/article/4711 [A]stateUnspecified:软键盘的状态并没有指定,系统将选择一个合适的状态或依赖于主题的设置 [B]stateU ...
Android Studio 编译错误 Error:Execution failed for task ':app:buildInfoDebugLoader'.
今天来到打开昨天的项目运行正常,然后改动了一点代码编译报错: Error:Execution failed for task ':app:buildInfoDebugLoader'. > Exc ...
VMware与Hyper-V不兼容
一.问题描述 VMware Workstation与Hyper-V不兼容. 二.解决方案取消Hyper-V功能,即将Hyper-V框中钩去掉. 三.总结思考开始不清楚怎么解决这个问题,主要原因在于 ...
HttpRunner环境搭建
官方文档地址:http://cn.httprunner.org/官方源码地址:https://github.com/HttpRunner/HttpRunner HttpRunner 是一款面向 HTT ...
解决Layui的switch样式显示问题
Layui官方文档是这么说的: <input type="checkbox" name="xxx" lay-skin="switch" ...
python_102_属性方法
# 属性方法:把一个方法变成一个静态属性 #1 class Dog(object): def __init__(self,name): self.name=name @property#属性 def ...

Python3爬虫一之（urllib库）

Python3爬虫一之（urllib库）的更多相关文章

随机推荐

热门专题