爬虫常用的 urllib 库知识点
urllib 库
urllib 库是 Python 中一个最基本的网络请求库。它可以模仿浏览器的行为向指定的服务器发送请求,同时可以保存服务器返回的数据。
urlopen()
在 Python3 的 urllib 库中,所有和网络请求的相关方法都被集中到 urllib.request 模块下了。以下是 urlopen() 方法最基本的使用方法:
from urllib import request
resp = request.urlopen('https://www.baidu.com')
print(resp.read())
上面的代码执行完毕后在终端会打印出百度首页的源代码。
urlopen() 方法可以写两个参数(常用的):
- url:请求的 url
- data:请求的 data,如果设置了这个值,那么将变成 post 请求
urlopen() 方法的返回值是一个 http.client.HPPTResponse 对象,这个对象是一个类文件句柄对象。有 read(size)、readline()、readlines() 以及 getcode() 等方法。
urlretrieve()
这个方法可以方便的将网页上的一个文件保存到本地。以下代码可以非常方便的将百度的首页下载到本地:
from urllib import request
request.urlretrieve('http://www.baidu.com/', 'baidu.html')
urlencode()
若 ulr 中包含了中文或其他特殊字符,则浏览器会自动给我们进行编码。要用爬虫模拟浏览器,就需要进行手动编码,此时就要用到 urlencode() 方法来实现。这个方法可以把字典数据转换为 url 编码的数据。例如:
from urllib import parse
url = 'https://www.baidu.com/s'
params = {"wd": "教学设计"}
qs = parse.urlencode(params)
url = url + "?ie=UTF-8&&" + qs
print(qs)
print(url)
resp = request.urlopen(url)
print(resp.read())
parse_qs()
此方法可以将经过编码后的 ulr 参数进行解码。例如:
from urllib import parse
params = {'name': '木易', 'age': '21', 'sex': 'male'}
qs = parse.urlencode(params)
result = parse.parse_qs(qs)
print(result)
urlparse() 和 urlsplit()
这两个方法用来对 url 的各个组成部分进行分割。最后可以一次性拿到全部的 url 组成部分,也可以单独拿出某个部分。例如:
from urllib import parse
url = 'https://baike.baidu.com/item/hello%20world/85501?fr=aladdin#2_13'
result = parse.urlparse(url)
print(result) //拿出全部
// 分别拿出各个部分
print('scheme:', result.scheme)
print('netloc:', result.netloc)
print('path:', result.path)
print('params:',result.params) // urlsplit() 方法没有此项结果
print('query:', result.query)
print('fragment:', result.fragment)
urlparse()和urlsplit()基本上是一模一样的,有一个不一样的地方是,urlparse()里多了一个 “params” 属性,而urlsplit()没有这个params属性。例如有一个 url 为:“https://www.baidu.com/s;hello?wd=python&username=abc#1”,那么urlparse()可以的 “params” 获取到 “hello”,而urlsplit()则不可以。
request.Request 类
如果想要伪装爬虫,就要在请求的时候增加一些请求头,那么就必须使用 request.Request 类来实现,比如下面请求拉勾网的这段代码:
from urllib import request, parse
url = 'https://www.lagou.com/jobs/positionAjax.json?px=default&gx=%E5%85%A8%E8%81%8C&needAddtionalResult=false&isSchoolJob=1'
// 这里的 User-Agent 和 Referer 参数是我先用 Chrome 访问再用F12检查得到的,下面的 data 也是
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
'Referer': 'https://www.lagou.com/jobs/list_Go?px=default&gx=%E5%85%A8%E8%81%8C&gj=&isSchoolJob=1&city=%E5%85%A8%E5%9B%BD'
}
data = {
'first': 'true',
'pn': 1,
'kd': 'python'
}
req = request.Request(url, headers=headers, data=parse.urlencode(data).encode('utf-8'), method='POST')
resp = request.urlopen(req)
print(resp.read().decode('utf-8'))
ProxyHandler 处理器(代理设置)
许多网站会检测某一时间段某个 IP 的访问次数(通过流量统计,系统日志等),如果访问次数多得不像正常人,它会禁止这个 IP 的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算 IP 被禁止,依然可以换个 IP 继续爬取数据。
urllib 中通过 ProxyHandler 来设置使用代理服务器,下面代码说明如何使用自定义 opener 来使用代理:
from urllib import request
# 未使用代理
url = 'http://httpbin.org/ip'
resp = request.urlopen(url)
print(resp.read())
# 使用代理
# 1.使用 ProxyHandler,传入代理构建一个handler
handler = request.ProxyHandler({"https": "183.163.40.223:31773"})
# 2.使用上面创建的handler构建一个opener
opener = request.build_opener(handler)
# 3.使用opener发送一个请求
resp = opener.open(url)
print(resp.read())
可以通过 http://httpbin.org/ip 查看自己电脑网络的外网 IP 地址
常用的代理有:
- 西刺免费代理IP:http://www.xicidaili.com/
- 快代理:https://www.kuaidaili.com/
- 代理云:http://www.dailiyun.com/
cookie
HTTP请求是无状态的,所以即使第一次和服务器连接并登录成功后,第二次请求服务器依然不知道当前请求是哪个用户。cookie 的出现就是为了解决这个问题,第一次登陆后服务器返回一些数据给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就自动将上次请求存储的 cookie 数据自动携带给服务器,这样服务器就可以通过浏览器携带的数据来判断当前用户身份了。cookie 存储的数据量有限,不同浏览器有不同的存储大小,但一般不超过4KB。
cookie 的格式:
Set-Cookie: NAME=VALUE; Expires/Max-age=DATE; Path=PATH; Domain=DOMAIN_NAME; SECURE
爬虫常用的 urllib 库知识点的更多相关文章
- 第三百二十七节,web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
第三百二十七节,web爬虫讲解2—urllib库爬虫 利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode(& ...
- 爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...
- 第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础 在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...
- 第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解 封装模块 #!/usr/bin/env python # -*- coding: utf- ...
- 第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理 使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
- 第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理 如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...
- Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- 六 web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode("utf-8")将字节转化成字符串 ...
- Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...
随机推荐
- [EffectiveC++]item24:若所有参数皆需类型转换,请为此采用non-member函数
Declare non-member functions when type conversions should apply to all parameters. 104页 只有当参数被列于参数列( ...
- Maximum Flow and Minimum Cut
最大流最小割 Introduction Mincut Problem 最小割问题,输入是带权有向图,有一个源点 s(source)和一个汇点 t(target),边的权重在这里称作容量(capacit ...
- [原]外网访问用azure虚拟机搭建的网站
1.Ubuntu+Apache+PHP的环境搭建(此处省去了mysql的步骤) 在azure上搭建上述的开发环境和在本地PC搭建是一样的步骤,具体介绍请参看这里. 2.从外网访问 注意,这一步的前提是 ...
- TreadingTCPServer
TreadingTCPServer实现的socket服务器内部会为每个client创建一个线程,该线程用来和客户端进行交互. 1.TreadingTCPServer基础 使用TreadingTCPSe ...
- ubuntu nginx本地局域网布署sever_name设置
如果没有设置好sever_name 在本地输入虚拟机的ip.只会看到nginx的helloworld(打招呼界面,不可能写helloworld)界面 重点在于nginx的布署文件要加上这么一条 来 ...
- 程序人生:01如何做到招聘要求中的“要有扎实的Java基础”
本文摘自左潇龙博客,原文出处:http://www.zuoxiaolong.com/html/article_232.html 来历 本文来自于一次和群里猿友的交流,具体的情况且听LZ慢慢道来. 一日 ...
- Kali-linux免杀Payload生成工具Veil
Veil是一款利用Metasploit框架生成相兼容的Payload工具,并且在大多数网络环境中能绕过常见的杀毒软件.本节将介绍Veil工具的安装及使用. 在Kali Linux中,默认没有安装Vei ...
- JNI由浅入深_10_JNI 综合开发
1.使用ndk-build时如果找不到某个类,可以使用下面两种方法解决: 1.1 进入src目录 D:\project3\JNIAndroid\src>set classpath=D:\proj ...
- Java中的引用:强引用、软引用、弱引用、幻象引用(虚引用)
Java语言中,除了原始数据类型的变量(八大基本数据类型),其他都是引用类型,指向各种不同的对象. 理解引用对于我们掌握Java对象生命周期和JVM内部相关机制都是有帮助的. 不同的应用类型,不同之处 ...
- Java并发编程(七)终结线程
线程的状态 一个线程会有如下五个状态 1.新建:线程在被创建时会暂时处于这种状态,此时系统为线程分配资源并对其进行初始化 2.就绪:此时线程已经可以运行,只是系统没有为其分配CPU时间. 3.运行:系 ...