Python爬虫基础之Urllib
一、随时随地爬取一个网页下来
怎么爬取网页?对网站开发了解的都知道,浏览器访问Url向服务器发送请求,服务器响应浏览器请求并返回一堆HTML信息,其中包括html标签,css样式,js脚本等。Chrome F2可以看到网页源码。
css用于网页背景,控件位置,文本粗细等样式布局,js(javascript)相对于静态的css是一种动态的概念,可以跟用户交互,例如单击后弹窗,文本提示,日期控件等,html主要用于信息的展示,文字
图片,链接等,这是我们要爬取的内容。现在我们使用Python的Urllib库写个脚本开始爬取网页。
二、Python Urllib库的基本使用
1)urllib.request.urlopen()方法
import urllib.request
response = urllib.request.urlopen('http://www.baidu.com/')
print(response.read())
response = urllib.request.urlopen('http://www.baidu.com/')
urlopen方法传递了一串字符串"http://www.baidu.com/",这个参数代表请求的目标链接地址,结果返回一个urllib.response对象。
2)Urllib.request.Request()对象
import urllib.request
request = urllib.request.Request('http://www.baidu.com/')
response = urllib.request.urlopen(request)
print(response.read())
request = urllib.request.Request('http://www.baidu.com/')
response = urllib.request.urlopen(request)
urlopen()方法不仅支持传递url字符串,还支持一个urllib.request.Request对象。对于Python urllib.request模块的urlopen()方法,官方有这样一句话Open the URL url, which can be either a string or a Request object.
意思是说urlopen可以接受字符串格式的url或者一个Request对象(具体请移步官方文档,urllib.request)
这里声明了一个Request对象,并作为参数传递给urlopen方法。
3)GET和POST请求方式
POST请求方式
import urllib.request
import urllib.response
import urllib.parse params = {"t": "b", "w": "Python urllib"}
params = urllib.parse.urlencode(params) # urlencode会将dict格式参数拼接并编码 w=Python+urllib&t=b
data = params.encode('ascii') # 字符串转换为字节(bytes)b'w=Python+urllib&t=b
request = urllib.request.Request('http://zzk.cnblogs.com/s', data=data)
response = urllib.request.urlopen(request)
print(response.read())
GET请求方式
import urllib.request
import urllib.response
import urllib.parse params = {"t": "b", "w": "Python urllib"}
params = urllib.parse.urlencode(params) # urlencode会将dict格式参数拼接并编码 w=Python+urllib&t=b
url = "http://zzk.cnblogs.com/s?%s" % params # 参数urlencode编码并拼接到请求url后面
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
print(response.read())
4)响应内容编码
import urllib.request
response = urllib.request.urlopen('http://www.baidu.com/')
print(response.read().decode('utf-8'))
response.read()返回byte字节格式数据,无法直接读懂,需要进行编码,通常使用UTF-8进行编码。通过字符串的decode('utf-8')方法进行解码,上面的代码调整为response.read().decode('utf-8'),这样我们就能像在浏览器上
一样看懂返回的信息。
三、Python Urllib库的高级使用
1)请求头Headers
import urllib.request
import urllib.response
import urllib.parse params = {"t": "b", "w": "Python urllib"}
params = urllib.parse.urlencode(params) # urlencode会将dict格式参数拼接并编码 w=Python+urllib&t=b
data = params.encode('ascii') # 字符串转换为字节(bytes)b'w=Python+urllib&t=b
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
request = urllib.request.Request('http://zzk.cnblogs.com/s', data=data, headers=headers)
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
request = urllib.request.Request('http://zzk.cnblogs.com/s', data=data, headers=headers)
Headers是字典类型,比较常见的请求头是User-Agent,可以认为是浏览器的一个身份认证,一些HTTP服务器只会接受来自浏览器的请求,例如“Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36”,如果不为指定User-Agent,请求会默认带上Python Urllib的User Agent “Python-urllib/2.6” ,有可能请求会被服务器拒绝。
可以通过传递字典类型的请求头Headers,还可以通过request对象的方法add_header(key,val)设置请求头,
request.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36')
还有Request.full_url、Request.get_full_url()、Request.get_header()、Request.has_header()等实用的属性和方法 (详细请查看官方Request Object)
2)代理设置Proxy和HTTP Authentication
import urllib.request
import urllib.response
import urllib.parse proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})
proxy_auth_handler = urllib.request.ProxyBasicAuthHandler()
proxy_auth_handler.add_password(realm='realm', uri='http://wwww.example.com:3128/', user='username', passwd='password') opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler)
urllib.request.build_opener(opener)
response = urllib.request.urlopen('http://www.baidu.com') # 向代理服务器www.example.com:3128发送请求,代理服务器接收请求并转发请求给www.baidu.com服务器
print(response.read().decode('utf-8'))
HTTP代理本质上是一个Web应用,它和其他普通Web应用没有根本区别。HTTP代理收到请求后,根据Header中Host字段的主机名和Get/POST请求地址综合判断目标主机,建立新的HTTP请求并转发请求数据,并将收到的响应数据转发给客户端。如果请求地址
是绝对地址,HTTP代理采用该地址中的Host,否则使用Header中的HOST字段。
3)超时设置Timeout
方法一、设置单个请求超时时间:
import urllib.request timeout = 2 # set timeout 2 seconds
response = urllib.request.urlopen('http://www.baidu.com/', timeout=timeout)
print(response.read().decode('utf-8'))
方法二、设置全局请求超时时间:
import urllib.request
import urllib.parse
import urllib.error
import socket socket.setdefaulttimeout(60) # 设置全局超时时间 params = {"t": "b", "w": "Python urllib"}
params = urllib.parse.urlencode(params) # urlencode会将dict格式参数拼接并编码 w=Python+urllib&t=b
url = "http://zzk.cnblogs.com/s?%s" % params # 参数urlencode编码并拼接到请求url后面
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
四、Python Urllib库的实际应用
1)请求失败重试
# 请求失败,默认重试2次
def download(url, user_agent='wswp', num_retries=2):
if url is None:
return None
print('Downloading:', url)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
request = urllib.request.Request(url, headers=headers)
try:
html = urllib.request.urlopen(request).read().decode('utf-8')
except urllib.error.URLError as e:
print('Downloading Error:', e.reason)
html = None
if num_retries > 0:
if hasattr(e, 'code') and 500 <= e.code < 600:
# retry when return code is 5xx HTTP erros
return download(url, num_retries - 1)
return html
Python爬虫基础之Urllib的更多相关文章
- 【学习笔记】第二章 python安全编程基础---python爬虫基础(urllib)
一.爬虫基础 1.爬虫概念 网络爬虫(又称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或脚本.用爬虫最大的好出是批量且自动化得获取和处理信息.对于宏观或微观的情况都可以多一个侧面去了 ...
- Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
- python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
- python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
- python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
- Python爬虫基础之requests
一.随时随地爬取一个网页下来 怎么爬取网页?对网站开发了解的都知道,浏览器访问Url向服务器发送请求,服务器响应浏览器请求并返回一堆HTML信息,其中包括html标签,css样式,js脚本等.我们之前 ...
- python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
- Python爬虫基础之认识爬虫
一.前言 爬虫Spider什么的,老早就听别人说过,感觉挺高大上的东西,爬网页,爬链接~~~dos黑屏的数据刷刷刷不断地往上冒,看着就爽,漂亮的校花照片,音乐网站的歌曲,笑话.段子应有尽有,全部都过来 ...
- python 爬虫基础知识一
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 网络爬虫必备知识点 1. Python基础知识2. P ...
随机推荐
- xgboost 参数调优指南
一.XGBoost的优势 XGBoost算法可以给预测模型带来能力的提升.当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势: 1 正则化 标准GBDT ...
- typeScript函数篇
typeScript的函数是在es6的函数特性的基础上加了一些后端的概念:泛型.参数类型声明.返回值类型声明.重载.装饰器等.其他的一些特性:箭头函数.生成器.async-await.promise等 ...
- alert执行时机和js线性模型 事件循环
<div class="test">测试内容</div> <script> $('.test').text('内容改变') alert($('. ...
- mybatis的where和if标签配合使用
where标签用于简化sql的书写,if标签用于判断.大概的使用如下 <select id="getCountByPageInfo" parameterType=" ...
- 【翻译】asp.net core中使用MediatR
这篇文章来自:https://ardalis.com/using-mediatr-in-aspnet-core-apps 本文作为翻译,有一些单词翻译成中文可能会有一些误解(对于读者)或者错误(对于作 ...
- 尝试dapper和postgresql
大多数地方和其他数据库(MySQL)没有什么不同.只有几点要注意: 1.PostgreSQL表名和字段是区分大小写的,大小写不对会说字段不存在 2.插入Json数据时,要在字符串后面加上::json ...
- MD 的常用语法格式
参考资料:MarkDown 语言常用语法 注意:vscode 中,可以使用 ctrl + shift + v 进行预览: 一.标题 一般使用 # 来进行层级标识.共 6 个层级,再多不识别. # = ...
- VueRouter和Vue生命周期(钩子函数)
一.vue-router路由 1.介绍 vue-router是Vue的路由系统,用于定位资源的,在页面不刷新的情况下切换页面内容.类似于a标签,实际上在页面上展示出来的也是a标签,是锚点.router ...
- 洛谷P1220关路灯题解
题目 此题是一个状态转移方程还算比较多的一个区间DP,这个题也能启示我们如果某个状态不能够很好地解决问题,那么不妨试试再加一维,而且如果转移顺序不确定的话,可以试试记忆化搜索,说不定就可以比较容易的写 ...
- [ZJOI2019]麻将(动态规划,自动机)
[ZJOI2019]麻将(动态规划,自动机) 题面 洛谷 题解 先做一点小铺垫,对于一堆牌而言,我们只需要知道这\(n\)张牌分别出现的次数就行了,即我们只需要知道一个长度为\(n\)的串就可以了. ...