Python3 使用 urllib 编写爬虫
什么是爬虫
爬虫,也叫蜘蛛(Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baidu.com
URL就是同意资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
URL的格式主要由三部分组成:
- protocol:第一部分就是协议,例如百度使用的就是https协议;
- hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;
- path:第三部分就是主机资源的具体地址,如目录和文件名等。
爬虫就是根据URL来获取网页信息的。
Python3的urllib包
urllib包提供的模块可以用来使Python代码访问url。
从Python3官方的urllib包介绍可以知道,在Python3中的内置库中把Python2 的urllib、urllib2两个库整合成了urllib包。
在urllib包中只提供了4个模块:
- urllib.request:用来打开或者读取Urls
- urllib.error:包含urllib.request的异常信息
- urllib.parse:包含Urls需要的参数信息
- urllib.robotparser:配置robots.txt文件的相关功能
相对于Python 2中的变化
- 在Pytho2.x中使用
import urllib2 --->在Python3.x中会使用import urllib.request,urllib.error。 - 在Pytho2.x中使用
import urllib --->在Python3.x中会使用import urllib.request,urllib.error, - 在Pytho2.x中使用
import urlparse --->在Python3.x中会使用import urllib.parse。 - 在Pytho2.x中使用
import urlopen --->在Python3.x中会使用import urllib.request.urlopen。 - 在Pytho2.x中使用
import urlencode --->在Python3.x中会使用import urllib.parse.urlencode。 - 在Pytho2.x中使用
import urllib.quote --->对应的,在Python3.x中会使用import urllib.request.quote。 - 在Pytho2.x中使用
cookielib.CookieJar --->对应的,在Python3.x中会使用http.CookieJar。 - 在Pytho2.x中使用
urllib2.Request --->在Python3.x中会使用urllib.request.Request。
基本使用
urllib.request.urlopen():访问一个URL,返回一个包含网页信息的对象
response.read():获取返回对象的内容
response.getcode():获取返回的HTTP Code
response.info():获取返回的元数据信息,例如HTTP Header
response.geturl():获取访问的url
# 使用Python访问博客园,获取网页信息
import urllib.request
response = urllib.request.urlopen('http://www.cnblogs.com/dachenzi')
data = response.read().decode('utf-8')
print(data)
利用Python下载一个图片
import urllib.request url = 'http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true' response = urllib.request.urlopen(url)
data = response.read() with open('img.jpg','wb') as f: # 图片输入二进制文件,所以只需要使用b模式打开写入即可
f.write(data)
注意:这里urlopen可以接受一个str,或者一个request对象
小练习
使用Python完成翻译小程序,输入中文返回英文信息,反正亦然。
# 1、使用浏览器访问,查看Network,确定提交数据访问的地址以及提交的data
定制HTTP header
HTTP Header,表示在浏览器在进行访问(HTTP请求)时携带的头部信息,什么叫定制HTTP请求头呢,举个栗子:其实每天活跃在网上的爬虫太多了,如果网站不进行限制的话,那么访问流量会很高,所以站点基本都会对爬虫进行基本的限制,而利用User-Agent (浏览器标示)是最常用的方式,使用浏览器和使用Python代码来访问站点时,浏览器标示时不同的。
本人的google浏览器是:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36
python代码是:Python 3.6.3 ..
这里既然说定制,那么就是说可以对User-Agent等头部参数进行修改。
修改User-Agent
修改请求的User-Agent就需要先定制request对象了,然后把对象传给urlopen进行访问
import urllib.request
url = 'http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true'
head = {}
head['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
request = urllib.request.Request(url,headers=head) # 创建Request对象,并设置headers
response = urllib.request.urlopen(request)
data = response.read()
with open('img.jpg','wb') as f:
f.write(data)
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
"Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
更多的User-Agent
添加heades的另一种方法
除了在代码中通过字典定义header以外,还可以使用request对象的add_header()方法,进行添加
import urllib.request
url = 'http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true'
# head = {}
# head['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
request = urllib.request.Request(url) # 创建Request对象,并设置headers
request.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36')
response = urllib.request.urlopen(request)
data = response.read()
with open('img.jpg','wb') as f:
f.write(data)
HTTP代理
HTTP代理也是爬虫常用的方法,我们的代码可以使用不同的代理来爬url,这样可以避免IP被站点封掉。
什么是HTTP代理? 简单来说我们把请求发给代理服务器,由代理服务器帮我们访问请求后把返回的数据原封不动的返回给我们。
使用HTTP代理的步骤
1、创建一个HTTP代理
http_proxy = urlib.request.ProxyHandler({'代理类型':'IP:Port'})
2、定制创建一个opener
opener = urllib.request.build_opener(http_proxy)
PS: 当我们使用urlopen访问url时,其实使用的是默认的opener来进行工作的,我们可以对其进行定制,这里就是定制它使用http代理进行访问
3、安装opener
urllib.request.install_opener(opener)
PS:执行完毕后,后续所有的请求都会使用该opener进行访问,所以如果只是一次特殊的请求,那么可以使用 opener.open(url) 来访问url
import urllib.request # create http_proxy
http_proxy = urllib.request.ProxyHandler(proxies = {'http':'114.215.192.184:8081'}) # create opener
opener = urllib.request.build_opener(http_proxy) response = opener.open('http://ifconfig.io/')
data = response.read() print(data)
PS:这里可以定义多个http_list,利用random随机选择
import random http_proxy_list = [
'110.73.10.15:8123',
'114.230.105.34:21642'
] http_proxy = urllib.request.ProxyHandler(proxies = {'http':random.choice(http_proxy_list)})
添加header
opener也是可以添加header的,使用addheaders = [('key','value')] 进行添加
opener = urllib.request.build_opener(http_proxy)
opener.addheaders = [('User-Agent','Mozilla/5.0 ')]
Python3 使用 urllib 编写爬虫的更多相关文章
- 【Python3爬虫】使用异步协程编写爬虫
一.基本概念 进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动.进程是操作系统动态执行的基本单元. 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源.线程 ...
- 常见的爬虫分析库(1)-Python3中Urllib库基本使用
原文来自:https://www.cnblogs.com/0bug/p/8893677.html 什么是Urllib? Python内置的HTTP请求库 urllib.request ...
- Python3中Urllib库基本使用
什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.par ...
- python3中urllib库的request模块详解
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...
- python3对urllib和urllib2进行了重构
python3对urllib和urllib2进行了重构,拆分成了urllib.request,urllib.response, urllib.parse, urllib.error等几个子模块,这样的 ...
- Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)
urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...
- 编写爬虫程序的神器 - Groovy + Jsoup + Sublime
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET BCL只提供了"底层"的HttpWebRequest和"中层& ...
- 编写爬虫程序的神器 - Groovy + Jsoup + Sublime(转)
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET FCL只提供了"底层"的HttpWebRequest和"中层& ...
- Python3中urllib详细使用方法(header,代理,超时,认证,异常处理) 转
urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...
随机推荐
- 【题解】SDOI2009Bill的挑战
这题好像状压的做法比较的无脑?但想记录一下容斥的做法,感觉自己对于容斥简直一无所知.这道题目容斥的解法我也是看了题解才会的.如有雷同,是我看的(*/ω\*)我们可以首先枚举当前字符串与给定的哪 \(k ...
- [洛谷P4070][SDOI2016]生成魔咒
题目大意:有一个字符串,每次在末尾加入一个字符,问当前共有多少个本质不同的字串 题解:$SAM$,就是问插入这个字符后,多了多少个字串,就是当前这个点的$Right$数组大小. 卡点:无 C++ Co ...
- POJ2826:An Easy Problem?!——题解(配特殊情况图)
http://poj.org/problem?id=2826 题目大意:给两条线,让它接竖直下的雨,问其能装多少横截面积的雨. ———————————————————————————— 水题,看题目即 ...
- [Leetcode] jump game ii 跳跃游戏
Given an array of non-negative integers, you are initially positioned at the first index of the arra ...
- 根据银行卡号码获取银行卡归属行以及logo图标
根据银行卡号码获取银行卡归属地信息接口地址,get请求 https://ccdcapi.alipay.com/validateAndCacheCardInfo.json?_input_charset= ...
- Tomcat启动web项目报Bad version number in .class file (unable to load class ...)错误的解决方法
一.发现问题:启动 tomcat 控制台报该错误. 二.原因:tomcat 的 jdk 版本和编译.class的 jdk 版本不一致. 三.解决办法: 步骤一: 查看 MyEclipse ...
- [ 转载]Tomcat7 catalina.out 日志分割
http://m.blog.csdn.net/blog/mark_qi/8864644 最近由于工作需要,tomcat 的catalina.out文件的不断扩大,导致系统磁盘空间边变小,而且管理也难于 ...
- stout代码分析之四:Try类
stout的在异常捕获上遵循于谷歌类似的原则,不适用try...catch...,而是从函数返回值判断异常.Try类正是实现了这样的一个功能. 同Option一样,Try是一个模板类,每个类对象都有两 ...
- SSH客户端,FinalShell服务器管理,远程桌面加速软件,支持Windows,Mac OS X,Linux,版本2.6.3.1
FinalShell是一体化的的服务器,网络管理软件,不仅是ssh客户端,还是功能强大的开发,运维工具,充分满足开发,运维需求. 用户QQ群 342045988 Windows版下载地址:http:/ ...
- 前后端分离中,gulp实现头尾等公共页面的复用 前言
前言 通常我们所做的一些页面,我们可以从设计图里面看出有一些地方是相同的.例如:头部,底部,侧边栏等等.如果前后端分离时,制作静态页面的同学,对于这些重复的部分只能够通过复制粘贴到新的页面来,如果页面 ...