Python 爬虫 --- urllib

对于互联网数据，Python 有很多处理网络协议的工具，urllib 是很常用的一种。

一、urllib.request，request 可以很方便的抓取 URL 内容。

urllib.request.urlopen(url)　　返回请求 url 后的二进制对象·

　　　　参数：url=‘http://www.baidu.com’，请求的 url。

　　　　　　　data=None，请求的数据，可有可无，bytes 类型。

　　　　　　　timeout=3，设置访问超时时间，可有可无

　　　　　　　cafile=None，HTTPS 请求 CA 证书

　　　　　　　capath=None，CA 证书 path

　　　　　　　context=None，指定 SSL 设置，可有可无，ssl.SSLContext 类型

urllib.request.Request()　　把请求独立成一个对象，对请求参数的设定更方便灵活

　　　　参数：url，请求 url。

　　　　　　　data=None，请求参数，可有可无

　　　　　　　headers={}，请求 header 参数。

　　　　　　　origin_req_host=None，请求 host 或 IP

　　　　　　　unverifiable=False，表明请求是否无法验证，默认为 false

　　　　　　　method=None，请求方法，get、post、put 等

urllib.request.ProxyHandler()　　设置代理，参数为 dict，如：{ 'http': '120.194.18.90:81'}
urllib.request.build_opener()　　构建 Opener，参数为上面设置的代理
urllib.request.install_opener()　　安装 Opener，参数为上面构建的 opener
urllib.request.HTTPCookieProcessor()　　cookie 操作，参数为 http.cookiejar.CookieJar() 得到的 cookie

from urllib import request,parse

#url

url = 'http://fanyi.baidu.com/sug'

#request data

data = {'kw': 'python'}

data = parse.urlencode(data).encode('utf-8')

#proxy

proxy = {'http': '120.194.18.90:81'}

proxy_handler = request.ProxyHandler(proxy)

opener = request.build_opener(proxy_handler)

request.install_opener(opener)

#headers = {

#    'Content-Length': len(data),

#    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0'

#}

#req = request.Request(url=base_url, data=data, headers=headers)

req = request.Request(base_url, data)

req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0')

rsp = request.urlopen(req)

result = rsp.read().decode('utf-8')

print(result)

#rsp 的属性

print('返回数据类型: {}'.format(type(rsp)))

print('返回数据信息: {}'.format(rsp))

print('header 信息: {}'.format(rsp.info()))

print('header 信息: {}'.format(rsp.getheaders()))

print('header 属性信息: {}'.format(rsp.getheader('Server')))

print('响应状态信息: {}'.format(rsp.status))

print('响应状态信息: {}'.format(rsp.getcode()))

print('响应的 URL: {}'.format(rsp.geturl()))

#cookie 操作

from urllib import request

from http impot cookiejar

#获取 cookie

cookie = cookiejar.CookieJar()

handler = request.HTTPCookieProcessor(cookie)

opener = request.build_opener(handler)

rsp = opener.open('http://www.baidu.com')

res = rsp.read().decode('utf-8')

print(res)

#保存 cookie

#FileCookieJar、MozillaCookieJar、LWPCookieJar，不同的保存格式

filename = 'cookie.txt'

cookie = cookiejar.MozillaCookieJar(filename)

handler = request.HTTPCookieProcessor(cookie)

opener = request.build_opener(handler)

rsp = opener.open('http://www.baidu.com')

cookie.save(igonre_discard=True, ignore_expires=True)

#使用 cookie

cookie cookiejar.MozillaCookieJar()

cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)

handler = request.HTTPCookieProcessor(cookie)

opener = request.build_opener(handler)

rsp = opener.open('http://www.baidu.com')

res = rsp.read().decode('utf-8')

print(res)

二、urllib.parse

urllib.parse.urlparse()　　将 URL 解析成元组形式

　　　　参数：

　　　　　　url，访问 url

　　　　　　scheme，解析协议，https、http

　　　　　　allow_fragments=False，是够带有查询参数　

urllib.parse.urlunparse()　　将元组拼接成完整 url
urllib.parse.urljoin()　　拼接 url

#

url = 'https://www.baidu.com/s?'

qs = {'wd':'python'}

qs = urllib.parse.urlparse(qs)

full_url = url + qs

#

url = urllib.parse.urlparse('http://www.baidu.com/s?wd=python')

print(url)

#

data = ['http', 'www.baidu.com', 's', 'wd=python']

print(urllib.parse.urlunparse(data))

#

print(urllib.parse.urljson('http://www.baidu.com', 'index.html'))

三、urllib.error

　　通过 try...except 可以捕捉异常，error 分为 HTTPError，URLError

try:

    res = urllib.request.urlopen(url).open().decode('utf-8')

    print(res)

except urllib.error.URLError as e:

    print(e)

except urllib.error.HTTPError as e:

    print(e)

except Exception as e:

    print(e)

四、urllib.robotparser

Python 爬虫 --- urllib的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
python 爬虫 urllib模块目录
python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块反爬虫机制UA python 爬虫 urllib模块发起post ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
Python爬虫urllib模块
Python爬虫练习(urllib模块) 关注公众号"轻松学编程"了解更多. 1.获取百度首页数据流程:a.设置请求地址 b.设置请求时间 c.获取响应(对响应进行解码) ''' ...
python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
对于python爬虫urllib库的一些理解（抽空更新）
urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urllib库中,所有和网 ...
Python爬虫--Urllib库
Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块).urllib.error( 异常处理模块).urllib.parse (url ...

随机推荐

Plotagraph软件五分钟光速速成傻瓜教程
http://bbs.dji.com/thread-144203-1-1.html 让照片变成动态的
LVS + Keepalived 理论
LVS 纯理论: VRRP协议与工作原理在现实的网络环境中,主机之间的通信都是通过配置静态路由或者(默认网关)来完成的,而主机之间的路由器一旦发生故障通信就会失效,因此这种通信模式当中,路由器就成了 ...
liunx基础知识
学习Linux系统的重要性应该不用多说,下面我就对Linux的基础知识进行一个全面而又简单的总结.不过建议大家还是装个Linux系统多练习,平时最好只在Linux环境下编程,这样会大有提高. linu ...
树莓派学习笔记（7）：利用bypy实现树莓派NAS同步百度云
转载请注明:@小五义http://www.cnblogs.com/xiaowuyiQQ群:64770604 树莓派制作NAS过程详见http://www.cnblogs.com/xiaowuyi/p/ ...
javaweb1(小学生四则运算)
一.设计思想 ①设计三个页面,分别为题数设置页面,题目显示页面以及结果显示页面. ②设计题数设置页面. ③从题数设置页面接收题数,作为循环次数. ④利用随机数生成相应符合条件表达式,并存入数据库. ⑤ ...
1-微信小程序开发(安装软件和运行第一个微信小程序)
https://developers.weixin.qq.com/miniprogram/dev/ 我的打开上传成功后
前后端交互json字符串
//将需要的参数转成json字符串,然后用utf-8编码 var obj = encodeURIComponent(JSON.stringify(this.categories),"utf- ...
UVA1265 Tour Belt Kruskal重构树、倍增、树上差分
题目传送门题意:定义$Tour \, Belt$为某张图上的一个满足以下条件的点集:①点集中至少有$2$个点②任意两点互相连通③图上两个端点都在这个点集中的边的权值的最小值严格大于图上只有一个端点在 ...
算法相关——Java排序算法之桶排序（一）
(代码中对应一个数组的下标),将每个元素放入对应桶中,再将所有元素按顺序输出(代码中则按顺序将数组i下标输出arrary[i]次),即为{0,1,3,5,5,6,9}. 1.2 代码实现 /* *@ ...
openMP多线程编程
OpenMP(Open Muti-Processing) OpenMP缺点: 1:作为高层抽象,OpenMp并不适合需要复杂的线程间同步和互斥的场合: 2:另一个缺点是不能在非共享内存系统(如计算机集 ...

Python 爬虫 --- urllib

Python 爬虫 --- urllib的更多相关文章

随机推荐

热门专题