对于互联网数据,Python 有很多处理网络协议的工具,urllib 是很常用的一种。

一、urllib.request,request 可以很方便的抓取 URL 内容。

  • urllib.request.urlopen(url)  返回请求 url 后的二进制对象·

    参数:url=‘http://www.baidu.com’,请求的 url。

       data=None,请求的数据,可有可无,bytes 类型。

       timeout=3,设置访问超时时间,可有可无

       cafile=None,HTTPS 请求 CA 证书

       capath=None,CA 证书 path

       context=None,指定 SSL 设置,可有可无,ssl.SSLContext 类型

  • urllib.request.Request()  把请求独立成一个对象,对请求参数的设定更方便灵活

    参数:url,请求 url。

       data=None,请求参数,可有可无

       headers={},请求 header 参数。

       origin_req_host=None,请求 host 或 IP

       unverifiable=False,表明请求是否无法验证,默认为 false

       method=None,请求方法,get、post、put 等

  • urllib.request.ProxyHandler()  设置代理,参数为 dict,如:{ 'http': '120.194.18.90:81'}
  • urllib.request.build_opener()  构建 Opener,参数为上面设置的代理
  • urllib.request.install_opener()  安装 Opener,参数为上面构建的 opener
  • urllib.request.HTTPCookieProcessor()  cookie 操作,参数为 http.cookiejar.CookieJar() 得到的 cookie
from urllib import request,parse

#url
url = 'http://fanyi.baidu.com/sug' #request data
data = {'kw': 'python'}
data = parse.urlencode(data).encode('utf-8') #proxy
proxy = {'http': '120.194.18.90:81'}
proxy_handler = request.ProxyHandler(proxy)
opener = request.build_opener(proxy_handler)
request.install_opener(opener) #headers = {
# 'Content-Length': len(data),
# 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0'
#} #req = request.Request(url=base_url, data=data, headers=headers)
req = request.Request(base_url, data) req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0') rsp = request.urlopen(req) result = rsp.read().decode('utf-8') print(result)
#rsp 的属性
print('返回数据类型: {}'.format(type(rsp))) print('返回数据信息: {}'.format(rsp)) print('header 信息: {}'.format(rsp.info())) print('header 信息: {}'.format(rsp.getheaders())) print('header 属性信息: {}'.format(rsp.getheader('Server'))) print('响应状态信息: {}'.format(rsp.status)) print('响应状态信息: {}'.format(rsp.getcode())) print('响应的 URL: {}'.format(rsp.geturl()))
#cookie 操作

from urllib import request
from http impot cookiejar #获取 cookie
cookie = cookiejar.CookieJar()
handler = request.HTTPCookieProcessor(cookie)
opener = request.build_opener(handler) rsp = opener.open('http://www.baidu.com')
res = rsp.read().decode('utf-8') print(res) #保存 cookie
#FileCookieJar、MozillaCookieJar、LWPCookieJar,不同的保存格式
filename = 'cookie.txt'
cookie = cookiejar.MozillaCookieJar(filename)
handler = request.HTTPCookieProcessor(cookie)
opener = request.build_opener(handler) rsp = opener.open('http://www.baidu.com') cookie.save(igonre_discard=True, ignore_expires=True) #使用 cookie
cookie cookiejar.MozillaCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = request.HTTPCookieProcessor(cookie)
opener = request.build_opener(handler)
rsp = opener.open('http://www.baidu.com') res = rsp.read().decode('utf-8')
print(res)

二、urllib.parse

  • urllib.parse.urlparse()  将 URL 解析成元组形式

    参数:

      url,访问 url

      scheme,解析协议,https、http

      allow_fragments=False,是够带有查询参数 

  • urllib.parse.urlunparse()  将元组拼接成完整 url
  • urllib.parse.urljoin()  拼接 url

  

#
url = 'https://www.baidu.com/s?'
qs = {'wd':'python'} qs = urllib.parse.urlparse(qs)
full_url = url + qs #
url = urllib.parse.urlparse('http://www.baidu.com/s?wd=python')
print(url) #
data = ['http', 'www.baidu.com', 's', 'wd=python']
print(urllib.parse.urlunparse(data)) #
print(urllib.parse.urljson('http://www.baidu.com', 'index.html'))

三、urllib.error

  通过 try...except 可以捕捉异常,error 分为 HTTPError,URLError

try:
res = urllib.request.urlopen(url).open().decode('utf-8')
print(res)
except urllib.error.URLError as e:
print(e)
except urllib.error.HTTPError as e:
print(e)
except Exception as e:
print(e)

四、urllib.robotparser

Python 爬虫 --- urllib的更多相关文章

  1. Python爬虫Urllib库的高级用法

    Python爬虫Urllib库的高级用法 设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...

  2. Python爬虫Urllib库的基本使用

    Python爬虫Urllib库的基本使用 深入理解urllib.urllib2及requests  请访问: http://www.mamicode.com/info-detail-1224080.h ...

  3. python爬虫 urllib模块url编码处理

    案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...

  4. python 爬虫 urllib模块 目录

    python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块 反爬虫机制UA python 爬虫 urllib模块 发起post ...

  5. python爬虫 - Urllib库及cookie的使用

    http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...

  6. Python爬虫urllib模块

    Python爬虫练习(urllib模块) 关注公众号"轻松学编程"了解更多. 1.获取百度首页数据 流程:a.设置请求地址 b.设置请求时间 c.获取响应(对响应进行解码) ''' ...

  7. python爬虫-urllib模块

    urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...

  8. 对于python爬虫urllib库的一些理解(抽空更新)

    urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urllib库中,所有和网 ...

  9. Python爬虫--Urllib库

    Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块).urllib.error( 异常处理模块).urllib.parse (url ...

随机推荐

  1. Linux企业运维人员最常用150个命令汇总 [转]

    近来发现新手学习Linux记不住命令,不会分类.不会筛选重点,胡子眉毛一把抓当然记不住了. 特别整理Linux运维最常用150个命令和大家分享,大家学习命令不用在盲目了,根据分类,然后逐步学习! 命令 ...

  2. Spring中实现多数据源事务管理

    文章转自  https://www.2cto.com/kf/201507/424229.html 前言 由于项目中引入了多个数据源,并且需要对多个数据源进行写操作,那么多数据源的事务管理自然成了不可避 ...

  3. Scrapy对接Splash基础知识学习

    一:什么是Splash Splash是一个 JavaScript渲染服务,是一个带有 HTTPAPI 的轻量级浏览器 1 功能介绍 利用 Splash,我们可以实现如下功能: 口异步方式处理多个网页渲 ...

  4. openssl生成签名与验证签名

    继上一篇RSA对传输信息进行加密解密,再写个生成签名和验证签名. 一般,安全考虑,比如接入支付平台时,请求方和接收方要互相验证是否是你,就用签名来看. 签名方式一般两种,对称加密和非对称加密.对称加密 ...

  5. SQL Server 中用DBCC Opentran语句查看未关闭的事务(转载)

    从SQL Server 2008开始,可以使用DBCC Opentran语句查看数据库中最早一个没有被关闭的事务,下面这篇文章讲述了如何使用DBCC Opentran语句. An Open trans ...

  6. js 稍微判断下浏览器 pc 还是手机

        function isMobile() {    var a=navigator.userAgent;   var ref=/.*(Android|iPhone|SymbianOS|iPad| ...

  7. [转]curl的错误代码

    转贴者按: 今天在使用curl的时候碰到了一个错误,如下所示: External Program Failed: D:\Tools\curl\curl.exe (return code was 18) ...

  8. 【强化学习】python 实现 q-learning 例五(GUI)

    本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10143579.html 感谢pengdali,本文的 class Maze 参考了他的博客, ...

  9. subprocess.Popen指令包含中文导致乱码问题解决

    其实解决起来非常简单,如果了解到Windows中文系统编码为GB2312的话 只需将你包含中文的指令字符串编码为GB2312即可 cmd = u'cd 我的文档' cmd.encode('gb2312 ...

  10. C# 8中的Async Streams

    关键要点 异步编程技术提供了一种提高程序响应能力的方法. Async/Await模式在C# 5中首次亮相,但只能返回单个标量值. C# 8添加了异步流(Async Streams),允许异步方法返回多 ...